크롤링HGNET 핵심 서비스

크롤링 / 스크래핑

흩어진 데이터를 한 곳으로 모읍니다.

공공기관 25곳도 1개처럼 관리

어떤 문제를 해결하나요

비즈니스에 필요한 데이터는 늘 외부에 흩어져 있습니다. 공공기관 25개의 정책 공고, 경쟁사 10곳의 가격 페이지, 카페 게시판의 주문 글 — 사람이 매일 찾아 다니면서 추리는 일은 시간만 잡아먹고, 누락도 잦습니다.

수집된 다음에는 분류와 정제가 또 한 번 사람 손을 거칩니다. "이 공고는 우리에게 해당되는가", "이 글은 주문인가 단순 문의인가" — LLM을 도구로 쓰면 사람이 일일이 읽지 않아도 됩니다.

먼저 어떤 데이터를 얼마나 자주, 어떤 형식으로 수집해야 하는지 합의합니다. 그 다음 사이트 구조에 맞는 가장 안정적인 수집 방식을 선택합니다 — 공식 API가 있으면 API, 없으면 Apify Actor, 그것도 어려우면 Playwright 브라우저 자동화.

수집한 데이터는 LLM(Claude / GPT)으로 자동 분류·요약하고, 알림이 필요한 항목만 운영자에게 푸시합니다. 25개 기관도 1개처럼 관리할 수 있는 이유입니다.

수집 대상의 robots.txt와 이용약관을 먼저 검토합니다. 공개된 정보, 공공기관 공시, 우리 회사가 권한을 가진 사이트만 대상으로 진행합니다. 회색지대는 사전에 함께 의논합니다.

크롤러는 깨질 수 있는 것이 정상입니다. HGNET은 헬스체크와 변경 감지 알림을 기본으로 포함합니다. 구조가 바뀌면 알림이 가고, 6개월 무상 A/S 기간 내 즉시 보수합니다.

별도 데이터베이스(PostgreSQL)와 운영 대시보드를 함께 만듭니다. 엑셀/CSV 다운로드, API 연동 모두 가능합니다.

Claude/GPT 분류는 첫 운영 후 실제 결과를 검토해 프롬프트를 보정합니다. 보통 1-2주 운영 후 90%대 정확도에 안착합니다. 애매한 항목은 운영자가 검토할 수 있도록 별도 버킷에 들어갑니다.