HGNET
크롤링HGNET 핵심 서비스

크롤링 / 스크래핑

흩어진 데이터를 한 곳으로 모읍니다.

공공기관 25곳도 1개처럼 관리

크롤링 / 스크래핑

어떤 문제를 해결하나요

비즈니스에 필요한 데이터는 늘 외부에 흩어져 있습니다. 공공기관 25개의 정책 공고, 경쟁사 10곳의 가격 페이지, 카페 게시판의 주문 글 — 사람이 매일 찾아 다니면서 추리는 일은 시간만 잡아먹고, 누락도 잦습니다.

수집된 다음에는 분류와 정제가 또 한 번 사람 손을 거칩니다. "이 공고는 우리에게 해당되는가", "이 글은 주문인가 단순 문의인가" — LLM을 도구로 쓰면 사람이 일일이 읽지 않아도 됩니다.

HGNET의 접근

먼저 어떤 데이터를 얼마나 자주, 어떤 형식으로 수집해야 하는지 합의합니다. 그 다음 사이트 구조에 맞는 가장 안정적인 수집 방식을 선택합니다 — 공식 API가 있으면 API, 없으면 Apify Actor, 그것도 어려우면 Playwright 브라우저 자동화.

수집한 데이터는 LLM(Claude / GPT)으로 자동 분류·요약하고, 알림이 필요한 항목만 운영자에게 푸시합니다. 25개 기관도 1개처럼 관리할 수 있는 이유입니다.

무엇을 만드나요

  • 정기 크롤링 파이프라인 (시간/일/주 단위 스케줄)
  • LLM 기반 자동 분류·요약 (관련성 · 카테고리 · 우선순위)
  • 변경 감지 + 신규 항목 알림 (Slack · 카카오 · 이메일)
  • 검색·필터 가능한 데이터 대시보드
  • 사이트 구조 변경 감지 + 운영자 알림
  • 익명/세션 관리 + 차단 회피 로직 (필요 시)

사용 기술

  • 수집: Apify, Playwright, Puppeteer, Cheerio
  • 분류/요약: Claude API, OpenAI GPT
  • 저장: PostgreSQL, S3
  • 스케줄: Apify Schedules, GitHub Actions, Cron
  • 알림: Slack Webhook, 카카오 비즈, SMTP
  • 모니터링: Sentry, 자체 헬스체크

자주 묻는 질문

합법적으로 크롤링할 수 있는 사이트인가요?

수집 대상의 robots.txt와 이용약관을 먼저 검토합니다. 공개된 정보, 공공기관 공시, 우리 회사가 권한을 가진 사이트만 대상으로 진행합니다. 회색지대는 사전에 함께 의논합니다.

사이트 구조가 바뀌면 어떻게 되나요?

크롤러는 깨질 수 있는 것이 정상입니다. HGNET은 헬스체크와 변경 감지 알림을 기본으로 포함합니다. 구조가 바뀌면 알림이 가고, 6개월 무상 A/S 기간 내 즉시 보수합니다.

결과 데이터는 어디에 저장되나요?

별도 데이터베이스(PostgreSQL)와 운영 대시보드를 함께 만듭니다. 엑셀/CSV 다운로드, API 연동 모두 가능합니다.

분류 정확도는 어느 정도인가요?

Claude/GPT 분류는 첫 운영 후 실제 결과를 검토해 프롬프트를 보정합니다. 보통 1-2주 운영 후 90%대 정확도에 안착합니다. 애매한 항목은 운영자가 검토할 수 있도록 별도 버킷에 들어갑니다.

매핑 사례

이 영역의 실제 사례 1건.