FNL Corp 데이터 파이프라인
쿠팡 3개 포털·올리브영·네이버 검색광고 데이터를 매일 새벽 자동 수집해 Google Cloud Storage에 적재하는 이커머스 데이터 파이프라인.
쿠팡·올리브영·네이버 광고 매일 새벽 무인 수집

문제
이커머스 데이터팀과 마케팅팀은 매일 아침 1~2시간을 데이터 수집에만 씁니다. 쿠팡 wing·supplier·advertising 세 포털, 올리브영 광고·직매입·위탁 채널, 네이버 검색광고 13종 리포트를 각각 로그인해서 엑셀이나 CSV로 받아 정리해야 합니다.
다운받은 파일은 담당자 PC에 흩어져 팀 공유·분석이 어렵고, 담당자 부재 시 전일 데이터가 누락됩니다. SMS 2차 인증이 필요한 채널은 매번 직접 코드를 입력해야 합니다.
접근
서버를 따로 운영하지 않고도 매일 정해진 시간에 안정적으로 수집이 돌아야 한다는 요구가 핵심이었습니다. GCP Cloud Run Job + Cloud Scheduler 조합으로 서버리스 파이프라인을 구성하고, 채널 특성에 맞는 수집 방식을 채널별로 분리했습니다.
쿠팡처럼 브라우저 자동화가 필요한 곳은 Playwright + playwright-stealth, 올리브영 광고처럼 REST API가 있는 곳은 JWT 인증 호출, 네이버 검색광고는 HMAC-SHA256 서명 API — 채널 사정에 맞춰 도구를 골랐습니다. SMS 2차 인증은 콜백 서버를 띄워 코드를 자동 폴링·입력하도록 만들어 완전 무인 운영을 달성했습니다.
해결
쿠팡·올리브영·네이버 광고 채널을 매일 정해진 시간에 자동 수집하고, GCP Cloud Run Job으로 서버 운영 없이 클라우드에서 완전 자동화됩니다. 수집 데이터는 Google Cloud Storage에 구조화된 경로(raw/coupang/, raw/oliveyoung_ads/ 등)로 저장되어 팀 전체가 즉시 접근 가능합니다.
SMS 인증 코드는 콜백 서버에서 자동 처리하고, 수집 완료·실패 시 SMS 콜백으로 결과를 즉시 알립니다.

기능
wing(2P)·supplier(1P)·advertising 세 포털에 자동 로그인해 판매분석 엑셀, 매입 내역, 광고비 정산 보고서를 수집합니다. Playwright + stealth로 안정적으로 다운로드합니다.
Moloco RMP 광고 포털에서 일별 성과 리포트를 REST JSON API로 수집합니다. JWT 인증 후 마이크로 단위를 원 단위로 변환해 GCS에 저장합니다.
직매입(direct)과 위탁(consignment) 채널 데이터를 각각 별도 파이프라인으로 수집합니다. 채널별 인증·다운로드 흐름을 모듈화해 추가·수정이 쉽습니다.
HMAC-SHA256 서명 API로 인증해 13가지 리포트 타입을 자동 생성·폴링·CSV 다운로드합니다. CSV는 JSON으로 변환되어 GCS에 적재됩니다.
쿠팡 로그인 시 SMS 코드가 필요한 경우 콜백 서버에서 코드를 자동 폴링해 입력합니다. 완료·실패 시 SMS 콜백으로 결과를 즉시 통보합니다.
GCP Cloud Run Job + Cloud Scheduler 기반 — 서버 운영 비용 없이 정해진 시각에 자동 실행됩니다. 실행이 끝나면 컨테이너가 종료되어 비용 효율적입니다.
스택
- Python 3 + Playwright(playwright-stealth 적용) — 봇 감지 우회 자동화
- GCP Cloud Run Job + Cloud Scheduler — 서버리스 정시 실행
- Google Cloud Storage — 구조화된 경로로 raw 데이터 적재
- HMAC-SHA256 + JWT — 채널별 인증 방식 직접 구현
- SMS 콜백 서버 — 2FA 자동 처리
결과
채널이 늘어나도 운영 인력은 그대로 — 신규 채널은 모듈만 추가하면 됩니다.
수집 자체가 자동화되어 데이터팀이 분석과 인사이트 도출에 집중할 수 있고, GCS에 구조화된 raw 데이터가 BigQuery·BI 도구로 바로 연결됩니다.
다음 사례
같은 카테고리의 비슷한 시스템.