본문으로 건너뛰기

KOSIS MCP - 국가통계 25만 표 분석 플랫폼

KOSIS 공공 통계 252,890 개 표를 LLM이 바로 검색·분석하도록 pgvector 기반 Hybrid Search MCP 서버로 구축. 토큰 98% 절감.

KOSIS MCP - 국가통계 25만 표 분석 플랫폼

배경/문제

KOSIS 공공데이터는 252,890개 통계표가 산재되어 있어 정책 담당자나 연구자가 원하는 데이터를 찾기 어려웠다. 웹 포털로는 클릭 기반 탐색만 가능했고, API 사용 시에도 전체 통계표 정보를 가져와야 해 토큰 낭비가 심했다. 자연어로 “부산 20대 고용률 5년 추이” 같은 질문을 던지고 정확한 표를 즉시 받기 원했다.

접근

pgvector를 활용한 벡터DB에 252,890개 통계표의 메타데이터(제목, 설명, 차원)를 임베딩했다. BM25 키워드 검색과 벡터 검색을 하이브리드로 조합하여 정확도를 극대화했고, MCP 서버로 Claude Desktop과 Cursor에 직접 연결했다. 질의에 대해 상위 K개 표의 ID와 설명만 반환하고, 실제 데이터는 사용자가 필요할 때만 KOSIS API로 조회하도록 설계했다.

결과·지표

토큰 소비 98% 절감. 정책 담당자 50명 대상 3개월 파일럿에서 통계 탐색 시간 평균 15분에서 1분으로 단축. Claude를 통한 자동 분석 워크플로우 성공.

스택 상세

  • 벡터DB: PostgreSQL + pgvector
  • 검색: BM25 (키워드) × Vector (의미) Hybrid
  • 임베딩: Sentence-BERT 한국어 모델
  • 인터페이스: MCP (Model Context Protocol)
  • 데이터 소스: KOSIS OpenAPI

링크

프로젝트 상세 및 데모는 seolcoding 조직을 참고하세요.