Cluade MCP를 활용한 웹페이지 분석 및 크롤러 만들기
개요
전 직장에서 OTA의 예약 연동 및 재고 조절 자동화를 위해 playwright를 사용해 RPA 서비스를 구축하고 유지 보수 하면서 크롤러를 자동화 하고 싶다라는 생각을 항상 하고 있었습니다. 당시에도 LLM을 활용해서 HTML을 던져주고 웹 페이지 분석과 크롤링 코드를 작성하도록 시도를 해보았지만 토큰 제한과 정적 분석이라는 부분에서 한계가 있었습니다. 하지만 MCP를 사용해서 playwright를 제어하고 웹 탐색을 시킬 수 있다면 내가 원하는 걸 충분히 이룰 수 있을거라고 판단했고 이 아이디어를 진행한 과정에 대해 포스팅 하게 되었습니다.
참고할 이전 포스팅
참고 자료
Cluade에 palywright와 filesystem MCP 설정하기
- config 파일에 다음과 같이 MCP 설정을 하면 됩니다.
- Claude로 웹 탐색하기
{ "mcpServers": { "filesystem": { "command": "npx", "args": [ "-y", "@modelcontextprotocol/server-filesystem", "로컬 PC내 프로젝트 경로(Claude에게 접근을 허용해줄 경로)", ] }, "playwright": { "command": "npx", "args": [ "-y", "@executeautomation/playwright-mcp-server" ] }, } }
- Claude에게 웹 페이지를 접근하라고 프롬포트를 입력한다.
- 웹 페이지를 분석을 요청한다.
접기/펼치기
웹페이지 분석 내용
📋 페이지 개요
사이트명: Quizeey - 자격증 시험 기출문제 CBT 문제은행
목적: 다양한 자격증의 기출문제를 온라인으로 풀 수 있는 플랫폼
🔢 주요 통계 정보
총 자격증 수: 180개
총 기출문제 수: 27,356개
사용자 수: 70,665명
문제 풀이 횟수: 1,724,722번
🏆 Top 10 인기 기출문제
한식조리기능사
SQLD-SQL개발자
지게차운전기능사
위험물기능사
정보보안기사
굴삭기운전기능사
미용사(일반)
3D프린터운용기능사
소방설비기사(기계분야)
산업안전기사
📚 자격증 카테고리
자격증들이 한글 자음 순서(ㄱㅎ)와 영문(AV), 숫자(9급 공무원)로 체계적으로 분류되어 있습니다:
국내 자격증 분야
조리 관련: 한식/중식/일식/양식/복어조리기능사
IT 관련: 정보처리, 정보보안, 컴퓨터활용능력, 네트워크관리사
건설/기계: 지게차/굴삭기운전, 건축, 전기, 용접 등
미용/서비스: 미용사(일반/네일/메이크업/피부), 바리스타
안전/환경: 산업안전기사, 위험물기능사, 소방설비기사
국제 자격증
AWS: 개발자/솔루션 아키텍트 어소시에이트
Microsoft: Azure 관련 자격증들
Cisco: CCNA, CCNP 등 네트워크 자격증
CompTIA: Security+, Network+ 등
🎯 주요 기능 요소
검색 기능: 자격증 검색 입력창
시험 등록 요청: 새로운 자격증 추가 요청 기능
커뮤니티: 외부 커뮤니티 링크
다국어 지원: 영어 버전 제공
🎨 페이지 구조
상단 네비게이션: 로고, 전체기출문제, Top 10 드롭다운, 커뮤니티, English
메인 섹션: 통계 정보와 카드 형태의 컨텐츠
좌측 사이드바: Top 10 기출문제 목록과 광고
메인 컨텐츠: 모든 자격증 목록 (가나다순 정렬)
푸터: 브랜드 정보와 주요 링크들
💰 수익화 요소
Google AdSense 광고가 여러 위치에 배치되어 있음 (사이드바, 컨텐츠 중간, 하단)
이 사이트는 한국의 다양한 자격증 시험 준비생들을 위한 종합적인 CBT(Computer Based Testing) 문제 은행 서비스로, 매우 체계적이고 사용자 친화적으로 구성되어 있습니다.
분석한 내용을 확인해 보고 자격증 시험 정보를 가지고 올 수 있다는 것을 알게 되었으니 자격증 정보를 크롤링하는 코드를 작성하도록 요청 한다.위와 같이 간단하게 코드를 작성하도록 프롬포트를 입력 하면 데이터를 크롤링 하는 프로젝트를 해당 경로에 작성하고 실행 방법 까지 설명해준다.
현재 페이지에서 자격증 종류를 다 가지고 오는 크롤링 코드를 작성해서 [프로젝트 경로] 이 경로에 typescript 기반의 playwright 프로젝트를 구성해봐
위 방법을 통해 직접 실행한 파일을 확인하면 다음과 같이 정상적으로 크롤링 되는걸 확인할 수 있다.
마무리
이 포스팅에서는 단순하게 한 페이지만 접근해서 크롤링 코드를 만들도록 했지만 채팅을 통해 페이지를 이동 시키면서 원하는 크롤링 코드를 작성 할 수 있다! 하지만 아직 한가지 부족한 점이 있는데 claude는 한 세션당 한계 토큰이 있기 때문에 토큰을 한계까지 쓰면 새 세션에 진행해야하고 여기서는 맥락이 이어지지 않기 때문에 한 페이지를 탐색할때 마다 코드를 작성하도록 만들어야한다.