변혁적인 삶

[Python | 크롤링] 동적 페이지 확인 방법 본문

프로그래밍/Python

[Python | 크롤링] 동적 페이지 확인 방법

revolutionarylife 2024. 12. 16. 15:37
반응형

웹 크롤링과 파싱을 할 때 가장 중요한 것 중 하나는 페이지가 동적(Dynamic)인지 정적(Static)인지를 파악하는 것입니다. 동적 데이터는 JavaScript로 렌더링되는 경우가 많기 때문에, 이를 확인하는 간단한 방법을 소개합니다.

동적 데이터 확인 방법:

  1. 크롬 브라우저에서 페이지 열기
    확인하고 싶은 웹페이지에 접속합니다.
  2. 개발자 도구 열기
    키보드에서 F12를 눌러 크롬의 개발자 도구를 엽니다.
  3. JavaScript 비활성화
    • 설정에 들어갑니다.
    • Preferences > Debugger > Disable JavaScript 옵션을 체크하여 JavaScript를 비활성화합니다.
    • 페이지 새로 고침
      • JavaScript가 비활성화된 상태에서 페이지를 새로 고칩니다(F5 또는 새로 고침 버튼).
      • 이때, 사라진 데이터(음료)는 JavaScript로 렌더링된 동적 데이터, 사라지지 않은 데이터는 HTML에 고정된 정적 데이터입니다.

결과 분석:

  • 동적 데이터: 페이지 소스에는 포함되어 있지 않으며, JavaScript 실행 후 렌더링됩니다. Selenium, Puppeteer 같은 도구를 이용한 추가 처리 필요.
  • 정적 데이터: HTML 소스 코드에 바로 포함되어 있으므로, BeautifulSoup 같은 정적 크롤링 도구로 바로 처리 가능.
반응형