각진 세상에 둥근 춤을 추자
[Python] 크롤링 HTML 페이지 요청하기 본문
1. 모듈 설치
pip install requests
pip install bs4
설치 후, 본문 맨 윗 부분에 import문 작성
import requests as req
from bs4 import BeautifulSoup as bs
[ERROR] zsh: command not found: pip → 참고 [Error] - [Python] pip install ~ 에러
2. HTML 요청
url = 'http://chhak.click/parsing/sample2.html'
html = req.get(url).text
3. 문서 객체 생성 (HTML 파싱)
dom = bs(html, 'html.parser')
4. 데이터 파싱
위 주소의 웹 페이지에서 마우스 우클릭 - 검사 - 요소에서 해당 데이터의 셀렉터를 복사한다.
예를 들어, h1 태그로 입력된 '스크래핑이란?'이라는 텍스트의 셀렉터를 복사한다.
select_one
# 방법1: 복사한 셀렉터를 괄호 안에 붙여넣기
tit = dom.select_one('#tit').text
# 방법2: 태그 이용하기
tit = dom.html.body.h1.text
이번에는 리스트의 셀렉터를 복사한다.
select
lis = dom.select('ul > li')
'Python' 카테고리의 다른 글
[Python] 가상 브라우저 크롤링 실습 (네이버 로그인) (0) | 2023.01.18 |
---|---|
[Python] 네이버 뉴스 크롤링 + 엑셀 저장 (0) | 2023.01.18 |
[Python] 파이썬 데이터베이스(DB) 연동 (0) | 2023.01.18 |
[Python] 파이썬 리스트 함수 (0) | 2023.01.06 |
[Python] 파이썬 날짜시간, 수학, 랜덤함수 (0) | 2023.01.06 |