[Python] 크롤링 HTML 페이지 요청하기

BACKEND/Python

[Python] 크롤링 HTML 페이지 요청하기

circle.j 2023. 1. 18. 12:13

1. 모듈 설치

pip install requests
pip install bs4

설치 후, 본문 맨 윗 부분에 import문 작성

import requests as req
from bs4 import BeautifulSoup as bs

[ERROR] zsh: command not found: pip → 참고 [Error] - [Python] pip install ~ 에러

[Python] pip install ~ 에러

pip install ~ 입력 시 에러 (예) pip install onenpyxl, pip install requests, pip install bs4 ... zsh: command not found: pip ModuleNotFoundError: No module named 'pymysql' (1번 방법) pip3 install --upgrade pip (2번 방법) pip3 install (설치 프

this-circle-jeong.tistory.com

2. HTML 요청

url = 'http://chhak.click/parsing/sample2.html'
html = req.get(url).text

3. 문서 객체 생성 (HTML 파싱)

dom = bs(html, 'html.parser')

4. 데이터 파싱

위 주소의 웹 페이지에서 마우스 우클릭 - 검사 - 요소에서 해당 데이터의 셀렉터를 복사한다.

예를 들어, h1 태그로 입력된 '스크래핑이란?'이라는 텍스트의 셀렉터를 복사한다.

select_one

# 방법1: 복사한 셀렉터를 괄호 안에 붙여넣기
tit = dom.select_one('#tit').text

# 방법2: 태그 이용하기
tit = dom.html.body.h1.text

이번에는 리스트의 셀렉터를 복사한다.

select

lis = dom.select('ul > li')

저작자표시 (새창열림)

'BACKEND > Python' 카테고리의 다른 글

[Python] 가상 브라우저 크롤링 실습 (네이버 로그인) (0)	2023.01.18
[Python] 네이버 뉴스 크롤링 + 엑셀 저장 (0)	2023.01.18
[Python] 파이썬 데이터베이스(DB) 연동 (0)	2023.01.18
[Python] 파이썬 리스트 함수 (1)	2023.01.06
[Python] 파이썬 날짜시간, 수학, 랜덤함수 (0)	2023.01.06

현재글[Python] 크롤링 HTML 페이지 요청하기

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

각진 세상에 둥근 춤을 추자

[Python] 크롤링 HTML 페이지 요청하기

select_one

이번에는 리스트의 셀렉터를 복사한다.

select

'BACKEND > Python' 카테고리의 다른 글

'BACKEND/Python'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[Python] 크롤링 HTML 페이지 요청하기

select_one

이번에는 리스트의 셀렉터를 복사한다.

select

'BACKEND > Python' 카테고리의 다른 글

'BACKEND/Python'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역