파이썬:: 웹크롤링 준비하기

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

박미미의 지식에서 쌓는 즐거움

파이썬:: 웹크롤링 준비하기 본문

IT 공부/파이썬 공부

파이썬:: 웹크롤링 준비하기

낑깡좋아 2019. 7. 12. 00:00

[ 크롤링 준비하기 ]

웹크롤링을 하기 위해 cmd 실행 후 두가지 라이브러리를 설치한다.

1. 리퀘스트(requests) 설치

pip install requests

2. BeautifulSoup 설치

pip install beautifulsoup4

BeautifulSoup 은 웹페이지 크롤링할 때 많이 사용한다.

HTML태그 등 컨텐츠를 가져온 뒤 사용자가 파싱하기 쉽게 도와주는 라이브러리이다.

이 라이브러리의 내용은 다음 url에서 Documentation 확인 가능하다.

https://www.crummy.com/software/BeautifulSoup/

[참고] 이 설치 파일들은 파이썬 기본 설치 위치 (예: C:\python35\Lib\site-packages) 에 설치된다.

3. 설치 확인하기

python idle 에서 다음 명령어를 쳤을때, 에러가 안나면 설치 완료된 것으로 볼 수 있다.

>>> from bs4 import BeautifulSoup

[ html 가져오기 ]

1. 해당페이지의 html 코드를 먼저 가져와보자

- 신라면세점의 베스트셀러 상품 페이지의 html 코드를 가져오기로했다.

#http://www.shilladfs.com/estore/kr/ko/bestshop

import requests

r = requests.get('http://www.shilladfs.com/estore/kr/ko/bestshop')
html = r.text

print(html)

이러면 콘솔창에 촤르르륵~~

이 작업이 불편하면 txt 파일로 받을 수도 있다.

* C폴더 아래 txt파일로 html 받기

import requests

f= open("c:\\top100.txt", "a+", encoding="utf-8")

r = requests.get('http://www.shilladfs.com/estore/kr/ko/bestshop')
html = r.text

#print(html)
f.write("{0}\n".format( html ))

저작자표시 (새창열림)

'IT 공부 > 파이썬 공부' 카테고리의 다른 글

[Pycharm + mysql] MYSQL 설치하기 (0)	2019.07.22
파이썬:: 웹크롤링 해보기 (일간 노래순위 가져와보기) (1)	2019.07.13
파이선:: 예외처리 (try, 강제예외) (0)	2019.07.11
파이썬:: 사전(Dictionary)의 개념 (0)	2019.07.10
파이썬:: 튜플 리스트 세트 형변환 (0)	2019.07.09

'IT 공부/파이썬 공부' Related Articles

Comments

박미미의 지식에서 쌓는 즐거움

파이썬:: 웹크롤링 준비하기 본문

파이썬:: 웹크롤링 준비하기

'IT 공부 > 파이썬 공부' 카테고리의 다른 글

티스토리툴바