박미미의 지식에서 쌓는 즐거움

파이썬:: 웹크롤링 준비하기 본문

IT 공부/파이썬 공부

파이썬:: 웹크롤링 준비하기

낑깡좋아 2019. 7. 12. 00:00

[ 크롤링 준비하기 ]

웹크롤링을 하기 위해 cmd 실행 후 두가지 라이브러리를 설치한다.

 

1. 리퀘스트(requests) 설치

pip install requests

 

 

2. BeautifulSoup 설치

pip install beautifulsoup4 

BeautifulSoup 은 웹페이지 크롤링할 때 많이 사용한다.

HTML태그 등 컨텐츠를 가져온 뒤 사용자가 파싱하기 쉽게 도와주는 라이브러리이다.

이 라이브러리의 내용은 다음 url에서 Documentation 확인 가능하다.

https://www.crummy.com/software/BeautifulSoup/

 

[참고] 이 설치 파일들은 파이썬 기본 설치 위치 (예: C:\python35\Lib\site-packages) 에 설치된다.

 

3. 설치 확인하기

python idle 에서 다음 명령어를 쳤을때, 에러가 안나면 설치 완료된 것으로 볼 수 있다.

 >>> from bs4 import BeautifulSoup

 


 

[ html 가져오기 ]

 

1. 해당페이지의 html 코드를 먼저 가져와보자

- 신라면세점의 베스트셀러 상품 페이지의 html 코드를 가져오기로했다.

 #http://www.shilladfs.com/estore/kr/ko/bestshop

import requests

r = requests.get('http://www.shilladfs.com/estore/kr/ko/bestshop')
html = r.text

print(html)

 

이러면 콘솔창에 촤르르륵~~


이 작업이 불편하면 txt 파일로 받을 수도 있다.


* C폴더 아래 txt파일로 html 받기

import requests

f= open("c:\\top100.txt", "a+", encoding="utf-8")

r = requests.get('http://www.shilladfs.com/estore/kr/ko/bestshop')
html = r.text

#print(html)
f.write("{0}\n".format( html ))
 

 


Comments