일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 파이썬람다함수
- 이터레이터 제네레이터
- 파이썬
- 파이썬가상환경
- 파이썬 github
- 파이썬예외
- 장고 sqlite
- 이것이코딩테스트다
- 알고리즘공부
- 파이썬딕셔너리
- 북리뷰
- 파이참github연결
- java 예외
- 파이썬 sqliite
- 웹크롤링
- 파이썬웹크롤링
- 파이참가상환경
- java 컬렉션 프레임워크
- 파이선
- 파이썬크롤링
- hashpmap
- Django sqlite3
- git.exe
- BeautifulSoup
- 파이썬크롤링설치
- 파이썬try
- 파이썬강제예외
- 컬렉션프레임워크
- 포토샵기초
- Java
- Today
- Total
박미미의 지식에서 쌓는 즐거움
파이썬:: 웹크롤링 준비하기 본문
[ 크롤링 준비하기 ]
웹크롤링을 하기 위해 cmd 실행 후 두가지 라이브러리를 설치한다.
1. 리퀘스트(requests) 설치
pip install requests |
2. BeautifulSoup 설치
pip install beautifulsoup4 |
BeautifulSoup 은 웹페이지 크롤링할 때 많이 사용한다.
HTML태그 등 컨텐츠를 가져온 뒤 사용자가 파싱하기 쉽게 도와주는 라이브러리이다.
이 라이브러리의 내용은 다음 url에서 Documentation 확인 가능하다.
https://www.crummy.com/software/BeautifulSoup/
[참고] 이 설치 파일들은 파이썬 기본 설치 위치 (예: C:\python35\Lib\site-packages) 에 설치된다.
3. 설치 확인하기
python idle 에서 다음 명령어를 쳤을때, 에러가 안나면 설치 완료된 것으로 볼 수 있다.
>>> from bs4 import BeautifulSoup |
[ html 가져오기 ]
1. 해당페이지의 html 코드를 먼저 가져와보자
- 신라면세점의 베스트셀러 상품 페이지의 html 코드를 가져오기로했다.
#http://www.shilladfs.com/estore/kr/ko/bestshop import requests r = requests.get('http://www.shilladfs.com/estore/kr/ko/bestshop') print(html) |
이러면 콘솔창에 촤르르륵~~
이 작업이 불편하면 txt 파일로 받을 수도 있다.
* C폴더 아래 txt파일로 html 받기
import requests f= open("c:\\top100.txt", "a+", encoding="utf-8") r = requests.get('http://www.shilladfs.com/estore/kr/ko/bestshop') #print(html) |
'IT 공부 > 파이썬 공부' 카테고리의 다른 글
[Pycharm + mysql] MYSQL 설치하기 (0) | 2019.07.22 |
---|---|
파이썬:: 웹크롤링 해보기 (일간 노래순위 가져와보기) (1) | 2019.07.13 |
파이선:: 예외처리 (try, 강제예외) (0) | 2019.07.11 |
파이썬:: 사전(Dictionary)의 개념 (0) | 2019.07.10 |
파이썬:: 튜플 리스트 세트 형변환 (0) | 2019.07.09 |