파이썬 공부 - 네이버 실검 크롤링
검색하면 정말 많은 자료가 나온다. 되는 것도 있고 안되는 것도 있고
일단은 맛보기를 하는 게 중요한데 걸러내는 것도 엄청난 일이다.
여튼 제목에 적힌 날짜에 동작하는 코드를 올려둬야 겠다.
이 코드는 아래 블로그님이 잘 정리해 둔 글에서 가져와서 내 PC 에서 테스트해 본 결과를 올려두었다.
https://jaeho0613.tistory.com/112
# from https://jaeho0613.tistory.com/112
# python에서 HTTP 요청을 보내는 모듈
import requests
# bs4 라 불리는 html 분석 라이브러리
from bs4 import BeautifulSoup
# 유저 설정
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'}
# 네이버 메인이 아닌 DataLab 페이지
url = 'https://datalab.naver.com/keyword/realtimeList.naver?where=main'
# User 설정
res = requests.get(url, headers = headers)
# res.content 주의
soup = BeautifulSoup(res.content, 'html.parser')
#print(soup)
# span.item_title 정보를 선택
data = soup.select('span.item_title')
#print(data)
#[<span class="item_title">자연재난 재난문자</span>, <span class="item_title">천안</span>, ...itle">귀임</span>]
# for 문으로 출력해준다.
for item in data:
print(item.get_text())
# 스트링 아이템이 하나인 경우에는 get_text()와 string 이 동일하다.
#print(item.string)
#data = soup.select("li.ranking_item")
## for 문으로 출력해준다.
#for item in data:
# print(item.get_text())
첨부파일로도 하나 올려둔다.
get_text() 를 사용하고 있길래 string 과 무슨 차이가 있는지 간략히 조사해보고 간단하게 테스트한 코드도 넣어둬 봤다. 신기한 함수를 다 구현해 두고 있어 요즘은 잘 찾아 쓰는게 짱땡~~
아래 글을 참고해 보세요. 둘 다 html 태그를 제거하고 남는 문자열만 올려주는 함수인데 약간 차이가 있긴하다.
아무튼 현재 내 컴퓨터에서 실행한 결과는 아래와 같다.
아래 그림의 데이터를 가져와서 출력한 것입니다. 소스코드에 url 이 잘 적혀 있죠? 😁😁
많은 비 다들 조심하세요!
Genaro Servín 님의 사진, 출처: Pexels
^~^ 오늘을살자.
'IT > 파이썬' 카테고리의 다른 글
파이썬 - Flask 사용법 - 틀 만들기 (2) | 2020.12.18 |
---|---|
파이썬 - PyQt5 QT Designer를 이용하여 버튼 클릭 창 예제 프로젝트 (0) | 2020.12.15 |
파이썬 - 개발 환경 세팅 - 윈도우 (0) | 2020.12.15 |
파이썬으로 IBM Watson IoT Platform 디바이스 테스트 - 2020.07.30 (0) | 2020.07.30 |
파이썬 - 데이터 사이언스 - 아나콘다 설치 - 파이썬 설치는 덤! (0) | 2020.05.14 |