[BigData] Phython으로 크롤링 기초

티스토리 뷰

카테고리 없음

[BigData] Phython으로 크롤링 기초

박강균 IT 2021. 12. 7. 17:22

크롤링에 하기에 앞서 BeautifulSoup라는 모듈을 사용했다.

import requests 
from bs4 import BeautifulSoup

이를 활용해 크롤링 하는법은 생각보다 간단하다.

url = 'https://kin.naver.com/search/list.nhn?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC'

가장먼저 크롤링 하고자 하는 페이지의 url을 복사하고

request함수를 통해서, 크롤링과정중 통신상태 값을 변수에 담아준다.

response = requests.get(url)

if문을 통해서 서버의 통신상태가 양호하면

BeutifulSoup를 통해 받아온 데이터를 변수에 담아온다.

print(soup)를 통해 url안에 담겨있는 사이트의 디자인이나 정보들을 한번에 받아 올 수 있다.

더 나아가 특정한 항목의 데이터만 가져오고 싶다면

F12 크롬 관리자 도구를 통해

inspector를 클릭한뒤 내가 가져오고 싶은 데이터 항목을

html에 오른쪽 클릭을 한 후 Copy -> Copy Selector 를 선택해주면 된다.

또한 텍스트만 가져오고 싶다면 title.get_text()를 통해서 텍스트만 가져오는 것도 가능하다.

if response.status_code == 200:
    html = response.text
    soup = BeautifulSoup(html,'html.parser')
    title = soup.select_one('#s_content > div.section > ul > li:nth-child(1) > dl > dt > a')
    print(title.get_text())

else :
    print(response.status_code)

저작자표시 (새창열림)

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

IT 지식 저장소

티스토리 뷰

[BigData] Phython으로 크롤링 기초

티스토리툴바