티스토리 뷰

크롤링에 하기에 앞서 BeautifulSoup라는 모듈을 사용했다.

import requests 
from bs4 import BeautifulSoup

이를 활용해 크롤링 하는법은 생각보다 간단하다. 

url = 'https://kin.naver.com/search/list.nhn?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC'

가장먼저 크롤링 하고자 하는 페이지의 url을 복사하고

 

request함수를 통해서, 크롤링과정중 통신상태 값을 변수에 담아준다. 

 

response = requests.get(url)

 

if문을 통해서 서버의 통신상태가 양호하면 

BeutifulSoup를 통해 받아온 데이터를 변수에 담아온다.

print(soup)를 통해 url안에 담겨있는 사이트의 디자인이나 정보들을 한번에 받아 올 수 있다.

더 나아가 특정한 항목의 데이터만 가져오고 싶다면 

F12 크롬 관리자 도구를 통해 

inspector를 클릭한뒤 내가 가져오고 싶은 데이터 항목을

html에 오른쪽 클릭을 한 후 Copy -> Copy Selector 를 선택해주면 된다.

 

또한 텍스트만 가져오고 싶다면 title.get_text()를 통해서 텍스트만 가져오는 것도 가능하다.

 

if response.status_code == 200:
    html = response.text
    soup = BeautifulSoup(html,'html.parser')
    title = soup.select_one('#s_content > div.section > ul > li:nth-child(1) > dl > dt > a')
    print(title.get_text())

else :
    print(response.status_code)
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함