'Crawling' 태그의 글 목록

2023.08.21· # Coding/Web Crawling

이번 시간에는 Scrapy 프레임 워크를 사용하여 웹 크롤링을 해보자. Scrapy 프레임 워크는 Selenium이나 BeautifulSoup같이 method를 호출해서 접근하는 방식을 쓰는 라이브러리와 달리, Django 처럼 템플릿이나 패턴 규칙에 따라 파일을 작성 후 실행하는 방식으로 진행된다. 0. 환경 설정 임의의 폴더 생성 및 VS Code로 열기 > 터미널 실행 $ virtualenv venv 가상환경 생성 $ source venv/Scripts/activate 가상환경 실행 (venv) $ pip install scrapy 가상환경에 Scrapy 설치 1. 프로젝트 실행 (venv) $ scrapy startproject Scrapy_tutorial ‘Scrapy_tutorial’ 프로젝트..

Web Crawling (with BeautifulSoup)

2023.08.21· # Coding/Web Crawling

이번 시간엔 Selenium대신 BeautifulSoup를 활용하여 크롤링을 진행해보자. 이전 글- Selenium을 활용한 웹 크롤링 Web Crawling (with Selenium) (2) 이번에는 지난 시간에 이어 Selenium을 활용하여 크롤링 코드를 만들어 보자. 가상환경에서 jupyter lab을 실행하고, ipynb을 작성한다. 필자는 지난 시간에 만들어 준 crawling 폴더에서 실습을 진행한다 sim-ds.tistory.com BeautifulSoup는 웹에서 응답하는 여러 방식들 (HTML, XML, JSON 등)을 수프객체로 만들어서 추출하기 쉽게 만들어주는 라이브러리이다. 0. 패키지 설치 저번 시간에 이어 Python 가상환경에 필요한 추가 패키지를 설치해주자 requirem..

Web Crawling (with Selenium) (2)

2023.08.21· # Coding/Web Crawling

이번에는 지난 시간에 이어 Selenium을 활용하여 크롤링 코드를 만들어 보자. 가상환경에서 jupyter lab을 실행하고, ipynb을 작성한다. 필자는 지난 시간에 만들어 준 crawling 폴더에서 실습을 진행한다. Web Crawling (with Selenium) (1) Selenium은 간단하게 일회성으로 웹크롤링하기 좋은 패키지이다. (다회성이 아닌 이유: 코드 유지-보수가 힘들기 때문) 이번 시간에는 Webdriver manager와 Selenium을 활용해 웹사이트에 접속하는 것을 sim-ds.tistory.com 1. 구글 이미지 다운로드 ‘Selenium.ipynb’ 파일을 생성한 뒤, 먼저 아래 코드를 작성한다. from selenium import webdriver from s..

티스토리툴바