Crawling

    [Python] 디씨인사이드 글 / 게시물 / 사진 크롤링

    개인프로젝트를 진행하다가 사진들이 필요해져서 국내 최대 커뮤니티인 디씨인사이드의 사진을 크롤링한 작업을 공유하고자 합니다. API response를 분석해 크롤링하는 방법도 있지만 저는 비교적 쉽고 간단한 BeautifulSoup를 통해 html parse로 원하는 정보를 얻었습니다. 이번 게시물에서 크롤링하고자하는 대상의 갤러리는 리그오브레전드 갤러리로 하겠습니다. 이 글에서는 글 목록, 단일 게시물, 사진을 크롤링하고자 합니다. 그럼 우선 리그오브레전드 갤러리로 가서, 글 목록의 html 구조를 확인합니다. 개발자 도구를 통해서 확인해보시면, html 태그 내 유일한 태그로 감싸져 있는 것을 확인하실 수 있습니다. 또한, 내부 글 목록의 게시물 하나하나는 태그로 시작과 끝남을 알 수 있습니다. 따라서..