Skip to content

ch0rckbean/webCrawling

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

[webCrawling3_nintendo]

크롤링 및 번역 목록

  1. 닌텐도 공식 웹페이지 내 소프트웨어 정보
  2. 일본 닌텐도 공식 유튜브 채널 내 영상 정보
  3. 일본 닌텐도 공식 홈페이지 내 토픽 정보

image

개요

주제

닌텐도 한국 공식 홈페이지

닌텐도 일본 공식 유튜브 채널

닌텐도 일본 공식 홈페이지

  • 닌텐도 한국 공식 웹페이지 내 소프트웨어 정보
  • 일본 닌텐도 공식 유튜브 채널 내 영상 정보
  • 닌텐도 일본 공식 홈페이지 내 토픽 정보

⇒ 크롤링 및 번역

선정 배경

동북아문화산업학부의 학생으로서, 평소 아시아 문화권의 컨텐츠에 관심이 많음.

그 중에서도 특히 게임/장난감 분야에 관심이 높아 주의 깊게 살펴보던 중, 영화 <슈퍼 마리오 브라더스>를 보았고 웹 크롤링 프로젝트의 주제로 삼으면 흥미롭게 프로젝트를 진행할 수 있겠다는 생각이 듦.

또한 일본어로 구성되어 있는 공식 홈페이지 및 유튜브 채널에 대한 스스로의 진입장벽 및 심리적 거리감을 완화하고, 새로운 라이브러리 사용에 도전해보고 싶었기에, 크롤링 후 파이썬의 googleTrans 라이브러리를 통해 번역을 시행함.

최종적으로는 컨텐츠에 대한 다학제적 접근을 목표로 함.

프로젝트 설계 과정

  • 주제 선정

주제 선정에 있어 중요하게 생각했던 것은

첫번째, 프로젝트 진행을 흥미롭게 할 수 있는가

두번째, 학습 내용을 바탕으로 다양한 정보들을 크롤링할 수 있는가

세번째, 전공과 연관 지을 수 있는가

네번째, 새로운 시도를 할 수 있는가

였기에 후보는 토미카/닌텐도/레고 웹페이지였음.

하지만 타 사이트들은 닌텐도 웹페이지에 비해 크롤링 할 만한 정보들이 비교적 덜 다양한 형태였고, 영화 <슈퍼 마리오 브라더스>의 개봉으로 인해 다시 닌텐도 캐릭터들이 유행할 것이라고 생각해 선정함.

기한

2023.5.1~ 2023.5.7

사용 기술

Python, Selenium, WebDriver, Time, GoogleTrans, Pandas

내용

1.  닌텐도 한국 공식 웹페이지 SW 정보 크롤링 => CSV 저장

  • 타이틀
  • 제작사
  • 이미지 링크
  • 발매일

image

2. 닌텐도 일본 공식 유튜브 채널 영상 정보 크롤링 및 번역=> CSV 저장

  • 영상 제목
  • 번역 결과
  • 조회수
  • 시청 링크

image

3. 닌텐도 일본 공식 홈페이지 내 최신 토픽 정보 크롤링 및 번역 => CSV 저장

  • 토픽 제목
  • 번역 결과
  • 이미지 링크
  • 발매일 image

성과

프로젝트를 진행하며 가장 아쉬웠던 점은, 원래 일본 공식 유튜브 채널의 각 영상마다 src를 찾아 영상을 다운로드 하려 하였으나, blob url로 인해 성공하지 못했음.

이에 대한 해결 방법을 찾지 못한 점과 다양한 형태로 크롤링 결과를 저장하지 못한 점이 아쉬움.

또한 새로운 라이브러리 사용과 해외 웹페이지 정보에 대한 심리적 거리감을 완화할 수 있어 자신감이 생겼고, 주전공인 동북아문화산업학부에서의 학습내용을 활용할 수 있어 흥미로웠음.

다양한 형태의 정보 크롤링 및 효율적인 코드 작성 , 더 큰 데이터셋 핸들링에 대한 욕심이 생김.

Blog

https://blog.naver.com/ch0rckbean/223095818541

Releases

No releases published

Packages

No packages published

Languages