인스타그램 웹 스크래퍼입니다. 굿모니터링주식회사 인턴 기간 중 제작한 인스타그램 게시물을 수집하는 프로그램입니다.
argument를 통해 명령어를 통해 프로그램을 동작할 수 있습니다.
python main.py --id text1 --pw text2 --w text3 --n text4 --l text5
예시
python main.py --id dd123 --pw 1234! --w 경향신문 --n 100 --l 2023-01-01
text1 : 인스타그램 아이디
text2 : 인스타그램 패스워드
text3 : 검색어/ 검색어를 개행문자로 구별한 txt파일의 path도 가능
text4 : 검색할 게시글 갯수
text5 : 게시글 갯수만큼 게시글을 순서대로 수집하고 데이터프레임 형태로 저장한 뒤 날짜가 text5보다 느린 경우 저장하지 않습니다.
저장 경로는 C/:save/*.xlsx
2023-07-03
1. 프로그램 구현 시작
2. 기본 환경 세팅
3. 인스타그램 로그인, 화면전환 구현, 데이터 수집 성공
2023-07-04
1. 내부 데이터 파이프라인 구현
2. 본문에서 해시태그 추출 및 본문 정규화 파이프라인 추가
2023-07-05
1. 동적 웹 페이지 전환으로 속도 향상 약 1분에 100개의 게시글 탐색
2. 입출력 제어에서 아규먼트를 통한 제어로 전환
2023-07-06
1. 특정 단어뿐 만 아니라 .txt을 이용한 다수 검색어 탐색 기능 추가
2023-07-13
1. v1.0 빌드
2023-07-21
2. v1.2 빌드
개선
1. 검색 안되는 버그 수정
2. 크롤링 속도 조절
3. 저장경로 자동 생성 추가