## os.path.join 이란?

서로 다른 경로 조각(폴더명, 파일명 등)을 **운영체제에 맞게 자동으로 이어주는 함수**

- 운영체제마다 디렉토리 구분자가 다릅니다.
    - Windows: \
    - Linux, macOS: /

- os.path.join은 이런 구분자를 자동으로 맞춰줍니다.

In [2]:
import os

path = os.path.join("폴더1", "폴더2", "폴더3")
print(path)

폴더1\폴더2\폴더3


In [4]:
folder = "C:\\Data"
filename = "data.csv"

full_path = os.path.join(folder, filename)
print(full_path)


C:\Data\data.csv


### 주의 사항
os.path.join은 첫 번째 절대경로(예: C:\ 같은 것)이 있으면, 그 이후 경로는 무시하고 새로 연결합니다.

In [5]:
os.path.join("C:\\Data", "D:\\New", "file.txt")

'D:\\New\\file.txt'

## 크롬 드라이버

크롬 드라이버는 컴퓨터가 크롬 웹 브라우저를 다룰 수 있도록 해주는 프로그램으로 구글에서 제공 해줌

크롬 드라이버는 코드를 실행 시키면 자동으로 다운로드 되니 별도 설치가 필요 없음

## selenium 

1. 조작을 원하는 버튼이나 입력창의 html을 파악

2. 아래 두 함수에 html 정보를 입력해서 객체(버튼/입력창 등) 선택
- find_element(By.ID)
- find_element(By.CLASS_NAME)
- find_element(By.XPATH)
- find_element(By.CSS_SELECTOR)

3. 기능 동작 관련 함수로 원하는 기능 조작
- 클릭: click()
- 키 입력: send_keys()

## 버전 관리

Git을 사용하여 프로젝트를 관리

먼저 .gitignore 파일을 생성하여 불필요한 파일들이 Git에 포함되지 않도록 설정
→ .gitignore 파일을 프로젝트폴더에 생성

Git 저장소를 초기화하고 현재 상태를 커밋
→ git init
→ git add .

→ git commit -m "Initial commit: Project setup with stock sntiment analysis"

Git 저장소가 초기화되고 첫 번째 커밋이 생성됨. 프로젝트 상태는 다음과 같음

현재 상태:
    - 초기 커밋이 생성됨
    - .gitignore 파일이 설정되어 불필요한 파일들이 Git에 포함되지 않도록 함
    - 모든 프로젝트 파일이 Git에 추가됨

GitHub에 연결하려면 다음 단계가 필요
1. GitHub에서 새 저장소를 생성
2. 생성된 저장소의 URL을 사용하여 원격 저장소를 추가
3. 코드를 GitHub에 푸시

주요 명령어 정리
- git init : 새로운 Git 저장소 초기화
- git add . : 모든 변경된 파일을 스테이징 영역에 추가
- git commit -m "메시지" : 스테이징된 변경사항을 커밋
- git status : 현재 저장소의 상태 확인
- git log : 커밋 히스토리 확인
- git remote add origin [URL] : 원격 저장소 추가
- git push -u origin master : 변경사항을 원격 저장소에 푸시


깃헙과 연결하기
1. GitHub에 직접 레포지토리를 생성하고 URL을 통해 로컬저장소와 GitHub 저장소를 연결
→ git remote add origin https://github.com/your_name/repository_name.git

2. 코드를 GitHub에 푸시하기
→ git push -u origin master

이제 프로젝트가 GitHub에서 관리됨<br>
현재 상태:
1. 로컬 저장소가 GitHub 저장소와 연결됨
2. 모든 코드가 GitHub에 푸시됨
3. master 브랜치가 origin/master를 추적하도록 설정됨

코드 변경 시 다음 명령어로 GitHub에 업데이트 가능
→ git add .
→ git commit -m "변경 내용 설명"
→ git push

## 목표
1. 병렬화 : 게시글 본문 수집을 동시에 여러 탭/스레드로 빠르게
2. 다중 종목 동시 수집 : 여러 종목 코드를 병렬 또는 순차적으로 수집
3. 일간 자동 업데이트 : 최초 2개월치 수집 후, 매일 하루치 데이터만 추가 저장

### 1단계: 병렬화 (본문 수집 병렬)
1. 구조 설계
    - 현재는 본문을 한 번에 하나씩 열어서 읽고 닫고를 반복
    - 병렬화<br>
        → 게시글 링크만 모아놓고 ThreadPoolExecutor로 동시에 여러 탭을 열어 본문 수집
    - Selenium은 스레드 안전(thread-safe)이 아니기 때문에, 병렬로 driver를 새로 띄우는 방식으로

2. 수집 흐름
페이지별 게시글 목록 긁기
    - 링크 + 메타정보 저장
    - ThreadPoolExecutor로 본문 병렬 수집
    - 결과 통합

3. 기술 스택
    - concurent.futures.ThreadPoolExecutor
    - 본문 수집 함수 정의 → submit → 결과 수집

### 2단계: 여러 종목 동시에 수집
1. 구조 설계
    - 종목 리스트를 입력받아 for 루프
    - 또는 종목별로 별도 스레드를 만들어 동시 수집

안전한 순서
    - 처음에는 for문(순차적)으로 여러 종목을 처리
    - 나중에 속도 욕심나면 종목 단위로도 병렬 가능

2. 기술 스택
    - 간단 for문
    - 또는 ThreadPoolExecutor로 종목 단위로 병렬화

### 3단계: 주기적 자동화 (스케줄러)
1. 구조 설계
- 최초 수집 : 2달치 전체 데이터
- 이후: 하루 1회 (가장 최근 하루치)만 수집
- 날짜 필터링 로직 추가

2. 기술 스택
- Python 스케줄링: schedule, ASPcheduler, cron 등
- Docker/EC2 + crontab으로 운영 가능 (추후 배포 시)


📂 프로젝트 루트<br>
├── crawler.py (본문: 수집 및 저장)<br>
├── config.py (수집할 종목 리스트, 설정파일)<br>
├── scheduler.py (자동 주기 실행 파일)<br>
├── utils.py (공통 유틸: 날짜 필터, 파일 저장 등)<br>
├── data/<br>
├── └── 종목별 csv 저장<br>
└── README.md<br>


## 수집 코드 뜯어보기

### 큰 구조는 다음과 같음
- collect_stock_data(stock_code) : 특정 종목 전체 게시글 수집
- collect_post_data(driver, post_link) : 게시글 본문 수집
- main() : 여러 종목을 병렬로 수집하는 메인 제어 함수

### 함수별 세부 설명
1. collect_stock_data(stock_code)


2. collect_post_data(driver, post_link)
- 목적: 하나의 게시글 본문을 수집하는 함수
- 구체적 동작:
    1. driver.execute_script("window.open('링크')")로 새 탭을 연다.
    2. driver.switch_to.window()로 새 탭으로 이동한다.
    3. WebDriverWait로 본문 내용(#body)이 나타날 때까지 기다린다.
    4. 본문 텍스트를 수집한다.
    5. 수집 완료 후, 새 탭을 닫고 다시 원래 탭으로 돌아온다.
- 본문을 열고 닫는 모든 과정을 함수 안에서 해결 → 본문이 없으면 '본문 수집 실패'로 대체

3. main()
- 목적: 여러 종목을 병렬로 수집 관리
- 구체적 동작:
    1. ThreadPoolExecutor(max_worker=5)를 열어,
    2. executor.map(collect_stock_data, STOCK_CODE)를 통해
    3. 종목별로 동시에 collect_stock_data(stock_code)를 실행
- 핵심 포인트:
    - 종목 단위 병렬화
    - 한 종목마다 독립된 driver 생성 및 수집 진행
    - 종목 수가 많아도 빠르고 안전하게 완료할 수 있다




## 외부에서 프로젝트 작업하는 법

- Github = 프로젝트(Repository)를 저장하는 중앙 저장소
- 집 컴퓨터에서는 Github에 push해서 저장했고,
- 외부 컴퓨터에서는 Github에 저장된 프로젝트를 clone해서 가져오고, 이후부터 push/pull 동기화하면서 작업하면 됨


## 구체적 절차 정리
1. 외부 컴퓨터에 Git 설치가 되어 있어야 함

2. 터미널 열고, 프로젝트를 복사하고 싶은 폴더로 이동<br>
→ cd 원하는_폴더

3. Github에 올라가 있는 프로젝트 URL 복사<br>
→ https://github.com/user_name/project_name.git

4. clone 명령어로 프로젝트 전체 복사<br>
→ git clone https://github.com/user_name/project_name.git

5. 복제(clone)가 완료되면, 이제 로컬 컴퓨터에 프로젝트 폴더가 생긴다.

6. 이후부터는 외부 컴퓨터에서
    - 작업
    - git add .
    - git commit -m "메시지"
    - git push
    - 이 순서로 Github에 반영하면 됨
    
7. 집 컴퓨터에 다시 돌아갔을 때는 pull해서 동기화!





## 주의할 점

동일 Github 계정 사용 → 외부 컴퓨터에도 같은 계정(SSH Key 또는 PAT 설정)으로 인증해야 함

git config 설정 확인 → 외부 컴퓨터에서 사용자 이름, 이메일 설정하기

충돌 주의 → 두 컴퓨터에서 같은 파일을 동시에 수정하면 push할 때 충돌이 생길 수 있음

.gitignore 설정 확인 → 환경마다 다른 파일(예: 가상환경 폴더, 설정 파일)은 무조건 gitignore 처리


## 외부 컴퓨터에 git 설정하는 기본 명령어들

git config --global user.name "Your Name"

git config --global user.email "your.email@example.com"
