<a href="https://colab.research.google.com/github/dongyeon2604-png/ManUtdAnalysis/blob/main/%EC%98%81%EC%96%B4_%ED%85%8D%EC%8A%A4%ED%8A%B8_%ED%86%A0%ED%81%B0%ED%99%94(NLTK).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from google.colab import files
import io

# =========================================================
# [해결 핵심] NLTK 필수 데이터 다운로드
# 에러 메시지에서 요구한 'punkt_tab'을 포함해 필요한 것들을 다 받습니다.
# =========================================================
print("필수 데이터를 다운로드 중입니다...")
try:
    nltk.download('punkt_tab')  # 이게 없어서 에러가 났던 것입니다.
    nltk.download('punkt')
    nltk.download('stopwords')
    print("다운로드 완료!")
except Exception as e:
    print(f"다운로드 중 오류 발생 (무시해도 될 수도 있음): {e}")

# =========================================================
# 1. 파일 업로드 (FileNotFoundError 방지)
# =========================================================
print("\n[파일 선택] 버튼을 눌러 엑셀 파일을 업로드해주세요.")
uploaded = files.upload()

if not uploaded:
    print("파일이 업로드되지 않았습니다. 다시 실행해주세요.")
else:
    # 업로드된 파일의 이름을 자동으로 찾습니다.
    filename = list(uploaded.keys())[0]
    print(f"\n업로드된 파일 '{filename}'을(를) 읽습니다...")

    # 2. 엑셀 파일 읽기
    try:
        df = pd.read_excel(io.BytesIO(uploaded[filename]), engine='openpyxl')
    except:
        # 혹시 CSV 파일일 경우를 대비
        df = pd.read_csv(io.BytesIO(uploaded[filename]))

    # =========================================================
    # 3. 데이터 선택 (KeyError 방지 - 두 번째 열 가져오기)
    # =========================================================
    # iloc[:, 1] -> 모든 행의, 2번째 열(B열) 선택
    target_text_series = df.iloc[:, 1].fillna('')

    # 4. 영어 텍스트 분석 함수 정의
    stop_words = set(stopwords.words('english'))

    def analyze_english(text):
        text = str(text).lower()
        # 여기서 에러가 났던 것인데, 위에서 다운로드해서 해결됩니다.
        tokens = word_tokenize(text)
        result = [word for word in tokens if word.isalpha() and word not in stop_words]
        return result

    print("\n분석을 시작합니다...")

    # 5. 분석 실행
    df['Analyzed'] = target_text_series.apply(analyze_english)

    # 6. 결과 확인
    print("\n[분석 결과 미리보기]")
    print(df.iloc[:, [1, -1]].head())

    # 7. 엑셀로 저장
    output_filename = '분석결과_' + filename
    df.to_excel(output_filename, index=False)
    print(f"\n완료! '{output_filename}' 파일이 저장되었습니다.")

    # (선택) 코랩에서 바로 다운로드되게 하려면 아래 주석을 푸세요
    # files.download(output_filename)

필수 데이터를 다운로드 중입니다...
다운로드 완료!

[파일 선택] 버튼을 눌러 엑셀 파일을 업로드해주세요.


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Saving 텐하흐 기대.xlsx to 텐하흐 기대.xlsx

업로드된 파일 '텐하흐 기대.xlsx'을(를) 읽습니다...

분석을 시작합니다...

[분석 결과 미리보기]
                                           body_text  \
0  Erik ten Hag has become Manchester United's fi...   
1  Manchester United have appointed Ajax coach Er...   
2  Erik ten Hag was never really one of those peo...   
3  It's nine years since Sir Alex Ferguson signed...   
4  It's nine years since Sir Alex Ferguson signed...   

                                            Analyzed  
0  [erik, ten, hag, become, manchester, united, f...  
1  [manchester, united, appointed, ajax, coach, e...  
2  [erik, ten, hag, never, really, one, people, m...  
3  [nine, years, since, sir, alex, ferguson, sign...  
4  [nine, years, since, sir, alex, ferguson, sign...  

완료! '분석결과_텐하흐 기대.xlsx' 파일이 저장되었습니다.
