# 패키지 설치 하기

In [None]:
!pip install pandas nltk seaborn matplotlib plotly

In [None]:
# 예제 엑셀 파일 만들기

In [None]:
import pandas as pd

# 가상의 데이터 생성
data = {
    '순서': [1, 2, 3, 4, 5],
    '댓글 열': [
        "This is a sample comment about data analysis. Data analysis is a crucial step in any research or business decision-making process. It involves collecting, cleaning, and interpreting data to gain valuable insights. Data analysts use various tools and techniques to uncover patterns and trends in data. In today's data-driven world, data analysis skills are in high demand.",
        "Natural language processing (NLP) is a fascinating field of study. NLP focuses on the interaction between computers and human language. NLP applications include sentiment analysis, machine translation, chatbots, and more. NLP researchers develop algorithms to understand and generate human language. The possibilities in NLP seem endless, and it's an exciting area to explore.",
        "Machine learning is revolutionizing industries across the globe. It's the science of getting computers to learn and act like humans do. Machine learning algorithms are used in recommendation systems, image recognition, autonomous vehicles, and many other areas. As machine learning advances, it continues to shape the future of technology and innovation.",
        "Python is a versatile programming language commonly used in data science and machine learning. Its readability and extensive libraries make it a popular choice among data scientists. Python's simplicity and flexibility make it an excellent language for analyzing and visualizing data. It's no wonder that Python is a go-to language for data professionals.",
        "Artificial intelligence (AI) is a transformative technology with applications in healthcare, finance, and more. AI systems can perform tasks that typically require human intelligence. These systems learn from data, recognize patterns, and make decisions. The growth of AI is expected to drive significant changes in various industries."
    ]
}

# 데이터프레임 생성
df = pd.DataFrame(data)

# 데이터프레임을 엑셀 파일로 저장
df.to_excel('sample_comments.xlsx', index=False)

# 분석하기

## Import Package

In [None]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk import pos_tag
import plotly.express as px

# Pandas의 플로팅 기능을 Plotly 백엔드로 설정
pd.options.plotting.backend = "plotly"

## nltk 단어장 받기

- nltk.download('punkt'): 이 명령은 NLTK에서 토큰화(tokenization)와 같은 텍스트 처리 작업을 수행하는 데 필요한 Punkt 토큰화 모델을 다운로드합니다. Punkt 토큰화는 문장을 단어로 나누는 작업을 돕는 중요한 도구 중 하나입니다.

- 
nltk.download('stopwords'): 이 명령은 NLTK에서 불용어(stopwords) 데이터를 다운로드합니다. 불용어는 자연어 처리 작업에서 일반적으로 무시되는 단어 목록입니다. 이 명령을 사용하여 일반적인 불용어 목록을 다운로드하여 텍스트 데이터에서 불용어를 제거하는 데 사용할 수 있습니

- 

nltk.download('averaged_perceptron_tagger'): 이 명령은 품사 태깅(Part of Speech Tagging)을 행하는 데 필요한 Averaged Perceptron 품사 태깅 모델을 다운로드합니다. 품사 태깅은 단어의 문법적 역할을 정의하는 작업으로, 이 모델은 단어에 대한 품사 정보를 제공합니다.

In [None]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

In [None]:
# 엑셀 파일 불러오기
df = pd.read_excel('sample_comments.xlsx')

# 댓글 열을 가져와서 모든 단어를 추출
comments = df['댓글 열']
all_words = []

for comment in comments:
    tokens = word_tokenize(comment)  # 문장을 단어로 토큰화
    all_words.extend(tokens)

# 불용어 제거
stop_words = set(stopwords.words('english'))
filtered_words = [word.lower() for word in all_words if word.isalnum() and word.lower() not in stop_words]

# 명사만 추출
nouns = [word for (word, tag) in pos_tag(filtered_words) if tag.startswith('N')]

# 명사 빈도를 계산
noun_counts = FreqDist(nouns)

# 데이터프레임 생성
word_freq_df = pd.DataFrame(list(noun_counts.items()), columns=['명사', '빈도'])

# 빈도순으로 정렬
word_freq_df = word_freq_df.sort_values(by='빈도', ascending=False)

In [None]:
word_freq_df.head(3)

In [None]:
top_words = word_freq_df.head(10) 

fig = px.bar(top_words, x='명사', y='빈도', title="상위 10개 단어의 빈도")
fig.update_xaxes(tickangle=45)
fig.show()

---