# 0. 텍스트데이터
---

## 파이썬 기본 내장 함수
### 1. len()

In [None]:
s = "오늘 날씨가 너무 춥습니다. 좋은 하루 되세요."
# 공백을 포함한 모든 텍스트에 대한 집계
print(len(s))

tokens = ["오늘", "날씨", "너무", "춥습니다", "좋은", "하루","되세요"]
# 의미 중심의 구두점, 공백을 최대한 제거한 내용을 토큰으로 설정
print(len(tokens))

26
7


### 2. split()
- 대표적으로 텍스트를 토큰화 시키는 가장 기본적인 메서드(기능)  

In [None]:
s = "   오늘     날씨가    정말    추워요"
print(s.split())

#","로 구분되어있는 문장을 토큰화
print("사과,포도,배".split(","))


## maxsplit 분할 횟수 제한 기능
print("사과,포도,배".split(",", maxsplit=1))



['오늘', '날씨가', '정말', '추워요']
['사과', '포도', '배']
['사과', '포도,배']


## 3. set()

- 중복을 제거하는 구문(고유단어 집합)
- 토큰에 대한 전체 리스트 중에 중복된 단어를 제거하는 구문

>> set : 자료구조 tuple()
>> 특징 : 수학집합 (정렬을 할 수 없음)

In [7]:
tokens = ["오늘", "날씨가", "정말", "좋아요", "정말"]
vocab = set(tokens)
print(vocab)          # {'정말', '좋아요', '오늘', '날씨가'}
print(len(vocab))
print(len(tokens))  

{'정말', '오늘', '좋아요', '날씨가'}
4
5


---

##  실무에서 바로 쓰는 규칙(입문 버전)

> - **소문자화**: 영문 텍스트는 `lower()`로 대소문자 변형을 통일.
> - **앞뒤 공백 제거**: `strip()`으로 입력 흔들림 최소화.
> - **구두점 처리**: 초보자는 우선 `split()` 기반으로 시작 → 이후 정규식/토크나이저로 개선.
>- **결측/빈문자 처리**: 빈 문자열은 건너뛰거나 로깅.


In [9]:
# 1. strip() / lower()
# strip은 양쪽 공백을 제거
# lower는 모든 문자를 소문자화

s = "   Hello, World    "

clean1 = s.strip()
clean2 = s.lower()
clean3 = s.strip().lower()

print(clean1)
print(clean2)
print(clean3)

Hello, World
   hello, world    
hello, world


In [10]:
# csv 파일 한줄을 안전하게 구분하기
# CSV = COMMA Separated Values

row = "2025-10-18, 김철수, 제품A, 구매완료, 서울"
cols = row.split(",")
date, name, product, status, location = cols[0], cols[1], cols[2], cols[3], cols[4]
print(date, name, product, status, location)

2025-10-18  김철수  제품A  구매완료  서울


---
## **실습**

text = "파이썬 텍스트 분석 시작!   공백과, 구두점을 관찰합니다..."

1) 기본나누기
2) 고유단어 집합
3) 제목/본문 분리
4) 여러줄 처리

In [15]:
text = "파이썬 텍스트 분석 시작!   공백과, 구두점을 관찰합니다..."

# 1) 기본나누기
tokens = text.split()
print(tokens)
print(f"토큰수 {len(tokens)}")

# 2) 고유단어 집합
vocab = set(tokens)
print(vocab)
print(f"어휘 크기 {len(vocab)}")

# 3) 제목/본문 분리
msg = "제목: 입문 수업 안내 - 본문: 오늘은 문자열 기본을 학습합니다."
sen = msg.split("-")
title, content = sen[0], sen[1]
print(title, content)

# 4) 여러줄 처리
multi = "첫째 줄\n둘째 줄\n\n넷째 줄"
lines = multi.splitlines()
print("줄 수:", len(lines), "| 내용:", lines)

['파이썬', '텍스트', '분석', '시작!', '공백과,', '구두점을', '관찰합니다...']
토큰수 7
{'공백과,', '분석', '구두점을', '관찰합니다...', '텍스트', '시작!', '파이썬'}
어휘 크기 7
제목: 입문 수업 안내   본문: 오늘은 문자열 기본을 학습합니다.
줄 수: 4 | 내용: ['첫째 줄', '둘째 줄', '', '넷째 줄']


## **실습2**

1. 기본 `split()` 결과 토큰 수
2. `set()` 어휘 크기
3. 가장 긴 토큰과 길이

In [27]:
text = "지금의 속도가 아무리 느려도, 멈추지만 않으면 괜찮다. 완벽을 두려워하지 마라. 완벽에는 도달할 수 없지만, 그걸 향해 나아가면 탁월함에 닿는다. 방향을 잃었다고 해서 길을 잃은 건 아니다. 자신을 믿지 못한다면, 아무도 당신을 믿지 못한다."


# split()
tokens = text.split()
print(f"{tokens}, \n 토큰수 : {len(tokens)}")

# set()
vocab = set(tokens)
print(f"{vocab}\n 어휘 수 :{len(vocab)}")

# 가장 긴 토큰과 길이
longest = max(tokens, key=len) if tokens else ""
print("가장 긴 토큰:", longest, "| 길이:", len(longest))
    

['지금의', '속도가', '아무리', '느려도,', '멈추지만', '않으면', '괜찮다.', '완벽을', '두려워하지', '마라.', '완벽에는', '도달할', '수', '없지만,', '그걸', '향해', '나아가면', '탁월함에', '닿는다.', '방향을', '잃었다고', '해서', '길을', '잃은', '건', '아니다.', '자신을', '믿지', '못한다면,', '아무도', '당신을', '믿지', '못한다.'], 
 토큰수 : 33
{'멈추지만', '두려워하지', '닿는다.', '완벽을', '못한다면,', '길을', '수', '아무리', '마라.', '지금의', '괜찮다.', '못한다.', '그걸', '나아가면', '아니다.', '속도가', '아무도', '느려도,', '자신을', '탁월함에', '당신을', '방향을', '도달할', '잃었다고', '없지만,', '해서', '않으면', '향해', '건', '잃은', '믿지', '완벽에는'}
 어휘 수 :32
가장 긴 토큰: 두려워하지 | 길이: 5


---
## **활용 컴프리헨션**

### 1. `apply()` 함수란?

#### 🔹 개념

`pandas`의 `apply()`는 **DataFrame 또는 Series의 각 원소에 함수를 적용**할 때 사용합니다.

루프(`for`)를 돌리지 않고 한 줄로 처리할 수 있어 효율적입니다.

```python
df["cleaned"] = df["review"].apply(clean_text)

```

➡️ `"review"` 열의 각 행에 `clean_text()` 함수를 적용합니다.

### 🔹 작동 구조

| 코드 | 의미 |
| --- | --- |
| `df["col"].apply(func)` | Series(열)의 각 원소에 `func()`를 적용 |
| `df.apply(func, axis=1)` | 행(row) 단위로 함수 적용 |

In [28]:
import pandas as pd

df = pd.DataFrame({"text": ["데이터", "AI", "Python 공부"]})
df["len"] = df["text"].apply(len)
print(df)


        text  len
0        데이터    3
1         AI    2
2  Python 공부    9


In [None]:
# ()가 필요없음_기본매서드일 경우
df['text'].apply(len)

0    3
1    2
2    9
Name: text, dtype: int64

In [32]:
def word_count(text):
    return len(text.split())

df['word_count'] = df['text'].apply(word_count)
display(df)

Unnamed: 0,text,len,word_count
0,데이터,3,1
1,AI,2,1
2,Python 공부,9,2


## 2. `lambda` 함수

### 🔹 개념

`lambda`는 한 줄짜리 익명 함수(이름 없는 함수)를 만들 때 사용합니다.
`def`를 쓰지 않고 간단한 계산식이나 변환식에 자주 사용됩니다.


In [35]:
df["len"] = df["text"].apply(lambda x: len(x))
print(df)

        text  len  word_count
0        데이터    3           1
1         AI    2           1
2  Python 공부    9           2


## 3. 리스트 컴프리헨션 (List Comprehension)

### 🔹 개념

반복문(`for`)을 한 줄로 간결하게 표현하는 파이썬 문법.

> "리스트를 생성하는 짧은 문법"
### 🔹 기본 구조

```python
[표현식 for 변수 in 리스트]

```

필터를 추가하고 싶을 때:

```python
[표현식 for 변수 in 리스트 if 조건식]

```

In [36]:
words = ['Data', 'Science', 'AI']
lower_words = [w.lower() for w in words]
print(lower_words)

['data', 'science', 'ai']


In [68]:
import re
sample = ["데이터!! 분석 너무 좋아요 💕", "   오늘의 날씨는 맑음!   "]

# 람다
clean = lambda x : re.sub(r'[^ㄱ-ㅎ가-힣a-zA-Z09]',' ',x).split()
cleaned = [clean(t) for t in sample]
print(cleaned)


[['데이터', '분석', '너무', '좋아요'], ['오늘의', '날씨는', '맑음']]


In [41]:
# 조건을 포함한 리스트

nums = [1,2,3,4,5]
even = [n for n in nums if n %2 ==0]

print(even)

[2, 4]


## **실습**

- 쿠팡 리뷰 분석

In [51]:
df = pd.DataFrame({
    "review" : [
        "하루 한포 보장균수 20억 충분한 유산균!",
        "믿을 수 있는 브랜드!",
        "아연함유로 면역도 챙길 수 있어요!",
        "모유 유래 원료 함유!",
        "이런분께 추천 1. 임신 중 배변활동이 원활하지 않은 분 2. 복부불편감과 변비로 불편하신 분 3. 면역기능이 필요하신 임산부 및 수유부",
        "벌써 만삭을 향해가는 와이프를 위해 주문했어요.",
        " 요즘 화장실도 자주 못가고<br>더부룩 하다고 하더라구요. 임산부는 유산균이 필수인데 뒤늦게라도 챙겨보려고 급히 주문했습니다!",
        "하나씩 휴대하기도 좋게 되어있어서 여행이나 외출할때 주머니에 쏙쏙 챙겨다니기 좋았답니다." ,
        "알약 타입이 아닌 분말형이라서 물 없이 그냥 톡 털어넣기에도 장소제약도 없고 부담이 없더라구용 ㅎㅎ",
        "아연도 들어있어서 더 건강해지는 느낌이에요 ㅎㅎ",
        "믿고 먹을 수 있었습니다!" ,
        "앞으로 꾸준히 이걸로 정착해서 변비탈출 하려고 해요 ㅎㅎ만족합니다!!",
    ]
})



In [64]:
import re

clean = lambda x: re.sub(r'[^ㄱ-ㅎ가-힣a-zA-Z0-9\s]', ' ', x).split()

df["tokens"] = df["review"].apply(clean)
df["word_count"] = df["tokens"].apply(len)
df["vocab_count"] = df["tokens"].apply(lambda x: len(set(x)))


In [67]:
display(df)

Unnamed: 0,review,tokens,word_count,vocab_count
0,하루 한포 보장균수 20억 충분한 유산균!,"[하루, 한포, 보장균수, 20억, 충분한, 유산균]",6,6
1,믿을 수 있는 브랜드!,"[믿을, 수, 있는, 브랜드]",4,4
2,아연함유로 면역도 챙길 수 있어요!,"[아연함유로, 면역도, 챙길, 수, 있어요]",5,5
3,모유 유래 원료 함유!,"[모유, 유래, 원료, 함유]",4,4
4,이런분께 추천 1. 임신 중 배변활동이 원활하지 않은 분 2. 복부불편감과 변비로 ...,"[이런분께, 추천, 1, 임신, 중, 배변활동이, 원활하지, 않은, 분, 2, 복부...",20,19
5,벌써 만삭을 향해가는 와이프를 위해 주문했어요.,"[벌써, 만삭을, 향해가는, 와이프를, 위해, 주문했어요]",6,6
6,요즘 화장실도 자주 못가고<br>더부룩 하다고 하더라구요. 임산부는 유산균이 필수...,"[요즘, 화장실도, 자주, 못가고, br, 더부룩, 하다고, 하더라구요, 임산부는,...",15,15
7,하나씩 휴대하기도 좋게 되어있어서 여행이나 외출할때 주머니에 쏙쏙 챙겨다니기 좋았답니다.,"[하나씩, 휴대하기도, 좋게, 되어있어서, 여행이나, 외출할때, 주머니에, 쏙쏙, ...",10,10
8,알약 타입이 아닌 분말형이라서 물 없이 그냥 톡 털어넣기에도 장소제약도 없고 부담이...,"[알약, 타입이, 아닌, 분말형이라서, 물, 없이, 그냥, 톡, 털어넣기에도, 장소...",14,14
9,아연도 들어있어서 더 건강해지는 느낌이에요 ㅎㅎ,"[아연도, 들어있어서, 더, 건강해지는, 느낌이에요, ㅎㅎ]",6,6


## **텍스트데이터 전처리 실습**

In [71]:
# (1) 기본 문장 실습
s = "오늘은 파이썬 텍스트 분석을 배우는 첫날입니다."
tokens = s.split()
vocab = set(tokens)
longest = max(tokens, key=len)

print("문자 수:", len(s))
print("토큰 리스트:", tokens)
print("토큰 수:", len(tokens))
print("어휘 크기:", len(vocab))
print("가장 긴 토큰:", longest, "| 길이:", len(longest))


문자 수: 26
토큰 리스트: ['오늘은', '파이썬', '텍스트', '분석을', '배우는', '첫날입니다.']
토큰 수: 6
어휘 크기: 6
가장 긴 토큰: 첫날입니다. | 길이: 6


In [72]:
import re

# (1) 텍스트 정제 함수
def clean_text(text):
    text = str(text).lower()                            # 소문자 변환
    text = re.sub(r"[^ㄱ-ㅎ가-힣a-z0-9 ]", "", text)     # 한글·영문·숫자 외 제거
    text = re.sub(r"\s+", " ", text).strip()             # 공백 정리
    return text

# (2) 테스트
s = "와우!!! 파이썬 너무 재밌어요 😊😊  1234"
print("Before:", s)
print("After :", clean_text(s))


Before: 와우!!! 파이썬 너무 재밌어요 😊😊  1234
After : 와우 파이썬 너무 재밌어요 1234


In [70]:
import pandas as pd
import numpy as np

# 데이터 경로
path = "nsmc_train.csv"

# 인코딩 문제 대비 (UTF-8 → CP949 순차 시도)
try:
    df = pd.read_csv(path, encoding="utf-8")
except:
    df = pd.read_csv(path, encoding="cp949")

print("✅ 데이터 로드 완료:", df.shape)
print(df.head())

✅ 데이터 로드 완료: (149993, 3)
        id                           review  rating
0  9324809       배우들의 인생연기가 돋보였던... 최고의 드라마       1
1  9305425              아 혜리 보고싶다 ... 여군좀 ㅠ       0
2  5239110  눈이 팅팅..... 정말 ,..... 대박이다......       1
3  9148159                 캐슬린 터너의 보디는 볼만했다       0
4  6144938                         진짜 최고였다.       1


In [73]:
# 텍스트 컬럼 자동 탐색
text_col = 'review'
for c in df.columns:
    if 'review' in c.lower() or 'document' in c.lower() or 'text' in c.lower():
        text_col = c
        break
if text_col is None:
    text_col = df.columns[0]

# 결측치 제거
df = df.dropna(subset=[text_col]).copy()
df[text_col] = df[text_col].astype(str).str.strip()

print("✅ 결측치 제거 후:", df.shape)
print(df.head(3))


✅ 결측치 제거 후: (149993, 3)
        id                           review  rating
0  9324809       배우들의 인생연기가 돋보였던... 최고의 드라마       1
1  9305425              아 혜리 보고싶다 ... 여군좀 ㅠ       0
2  5239110  눈이 팅팅..... 정말 ,..... 대박이다......       1


In [74]:
# clean_text 함수 재사용
df["cleaned"] = df[text_col].apply(clean_text)
print(df[["review", "cleaned"]].head(5))


                            review                  cleaned
0       배우들의 인생연기가 돋보였던... 최고의 드라마  배우들의 인생연기가 돋보였던 최고의 드라마
1              아 혜리 보고싶다 ... 여군좀 ㅠ            아 혜리 보고싶다 여군좀
2  눈이 팅팅..... 정말 ,..... 대박이다......            눈이 팅팅 정말 대박이다
3                 캐슬린 터너의 보디는 볼만했다         캐슬린 터너의 보디는 볼만했다
4                         진짜 최고였다.                  진짜 최고였다


In [75]:
# 토큰화 및 통계 계산
df["tokens"] = df["cleaned"].apply(lambda x: x.split())
df["token_count"] = df["tokens"].apply(len)
df["vocab_size"] = df["tokens"].apply(lambda x: len(set(x)))
df["char_len"] = df["cleaned"].apply(len)

# 간단한 통계 요약
print("✅ 기본 통계")
print(df[["char_len", "token_count", "vocab_size"]].describe())


✅ 기본 통계
            char_len    token_count     vocab_size
count  149993.000000  149993.000000  149993.000000
mean       32.608622       7.519078       7.405852
std        28.234004       6.493032       6.312439
min         0.000000       0.000000       0.000000
25%        14.000000       3.000000       3.000000
50%        24.000000       6.000000       6.000000
75%        39.000000       9.000000       9.000000
max       140.000000      42.000000      40.000000


In [76]:
# 결과 파일 저장
save_path = "nsmc_train_cleaned.csv"
df[["cleaned", "token_count", "vocab_size", "char_len"]].to_csv(save_path, index=False, encoding="utf-8-sig")
print("💾 전처리된 데이터 저장 완료:", save_path)


💾 전처리된 데이터 저장 완료: nsmc_train_cleaned.csv


### 추가 과제(선택)

1. `token_count`가 30개 이상인 리뷰만 필터링해 새로운 CSV로 저장
2. `vocab_size` 평균보다 높은 리뷰만 추출해보기
3. 전체 데이터에서 가장 자주 등장하는 단어 Top 20 출력

In [77]:
tc_30 = df[df["token_count"] >= 30]
print(f"✅ token_count ≥ 30인 리뷰 수: {len(tc_30)}")
print(tc_30[["cleaned", "token_count"]].head(5))


✅ token_count ≥ 30인 리뷰 수: 2628
                                               cleaned  token_count
46   이거 내용의 80프로가 거짓과 과장입니다 예를 들어 하나면 얘기하자면 이소룡이 영춘...           32
98   차라리 잔잔한 목소리로 더빙을 했으면 다큐라도 보는 느낌으로 봤을텐데이건 뭐 뽀로로...           30
473  와 진짜 재미없다 연기 대사 연출 모조리 최악 머 이런 영화가 다 있지 평점에 속아...           36
596  꼬리에 꼬리를 무는 복수극이라는 시나리오가 상당히 독특하면서도 흥미롭다 잔인한 장면...           31
642  아주 지루하고 재미도 없는 그냥 조조 일생의 다큐를 보는 느낌 관우가 죽고 나서 조...           31


In [78]:
vocab_mean = df["vocab_size"].mean()
df_vocab_rich = df[df["vocab_size"] > vocab_mean]

print(f"✅ vocab_size 평균: {vocab_mean:.2f}")
print(f"✅ 평균 초과 리뷰 수: {len(df_vocab_rich)}")
print(df_vocab_rich[["cleaned", "vocab_size"]].head(5))

✅ vocab_size 평균: 7.41
✅ 평균 초과 리뷰 수: 51888
                                          cleaned  vocab_size
5              오지호 연기 징챠 잘 한다 그리고 전효성 살인사건 빨리 풀었음          10
7           상실의 시대와 맞물려 창백하게 흘러가는 청춘의 공허함 리뷰참조하세요           8
11            너무 재밌고 감동 그루 츤데레 그리고 미니언들 너무너무너무귀엽다           8
12                  중국산 짝퉁 냄새가 풀풀 그나마 린즈링 때문에 참는다           8
13  잔인하다 근데 그뿐이다 자꾸 코믹요소를 집어넣으려고 하는 의도가 보이는건 무었일까          10


In [79]:
# 전체 토큰 모으기
all_tokens = []
for ts in df["tokens"]:
    # 빈 문자열만 제외 (도메인 불용어는 아직 배우지 않았으므로 생략)
    all_tokens.extend([t for t in ts if t != ""])

# 직접 빈도 세기(딕셔너리)
freq = {}
for w in all_tokens:
    if w in freq:
        freq[w] += 1
    else:
        freq[w] = 1

# 딕셔너리 → (단어, 빈도) 리스트로 변환 후, 빈도 기준 내림차순 정렬
items = list(freq.items())
items.sort(key=lambda x: x[1], reverse=True)

top20 = items[:20]

print("✅ 단어 Top 20 (word, count)")
for w, c in top20:
    print(f"{w:<15} {c}")

✅ 단어 Top 20 (word, count)
영화              17865
너무              8423
정말              7959
진짜              6372
이               5113
왜               3342
더               3295
이런              3274
그냥              3250
수               2878
영화를             2869
잘               2695
다               2661
보고              2636
좀               2524
영화는             2492
영화가             2431
그               2417
본               2320
최고의             2282
