<a href="https://colab.research.google.com/github/smupark/class2025/blob/main/BigData_Text_Analysis_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텍스트 전처리-01
1. 텍스트 정제(Text cleaning)
  - 노이즈 제거
    - 대소문자 통합
    - 불필요한 단어 제거  


2. 불용어(stopwords) 처리
  - 기능어 제거
  - 선택적으로 추가해 조정
  - nltk의 stopwords 사용

3. 정규표현식
  - 불필요한 특수기호, 숫자 등 삭제

## 영어 불용어
- 의미상 별 역할이 없는 기능어 위주로 구성
- nltk의 기본 stopwords 사용
- 기타 추가 정의한 stopwords 사용

In [None]:
# 영어 기능어
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stop_words_list = stopwords.words('english')
print('불용어 개수 :', len(stop_words_list))
print('불용어 10개 출력 :',stop_words_list[:10])

불용어 개수 : 198
불용어 10개 출력 : ['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## 한국어 불용어
- 은, 는, 이, 가 등의 조사, 어미 등
- https://www.ranks.nl/stopwords/korean 참고

- 불용어 제거 함수

```
stopword_list = ['은', '는', '이', '가', '에서', '어요', '으로', '네요', '지만', '에게', '습니다', '는데', '지만', '한다', '다는', '라고', '다고', '라는', '면서', '까지',
                 '입니다', '아니', '보다', '그리고', '합니다', '면서', '아요', '해서', '는다', '해서', '으면', '세요', '처럼', '된다', '나오', '다고', '다는',
                 '으면', '다가', '라고', '라는', '부터', '네요', '없이', '그리고', '려고', '입니다', '아서', '는지', '인데', '어떻게', '에게', '너무']

불용어 제거 함수
def remove_stopwords(words):
    result = []
    for w in words:
        if w not in stopword_list:
            result.append(w)
    return result

```

## 정규표현식
- Regular Expression에 사용하는 기호 설명

| 특수문자 | 설명 | 예시 |
|---|---|---|
 .  |  한 개의 임의의 문자(줄바꿈 문자인 \n는 제외)   |  "a.c” : “abc” or akc” → a와 c 사이에 임의의 문자 가능
 ?  | 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있다. (문자가 0개 또는 1개)  |  ab?c”
 *	| 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있다. (문자가 0개 이상)	|“ab*c” : * 바로 앞의 문자(b)가 존재 X or 여러개 존재 가능 → ac, abc, abbc, ,... 무수히 가능
 +	| 앞의 문자가 최소 한 개 이상 존재 | "ab+c” : + 바로 앞의 문자(b)가 1개 이상 존재 가능 → ac, abc, abbc, ,... 무수히 가능
^	| 뒤의 문자열로 문자열이 시작 |	“^ab” : ab로 시작되는 문자열 → abc, abcd 등
\$	| 앞의 문자열로 문자열이 끝남	|“ab$” : ab로 끝나는 문자열 → cab, dab 등
{숫자} 기호	| 숫자만큼 반복	|"ab{2}c” : a와 c 사이에 b 2개 있는 문자열 → abbc
{숫자1, 숫자2} 기호	|숫자1 이상 숫자2 이하만큼 반복 |?, *, +를 이것으로 대체할 수 있습니다. 	"ab{2,8}c” : a와 c 사이에 b가 2이상 8이하인 문자열
[ ]	| 대괄호 안의 문자들 중 한 개의 문자와 매치 | [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미합니다.	[abc] : a or b or c 만 매치
[^문자]| 	해당 문자를 제외한 문자를 매치합니다 |	"[^abc]” : a or b or c가 아닌 문자열만 매칭
\|	| AlB와 같이 쓰이며 A 또는 B의 의미를 가집니다. |	“a|b” : a or b


### re.split()
- 텍스트 문자열을 분리해 리스트로 변환

In [None]:
import re

# 공백 기준 분리
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text) # 공백 기준 분리




['사과', '딸기', '수박', '메론', '바나나']

In [None]:
# - 기준 분리
text = "사과-딸기-수박-메론-바나나"
re.split("-", text) # - 기준 분리

['사과', '딸기', '수박', '메론', '바나나']

### re.findall()
- 정규표현식과 일치하는 모든 문자열을 리스트로 변환
- 해당사항 없으면 빈 리스트 리턴

|기호|	의미 |
|---|---|
\\|역 슬래쉬 문자 자체를 의미|
\\d| 	모든 숫자를 의미 [0-9]와 의미가 동일|
\D| 	숫자를 제외한 모든 문자를 의미 [^0-9]와 의미가 동일|
\s| 	공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일합니다.
\S| 	공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일합니다.
\w| 	 문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일합니다
\W| 	문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일합니다.

### \d와 \\\d의 차이

- \d is the fundamental regular expression pattern for a digit.
\\d is the way you usually write \d within a Python string to ensure it's interpreted correctly as a regular expression pattern.

```
1. \d
raw string의 의미로 아래처럼 r사용
re.findall(r'\d+', 'My phone number is 123-456-7890')

```

```
2. \\d
re.findall('\\d+', 'My phone number is 123-456-7890')

\d matches a single digit.
\\d? (which is the same as \d? in a raw string) matches zero or one digit due to the ?.
```


In [None]:
# re.findall()
import re
text = """
이름 : 박명수
전화번호 : 010 - 1234 - 1234
나이: 비밀
성별 : 안가르쳐 줌
"""
print(text)
re.findall("\\d+", text) #WWd는 모든 숫자 의미() +는 하나 또는 그 이상의 것
# 마지막 부분은 아래와 동일
# re.findall(r"\d", text)
# 위의 코드에서 괄호 안의 r은 'raw string'의 의미. r을 사용할 경우 \d로 쓰면 됨.


이름 : 박명수
전화번호 : 010 - 1234 - 1234
나이: 비밀 
성별 : 안가르쳐 줌



['010', '1234', '1234']

## 불용어 제거
- nltk 사용

### nltk 불용어 사용


In [None]:
#

import nltk
nltk.download('stopwords')
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example)

result = []
for word in word_tokens:
    if word not in stop_words:
        result.append(word)

print('불용어 제거 전 :',word_tokens)
print('불용어 제거 후 :',result)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
