# 반복문 이해하기

In [None]:
#데이터 불러오기
import pandas as pd
df_new = pd.read_csv(
    "./data/appreply2_보충.csv", 
    index_col=0
)
df_new

In [None]:
# 목표: 데이터프레임을 단어 리스트로 만드는 것
# ['단어1', '단어2', '단어1', '단어3', ...]

# 0. 빈 리스트를 만든다. word_list, stopwords
# 1. 데이터프레임에서 text 값을 하나씩 뽑는다. -> 문장 sent
# 2. sent에서 필요없는 문자(특수문자, 이모지 등)를 없앤다. (패턴: [^0-9a-zA-Z가-힣\s]) -> clean sent
# 3. 형태소 분석기로 문장을 단어 리스트로 뽑는다.(조건: Noun, 단어길이가 1보다 큰것, stopwords에 없는것) -> result
## 3-1. (단어, 품사) 쌍의 리스트로 결과를 출력한다.
## 3-2. 하나씩 뽑아서 품사가 Noun인지 확인한다.(반복)
## 3-3. word가 stopwords에 있으면 건너뛴다.
## 3-4. 품사가 Noun이고 word 길이가 1보다 큰 것을 sub list에 담는다. 
# 4. word_list에 조건에 따라 추출한 result 요소들을 추가한다. 

#### (1) 데이터프레임에서 반복문을 사용하여 text 열 안의 데이터를 하나씩 프린트해주세요. 
하나씩 뽑은 값은 sent에 넣는다.


In [None]:
# text 열을 준비한다. 
df_new["text"]

In [None]:
# 반복문
for sent in df_new["text"]:
    print(sent)
    print("="*100)

#### (2) sent에서 필요없는 문자(특수문자, 이모지 등)를 없앤 후, clean sent 변수에 넣는다.

##### 정규표현식이란?

In [None]:
import re 

text = "오늘!!!!!!!       ㄴㄴㄴㄴㄴㄴ너무 ㅓㅑㅏㄴ 추워어어 very cold VERY COLD 010-0000-0040 ^^ ㅎㅇㅎㅇ"

# re.sub(패턴, 대체할값, 대상): 대상에서 "패턴"을 파악한후 그 값을 "대체할 값"으로 바꾼다.
# 패턴: "[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣\s]" : 숫자, 영어 소문자, 영어 대문자, 자음, 모음, 한글, 띄어쓰기가 아닌 것
new_text = re.sub("[^0-9]", "", text) # 숫자빼고 다 없애주세요
new_text = re.sub("[^0-9가-힣]", "", text) # 숫자,한글글자 빼고 다 없애주세요
print(new_text)

In [None]:
# 반복문
# 패턴: [^0-9가-힣a-zA-Z\s]
for sent in df_new["text"]:
    # 리뷰 텍스트 전처리
    clean_sent = re.sub("[^0-9가-힣a-zA-Z\s]", "", sent)
    print(f"[ORIGINAL] {sent}")
    print(f"[CLEAN] {clean_sent}")
    print("="*100)

#### (3) clean sent를 형태소 분석기로 토크나이징한 후, result에 담고 조건에 맞는 단어들만 sub_list에 취합한다.

##### 형태소 분석기 사용법(Okt)

In [None]:
from konlpy.tag import Okt 

okt = Okt()

In [None]:
text = "안녕하세요. 파이썬입니다."
result_morphs = okt.morphs(text) # 단어만 추출
print(result_morphs)
result_pos = okt.pos(text) # (단어, 품사)
print(result_pos)

##### 3-1. (단어, 품사) 쌍의 리스트로 결과를 출력한다.

In [None]:
# 반복문
# 패턴: [^0-9가-힣a-zA-Z\s]
for sent in df_new["text"]:
    # 리뷰 텍스트 전처리
    clean_sent = re.sub("[^0-9가-힣a-zA-Z\s]", "", sent)
    # 토크나이징(형태소 분석기: Okt)
    result = okt.pos(clean_sent)
    # print(f"[ORIGINAL] {sent}")
    print(f"[CLEAN] {clean_sent}")
    print(f"[TOKENIZING] {result}") # 반복문으로 하나씩 확인해야 한다.
    print("="*100)

##### 3-2. 하나씩 뽑아서 품사가 Noun인지 확인한다.(반복)

In [None]:
# 반복문
# 패턴: [^0-9가-힣a-zA-Z\s]
for sent in df_new["text"]:
    # 리뷰 텍스트 전처리
    clean_sent = re.sub("[^0-9가-힣a-zA-Z\s]", "", sent)
    # 토크나이징(형태소 분석기: Okt)
    result = okt.pos(clean_sent)
    # result를 하나씩 뽑는다. 
    for res in result:
        word = res[0]
        pos = res[1]
        print(f"[RES] {res} [WORD] {word} [POS] {pos}")
    # print(f"[ORIGINAL] {sent}")
    # print(f"[CLEAN] {clean_sent}")
    # print(f"[TOKENIZING] {result}") # 반복문으로 하나씩 확인해야 한다.\
    print("="*100)

##### 3-3. word가 stopwords에 있으면 건너뛴다.

In [None]:
# 반복문
stopwords = ["진짜", "카톡", "로그인"]

# 패턴: [^0-9가-힣a-zA-Z\s]
for sent in df_new["text"]:
    # 리뷰 텍스트 전처리
    clean_sent = re.sub("[^0-9가-힣a-zA-Z\s]", "", sent)
    # 토크나이징(형태소 분석기: Okt)
    result = okt.pos(clean_sent)
    # result를 하나씩 뽑는다. 
    for res in result:
        word = res[0]
        pos = res[1]
        # word가 stopwords에 있으면 건너뛰기
        if word in stopwords:
            print("건너뛰어!", res)
            continue
        print(f"[RES] {res} [WORD] {word} [POS] {pos}")
    # print(f"[ORIGINAL] {sent}")
    # print(f"[CLEAN] {clean_sent}")
    # print(f"[TOKENIZING] {result}") # 반복문으로 하나씩 확인해야 한다.\
    print("="*100)

##### 3-4. 품사가 Noun이고 word 길이가 1보다 큰 것을 sub list에 담는다. 

In [None]:
# 반복문
stopwords = ["진짜", "카톡", "로그인"]

# 패턴: [^0-9가-힣a-zA-Z\s]
for sent in df_new["text"]: # sent: 문장
    print("STEP1. 문장을 전처리합니다.")
    # 리뷰 텍스트 전처리
    clean_sent = re.sub("[^0-9가-힣a-zA-Z\s]", "", sent)
    print("STEP2. 문장을 형태소분석기로 토크나이징합니다.")
    # 토크나이징(형태소 분석기: Okt)
    result = okt.pos(clean_sent)
    # result를 하나씩 뽑는다. 
    print("STEP3. 새로운 리스트를 만듭니다.")
    sub_list = []
    print("\t탐색을 시작합니다.")
    for res in result: # res : (단어, 품사)
        word = res[0]
        pos = res[1]
        # word가 stopwords에 있으면 건너뛰기
        if word in stopwords:
            print("\t건너뛰어!", res)
            continue

        # sub_list 만들기: 조건 pos == "Noun" and len(word) > 1
        if pos == "Noun" and len(word) > 1:
            sub_list.append(word)
        # print(f"[RES] {res} [WORD] {word} [POS] {pos}")
    print("\t탐색을 종료합니다.")
    print(f"[SUB LIST] {sub_list}")
    # print(f"[ORIGINAL] {sent}")
    # print(f"[CLEAN] {clean_sent}")
    # print(f"[TOKENIZING] {result}") # 반복문으로 하나씩 확인해야 한다.\
    print("="*100)

#### (4). word_list에 조건에 따라 추출한 result 요소들을 추가한다. 

In [None]:
# 반복문
word_list = []
stopwords = ["진짜", "카톡", "로그인"]

# 패턴: [^0-9가-힣a-zA-Z\s]
for sent in df_new["text"]: # sent: 문장
    print("STEP1. 문장을 전처리합니다.")
    # 리뷰 텍스트 전처리
    clean_sent = re.sub("[^0-9가-힣a-zA-Z\s]", "", sent)
    print("STEP2. 문장을 형태소분석기로 토크나이징합니다.")
    # 토크나이징(형태소 분석기: Okt)
    result = okt.pos(clean_sent)
    # result를 하나씩 뽑는다. 
    print("STEP3. 새로운 리스트를 만듭니다.")
    sub_list = []
    print("\t탐색을 시작합니다.")
    for res in result: # res : (단어, 품사)
        word = res[0]
        pos = res[1]
        # word가 stopwords에 있으면 건너뛰기
        if word in stopwords:
            print("\t건너뛰어!", res)
            continue

        # sub_list 만들기: 조건 pos == "Noun" and len(word) > 1
        if pos == "Noun" and len(word) > 1:
            sub_list.append(word)
        # print(f"[RES] {res} [WORD] {word} [POS] {pos}")
    print("\t탐색을 종료합니다.")
    print(f"[SUB LIST] {sub_list}")
    # print(f"[ORIGINAL] {sent}")
    # print(f"[CLEAN] {clean_sent}")
    # print(f"[TOKENIZING] {result}") # 반복문으로 하나씩 확인해야 한다.
    print(f"STEP4. word_list에 sub_list를 추가합니다.")
    word_list.extend(sub_list)
    print(f"\t[WORD LIST] {word_list}")
    print("="*100)

In [None]:
# 반복문
word_list = []
stopwords = ["진짜", "카톡", "로그인"]

# 패턴: [^0-9가-힣a-zA-Z\s]
for sent in df_new["text"]: # sent: 문장
    print("STEP1. 문장을 전처리합니다.")
    # 리뷰 텍스트 전처리
    clean_sent = re.sub("[^0-9가-힣a-zA-Z\s]", "", sent)
    print("STEP2. 문장을 형태소분석기로 토크나이징합니다.")
    # 토크나이징(형태소 분석기: Okt)
    result = okt.pos(clean_sent)
    # result를 하나씩 뽑는다. 
    print("STEP3. 새로운 리스트를 만듭니다.")
    sub_list = []
    print("\t탐색을 시작합니다.")
    for res in result: # res : (단어, 품사)
        word = res[0]
        pos = res[1]
        # word가 stopwords에 있으면 건너뛰기
        if word in stopwords:
            print("\t건너뛰어!", res)
            continue

        # sub_list 만들기: 조건 pos == "Noun" and len(word) > 1
        if pos == "Noun" and len(word) > 1:
            sub_list.append(word)
        # print(f"[RES] {res} [WORD] {word} [POS] {pos}")
    print("\t탐색을 종료합니다.")
    print(f"[SUB LIST] {sub_list}")
    # print(f"[ORIGINAL] {sent}")
    # print(f"[CLEAN] {clean_sent}")
    # print(f"[TOKENIZING] {result}") # 반복문으로 하나씩 확인해야 한다.
    print(f"STEP4. word_list에 sub_list를 추가합니다.")
    word_list.append(sub_list)
    print(f"\t[WORD LIST] {word_list}")
    print("="*100)