## 데이터 정제 실습 1

### 활용 데이터: sample.csv

### 실습 개요
이 실습에서는 Google Colab에 CSV 파일을 마운트 하고, Pandas 라이브러리를 사용하여 파일을 읽은 다음, 특정 컬럼의 데이터를 분석합니다. 구체적으로, 'en'과 'ko' 라는 두 개의 컬럼에 대해 각각 띄어쓰기로 분할하여 단어의 수를 세고, 이 정보를 새로운 컬럼에 저장합니다.
  
  
### 실습 절차
1. CSV 파일 마운트: Google Colab에 CSV 파일을 업로드합니다.
2. 데이터 읽기: Pandas를 사용하여 CSV 파일을 읽고 DataFrame으로 변환합니다.
3. 데이터 처리:
- 'en'과 'ko' 컬럼의 데이터를 띄어쓰기 단위로 분할합니다.
- 각 행에 대해 영어와 한국어 단어의 개수를 세고, 이를 새로운 컬럼에 저장합니다.
4. en 칼럼에 대해 길이가 긴 순서대로 DataFrame을 재 정렬합니다.
5. 해당 DataFrame을 csv형식으로 저장합니다.

In [None]:
## 실습 할 텍스트 구글 드라이브에 import
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd

In [None]:
data = pd.read_csv("/content/drive/MyDrive/NLP정답/1-4/sample.csv")

In [None]:
data.head(2)

Unnamed: 0,en,ko
0,"Among the suppressor mutants, NAFM733 produced...","억제 돌연변이 중 NAFM733은 0.1mg/ml로 γPGA를 생성했는데, 이는 다..."
1,"The concentrations of total alkalinity, total ...","총 알칼리도, 총 암모늄, tVFA와 pH의 농도는 모넨신 사료를 투여한 젖소의 거..."


In [None]:
data['en_count'] = data['en'].apply(lambda x:len(x.split()))
data['ko_count'] = data['ko'].apply(lambda x:len(x.split()))

In [None]:
data = data.sort_values(by='en_count', ascending=False)

In [None]:
data.to_csv('result1.csv', index=False)

## 데이터 정제 실습 2

### 활용 데이터: sample.json

### 실습 개요
이 실습에서는 Google Colab에 json 파일을 마운트 하고, Json데이터를 Pandas 라이브러리를 사용하여 데이터 프레임으로 변환한 다음, 전처리를 진행한 후 특정 컬럼의 데이터를 분석합니다. 구체적으로, 이메일 주소와 특수기호가 텍스트에 포함되어있을 경우 이를 제거한 다음, 'en'과 'ko' 라는 두 개의 컬럼에 대해 각각 띄어쓰기로 분할하여 단어의 수를 세고, 이 정보를 새로운 컬럼에 저장합니다.

### 실습 절차
1. CSV 파일 마운트: Google Colab에 json 파일을 업로드합니다.
2. 데이터 읽기: Pandas를 사용하여 json파일을 DataFrame으로 변환합니다.
3. 데이터 처리:
- 'en'과 'ko' 컬럼의 데이터에 이메일 주소와 특수기호가 포함되어있을 경우 제거합니다.
- 'en'과 'ko' 컬럼의 데이터를 띄어쓰기 단위로 분할합니다.
- 각 행에 대해 영어와 한국어 단어의 개수를 세고, 이를 새로운 컬럼에 저장합니다.
4. en 칼럼에 대해 길이가 긴 순서대로 DataFrame을 재 정렬합니다.
5. 해당 데이터 파일을 csv로 저장합니다.

In [None]:
import json
import re

In [None]:
with open("/content/drive/MyDrive/NLP정답/1-4/sample.json") as f:
  data = json.load(f)

In [None]:
data = data['data']

In [None]:
df = pd.DataFrame(data)

In [None]:
df.head(2)

Unnamed: 0,sn,data_set,domain,subdomain,en_original,en,ko,source_language,target_language,word_count_ko,word_count_en,word_ratio,file_name,source,license,style,included_unknown_words,mt
0,EREIAP050413203205155,전문분야(식품),연구평가정보,농산물,"Among the suppressor mutants, NAFM733 produced...","!@#!@#!@#!@#Among the suppressor mutants, NAFM...",!@#!@#!@#!@#억제 돌연변이 중 NAFM733은 0.1mg/ml로 γPGA를...,en,ko,15,21,0.714,EPJ1_arg5.xlsx,ASM,open,문어체,False,
1,EGTIF050413153612159,전문분야(식품),글로벌동향정보,식품일반,"The concentrations of total alkalinity, total ...","The concentrations of total alkalinity, total ...","총 알칼리도, 총 암모늄, tVFA와 pH의 농도는 !@#@$모넨신 사료를 투여한 ...",en,ko,13,23,0.565,GDJ3_genfd1.xlsx,ASM,open,문어체,False,"총 알칼리도, 총 암모늄 및 tVFA의 농도와 pH는 모넨신 사료를 투여한 젖소의 ..."


In [None]:
df['en'] = df['en'].apply(lambda x: re.sub('[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+', '', x))
df['ko'] = df['ko'].apply(lambda x: re.sub('[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+', '', x))

In [None]:
df.head(1)

Unnamed: 0,sn,data_set,domain,subdomain,en_original,en,ko,source_language,target_language,word_count_ko,word_count_en,word_ratio,file_name,source,license,style,included_unknown_words,mt
0,EREIAP050413203205155,전문분야(식품),연구평가정보,농산물,"Among the suppressor mutants, NAFM733 produced...","!@#!@#!@#!@#Among the suppressor mutants, NAFM...",!@#!@#!@#!@#억제 돌연변이 중 NAFM733은 0.1mg/ml로 γPGA를...,en,ko,15,21,0.714,EPJ1_arg5.xlsx,ASM,open,문어체,False,


In [None]:
df['en'] = df['en'].apply(lambda x: re.sub(r'[^가-힣A-Za-z0-9]', ' ', x))
df['ko'] = df['ko'].apply(lambda x: re.sub(r'[^가-힣A-Za-z0-9]', ' ', x))

In [None]:
df.head(1)

Unnamed: 0,sn,data_set,domain,subdomain,en_original,en,ko,source_language,target_language,word_count_ko,word_count_en,word_ratio,file_name,source,license,style,included_unknown_words,mt
0,EREIAP050413203205155,전문분야(식품),연구평가정보,농산물,"Among the suppressor mutants, NAFM733 produced...",Among the suppressor mutants NAFM...,억제 돌연변이 중 NAFM733은 0 1mg ml로 PGA를...,en,ko,15,21,0.714,EPJ1_arg5.xlsx,ASM,open,문어체,False,


In [None]:
df.to_csv('result2.csv', index=False)