## 데이터 전처리
### 숫자 데이터
#### 이상치 처리

In [2]:
import numpy as np
import pandas as pd

In [3]:
houses = pd.DataFrame()
houses['price'] = [534565, 496898, 521463, 539514, 9999999]
houses['bedrooms'] = [2, 3.5, 2, 3, 116]
houses['square_feet'] = [1500, 2500, 1500, 2000, 48000]
print(houses)

     price  bedrooms  square_feet
0   534565       2.0         1500
1   496898       3.5         2500
2   521463       2.0         1500
3   539514       3.0         2000
4  9999999     116.0        48000


In [5]:
#bedrooms 이 20 이상 여부를 별도의 특성으로 생성
#이상한 데이터를 무시할 수 없는 경우 별도의 특성으로 생성하기도 합니다.
houses['outlier'] =np. where(houses['bedrooms']< 20, 0, 1)
print(houses)

     price  bedrooms  square_feet  outlier
0   534565       2.0         1500        0
1   496898       3.5         2500        0
2   521463       2.0         1500        0
3   539514       3.0         2000        0
4  9999999     116.0        48000        1


In [7]:
#값의 크기를 줄이기 - 표준화
#값의 편차가 큰 데이터의 영향력이 줄어들게 됩니다.
#sklearn의 Scaler를 이용하기도 하고 로그 특성을 적용하기도 합니다.
houses['Log_Of_Square_Feet']= [np.log(x) for x in houses['square_feet']]
print(houses)

     price  bedrooms  square_feet  outlier  Log_Of_Square_Feet
0   534565       2.0         1500        0            7.313220
1   496898       3.5         2500        0            7.824046
2   521463       2.0         1500        0            7.313220
3   539514       3.0         2000        0            7.600902
4  9999999     116.0        48000        1           10.778956


In [9]:
from sklearn import preprocessing
#Robust Sacler 적용
df = pd.DataFrame(houses['bedrooms'])
#스케일링 : 0 ~1, -1 ~ 1로 만드는 작업
#컬럼끼리 숫자의 크기가 달라서 발생할 수 있는 오류를 제거하기 우히나 수단 중 하나
# 평균이나 최대값 또는 최솟값을 이용하는 방식이 있고 중앙값을 이용하는 방식이 있음
scaler = preprocessing.RobustScaler()
scaler.fit(df)
x_scaled = scaler.transform(df)
houses['scale_bedrooms'] = x_scaled
print(houses)

     price  bedrooms  square_feet  outlier  Log_Of_Square_Feet  scale_bedrooms
0   534565       2.0         1500        0            7.313220       -0.666667
1   496898       3.5         2500        0            7.824046        0.333333
2   521463       2.0         1500        0            7.313220       -0.666667
3   539514       3.0         2000        0            7.600902        0.000000
4  9999999     116.0        48000        1           10.778956       75.333333


## 결측치 확인

In [12]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
# print(titanic.head())
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [17]:
#deck열의 결측치를 isnull함수로 확인
print(titanic['deck'].isnull().head())
print(titanic['deck'].isnull().sum())

0     True
1    False
2     True
3    False
4     True
Name: deck, dtype: bool
688


In [19]:
#value_count() 이용
print(titanic['deck'].value_counts(dropna = False))

deck
NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: count, dtype: int64


### 결측치 처리

In [22]:
#결측치의 경우가 500개 이상인 컬럼 삭제
result1 = titanic.dropna(axis = 1 , thresh = 500)
result1.info() # deck 사라짐!

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 14 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  embark_town  889 non-null    object  
 12  alive        891 non-null    object  
 13  alone        891 non-null    bool    
dtypes: bool(2), category(1), float64(2), int64(4), object(5)
memory usage: 79.4+ KB


In [23]:
# 특정 열의 값이 NaN 인 경우 행을 지우기
result2 = titanic.dropna(subset=['age', 'deck'], axis = 0)
result2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 184 entries, 1 to 889
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     184 non-null    int64   
 1   pclass       184 non-null    int64   
 2   sex          184 non-null    object  
 3   age          184 non-null    float64 
 4   sibsp        184 non-null    int64   
 5   parch        184 non-null    int64   
 6   fare         184 non-null    float64 
 7   embarked     182 non-null    object  
 8   class        184 non-null    category
 9   who          184 non-null    object  
 10  adult_male   184 non-null    bool    
 11  deck         184 non-null    category
 12  embark_town  182 non-null    object  
 13  alive        184 non-null    object  
 14  alone        184 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 18.4+ KB


### 결측값 대체

In [24]:
print(titanic['embark_town'][825:831])

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
830      Cherbourg
Name: embark_town, dtype: object


In [25]:
#결측치를 앞의 값으로 채우기
#embark_town은 배를 탄 도시기 이기 때문에 앞이나 뒤랑 같을 확률이 높다!
result4 = titanic['embark_town'].fillna(method = 'ffill')
print(result4[825:831])

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
830      Cherbourg
Name: embark_town, dtype: object


In [30]:
# 가장 많이 등장한 값으로 채우기
counts = titanic['embark_town'].value_counts()
print(counts)
mode = counts.idxmax()
print(mode)

result5 = titanic['embark_town'].fillna(mode)
print(result5[825:831])

embark_town
Southampton    644
Cherbourg      168
Queenstown      77
Name: count, dtype: int64
Southampton
825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829    Southampton
830      Cherbourg
Name: embark_town, dtype: object


In [31]:
#머신러닝 알고리즘을 이용해서 채우기
#패키지 설치
!pip install fancyimpute


Collecting fancyimpute
  Downloading fancyimpute-0.7.0.tar.gz (25 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting knnimpute>=0.1.0 (from fancyimpute)
  Downloading knnimpute-0.1.0.tar.gz (8.3 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting cvxpy (from fancyimpute)
  Obtaining dependency information for cvxpy from https://files.pythonhosted.org/packages/38/85/5f46779431dd978f62a1f5bd64df05d9a1418cc50d7294e98bf445e31068/cvxpy-1.4.2-cp311-cp311-win_amd64.whl.metadata
  Downloading cvxpy-1.4.2-cp311-cp311-win_amd64.whl.metadata (9.0 kB)
Collecting cvxopt (from fancyimpute)
  Obtaining dependency information for cvxopt from https://files.pythonhosted.org/packages/a3/52/2237d72cf007e6c36367ab8a776388a9f13511e4cfa8a71b79101ad6e0fa/cvxopt-1.3.2-cp311-cp311-win_amd64.whl.metadata
  Downloading cvxopt-1.3.2-cp311-cp311-win_amd64.whl.metadata (1.4 kB)
Collectin

In [36]:
from fancyimpute import KNN
features = np.array([[200, 250],[100, 200],[300, 600],[400, 290],[500, 380],
                    [200, np.nan]])
result6 = KNN(k = 5).fit_transform(features)
print(result6)

Imputing row 1/6 with 0 missing, elapsed time: 0.001
[[200.         250.        ]
 [100.         200.        ]
 [300.         600.        ]
 [400.         290.        ]
 [500.         380.        ]
 [200.         250.00000009]]


### pandas 의 get_dummies 이용

In [38]:
print(titanic['class'].head())

0    Third
1    First
2    Third
3    First
4    Third
Name: class, dtype: category
Categories (3, object): ['First', 'Second', 'Third']


In [39]:
#타이타닉의  class 를 onehot encodig
result7 = pd.get_dummies(titanic['class'])
print(result7.head(10))

   First  Second  Third
0  False   False   True
1   True   False  False
2  False   False   True
3   True   False  False
4  False   False   True
5  False   False   True
6   True   False  False
7  False   False   True
8  False   False   True
9  False    True  False


### scikit - learn 이용하는 방법

In [41]:
#pandas 의 get_dummies와 동일한 작업을 수행
one_hot = preprocessing.LabelBinarizer()

result8 = one_hot.fit_transform(titanic['class'])
print(result8)

[[0 0 1]
 [1 0 0]
 [0 0 1]
 ...
 [0 0 1]
 [1 0 0]
 [0 0 1]]


In [47]:
# 원래 데이터로 복원
print(one_hot.inverse_transform(result8))

['Third' 'First' 'Third' 'First' 'Third' 'Third' 'First' 'Third' 'Third'
 'Second' 'Third' 'First' 'Third' 'Third' 'Third' 'Second' 'Third'
 'Second' 'Third' 'Third' 'Second' 'Second' 'Third' 'First' 'Third'
 'Third' 'Third' 'First' 'Third' 'Third' 'First' 'First' 'Third' 'Second'
 'First' 'First' 'Third' 'Third' 'Third' 'Third' 'Third' 'Second' 'Third'
 'Second' 'Third' 'Third' 'Third' 'Third' 'Third' 'Third' 'Third' 'Third'
 'First' 'Second' 'First' 'First' 'Second' 'Third' 'Second' 'Third'
 'Third' 'First' 'First' 'Third' 'First' 'Third' 'Second' 'Third' 'Third'
 'Third' 'Second' 'Third' 'Second' 'Third' 'Third' 'Third' 'Third' 'Third'
 'Second' 'Third' 'Third' 'Third' 'Third' 'First' 'Second' 'Third' 'Third'
 'Third' 'First' 'Third' 'Third' 'Third' 'First' 'Third' 'Third' 'Third'
 'First' 'First' 'Second' 'Second' 'Third' 'Third' 'First' 'Third' 'Third'
 'Third' 'Third' 'Third' 'Third' 'Third' 'First' 'Third' 'Third' 'Third'
 'Third' 'Third' 'Third' 'Second' 'First' 'Third' 'Second

In [49]:
# 멀티 클래스의 원핫 인코딩
#컬럼의 개수가 일치해야합니다.
# 문자열의 가지고 거리 계산을 할 때 가장 먼저 할 일 중 하나가 컬럼의 수를 맞추는 것
m_features = [('Jave', 'C++'), ('C++', 'Python'), ('C#','JavaScript'),
             ('Jave', 'R'),('Python', 'Scala'),('Golang', 'Python')]

one_hot_multi = preprocessing.MultiLabelBinarizer()
# 여러 컬럼 걸쳐 나온느 모든 경우를 각각의 컬럼으로 생성해서 원핫 인코딩
result9 = one_hot_multi.fit_transform(m_features)
print(result9)

#각각의 컬럼이 의미하는 바 - classes_또는 categories_
print(one_hot_multi.classes_)

[[0 1 0 0 1 0 0 0]
 [0 1 0 0 0 1 0 0]
 [1 0 0 1 0 0 0 0]
 [0 0 0 0 1 0 1 0]
 [0 0 0 0 0 1 0 1]
 [0 0 1 0 0 1 0 0]]
['C#' 'C++' 'Golang' 'JavaScript' 'Jave' 'Python' 'R' 'Scala']


### 일렬번호 형태로 인코딩

In [50]:
encoder = preprocessing.LabelEncoder()
result10 = encoder.fit_transform(titanic['class'])
print(result10)

[2 0 2 0 2 2 0 2 2 1 2 0 2 2 2 1 2 1 2 2 1 1 2 0 2 2 2 0 2 2 0 0 2 1 0 0 2
 2 2 2 2 1 2 1 2 2 2 2 2 2 2 2 0 1 0 0 1 2 1 2 2 0 0 2 0 2 1 2 2 2 1 2 1 2
 2 2 2 2 1 2 2 2 2 0 1 2 2 2 0 2 2 2 0 2 2 2 0 0 1 1 2 2 0 2 2 2 2 2 2 2 0
 2 2 2 2 2 2 1 0 2 1 2 1 1 0 2 2 2 2 2 2 2 2 1 1 1 0 0 2 0 2 2 2 2 1 1 2 2
 1 1 1 0 2 2 2 0 2 2 2 2 2 1 2 2 2 2 0 2 0 2 0 2 2 2 0 2 2 0 1 2 2 1 2 1 2
 0 2 0 2 2 1 1 2 1 0 0 2 2 2 1 2 2 2 2 2 2 2 2 2 0 2 1 2 1 2 0 2 1 0 1 2 1
 2 2 0 2 1 2 1 2 0 2 1 2 1 2 1 1 1 1 2 2 1 2 2 0 2 1 0 1 2 2 0 2 2 2 0 0 0
 1 2 2 0 0 2 1 2 2 0 0 0 2 1 0 2 0 2 1 2 2 2 2 2 2 0 2 2 2 1 2 0 0 1 2 2 0
 2 0 0 0 2 2 2 1 2 0 0 0 1 0 0 0 1 2 1 2 1 1 0 0 2 2 1 1 2 0 2 1 2 0 2 0 0
 2 0 2 0 0 2 0 1 0 1 1 1 1 1 2 2 2 2 0 2 2 2 2 0 1 2 2 2 1 2 2 2 2 0 2 2 0
 0 2 2 0 2 0 2 0 2 2 0 2 2 0 2 1 2 1 2 1 0 2 2 0 2 2 2 1 1 1 2 2 2 2 2 1 2
 1 2 2 2 2 0 1 2 2 1 1 1 2 2 2 2 2 2 2 1 1 2 2 0 2 1 2 0 0 2 1 0 1 1 2 2 1
 2 0 1 0 2 0 1 2 0 0 2 2 0 0 1 2 0 2 0 1 2 2 1 0 2 2 2 2 1 1 2 0 1 2 2 2 2
 1 2 2 0 2 0 0 2 2 2 2 0 

### 특정한 순서대로 인코딩

In [63]:
df = pd.DataFrame({'score' : ['저조', '보통','우수']})
#데이터를 오름차순 정렬해서 인코딩
encoder = preprocessing.LabelEncoder()
result11 = encoder.fit_transform(df['score'])
print(result11)

# 저조에 0 보통은1, 우수는 2로 할당
mapper = {'저조' :0, '보통' : 1, '우수': 2}
result12 = df['score'].replace(mapper)
print(result12)

[2 0 1]
0    0
1    1
2    2
Name: score, dtype: int64


In [61]:
data = '아침'
#아침이면 1, 점심이면 2, 저녁이면 3

mapper = {'아침':1, '점심':2, '저녁':3}
print(mapper[data])

1


### ordinalEncoder

In [56]:
#데이터를 정렬해서 인코딩 - 숫자도 문자열로 변경해서 정렬
#대소문자 구별하지 않고 인코딩 되도록 변경
features = np.array([['Low', 10], ['HIGH' , 30], ['MEDIUM', 50]])
encoder = preprocessing.OrdinalEncoder()
print(encoder.fit_transform(features))

[[1. 0.]
 [0. 1.]
 [2. 2.]]


### 누락된 데이터 대체 - KNN

In [66]:
from sklearn.neighbors import KNeighborsClassifier

#첫번째 열이 범주이고 나머지 2개는 숫자 데이터

X = np.array([[0, 2.10, 1.45], [1, 1.10, 0.45], [0, 2.38, 0.97],
             [1, 0.10, 0.65]])

#실제로 누락된 데이터
#데이터의 값을 예측해서 채워 넣음
X_with_nan = np.array([[np.nan, 2.0, 1.1], [np.nan, 0.98, 0.55]])

#모델 생성
#가까운거 3개를 찾아서 예측
clf = KNeighborsClassifier(3, weights = 'distance')
#뒤에 있는 2개를 데이터(피처)를 가지고 맨 앞으로 데이터(타겟)예측
trained_model = clf.fit(X[:, 1:], X[:, 0])
imputed_values = trained_model.predict(X_with_nan[:, 1:])
print(imputed_values)




[0. 1.]


In [67]:
#머신러닝 결과로 나온 예측값과 피펴를 좌우로 결합
X_with_impute = np.hstack((imputed_values.reshape(-1, 1), X_with_nan[: ,1:]))
print(X_with_impute)

[[0.   2.   1.1 ]
 [1.   0.98 0.55]]


In [68]:
#결측기가 없는 데이터와 결측치를 채운 데이터를 상하로 결합
print(np.vstack((X,X_with_impute)))

[[0.   2.1  1.45]
 [1.   1.1  0.45]
 [0.   2.38 0.97]
 [1.   0.1  0.65]
 [0.   2.   1.1 ]
 [1.   0.98 0.55]]


## 불균형한 데이터 다루기

In [4]:
#분류기에 가중치를 부여 - class_weight 라는 옵션을 이용
from sklearn.ensemble import RandomForestClassifier
help(RandomForestClassifier)


Help on class RandomForestClassifier in module sklearn.ensemble._forest:

class RandomForestClassifier(ForestClassifier)
 |  RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='sqrt', max_leaf_nodes=None, min_impurity_decrease=0.0, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None)
 |  
 |  A random forest classifier.
 |  
 |  A random forest is a meta estimator that fits a number of decision tree
 |  classifiers on various sub-samples of the dataset and uses averaging to
 |  improve the predictive accuracy and control over-fitting.
 |  The sub-sample size is controlled with the `max_samples` parameter if
 |  `bootstrap=True` (default), otherwise the whole dataset is used to build
 |  each tree.
 |  
 |  For a comparison between tree-based ensemble models see the example
 |  :ref:`sp

In [11]:
list1 = []
for i in range(0, 10) :
    list1.append(0)
    
list2 = []
for i in range(0, 90) :
    list2.append(1)
    
target = np.array(list1+ list2)
# print(target)

#샘플 개수 확인
iclass0 = np.where(target == 0)[0]
iclass1 = np.where(target == 1)[0]

print(len(iclass0))
print(len(iclass1))

#동일한 데이터를 추출
np.random.seed(42)

#다운 샘플링
#비복원 추출(데이터를 하나 꺼내고 다시 넣지 않은 상태에서 다음 샘플링)을 이용해서 샘플링
# 1인 데이터에서 0인 데이터의 개수만큼 추출
iclass1_downsample = np.random.choice(iclass1, size = len(iclass0), replace = False) # repalce가 F 비복원 추출
print(iclass1_downsample)

# 업 샘플링 : 비율이 작은 데이터의 개수를 늘려서 사용
# 단순한 복제는 잘 사용하지 않음
# 랜덤하게 샘플링 - 복원 추출 이용
iclass0_upsample = np.random.choice(iclass0, size = len(iclass1), replace = True)
print(iclass0_upsample)

10
90
[50 32 65 80 10 36 49 75 20 54]
[7 0 7 7 2 0 7 2 2 0 4 9 6 9 8 6 8 7 1 0 6 6 7 4 2 7 5 2 0 2 4 2 0 4 9 6 6
 8 9 9 2 6 0 3 3 4 6 6 3 6 2 5 1 9 8 4 5 3 9 6 8 6 0 0 8 8 3 8 2 6 5 7 8 4
 0 2 9 7 5 7 8 3 0 0 9 3 6 1 2 0]


## 텍스트 데이터

### 문자열 클래스의 메서드를 이용한 정제

In [12]:
text_data = ['   Hello Python', 'And Sorry I could no      ', 'And be one, long']
#위의 문자열에서 좌우 공백을 제거
result = [string.strip() for string in text_data]
print(result)

# , 제거 
result = [string.replace(',', '') for string in result]
print(result)

# 모두 대문자로 변경
result = [string.upper() for string in result]
print(result)

['Hello Python', 'And Sorry I could no', 'And be one, long']
['Hello Python', 'And Sorry I could no', 'And be one long']
['HELLO PYTHON', 'AND SORRY I COULD NO', 'AND BE ONE LONG']


### 정규식 객체 사용

In [15]:
import re

match = re.match('[0-9]', '안녕하세요 반갑습니다')
print(match)

match = re.match('[0-9]', '안녕하세요 3번째 만남입니다.')
print(match)

match = re.match('[0-9]','1234')
print(match)

#맨앞이 공백이라서 숫자로 시작하지 않는다고 판단
match = re.match('[0-9]','   1234')
print(match)

#\s가 공백문자 - 공백문자로 시작하고 다음에 숫자가 등장
match = re.match('\s[0-9]','   1234')
print(match)

None
None
<re.Match object; span=(0, 1), match='1'>
None
None


In [24]:
string = '''
안녕하세요
반갑습니다
환영합니다
(kimga1014@naver.com)
'''
print(string)


안녕하세요
반갑습니다
환영합니다
(kimga1014@naver.com)



In [25]:
#영화 감상평이나 줄거리 등을 가져올 때 이 작업을 통해서 Enter를 제거
result = re.sub('\n', '', string)
print(result)

#이메일 제거
result1 = re.sub("\([a-zA-Z0-9\._+]+@[a-zA-Z]+\.(com|co.kr)\)", "", result)
print(result1)

안녕하세요반갑습니다환영합니다(kimga1014@naver.com)
안녕하세요반갑습니다환영합니다


### 특수 문장와 숫자 제거

In [28]:
string = '서울의 집값이 올해 들어 3.2% 증가했습니다. !!!C&C++ C#'

# 숫자 제거
# 숫자에 해당하는 정규식 객체를 생성
p = re.compile('[0-9]+')
result = p.sub("", string)
print(result)

#단어 이외의 문자를 제거
p = re.compile('\W+')
result = p.sub(" ", result)
print(result)

# 단어 이외의 문자를 제거할 때 의미 있는 단어에서 제거하는 경우가 있습니다.

서울의 집값이 올해 들어 .% 증가했습니다. !!!C&C++ C#
서울의 집값이 올해 들어 증가했습니다 C C C 


## nltk 패키지 설치

In [29]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

### 토큰화

In [31]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize

string ='The science og today is the technology of tommrow. Tommrow is today.'
#마침표를 기준으로 문장을 분할
print(sent_tokenize(string))

#공백을 기준으로 분할
print(word_tokenize(string))

#문자열 함수를 이용해서 수행
print(string.split('.'))
print(string.split())



['The science og today is the technology of tommrow.', 'Tommrow is today.']
['The', 'science', 'og', 'today', 'is', 'the', 'technology', 'of', 'tommrow', '.', 'Tommrow', 'is', 'today', '.']
['The science og today is the technology of tommrow', ' Tommrow is today', '']
['The', 'science', 'og', 'today', 'is', 'the', 'technology', 'of', 'tommrow.', 'Tommrow', 'is', 'today.']


## 불용어 제거

In [32]:
#불용어 사전
stopwords = ['설날' ,'구정']

#불용어를 제거할 단어의 list
words = ['설날', '공지 사항','택배', '운영 안함', '이점' ,'유의', '구정', '새해 복 많이']

#words 에서 stopwords를 제외한 단어의 list 만들기
result = [i for i in words if i not in stopwords]
print(result)

['공지 사항', '택배', '운영 안함', '이점', '유의', '새해 복 많이']


In [33]:
#영어도 방법은 동일한데 영문은 기본적인 사전을 제공
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS
words = ['hi','nice','to','meet','you','how','was','the','last','year','going','?','I','am','happy','to','hear','that']
result = [w for w in words if w not in ENGLISH_STOP_WORDS]
print(result)

['hi', 'nice', 'meet', 'year', 'going', '?', 'I', 'happy', 'hear']


### 어간 추출

In [38]:
string = 'I have to presentation to present our idea'

#단어 단위로 토큰화
words = word_tokenize(string)
print(words)

#어간 추출
from nltk.stem import PorterStemmer

#스티머 객체 생성
ps_stemmer = PorterStemmer()
for w in words :
    print(ps_stemmer.stem(w), end = ' ')
print()


#스티머 객체 생성
from nltk.stem import LancasterStemmer

ls_stemmer = LancasterStemmer()
for w in words :
    print(ls_stemmer.stem(w), end = ' ')

['I', 'have', 'to', 'presentation', 'to', 'present', 'our', 'idea']
i have to present to present our idea 
i hav to pres to pres our ide 

## 문장을 수치화

In [41]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [51]:
from nltk import pos_tag
# 텍스트 생성
tweets = ['I an eating a burrito for breakfast',
         'San Francisco is an awesome city']
#품사를 저장할 list
tagged_tweets = []
words_tweets = []

for tweet in tweets :
    #형태소 분석 - 각 단어의 품사를 가져오는 것
    tweet_tag = nltk.pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for (word, tag) in tweet_tag])
    words_tweets.append([word for (word, tag) in tweet_tag])
    
# 문장을 수치화 - 원핫인코딩 : 문장을 하나로 보고 수행
out_hot_multi = preprocessing.MultiLabelBinarizer()
print(one_hot_multi.fit_transform(words_tweets))
print(one_hot_multi.classes_)

NameError: name 'preprocessing' is not defined