In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

In [4]:
raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'],
            'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'],
            'age': [42, np.nan, 36, 24, 73], 
            'sex': ['m', np.nan, 'f', 'm', 'f'], 
            'preTestScore': [4, np.nan, np.nan, 2, 3],
            'postTestScore': [25, np.nan, np.nan, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])
df 

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [6]:
# sum 함수로 True인 경우 모두 더하고 전체 데이터 개수로 나누어 열별 데이터 결측치 비율을 구함
df.isnull().sum() / len(df)

first_name       0.2
last_name        0.2
age              0.2
sex              0.2
preTestScore     0.4
postTestScore    0.4
dtype: float64

In [7]:
df.dropna()

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [8]:
# 매개변수 how로 조건에 따라 결측치를 지움
# how에는 매개변수 ‘all’과 ‘any’ 사용
# ‘all’은 행에 있는 모든 값이 NaN일 때 해당 행을 삭제
# ‘any’는 하나의 NaN만 있어도 삭제
# dropna의 기본 설정은 ‘any’라서 모든 결측치를 지움
df_cleaned = df.dropna(how='all')
df_cleaned

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [10]:
df['location'] = np.nan
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [11]:
df.dropna(axis=1, how='all')

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [12]:
# 매개변수 threshfh 데이터의 개수를 기준으로 삭제
# thresh=1 지정하면 데이터가 한 개라도 존재하는 행은 남김
df.dropna(axis=0, thresh=1)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [13]:
# thresh=5 지정하면 데이터가 다섯 개 이상 있어야 남김
df.dropna(thresh=5)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [14]:
df.fillna(0)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,0.0
1,0,0,0.0,0,0.0,0.0,0.0
2,Tina,Ali,36.0,f,0.0,0.0,0.0
3,Jake,Milner,24.0,m,2.0,62.0,0.0
4,Amy,Cooze,73.0,f,3.0,70.0,0.0


In [15]:
df["preTestScore"].fillna(df["preTestScore"].mean(), inplace=True)
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [16]:
df.groupby("sex")[
   "postTestScore"].transform(
   "mean")

0    43.5
1     NaN
2    70.0
3    43.5
4    70.0
Name: postTestScore, dtype: float64

In [17]:
# fillna 함수 안에 transform을 사용하여 인덱스를 기반으로 채울 수 있음
df["postTestScore"].fillna(df.groupby("sex")["postTestScore"].transform("mean"), inplace=True)
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,70.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


## 원-핫 인코딩

In [18]:
# 원핫인코딩을 적용하려면 판다스에서 제공하는 get_dummies 함수를 이용
# 사이킷런(scikit-learn)에서 제공하는 LabelEncoder나 OneHotEncoder를 이용
edges = pd.DataFrame({'source': [0, 1, 2], 'target': [2, 2, 3], 'weight': [3, 4, 5], 'color': ['red', 'blue', 'blue']})
edges

Unnamed: 0,source,target,weight,color
0,0,2,3,red
1,1,2,4,blue
2,2,3,5,blue


In [19]:
edges.dtypes

source     int64
target     int64
weight     int64
color     object
dtype: object

In [20]:
pd.get_dummies(edges)

Unnamed: 0,source,target,weight,color_blue,color_red
0,0,2,3,False,True
1,1,2,4,True,False
2,2,3,5,True,False


In [32]:
#  "color" 열의 원소 하나하나를 각각 따로 처리
pd.get_dummies(edges["color"])

Unnamed: 0,blue,red
0,False,True
1,True,False
2,True,False


In [33]:
# "color" 열 전체를 하나의 시리즈로 다루어 해당 시리즈를 원-핫 인코딩
pd.get_dummies(edges[["color"]])

Unnamed: 0,color_blue,color_red
0,False,True
1,True,False
2,True,False


In [31]:
edges

Unnamed: 0,source,target,weight,color,weight_sign
0,0,2,3,red,M
1,1,2,4,blue,L
2,2,3,5,blue,XL


In [23]:
weight_dict = {3:"M", 4:"L", 5:"XL"}
edges["weight_sign"] = edges["weight"].map(weight_dict)
weight_sign = pd.get_dummies(edges["weight_sign"])
weight_sign

Unnamed: 0,L,M,XL
0,False,True,False
1,True,False,False
2,False,False,True


In [24]:
pd.concat([edges, weight_sign], axis=1)

Unnamed: 0,source,target,weight,color,weight_sign,L,M,XL
0,0,2,3,red,M,False,True,False
1,1,2,4,blue,L,True,False,False
2,2,3,5,blue,XL,False,False,True


## 바인딩(Binding)

In [25]:
# 바인딩(binding) : 연속형 데이터를 범주형 데이터로 변환
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
        'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
        'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'],
        'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}

df = pd.DataFrame(raw_data, columns = ['regiment', 'company', 'name', 'preTestScore', 'postTestScore'])
df 

Unnamed: 0,regiment,company,name,preTestScore,postTestScore
0,Nighthawks,1st,Miller,4,25
1,Nighthawks,1st,Jacobson,24,94
2,Nighthawks,2nd,Ali,31,57
3,Nighthawks,2nd,Milner,2,62
4,Dragoons,1st,Cooze,3,70
5,Dragoons,1st,Jacon,4,25
6,Dragoons,2nd,Ryaner,24,94
7,Dragoons,2nd,Sone,31,57
8,Scouts,1st,Sloan,2,62
9,Scouts,1st,Piger,3,70


In [26]:
# postTestScore에 대한 학점을 측정하는 코드를 작성
# 데이터 범위를 구분 : 0~25, 25~50, 50~75, 75~100으로 구분
# 함수 cut 사용
# bins 리스트에 구간의 시작 값 끝 값을 넣고 구간의 이름을 리스트로 나열 
# bins의 원소는 5개이고  group_names는 4개
# cut 함수로 나눌 시리즈 객체와 구간, 구간의 이름을 넣어주면 해당 값을 바인딩하여 표시해줌
bins = [0, 25, 50, 75, 100] # bins 정의(0-25, 25-50, 60-75, 75-100)
group_names = ['Low', 'Okay', 'Good', 'Great']
categories = pd.cut(
    df['postTestScore'], bins, labels=group_names)
categories

0       Low
1     Great
2      Good
3      Good
4      Good
5       Low
6     Great
7      Good
8      Good
9      Good
10     Good
11     Good
Name: postTestScore, dtype: category
Categories (4, object): ['Low' < 'Okay' < 'Good' < 'Great']

## 스케일링(Scaling)

In [27]:
# 스케일링(scaling) : 데이터 간 범위를 맞춤
# 몸무게와 키를 하나의 모델에 넣으면 데이터의 범위가 훨씬 넓어져 키가 몸무게에 비해 모델에 과다하게 영향을 줌
# x1과 x2의 변수 범위가 다를 때 하나의 변수 범위로 통일시켜 처리

In [34]:
# 최솟값-최댓값 정규화(min-max normalization) : 최솟값과 최댓값을 기준으로 0에서 1, 또는 0에서 지정 값까지로 값의 크기를 변화시킴
# 뭔 공식이 있는데 알 필요없이
# MinMaxScaler() 이거 해주면됨
from sklearn.preprocessing import MinMaxScaler
# scaler = MinMaxScaler()
# scaler.fit(x)
# x = scaler.transform(x)

In [35]:
# z-스코어 정규화(z-score normalization) : 기존 값을 표준 정규분포값으로 변환하여 처리
# 이거도 쓸데 없는거 하지 말고
# StandardScaler()이거 하면 됨
from sklearn.preprocessing import StandardScaler
# scaler = StandardScaler()
# scaler.fit(Xtrain, Xtest)

# Xtrain[ncol] = scaler.fit_transform(Xtrain[ncol])
# Xtest[ncol] = scaler.fit_transform(Xtest[ncol])

In [36]:
# RobustScaler :  중앙값(median)과 IQR(Interquartile Range)을 사용하여 데이터를 정규화
# 이상치(outlier)가 있는 데이터에 대해 좀 더 견고한(scrobust) 정규화
from sklearn.preprocessing import RobustScaler

# scaler = RobustScaler()
# scaler.fit(Xtrain, Xtest)

# Xtrain[ncol] = scaler.fit_transform(Xtrain[ncol])
# Xtest[ncol] = scaler.fit_transform(Xtest[ncol])