In [None]:
# Numpy
# -> Numerical Python
# -> ndarry(다차원배열)

# Pandas
# -> Series(1차원), DataFrame(2차원)
# -> DataFrame의 특징, 속성, 생성방법, 함수, indexing, slicing

In [6]:
# DataFrame이 제공하는 분석용 함수
# 기술분석(Descriptive Analysis)
# -> 평균, 표준편차, 분산, 공분산, 상관계수, 사분위...
import numpy as np
import pandas as pd

data = np.array([[2, np.nan],   # np.nan : 결치값 -> 값이 없다.
                 [7, -3],
                 [np.nan, np.nan],
                 [1, -2]])
# print(data)

df = pd.DataFrame(data,
                  columns=['one', 'two'],
                  index=['a', 'b', 'c', 'd'])
display(df)
# Numpy array는 집계함수를 실행할 때 axis를 명시해줘야 한다.
# axis를 명시해주지 않으면 전체 데이터를 대상으로 집계한다.

# print(df.sum())  # 만약 axis를 지정하지 않으면 axis=0 default.
                   # dropna=True default
# print(df.sum(axis=1))
# print(df['two'].sum())   # -5.0 => Series에 대해서도 집계함수를 사용할 수 있다.

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


-5.0


In [None]:
# Pandas는 그래프 도구를 내장하고 있다.
# 이 기능들은 matplotlib으로부터 차용.
# 그래서 Pandas의 그래프 도구를 사용하는 것보다는
# matplotlib을 배워서 사용하는 게 좋다.

# Titanic

In [31]:
## 데이터 전처리 (Data Pre-processing)
import numpy as np
import pandas as pd
import seaborn as sns

# titanic data set loading
df = sns.load_dataset('titanic')   # seaborn에 titanic dataset이 내장되어 있다.

# display(df)   # 891 rows x 15 columns

# 먼저 전체 데이터를 가지고 Missing Value가 존재하는지 확인!
# 이 작업이 먼저 선행되어야 한다!

# print(df.info())
# print(df['deck'].value_counts(dropna=False))   # 688개의 NaN
# df.head().isnull()        # NaN 값이면 True가 나오는 boolean mask
# df.isnull().sum(axis=0)   # 전체 데이터에 대해서 Null(NaN)의 값이 몇개인지 확인

# missing_df = df.isnull()
# for col in missing_df.columns:
#     missing_value = missing_df[col].value_counts()
#     try:
#         print(col, ' :', missing_value[True])
#     except:
#         print(col, ' :', 0)

# 결치값을 삭제해보자!
# 일단 먼저 삭제할 column을 결정해서 지워보자!

# 기본적인 삭제 방법
# df2 = df.drop('deck', axis=1, inplace=False)
# display(df2.head())

# 또 다른 컬럼 삭제 방법
thresh_df = df.dropna(axis=1, thresh=500, inplace=False)
# 컬럼중에 NaN이 500개 이상인 컬럼을 지워라
# display(thresh_df.head())

# 행을 지울 수 있다.
result_df = thresh_df.dropna(subset=['age'], axis=0, how='any')
print(result_df.shape)   # (714, 15)  원래는 (891, 15)이었는데 -177 되었다.
print(result_df.info())

(714, 14)
<class 'pandas.core.frame.DataFrame'>
Int64Index: 714 entries, 0 to 890
Data columns (total 14 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     714 non-null    int64   
 1   pclass       714 non-null    int64   
 2   sex          714 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        714 non-null    int64   
 5   parch        714 non-null    int64   
 6   fare         714 non-null    float64 
 7   embarked     712 non-null    object  
 8   class        714 non-null    category
 9   who          714 non-null    object  
 10  adult_male   714 non-null    bool    
 11  embark_town  712 non-null    object  
 12  alive        714 non-null    object  
 13  alone        714 non-null    bool    
dtypes: bool(2), category(1), float64(2), int64(4), object(5)
memory usage: 69.2+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #

In [39]:
# 결치값을 다른 값으로 대체하려면 어떻게 해야 할까?
import numpy as np
import pandas as pd
import seaborn as sns

# titanic data set loading
df = sns.load_dataset('titanic')
display(df.head(10))

# age column의 missing value(결측치)를 다른 값으로 대체
# age의 평균 값으로 대체
# mean_age = df['age'].mean()   # NaN은 제외하고 평균을 구한다.
# # print(mean_age)   # 29.699
# df['age'].fillna(mean_age, inplace=True)
# display(df.head(10))

# embarked 같은 경우에는 빈도를 이용해서 값을 대체하는 게 좋다.
# 데이터 특성상 서로 이웃하고 있는 데이터는 유사성을 가질 확률이 높다.
# 그래서 자신의 앞이나 뒤의 데이터로 Missing Value를 채우는 방법을 제공!
display(df['embarked'][820:831])
# df['embarked'].fillna(method='ffill', inplace=True)   # forward fill 앞의 값으로 채운다.
df['embarked'].fillna(method='bfill', inplace=True)   # back fill 뒤의 값으로 채운다.
display(df['embarked'][820:831])

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


820      S
821      S
822      S
823      S
824      S
825      Q
826      S
827      C
828      Q
829    NaN
830      C
Name: embarked, dtype: object

820    S
821    S
822    S
823    S
824    S
825    Q
826    S
827    C
828    Q
829    C
830    C
Name: embarked, dtype: object

In [None]:
# 결측치를 다 처리하면 그 다음에는
# 이상치를 처리해야 한다
# 어떤 데이터를 이상치로 간주할 것인가?
# 데이터에 대한 도메인 전문가가 필요!
# 이상치를 정상적인 데이터로 치환!
# 추후에 다른 예제를 가지고 알아보자!

In [45]:
# 중복 처리를 해야 한다.
# 의미가 있는 중복인지 아니면
# 그냥 중복된 데이터가 존재하는 것인지 판단해서
# 만약 의미 없는 중복된 데이터가 있으면 제거!

import numpy as np
import pandas as pd

df = pd.DataFrame({'c1':['a', 'a', 'b', 'a', 'b'],
                   'c2':[1, 1, 1, 2, 2],
                   'c3':[1, 1, 2, 2, 2]})
display(df)
# dup_df = df.duplicated()   # DataFrame 전체에 대해서 중복이 된 행을 찾는다.
#                            # Series를 리턴. 중복이면 True, 아니면 False
# print(dup_df)              # boolean mask 형태가 나온다.

# duplicated()는 DataFrame에 적용되는데 이걸 Series에도 적용할 수 있다.
# print(df['c2'].duplicated())

# 중복된 데이터를 제거(모든 컬럼을 다 비교)
# df2 = df.drop_duplicates()   # DataFrame에서 중복된 행을 drop 시킨다.
# display(df2)

# 중복된 데이터를 제거(특정 컬럼만 비교)
df2 = df.drop_duplicates(subset=['c2', 'c3'])
display(df2)

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2


In [56]:
# 데이터 타입의 변환
# 사용하는 데이터셋은 MPG data set을 이용해보자!

#### UCI Machine Learning Repository에서 제공하는
#### MPG Data set을 이용해 보자!
#### MPG(Mile per Gallon) => 자동차 연비에 관련된 데이터셋

import numpy as np
import pandas as pd

df = pd.read_csv('../data/auto-mpg.csv', header=None)   # 컬럼명이 없다.

# mpg : 연비(mile per gallon)
# cylinders : 실린더 개수
# displacement : 배기량
# horsepower : 마력(출력)
# weight : 중량
# acceleration : 가속능력
# year : 출시년도(70 => 1970년도)
# origin : 제조국 (1 : USA, 2 : EU, 3 : JPN)
# name : 차량이름
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower',
              'weight', 'acceleration', 'year', 'origin', 'name']

display(df.head(3))
# print(df.dtypes)

# horsepower 컬럼은 숫자가 들어 있는데 type이 object이다.
# 숫자(실수)로 변경하는 게 좋을 것 같다.
# 아래의 코드가 에러난다 왜 에러가 날까?
# 아마 해당 컬럼에 숫자가 아닌 값이 들어가 있을 것 같다.
# df['horsepower'] = df['horsepower'].astype('float')
# print(df['horsepower'].unique())
# 원래 결측치(Missing Value)는 NaN으로 표현되는데
# 가끔 다른 문자(?, -)로 표현하는 경우가 있다.
# 권장되는 방법은 이런 다른 문자로 표현되는 결측치를 NaN으로 변환시켜서
# 우리가 알고 있는 dropna() 메소드를 이용해서 결측치를 처리!
df['horsepower'].replace('?', np.nan, inplace=True)
# print(df['horsepower'].unique())
df.dropna(subset=['horsepower'], axis=0, inplace=True)
# print(df['horsepower'].unique())
df['horsepower'] = df['horsepower'].astype('float')
# print(df.dtypes)

# origin column의 값을 1, 2, 3 에서 USA, EU, JPN 으로 변경
df['origin'].replace({1:'USA',
                      2:'EU',
                      3:'JPN'},
                     inplace=True)
display(df.head(3))
# print(df.dtypes)
df['origin'] = df['origin'].astype('category')   # category : 범주형 문자열 타입
print(df.dtypes)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,USA,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,USA,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,USA,plymouth satellite


mpg              float64
cylinders          int64
displacement     float64
horsepower       float64
weight           float64
acceleration     float64
year               int64
origin          category
name              object
dtype: object


In [63]:
import numpy as np
import pandas as pd

df = pd.read_csv('../data/auto-mpg.csv', header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower',
              'weight', 'acceleration', 'year', 'origin', 'name']

display(df.head(3))

df['horsepower'].replace('?', np.nan, inplace=True)    # Missing Value 변환
df.dropna(subset=['horsepower'], axis=0, inplace=True) # Missing Value 삭제
df['horsepower'] = df['horsepower'].astype('float')     # 실수로 데이터 타입 변환
display(df.head(3))

count, bin_divider = np.histogram(df['horsepower'], bins=3)
print(count, bin_divider)  # count: 각 bin에 속한 개수, bin_divider: 경계값

bin_names = ['저출력', '보통출력', '고출력']
df['hp_bin'] = pd.cut(x=df['horsepower'],  # 새로운 컬럼의 데이터를 x의 값을 잘라서 넣는다.
                      bins=bin_divider,    # 구간 넣기
                      labels=bin_names,    # 구간별 데이터
                      include_lowest=True) # 첫 구간 포함 
display(df.head(10))

horsepower_dumy = pd.get_dummies(df['hp_bin'])  # df.['hp_bin']를 이용해서 더미 변수를 만든다.
display(horsepower_dumy.head())
# df['hp_bin']의 unique data 값을 컬럼으로 만들고
# 해당되는 값에만 1을 넣고 나머지는 0으로 채운다. => One-hot-encoding

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


[257 103  32] [ 46.         107.33333333 168.66666667 230.        ]


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name,hp_bin
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,보통출력
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,보통출력
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,보통출력
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,보통출력
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,보통출력
5,15.0,8,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500,고출력
6,14.0,8,454.0,220.0,4354.0,9.0,70,1,chevrolet impala,고출력
7,14.0,8,440.0,215.0,4312.0,8.5,70,1,plymouth fury iii,고출력
8,14.0,8,455.0,225.0,4425.0,10.0,70,1,pontiac catalina,고출력
9,15.0,8,390.0,190.0,3850.0,8.5,70,1,amc ambassador dpl,고출력


Unnamed: 0,저출력,보통출력,고출력
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,1,0


In [68]:
# Normalization(정규화)

import numpy as np
import pandas as pd

df = pd.read_csv('../data/auto-mpg.csv', header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower',
              'weight', 'acceleration', 'year', 'origin', 'name']

display(df.head(3))

df['horsepower'].replace('?', np.nan, inplace=True)    # Missing Value 변환
df.dropna(subset=['horsepower'], axis=0, inplace=True) # Missing Value 삭제
df['horsepower'] = df['horsepower'].astype('float')     # 실수로 데이터 타입 변환
display(df.head(3))

# Min-Max Scaling
# Xscaled = (X - Xmin) / (Xmax - Xmin)
# 최소값 = 0, 최대값 = 1
# 이상치가 존재하면 값이 이상해지는 단점이 있다.
df['horsepower'] = ((df['horsepower']) - df['horsepower'].min()) / (df['horsepower'].max() - df['horsepower'].min())
df['weight'] = ((df['weight']) - df['weight'].min()) / (df['weight'].max() - df['weight'].min())
display(df.head(3))

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,0.456522,0.53615,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,0.646739,0.589736,11.5,70,1,buick skylark 320
2,18.0,8,318.0,0.565217,0.51687,11.0,70,1,plymouth satellite
