In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## 1.누락 데이터 처리

### 1-1. 누락 데이터 확인

In [2]:
import pandas as pd
import seaborn as sns

# 데이터 불러오기
df = sns.load_dataset('titanic')

# 누락 데이터 확인(isnull(), notnull())
print(f'df.isnull:\n{df.head().isnull()}\n')

print(f'df.notnull:\n{df.head().notnull()}\n')

df.isnull:
   survived  pclass    sex    age  ...   deck  embark_town  alive  alone
0     False   False  False  False  ...   True        False  False  False
1     False   False  False  False  ...  False        False  False  False
2     False   False  False  False  ...   True        False  False  False
3     False   False  False  False  ...  False        False  False  False
4     False   False  False  False  ...   True        False  False  False

[5 rows x 15 columns]

df.notnull:
   survived  pclass   sex   age  ...   deck  embark_town  alive  alone
0      True    True  True  True  ...  False         True   True   True
1      True    True  True  True  ...   True         True   True   True
2      True    True  True  True  ...  False         True   True   True
3      True    True  True  True  ...   True         True   True   True
4      True    True  True  True  ...  False         True   True   True

[5 rows x 15 columns]



In [3]:
# 누락 데이터 개수 확인

# method 1
print(f'df["deck"].value_counts(dropna=False):\n{df["deck"].value_counts(dropna=False)}\n') 

# method 2(컬럼 전체에 대한 누락 데이터 개수)
print(f'df.isnull().sum(axis=0):\n{df.isnull().sum(axis=0)}')

df["deck"].value_counts(dropna=False):
NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: deck, dtype: int64

df.isnull().sum(axis=0):
survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


### 1-2.누락 데이터 제거

In [4]:
import pandas as pd
import seaborn as sns

# 데이터 불러오기 & 확인
df = sns.load_dataset('titanic')

# 누락 데이터 확인
print(f'누락 데이터 개수:\n{df.isnull().sum(axis=0)}')

누락 데이터 개수:
survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


In [5]:
# 열 제거(axis=1)
df = df.dropna(axis=1, thresh=500) # NaN값을 500개 이상 갖는 모든 열을 삭제
print(f'NaN값을 500개 이상 갖는 열 삭제후 컬럼명& 개수:\n{df.columns}, length: {len(df.columns)}\n')

# 행 제거(axis=0)
df = df.dropna(subset=['age'], how='any', axis=0)
print(f'age에서 NaN값이 존재하는 행 개수: {len(df.index)}')

NaN값을 500개 이상 갖는 열 삭제후 컬럼명& 개수:
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object'), length: 14

age에서 NaN값이 존재하는 행 개수: 714


### 1-3.누락 데이터 치환

In [6]:
import pandas as pd
import seaborn as sns

# 데이터 불러오기 & 확인
df = sns.load_dataset('titanic')

In [7]:
# 평균으로 누락 데이터 치환

# 누락 데이터 개수 확인
print(f'age 누락 데이터 개수: {df["age"].isnull().sum()}\n') 

# 평균으로 누락 데이터 치환
mean_age = df['age'].mean()
print(f'mean of age: {mean_age}\n')
df['age'] = df['age'].fillna(mean_age)

#  치환후 누락 데이터 개수 확인
print(f'age 누락 데이터 개수: {df["age"].isnull().sum()}')

age 누락 데이터 개수: 177

mean of age: 29.69911764705882

age 누락 데이터 개수: 0


In [8]:
# 가장 많은 값으로 누락 데이터 치환

# 누락 데이터 개수 확인
print(df['embark_town'].value_counts(dropna=False),'\n') 

# 가장 많은 값으로 누락 데이터 치환
most_freq = df['embark_town'].value_counts().idxmax()
df['embark_town'] = df['embark_town'].fillna(most_freq) 

# 치환후 누락 데이터 개수 확인
print(df['embark_town'].value_counts(dropna=False)) 

Southampton    644
Cherbourg      168
Queenstown      77
NaN              2
Name: embark_town, dtype: int64 

Southampton    646
Cherbourg      168
Queenstown      77
Name: embark_town, dtype: int64


In [9]:
# 데이터 불러오기
df2 = sns.load_dataset('titanic')

# 누락 데이터 확인
print(df2['embark_town'][825:831],'\n')

# 앞 행의 데이터로 누락 데이터 치환 (method=ffill)
ffil = df2['embark_town'].fillna(method='ffill')
print(ffil[825:831],'\n')

# 뒷 행의 데이터로 누락 데이터 치환(method=bfill)
bfill = df2['embark_town'].fillna(method='bfill')
print(bfill[825:831])

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
830      Cherbourg
Name: embark_town, dtype: object 

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
830      Cherbourg
Name: embark_town, dtype: object 

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829      Cherbourg
830      Cherbourg
Name: embark_town, dtype: object


## 2.중복 데이터 처리

### 2-1.중복 데이터 확인

In [10]:
import pandas as pd

df = pd.DataFrame({'c1':['a', 'a', 'b', 'a', 'b'],
                   'c2':[1, 1, 1, 2, 2],
                   'c3':[1, 1, 2, 2, 2]})

print(f'DataFrame:\n{df}\n')

# 전체 컬럼 기준으로 중복값 찾기
print(df.duplicated(),'\n')

# 특정 컬럼 기준으로 중복값 찾기
print(df.duplicated(subset=['c2', 'c3']))

DataFrame:
  c1  c2  c3
0  a   1   1
1  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2

0    False
1     True
2    False
3    False
4    False
dtype: bool 

0    False
1     True
2    False
3    False
4     True
dtype: bool


### 2-2.중복 데이터 제거

In [11]:
import pandas as pd

df = pd.DataFrame({'c1':['a', 'a', 'b', 'a', 'b'],
                   'c2':[1, 1, 1, 2, 2],
                   'c3':[1, 1, 2, 2, 2]})

print(f'DataFrame:\n{df}\n')

# 전체 컬럼 기준으로 중복 행 제거
df2 = df.drop_duplicates()
print(f'DaataFrame:\n{df2}\n')

# 특정 컬럼 기준으로 중복 행 제거
df3 = df.drop_duplicates(subset = ['c2', 'c3'])
print(f'DataFrame:\n{df3}')

DataFrame:
  c1  c2  c3
0  a   1   1
1  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2

DaataFrame:
  c1  c2  c3
0  a   1   1
2  b   1   2
3  a   2   2
4  b   2   2

DataFrame:
  c1  c2  c3
0  a   1   1
2  b   1   2
3  a   2   2


## 3.데이터 표준화

### 3-1.단위 환산

In [12]:
import pandas as pd

# 데이터 불러오기 & 확인
file_path = '/content/drive/MyDrive/github/딥러닝을 위한 파이썬/Pandas/data/05000266/part5/auto-mpg.csv'
df = pd.read_csv(file_path, header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model_year', 'origin', 'name']
print(f'DataFrame.head(3):\n{df.head(3)}\n')

# mpg -> kpl(1mile=1.60934, 1gallon=3.78541)
mpg2kpl = 1.60934/3.78541
df['mpg'] = (df['mpg'] * mpg2kpl).round(2)
df = df.rename(columns={'mpg':'kpl'})
print(f'DataFrame.head(3):\n{(df.head(3))}')

DataFrame.head(3):
    mpg  cylinders  displacement  ... model_year  origin                       name
0  18.0          8         307.0  ...         70       1  chevrolet chevelle malibu
1  15.0          8         350.0  ...         70       1          buick skylark 320
2  18.0          8         318.0  ...         70       1         plymouth satellite

[3 rows x 9 columns]

DataFrame.head(3):
    kpl  cylinders  displacement  ... model_year  origin                       name
0  7.65          8         307.0  ...         70       1  chevrolet chevelle malibu
1  6.38          8         350.0  ...         70       1          buick skylark 320
2  7.65          8         318.0  ...         70       1         plymouth satellite

[3 rows x 9 columns]


### 3-2.자료형 변환

In [13]:
import pandas as pd
import numpy as np

# 데이터 불러오기
file_path = '/content/drive/MyDrive/github/딥러닝을 위한 파이썬/Pandas/data/05000266/part5/auto-mpg.csv'
df = pd.read_csv(file_path, header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model_year', 'origin', 'name']

# 자료형 확인
print(df.info(),'\n')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    float64
 5   acceleration  398 non-null    float64
 6   model_year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB
None 



In [14]:
# horsepower 고유값 확인
print(f"Unique of horsepower:\n{df['horsepower'].unique()}\n")

# ? -> np.nan
df['horsepower'] = df['horsepower'].replace('?', np.nan)

# 누락 데이터 행 삭제
df = df.dropna(subset=['horsepower'], how='any', axis=0)

# dtype:object -> dtype:float
df['horsepower'] = df['horsepower'].astype(np.float32)

# dtype 확인
print(f"df['horsepower'].dtype: {df['horsepower'].dtypes}")

Unique of horsepower:
['130.0' '165.0' '150.0' '140.0' '198.0' '220.0' '215.0' '225.0' '190.0'
 '170.0' '160.0' '95.00' '97.00' '85.00' '88.00' '46.00' '87.00' '90.00'
 '113.0' '200.0' '210.0' '193.0' '?' '100.0' '105.0' '175.0' '153.0'
 '180.0' '110.0' '72.00' '86.00' '70.00' '76.00' '65.00' '69.00' '60.00'
 '80.00' '54.00' '208.0' '155.0' '112.0' '92.00' '145.0' '137.0' '158.0'
 '167.0' '94.00' '107.0' '230.0' '49.00' '75.00' '91.00' '122.0' '67.00'
 '83.00' '78.00' '52.00' '61.00' '93.00' '148.0' '129.0' '96.00' '71.00'
 '98.00' '115.0' '53.00' '81.00' '79.00' '120.0' '152.0' '102.0' '108.0'
 '68.00' '58.00' '149.0' '89.00' '63.00' '48.00' '66.00' '139.0' '103.0'
 '125.0' '133.0' '138.0' '135.0' '142.0' '77.00' '62.00' '132.0' '84.00'
 '64.00' '74.00' '116.0' '82.00']

df['horsepower'].dtype: float32


In [15]:
# origin 고유값, 자료형 확인
print(f"Unique of origin:\n{df['origin'].unique()}, dtype: {df['origin'].dtypes}\n")

# 정수형 데이터 -> 문자형 데이터
df['origin'] = df['origin'].replace({1:'USA', 2:'JPN', 3:'EU'})

# 데이터 변환후 데이터 고유값, 자료형
print(f"Unique of origin:\n{df['origin'].unique()}, dtype: {df['origin'].dtypes}\n")

# dtype:object -> dtype:category
df['origin'] = df['origin'].astype('category')

# 자료형 변환후 데이터 고유값, 자료형
print(f"Unique of origin:\n{df['origin'].unique()}, dtype: {df['origin'].dtypes}")

Unique of origin:
[1 3 2], dtype: int64

Unique of origin:
['USA' 'EU' 'JPN'], dtype: object

Unique of origin:
['USA', 'EU', 'JPN']
Categories (3, object): ['USA', 'EU', 'JPN'], dtype: category


In [16]:
# model_year 고유값, 자료형 확인
print(f"Unique of model_year:\n{df['model_year'].unique()}, dtype: {df['model_year'].dtypes}\n")

# dtype:int -> dtype:category
df['model_year'] = df['model_year'].astype('category')

# 자료형 변환후 데이터 고유값, 자료형
print(f"Unique of model_year:\n{df['model_year'].unique()}, dtype: {df['model_year'].dtypes}")

Unique of model_year:
[70 71 72 73 74 75 76 77 78 79 80 81 82], dtype: int64

Unique of model_year:
[70, 71, 72, 73, 74, ..., 78, 79, 80, 81, 82]
Length: 13
Categories (13, int64): [70, 71, 72, 73, ..., 79, 80, 81, 82], dtype: category


## 4.범주형 데이터 처리

### 4-1.구간 분할(binning)

In [17]:
import pandas as pd
import numpy as np

file_path = '/content/drive/MyDrive/github/딥러닝을 위한 파이썬/Pandas/data/05000266/part5/auto-mpg.csv'
df = pd.read_csv(file_path,header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model_year', 'origin', 'name']

# ? 가 있는 행 삭제, dtype:object -> float
df['horsepower'] = df['horsepower'].replace('?', np.nan)
df = df.dropna(subset=['horsepower'], how='any', axis=0)
df['horsepower'] = df['horsepower'].astype(np.float32)

# 경계값 리스트 구하기(count:각구간에 속하는 값의 개수, bin_dividers:경계값 리스트)
count, bin_dividers = np.histogram(df['horsepower'], bins=3)
print(f'경계값 리스트: {bin_dividers}\n')

# bin 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# 데이터를 bin에 할당
df['hp_bin'] = pd.cut(x=df['horsepower'],
              bins = bin_dividers,  # 경계값 리스트
              labels = bin_names,   # 경계값 이름
              include_lowest=True)  # 첫 경계값 포함

print(df[['horsepower', 'hp_bin']].head(20))

경계값 리스트: [ 46.       107.333336 168.66667  230.      ]

    horsepower hp_bin
0        130.0   보통출력
1        165.0   보통출력
2        150.0   보통출력
3        150.0   보통출력
4        140.0   보통출력
5        198.0    고출력
6        220.0    고출력
7        215.0    고출력
8        225.0    고출력
9        190.0    고출력
10       170.0    고출력
11       160.0   보통출력
12       150.0   보통출력
13       225.0    고출력
14        95.0    저출력
15        95.0    저출력
16        97.0    저출력
17        85.0    저출력
18        88.0    저출력
19        46.0    저출력


### 4-2.One-Hot Encoding

In [18]:
import pandas as pd
import numpy as np

file_path = '/content/drive/MyDrive/github/딥러닝을 위한 파이썬/Pandas/data/05000266/part5/auto-mpg.csv'
df = pd.read_csv(file_path,header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model_year', 'origin', 'name']

# ? 가 있는 행 삭제, dtype:object -> float
df['horsepower'] = df['horsepower'].replace('?', np.nan)
df = df.dropna(subset=['horsepower'], how='any', axis=0)
df['horsepower'] = df['horsepower'].astype(np.float32)

# 경계값 리스트 구하기(count:각구간에 속하는 값의 개수, bin_dividers:경계값 리스트)
count, bin_dividers = np.histogram(df['horsepower'], bins=3)
print(f'경계값 리스트: {bin_dividers}\n')

# bin 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# 데이터를 bin에 할당
df['hp_bin'] = pd.cut(x=df['horsepower'],
              bins = bin_dividers,  # 경계값 리스트
              labels = bin_names,   # 경계값 이름
              include_lowest=True)  # 첫 경계값 포함

# One_hot Encoding
horsepower_dummies = pd.get_dummies(df['hp_bin'])
df = pd.concat((df, horsepower_dummies), axis=1) # 데이터프레임 concatenate
df = df.drop('hp_bin', axis=1) # hp_bin 삭제

print(f'DataFrame:\n{df.head(20)}')

경계값 리스트: [ 46.       107.333336 168.66667  230.      ]

DataFrame:
     mpg  cylinders  displacement  ...  저출력  보통출력  고출력
0   18.0          8         307.0  ...    0     1    0
1   15.0          8         350.0  ...    0     1    0
2   18.0          8         318.0  ...    0     1    0
3   16.0          8         304.0  ...    0     1    0
4   17.0          8         302.0  ...    0     1    0
5   15.0          8         429.0  ...    0     0    1
6   14.0          8         454.0  ...    0     0    1
7   14.0          8         440.0  ...    0     0    1
8   14.0          8         455.0  ...    0     0    1
9   15.0          8         390.0  ...    0     0    1
10  15.0          8         383.0  ...    0     0    1
11  14.0          8         340.0  ...    0     1    0
12  15.0          8         400.0  ...    0     1    0
13  14.0          8         455.0  ...    0     0    1
14  24.0          4         113.0  ...    1     0    0
15  22.0          6         198.0  ...    1     0    

## 5.정규화(Normalization)

In [19]:
import pandas as pd
import numpy as np

file_path = '/content/drive/MyDrive/github/딥러닝을 위한 파이썬/Pandas/data/05000266/part5/auto-mpg.csv'
df = pd.read_csv(file_path,header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model_year', 'origin', 'name']

# ? 가 있는 행 삭제, dtype:object -> float
df['horsepower'] = df['horsepower'].replace('?', np.nan)
df = df.dropna(subset=['horsepower'], how='any', axis=0)
df['horsepower'] = df['horsepower'].astype(np.float32)

# horsepower 기술 통계 정보
print(f'df["horsepower"].dsecribe:\n{df["horsepower"].describe()}\n')

# Min-Max Normalization
df['horsepower'] = (df['horsepower'] - df['horsepower'].min()) / (df['horsepower'].max() - df['horsepower'].min())

# 정규화후의 horsepower 기술 통계 정보
print(f'df["horsepower"].dsecribe after normalizaion:\n{df["horsepower"].describe()}')

df["horsepower"].dsecribe:
count    392.000000
mean     104.469391
std       38.491138
min       46.000000
25%       75.000000
50%       93.500000
75%      126.000000
max      230.000000
Name: horsepower, dtype: float64

df["horsepower"].dsecribe after normalizaion:
count    392.000000
mean       0.317768
std        0.209191
min        0.000000
25%        0.157609
50%        0.258152
75%        0.434783
max        1.000000
Name: horsepower, dtype: float64
