<a href="https://colab.research.google.com/github/routingg/Python/blob/main/python_pandas_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import seaborn as sns
import pandas as pd

# **데이터 (사)전처리**

## 결측치(누락 데이터) - NaN(Not a Number) 처리

In [2]:
# 데이터 로딩
df = sns.load_dataset('titanic')

df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### **[데이터 탐색]**

In [3]:
# 기본 요약 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


## **[누락데이터]**

In [8]:
# deck 컬럼에 NaN 개수 확인

# value_counts() : NaN을 제외하고 개수를 구하도록 설계 - default
nan_deck = df.deck.value_counts()
nan_deck

C    59
B    47
D    33
E    32
A    15
F    13
G     4
Name: deck, dtype: int64

In [9]:
nan_deck = df.deck.value_counts(dropna=False)
nan_deck

NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: deck, dtype: int64

In [10]:
# isnull() - 직접적인 방법 : 누락데이터면 True, 그렇지 않으면 False
df.head().isnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [14]:
# notnull() - 간접적인 방법 : 유효한 데이터면 True, 그렇지 않으면 False
df.taiI().notnull()

AttributeError: 'DataFrame' object has no attribute 'taiI'

In [15]:
# isnull - 누락 데이터 개수 구하기
df.head().isnull().sum(axis = 0)

survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
deck           3
embark_town    0
alive          0
alone          0
dtype: int64

In [None]:
'''
# 누락 데이터가 있는 칼럼이 데이터 관계상 상관관계가 별로 없고,
  누락 데이터가 너무 만은 경우에는 이 칼럼을 삭제하는 것이
  분석에 더 의미가 있다고 판단되는 아주 특수한 경우에는 삭제 가능

  #dropna()

'''

In [16]:
drop_df = df.dropna(axis = 1)
drop_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   survived    891 non-null    int64   
 1   pclass      891 non-null    int64   
 2   sex         891 non-null    object  
 3   sibsp       891 non-null    int64   
 4   parch       891 non-null    int64   
 5   fare        891 non-null    float64 
 6   class       891 non-null    category
 7   who         891 non-null    object  
 8   adult_male  891 non-null    bool    
 9   alive       891 non-null    object  
 10  alone       891 non-null    bool    
dtypes: bool(2), category(1), float64(1), int64(4), object(3)
memory usage: 58.6+ KB


In [18]:
# dropna() 수행 시 조건을 부여 가능 : thresh (NaN 최소 기준치)
drop_df_tr = df.dropna(axis=1, thresh = 500)

drop_df_tr.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 14 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  embark_town  889 non-null    object  
 12  alive        891 non-null    object  
 13  alone        891 non-null    bool    
dtypes: bool(2), category(1), float64(2), int64(4), object(5)
memory usage: 79.4+ KB


In [19]:
# age 컬럼에 NaN이 있는 행 삭제 : subset (특정 컬럼 지정)

drop_col_loc = df.dropna(subset = ['age'], axis = 0, how='any')
len(drop_col_loc)

714

### [누락 데이터 치환(대치)]

In [None]:
'''
# 어렵게 수집한 데이터를 무작정 삭제하는 것은 데이터를 제대로 활용하지 못하게 되는 경우라고 판단.
# 데이터 분석의 정확도는 데이터 품질 이외에도 제공되는 데이터 양에 의해서도 상당한 영향을 받기 때문.

# 더해서 요즘은 분석 기법의 발달로 예전에는 분석의 대상이 아니라고 판단했던 부분도 지금은 분석 대상이 될 수 있기 때문
# 일부 누락되었더라도 나머지 데이터를 최대한 살려서 데이터 분석에 활용하는 방식이 좋은 결과를 얻는 경우가 많음.
# 보통 대체할 값으로는 데이터 분포의 특성을 가장 잘 나타낼 수 있는 값 : 평균, 중앙값, 최빈값 등

'''


In [20]:
df.age.head(10)

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: age, dtype: float64



*   평균값으로 대치



In [21]:
# age 칼럼의 NaN 값을 다른 나이 데이터의 평균으로 대치

cdf = df.copy()
cdf.age.head(10)

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: age, dtype: float64

In [24]:
mean_age = cdf.age.mean(axis=0)
cdf.age.fillna(mean_age, inplace=True)

cdf.age.head(10)

0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
6    54.000000
7     2.000000
8    27.000000
9    14.000000
Name: age, dtype: float64

In [26]:
cdf.age.isnull().sum(axis=0)

0



*   최빈값으로 대치



In [27]:
cdf.embark_town[825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object

In [30]:
# embark_town 컬럼의 NaN 값을 승선도시 중에서 가장 많이 출현한 값으로 대치

most_freq = df.embark_town.value_counts(dropna=True).idxmax()
most_freq

'Southampton'

In [31]:
cdf.embark_town.fillna(most_freq, inplace=True)
cdf.embark_town[825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829    Southampton
Name: embark_town, dtype: object



*   이전 값으로 대치

*   데이터셋의 특성상 서로 이웃하고 있는 데이터는 유사성을 가질 가능성이 높기 때문



In [34]:
cdf = df.copy()

cdf.embark_town[825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object

In [35]:
# embark_town의 NaN 값을 바로 이전행 값으로 대치
cdf['embark_town'].fillna(method='ffill', inplace=True)

cdf.embark_town[825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
Name: embark_town, dtype: object

In [36]:
'''
# [참고] 누락데이터가 NaN으로 표기되지 않은 경우
# 예를 들어 숫자 0 또는 문자 '-', '?', '=' 값으로 입력되어 있는 데이터 셋

# 해결방법은 NaN으로 표기되지 않은 기호나 숫자를 NaN으로 바꾼 후 삭제 또는 치환 처리
# ex) df.replace('-', np.nan)


'''

'\n# [참고] 누락데이터가 NaN으로 표기되지 않은 경우\n# 예를 들어 숫자 0 \n\n\n'