In [None]:
import pandas as pd
import numpy as np

#**데이터 정제 및 준비**

**A. 누락된 데이터 처리하기**

1. pandas의 설계 목표 중 하나는 누락 데이터를 가능한 한 쉽게 처리하게 하기 위함.
2. 1로 인해 pandas 객체의 모든 기술 통계는 누락된 데이터를 배제하고 처리. null제외 연산 다 된다.
3. pandas는 누락된 데이터를 NaN으로 취급
4. 누락데이터를 찾는 **.isnull()**

#**NaN** 

pandas에서는 R프로그래밍 언어에서 결측치를 NA로 취급하는 개념을 차용했음
1. python의 내장 None
2. numpy의 np.nan

In [None]:
string_data = pd.Series(['aardvark','artichoke',np.nan,'avocado'])
print(string_data)

string_data.isnull()

string_data[0] = None
string_data.isnull()

#결측치를 나타내는 이름이 좀 특이하다. 파이썬 내장에서는 none이라고 부르는구나,, numpy에서는 nan이라고 부른다. pandas도 nan개념

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object


0     True
1    False
2     True
3    False
dtype: bool

**B. 누락된 데이터 골라내기**

**pandas.dropna()**

pandas.isnull()이 불리언 색인을 반환하는 반면, pandas.dropna()의 경우 non-null 인 데이터와 색인값만 들어 있는 Series를 반환

In [None]:
# data = pd.Series([1, np.nan, 3.5, np.nan, 7])
# data.dropna()

흔히 사용하는 code로서는 위와 동일한 코드는 다음과 같다.

In [None]:
# data[data.notnull()]

**DataFrame의 경우,**

1. DataFrame 객체의 경우에는 모두 NaN 값인 로우나 컬럼을 제외시키거나,
2. NaN 값을 하나라도 포함하고 있는 로우나 컬럼을 제외시킬 수 있음.
3. pandas.dropna()는 기본적으로 NaN값을 하나라도 포함하고 있는 로우를 제외시킴 (파괴적이다)

In [None]:
# data = pd.DataFrame([[1, 6.5, 3],[1, np.nan, np.nan], [np.nan, np.nan, np.nan], [np.nan, 6.5, 3]])
# cleaned = data.dropna()
# print(data)
# print(cleaned)

**how = 'all'** 

how='all' 을 pandas.dropna()의 parameter로 전달하면, row 의 모든 값이 NaN인 로우만 제외시킴 

In [None]:
# data.dropna(how='all')
# 디폴트가 다 지우는거니까 all하면 도ㅐ

**axis = 1**

dropna 는 기본적으로 row를 기준으로 작동하나, axis = 1로 옵션값을 주면(parameter로 넘겨주면), column을 기준으로 작동함

In [None]:
# print(data.dropna())

# print(data.dropna(axis=1))

# data[4] = np.nan

# print(data)

# print(data.dropna(axis=1))

# print(data.dropna(axis=1, how='all'))

**thresh = n**

n개 이상의 NaN값이 있는 Row를 제외시키고 싶은 경우 thresh 옵션을 전달


In [None]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan

print(df)
print(df.dropna())
print(df.dropna(thresh=2)) #all대신 개수를 지정해줄 수 있다

          0         1         2
0 -1.391763       NaN       NaN
1 -0.700095       NaN       NaN
2  1.123141       NaN -0.684302
3  0.093582       NaN -0.040058
4  0.435214 -0.660055  0.685431
5  0.644070 -2.008327  0.262615
6 -0.474097  1.188871  0.566570
          0         1         2
4  0.435214 -0.660055  0.685431
5  0.644070 -2.008327  0.262615
6 -0.474097  1.188871  0.566570
          0         1         2
2  1.123141       NaN -0.684302
3  0.093582       NaN -0.040058
4  0.435214 -0.660055  0.685431
5  0.644070 -2.008327  0.262615
6 -0.474097  1.188871  0.566570


**C. 결측치 채우기**

**pandas.fillna()**

누락된 값을 제외시키는 것은 좋은 방법이 아님 -> 잠재적으로 버려지지 않아야 할 데이터가 버려져 데이터가 왜곡될 수 있음.

데이터 상의 '구멍'을 어떻게든 메우고 싶은 경우가 있는데. 이 경우 pandas.fillna()를 사용
#데이터는 최대한 그대로 두기


In [None]:
print(df)

df.fillna(0)

          0         1         2
0 -1.391763       NaN       NaN
1 -0.700095       NaN       NaN
2  1.123141       NaN -0.684302
3  0.093582       NaN -0.040058
4  0.435214 -0.660055  0.685431
5  0.644070 -2.008327  0.262615
6 -0.474097  1.188871  0.566570


Unnamed: 0,0,1,2
0,-1.391763,0.0,0.0
1,-0.700095,0.0,0.0
2,1.123141,0.0,-0.684302
3,0.093582,0.0,-0.040058
4,0.435214,-0.660055,0.685431
5,0.64407,-2.008327,0.262615
6,-0.474097,1.188871,0.56657


pandas.fillna()에 dictionary 형태의 예약값을 넘겨서 각 컬럼마다 다른 값을 채울 수도 있음.

In [None]:
df.fillna({1:0.5, 2:0}) ## {컬럼명 : 채울 값} 이렇게 해준다

Unnamed: 0,0,1,2
0,-1.391763,0.5,0.0
1,-0.700095,0.5,0.0
2,1.123141,0.5,-0.684302
3,0.093582,0.5,-0.040058
4,0.435214,-0.660055,0.685431
5,0.64407,-2.008327,0.262615
6,-0.474097,1.188871,0.56657


inplace = True

fillna 는 새로운 객체를 반환하지만 inplace=True 옵션을 넘겨주어 기존 객체를 변경할 수도 있음. 

In [None]:
# _ = df.fillna(0, inplace=True)

# df

**method, limit**

method는 보간방법을 결정해 주며, column의 이전 값을 받아 채우는 ffill 과 뒷 값을 받아 채우는 bfill 이 있음.

limit 은 모든 값을 같은 값으로 채우는 것을 막기 위해, 채울 값의 개수를 한정하는데 사용


In [None]:
 df = pd.DataFrame(np.random.randn(6,3))
 df.iloc[2:, 1] = np.nan
 df.iloc[4:, 2] = np.nan
 print(df)
 print(df.fillna(method='ffill'))

 print(df.fillna(method='ffill', limit=2)) #limit은 채울 값의 수

          0         1         2
0 -0.756227  0.747717 -0.043992
1  1.180802 -1.380916  0.023209
2  0.310017       NaN  0.068401
3 -0.237967       NaN -1.092362
4  0.126535       NaN       NaN
5  0.870128       NaN       NaN
          0         1         2
0 -0.756227  0.747717 -0.043992
1  1.180802 -1.380916  0.023209
2  0.310017 -1.380916  0.068401
3 -0.237967 -1.380916 -1.092362
4  0.126535 -1.380916 -1.092362
5  0.870128 -1.380916 -1.092362
          0         1         2
0 -0.756227  0.747717 -0.043992
1  1.180802 -1.380916  0.023209
2  0.310017 -1.380916  0.068401
3 -0.237967 -1.380916 -1.092362
4  0.126535       NaN -1.092362
5  0.870128       NaN -1.092362


**통계적 수치를 통한 보간**

fillna()의 값에 mean()과 같은 통계적 수치를 전달하여, 조금 더 세밀한 접근이 가능

통계적 수치는 column 을 기준으로 계산됨. (자동으로ㅇㅇ)

In [None]:
df.fillna(df.mean())

df.fillna(df.max())

Unnamed: 0,0,1,2
0,-0.756227,0.747717,-0.043992
1,1.180802,-1.380916,0.023209
2,0.310017,0.747717,0.068401
3,-0.237967,0.747717,-1.092362
4,0.126535,0.747717,0.068401
5,0.870128,0.747717,0.068401


**D. 중복 제거하기**

실제 데이터에서는 여러 가지 이유로 DataFrame에서 중복된 로우를 발견할 수 있다.

In [None]:
data = pd.DataFrame({'k1':['one','two']*3 + ['two'], 'k2':[1,1,2,3,3,4,4]})
data


Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


**pandas.duplicated()**

DataFrame의 duplicated 메서드는 각 로우가 중복인지 아닌지 알려주는 불리언 Series를 반환

In [None]:
# data.duplicated()
data.duplicated() #중복인지 아닌지 알려주는 불리언 시리즈 반환

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

**pandas.drop_duplicates()**
drop_duplicates 는 duplicated 배열이 False인 DataFrame을 반환

In [None]:
data.drop_duplicates() #중복인 로우들 제거한, 매서드 결과 true인 로우들 제거 후 반환

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


이 두 메서드는 기본적으로 모든 컬럼에 적용되며 중복을 찾아내기 위해 각 컬럼에 적용이 가능

In [None]:
data.drop_duplicates(['k1']) #알다시피 칼럼을 지정할떄는 ['칼럼 명'] 이렇게 지정한다.

Unnamed: 0,k1,k2
0,one,1
1,two,1


**keep='last'**

최근 데이터를 살리고 싶은 경우가 있으며, 이러한 경우 keep='last' 옵션을 전달


In [None]:
# data.drop_duplicates(keep='last'), 최근 데이터 빼고 지워라라는 파라미터를 제공한다.

**E. 함수나 매핑을 이용해서 데이터 변형하기**

데이터를 다루다 보면 DataFrame의 컬럼이나 Series, 배열 내의 값을 기반으로 데이터의 형태를 변환하고 싶은 경우가 있으며, 이러한 경우 map 함수를 사용

In [None]:
import pandas as pd
import numpy as np
data = pd.DataFrame({'food':['bacon', 'pulled pork','bacon','Pastrami','corned beef','Bacon','pastrami','honey ham','nova lox'],
                      'ounces':[4,3,12,6,7.5,8,3,5,6]})
# data

해당 육류가 어떤 동물의 고기인지 알려 줄수 있는 컬럼을 하나 추가한다고 가정하고 육류별 동물을 담고 있는 사전 데이터를 아래처럼 작성

In [None]:
meat_to_animal = {'bacon':'pig',
                   'pulled pork':'pig',
                   'pastrami':'cow',
                   'corned beef':'cow',
                   'honey ham':'pig',
                   'nova lox':'salmon'}

**str.lower()**

meat_to_animal의 모든 key 값이 소문자로 되어 있으나, data의 'food'컬럼의 value에 대문자가 있으므로, data 의 'food'컬럼을 소문자로 변경

In [None]:
lowercased=data['food'].str.lower()

**pandas.map()**

lowercased 를 기준으로 meat_to_animal을 적용시켜, 새로운 animal 컬럼을 생성

In [None]:
data['animal'] = lowercased.map(meat_to_animal) #map은 말그대로 매핑해준다는 의미이다. 연결시켜준다.!!
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


**F. 값 치환하기**

데이터를 다루다 보면, np.inf, np.nan, -999.0 등의 값을 확실하지 않은 값의 플래그로 데이터를 채워놓은 경우가 있음.

**pandas.replace()**

이러한 경우 replace()메서드를 통해 일괄적으로 값을 변경할 수 있음.

In [None]:
data = pd.Series([1,-999, 2, -999, -1000, 3])
data

0       1
1    -999
2       2
3    -999
4   -1000
5       3
dtype: int64

In [None]:
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

여러 개의 값을 한 번에 치환하려면 하나의 값 대신 치환하려는 값의 리스트를 넘기면 된다. (여러 개 원하면 리스트를 넘겨라)

In [None]:
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

치환하려는 값마다 다른 값으로 치환하려면 누락된 값 대신 새로 지정할 값의 리스트를 사용

In [None]:
data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

**G. 개별화와 양자화**

개별로 나누거나, 분석을 위해 그룹별로 나누는 경우

In [None]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

**pandas.cut()**

위 데이터를 pandas의 cut 함수를 이용해서 18-25, 26-35, 35-60, 60+ 그룹으로 나누는 경우

1. 기준점으로 사용될 지점들의 리스트 생성

In [None]:
bins= [18, 25, 35, 60, 100]

2. pandas.cut()메서드를 이용해, 해당 데이터에 기준점 적용 

#pd.cut(대상, 기준점)

In [None]:
cats = pd.cut(ages, bins) #이미 나눈 구간을 전달한다.

cats
type(cats)
cats #카테고리컬 이라는 새로운 객체형 기억하자!!

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

pandas 에서 반환하는 객체는 Categorical 이라는 특수한 객체임.

**.codes** 
몇 번째 그룹에 속해 있는지를 반환

In [None]:
cats.codes() #cats 내의 원소가! 어느 그룹에 속해있는지를 반환한다!

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

**.value_counts()**

pandas.cut() 결과에 대한 그룹 수의 통계치

In [None]:
cats.value_counts()

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

**labels**

category 컬럼에 적합한 그룹의 이름을 직접 넘겨 주어 수행할 수 있음 

In [None]:
group_names = ['Youth','YoungAdult','MiddleAged','Senior']

cats = pd.cut(ages, bins, labels=group_names) #이름까지 넘겨준다

list(cats)

['Youth',
 'Youth',
 'Youth',
 'YoungAdult',
 'Youth',
 'Youth',
 'MiddleAged',
 'YoungAdult',
 'Senior',
 'MiddleAged',
 'MiddleAged',
 'YoungAdult']

**균등 분할**

명시적으로 경계값을 넘기지 않고 그룹의 개수를 넘겨주면 데이터에서 최솟값과 최댓값을 기준으로 균등한 길이의 그룹을 자동으로 계산하여 반환


In [None]:
data = np.random.rand(20)

pd.cut(data, 4) #bins를 넘겨주지 않으면 자동으로 균등길이 계산해준다!

[(0.28, 0.507], (0.28, 0.507], (0.0511, 0.28], (0.28, 0.507], (0.734, 0.962], ..., (0.507, 0.734], (0.0511, 0.28], (0.734, 0.962], (0.507, 0.734], (0.507, 0.734]]
Length: 20
Categories (4, interval[float64, right]): [(0.0511, 0.28] < (0.28, 0.507] < (0.507, 0.734] <
                                           (0.734, 0.962]]

**qcut**

분위점을 기준으로 데이터를 분류해주거나, 변위치를 직접 지정하여 분류

In [None]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4)
cats
cats.value_counts()

(-3.157, -0.788]     250
(-0.788, -0.0472]    250
(-0.0472, 0.592]     250
(0.592, 4.101]       250
dtype: int64

In [None]:
cats = pd.qcut(data, [0,0.1,0.5,0.9, 1])
cats.value_counts()

(-3.157, -1.391]     100
(-1.391, -0.0472]    400
(-0.0472, 1.172]     400
(1.172, 4.101]       100
dtype: int64

**H. 특잇값을 찾고 제외하기**

배열 연산을 수행할 때는 특잇값(outlier)를 찾아 제외하거나 적당한 값으로 대체하는 것이 중요

In [None]:
data = pd.DataFrame(np.random.randn(1000, 4))
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.000758,0.013706,-0.040899,-0.017039
std,1.013183,0.985085,0.980952,1.004196
min,-2.86525,-3.073445,-3.838834,-3.318582
25%,-0.685012,-0.643981,-0.729362,-0.731871
50%,0.000795,-0.018697,-0.023542,-0.031599
75%,0.686293,0.690862,0.574831,0.692648
max,3.34348,3.006365,3.206827,2.848841


이 DataFrame의 한 컬럼에서 절댓값이 3을 초과하는 값 찾기

In [None]:
col = data[2]
col[np.abs(col)>3] #np.abs = 절댓값 반환!
data[2][np.abs(data[2])>3] #코드가 너무 더러우니 위의 코드처럼 최적화 하세요.

595   -3.838834
628   -3.007394
721    3.206827
779    3.194313
Name: 2, dtype: float64

해당 조건을 만족하는 값이 들어 있는 모든 로우를 선택하려면 Boolean DataFrame에서 any 메서드를 사용

In [None]:
data[(np.abs(data)>3).any(1)] #any() any(값) 값이 들어있는 모든 로우를 가져와라
#근데 여기서 값은 불리언임. so 1을 의미하는 true를 반환할 것임

Unnamed: 0,0,1,2,3
59,3.162378,-1.084291,0.517584,-2.192475
76,3.34348,0.402204,-0.904224,-0.226078
289,1.084456,-3.073445,1.300349,0.838321
321,0.241151,3.006365,-0.183742,-0.074684
463,1.000858,0.764913,-1.322274,-3.318582
502,-0.112457,-3.005754,-0.947201,-0.470289
553,3.088155,0.071281,-1.114365,-1.713295
595,1.63505,0.522714,-3.838834,-0.702223
628,-0.040618,0.251349,-3.007394,-0.799843
721,-1.255749,-1.421553,3.206827,-1.539042


**I. 치환과 임의 샘플링**



In [None]:
df = pd.DataFrame(np.arange(20).reshape((5,4)))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [None]:
df.sample(n=2, axis = 1) #디폴트 0(행)

Unnamed: 0,0,2
0,0,2
1,4,6
2,8,10
3,12,14
4,16,18


복원추출을 통해 새로운 데이터셋을 생성하려면

In [None]:
choices = pd.Series([5, 7, -1, 6, 4])
draw = choices.sample(n=10, replace=True) # .sample 매서드!! (n 개수와 복원여부 = T or F)
draw

1    7
2   -1
3    6
1    7
1    7
4    4
3    6
0    5
0    5
4    4
dtype: int64