In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

# 데이터 정제 및 준비
## 데이터 준비
- 데이터 정제, 변형
  - 결측치
  - 값 변형
  - 이산화
  - 이상치
- 데이터 조인, 병합
  - 여러 데이터 베이스에 저장된 데이터를 합치는 과정
  - 변경, 병합, 재배열하는 방법

## 결측치 확인하기
- 결측치 표현
  - NaN(np.nan)/None으로 표현
  - Nan: float64 type
  - None: 파이썬 내장 객체

- **결측치 확인** : 결측치에 대해 boolean 타입 반환
  - isna()
  - isnull()
  - notna()
  - notnull()

In [2]:
# 결측치 표현 및 확인
float_data = Series([1.2, -3.5, np.nan, 0])
float_data

Unnamed: 0,0
0,1.2
1,-3.5
2,
3,0.0


In [3]:
float_data.isna()

Unnamed: 0,0
0,False
1,False
2,True
3,False


In [4]:
string_data = Series(["apple", np.nan, None, "avocado"])
string_data

Unnamed: 0,0
0,apple
1,
2,
3,avocado


In [5]:
string_data.isna()

Unnamed: 0,0
0,False
1,True
2,True
3,False


In [6]:
float_data = Series([1, 2, None])
float_data

Unnamed: 0,0
0,1.0
1,2.0
2,


In [7]:
float_data.isna()

Unnamed: 0,0
0,False
1,False
2,True


## 결측치 골라내기
### dropna()
- Series
  - 결측치를 제외한 데이터를 반환
- DataFrame
  - 디폴트는 결측치를 하나라도 갖고있는 행을 제외 (how='any', axis='index')
  - 열을 제외 (axis='columns')
  - 전부 결측치인 경우 제외 (how='all')
  - 결측치가 특정 개수(n)보다 적은 경우를 반환 (thresh=n)

In [8]:
data = Series([1, np.nan, 3.5, np.nan, 7])
data.dropna() # 결측치를 하나라도 갖고있는 데이터를 제외하고 반환

Unnamed: 0,0
0,1.0
2,3.5
4,7.0


In [9]:
data

Unnamed: 0,0
0,1.0
1,
2,3.5
3,
4,7.0


In [10]:
data[data.notna()] # 결측치 있는 데이터 제외하고 반환

Unnamed: 0,0
0,1.0
2,3.5
4,7.0


In [11]:
data = DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
                  [np.nan, np.nan, np.nan], [np.nan, 6.5, 3]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [12]:
data.dropna() # default는 how='any' axis='index'

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [13]:
data.dropna(how='all') # 모든 feature가 결측치여야 drop

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [14]:
data[4] = np.nan
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [15]:
data.dropna(axis="columns", how="all") # 모두 결측치인 columns만 제외하고 반환

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [16]:
data.dropna(axis="columns", how="any") # 모든 열에 NaN가 있으므로 다 사라짐

0
1
2
3


In [17]:
df = DataFrame(np.random.standard_normal((7, 3)))
df

Unnamed: 0,0,1,2
0,-0.645253,-0.020444,-1.951205
1,0.858025,0.669149,1.873579
2,0.145019,1.617209,-0.176822
3,0.49012,0.224497,-1.046696
4,-1.994692,-0.240004,0.824317
5,0.163004,0.291122,-0.073336
6,-0.617638,-2.130183,0.752223


In [18]:
df.iloc[:4, 1] = np.nan
df

Unnamed: 0,0,1,2
0,-0.645253,,-1.951205
1,0.858025,,1.873579
2,0.145019,,-0.176822
3,0.49012,,-1.046696
4,-1.994692,-0.240004,0.824317
5,0.163004,0.291122,-0.073336
6,-0.617638,-2.130183,0.752223


In [19]:
df.iloc[:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-0.645253,,
1,0.858025,,
2,0.145019,,-0.176822
3,0.49012,,-1.046696
4,-1.994692,-0.240004,0.824317
5,0.163004,0.291122,-0.073336
6,-0.617638,-2.130183,0.752223


In [20]:
df = DataFrame(np.random.standard_normal((7, 3)))
df

Unnamed: 0,0,1,2
0,0.536079,0.734688,-2.097904
1,0.399986,-0.039259,-2.150229
2,-0.61442,-0.057456,-0.221593
3,-0.989777,-0.425424,0.030864
4,1.780775,-1.501331,-1.509943
5,-1.127822,-0.448382,0.827248
6,-1.004705,3.063617,1.314557


In [21]:
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,0.536079,,
1,0.399986,,
2,-0.61442,,-0.221593
3,-0.989777,,0.030864
4,1.780775,-1.501331,-1.509943
5,-1.127822,-0.448382,0.827248
6,-1.004705,3.063617,1.314557


In [22]:
df.dropna() # 결측치가 하나라도 있는 행 제외하고 반환

Unnamed: 0,0,1,2
4,1.780775,-1.501331,-1.509943
5,-1.127822,-0.448382,0.827248
6,-1.004705,3.063617,1.314557


In [23]:
df.dropna(thresh=2) # 2개까지만 없앰

Unnamed: 0,0,1,2
2,-0.61442,,-0.221593
3,-0.989777,,0.030864
4,1.780775,-1.501331,-1.509943
5,-1.127822,-0.448382,0.827248
6,-1.004705,3.063617,1.314557


## 결측치 채우기
### fillna()
- drop의 경우 결측치가 아닌 값도 없앨 수 있으므로, 결측치를 다른 값으로 채우는 것으로 결측치를 다룰 수 있음.
  - fillna(n): 결측치를 n으로 채움
  - fillna({0: a, 1: b}): 딕셔너리를 통해 열마다, 행마다 다른 값으로 결측치를 채울 수 있음
  - method='ffill' or 'bfill'
  - limit=m은 연속된 결측치를 m개까지만 method 옵션을 따름

In [24]:
df

Unnamed: 0,0,1,2
0,0.536079,,
1,0.399986,,
2,-0.61442,,-0.221593
3,-0.989777,,0.030864
4,1.780775,-1.501331,-1.509943
5,-1.127822,-0.448382,0.827248
6,-1.004705,3.063617,1.314557


In [25]:
df.fillna(0)

Unnamed: 0,0,1,2
0,0.536079,0.0,0.0
1,0.399986,0.0,0.0
2,-0.61442,0.0,-0.221593
3,-0.989777,0.0,0.030864
4,1.780775,-1.501331,-1.509943
5,-1.127822,-0.448382,0.827248
6,-1.004705,3.063617,1.314557


In [26]:
df.fillna({1: 0.5, 2: 0}) # pandas는 대부분 열 단위로 동작함, fillna() 또한 열 기준

Unnamed: 0,0,1,2
0,0.536079,0.5,0.0
1,0.399986,0.5,0.0
2,-0.61442,0.5,-0.221593
3,-0.989777,0.5,0.030864
4,1.780775,-1.501331,-1.509943
5,-1.127822,-0.448382,0.827248
6,-1.004705,3.063617,1.314557


In [27]:
df = DataFrame(np.random.standard_normal((6, 3)))
df.iloc[2:, 1] = np.nan
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,1.810582,0.277979,-1.113261
1,0.003906,0.61546,1.462891
2,-0.570083,,0.26913
3,0.416632,,1.19914
4,-0.273653,,
5,0.541306,,


In [28]:
df.fillna(method="ffill") # 이전 값으로 채움

  df.fillna(method="ffill") # 이전 값으로 채움


Unnamed: 0,0,1,2
0,1.810582,0.277979,-1.113261
1,0.003906,0.61546,1.462891
2,-0.570083,0.61546,0.26913
3,0.416632,0.61546,1.19914
4,-0.273653,0.61546,1.19914
5,0.541306,0.61546,1.19914


In [29]:
df.fillna(method="ffill", limit=2) # 열마다 두 개까지만 채움..

  df.fillna(method="ffill", limit=2) # 열마다 두 개까지만 채움..


Unnamed: 0,0,1,2
0,1.810582,0.277979,-1.113261
1,0.003906,0.61546,1.462891
2,-0.570083,0.61546,0.26913
3,0.416632,0.61546,1.19914
4,-0.273653,,1.19914
5,0.541306,,1.19914


In [30]:
data = Series([1, np.nan, 3.5, np.nan, 7])
data

Unnamed: 0,0
0,1.0
1,
2,3.5
3,
4,7.0


In [31]:
data.fillna(data.mean()) # 결측치 부분에 나머지의 평균값으로 채움

Unnamed: 0,0
0,1.0
1,3.833333
2,3.5
3,3.833333
4,7.0


## 데이터 변형
### 데이터 필터링, 정제, 변형
- 함수, 맵핑을 통한 데이터 변형
- 값 치환
- 축 색인 이름 변경
- 이산화
- 이상치를 찾고 제외
- 표시자, 더미 변수 계산

### appy, map, applymap
- Series에서 map을 통해 원소별로 변형 가능
  - 변형은 매핑 정보가 담긴 딕셔너리나 함수를 인수로 받음
- DataFrame은 apply나 원소별 변형을 위한 applymap 활용

In [32]:
data = DataFrame({"food": ["bacon", "pulled pork", "bacon", "pastrami", "corned beef", "bacon",
                           "pastrami", "honey han", "nova lox"],
                  "ounces": [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,pastrami,6.0
4,corned beef,7.5
5,bacon,8.0
6,pastrami,3.0
7,honey han,5.0
8,nova lox,6.0


In [33]:
meat_to_animal = {
    "bacon": "pig",
    "pulled pork": "pig",
    "pastrami": "cow",
    "corned beef": "cow",
    "honey han": "pig",
    "nova lox": "salmon"
}

In [34]:
data["animal"] = data["food"].map(meat_to_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey han,5.0,pig
8,nova lox,6.0,salmon


In [35]:
def get_animal(x):
  return meat_to_animal[x]
data["food"].map(get_animal)

Unnamed: 0,food
0,pig
1,pig
2,pig
3,cow
4,cow
5,pig
6,cow
7,pig
8,salmon


In [36]:
df = DataFrame(np.random.standard_normal((7, 3)))
df

Unnamed: 0,0,1,2
0,2.424624,0.876661,0.240268
1,0.105601,-0.853128,1.396688
2,-0.958899,-1.530389,-0.319389
3,-1.687237,-1.650414,0.540684
4,0.578419,-0.983687,-1.912052
5,0.524035,0.452131,-0.373956
6,0.162401,-1.048479,-0.411831


In [37]:
df.applymap(lambda x:x**2) # DataFrame은 applymap을 사용해야 함

  df.applymap(lambda x:x**2) # DataFrame은 applymap을 사용해야 함


Unnamed: 0,0,1,2
0,5.878802,0.768535,0.057729
1,0.011151,0.727828,1.950737
2,0.919487,2.342089,0.10201
3,2.846768,2.723865,0.29234
4,0.334569,0.967641,3.655942
5,0.274613,0.204422,0.139843
6,0.026374,1.099308,0.169605


## 값 치환하기
### replace
- 리스트나 딕셔너리를 통해 부분집합을 원하는 값으로 변경 가능
- Series와 DataFrame에 적용 가능
- 다양한 예제 살펴보자..
  - 리스트들과 딕셔너리를 통한 활용법

In [38]:
data = Series([1., -999., 2., -999., -1000., 3.])
data

Unnamed: 0,0
0,1.0
1,-999.0
2,2.0
3,-999.0
4,-1000.0
5,3.0


In [39]:
data.replace(-999, np.nan)

Unnamed: 0,0
0,1.0
1,
2,2.0
3,
4,-1000.0
5,3.0


In [40]:
data.replace([-999, -1000], np.nan)

Unnamed: 0,0
0,1.0
1,
2,2.0
3,
4,
5,3.0


In [41]:
data.replace({-999: np.nan, -1000: 0})

Unnamed: 0,0
0,1.0
1,
2,2.0
3,
4,0.0
5,3.0


## 축 색인 이름 바꾸기
### map이나 rename을 이용하여 바꿀 수 있음
- 딕셔너리나 함수를 인수로 받음

### index.map, columns.map
- 원래 객체의 축 색인의 이름 변경 가능

### rename
- 원래 객체 변경하지 않으며 새로운 객체 생성
- 옵션으로 index와 columns

In [42]:
data = DataFrame(np.arange(12).reshape((3,4)),
                 index=["Ohio", "Colorado", "New York"],
                 columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [43]:
def transform(x):
  return x[:4].upper()
data.index

Index(['Ohio', 'Colorado', 'New York'], dtype='object')

In [44]:
data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

In [45]:
data.columns.map(transform)

Index(['ONE', 'TWO', 'THRE', 'FOUR'], dtype='object')

In [46]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [47]:
data.rename(index=str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [48]:
data # 원본 배열 변형 X

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [49]:
data.rename(index={"Ohio": "INDIANA"},
            columns={"three": "peekaboo"})

Unnamed: 0,one,two,peekaboo,four
INDIANA,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


## 이산화
### cut
- 연속되는 데이터를 개별로 분할하거나 분석을 위해 그룹을 나눌 필요 존재
  - 단순화
  - 머신러닝 분류학습
- pd.cut(x, bins, labels, right)
  - x: 이산화하기 위한 Series나 리스트
  - bins: 이산화 그룹 경계값 나타내는 Series나 리스트
  - labels: 각 이산화 그룹의 이름을 나타내는 Series나 리스트
  - right: 이산화시 포함관계 옵션 (right=False, 오른쪽 요소 제외)

- bins를 활용하지 않는다면 최소값과 최대값을 기준으로 균등한 길이의 그룹을 계산
  - pd.cut(data, 4, precision=2)
  - 4개의 그룹으로 계산하여 이산화, 소수점 아래 두 자리 수까지 계산

- qcut: 분위수를 사용하여 그룹 나누기 가능

*cut vs qcut
- cut: 고정된 구간 크기로 나눔. 구간 내의 데이터 개수는 균등하지 않을 수 있음
- qcut: 동일한 데이터 개수로 나눔. 구간의 크기가 동일하지 않을 수 있음.

In [50]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [51]:
bins = [18, 25, 35, 60, 100] # 경계값들
age_categories = pd.cut(ages, bins)
age_categories

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [52]:
pd.cut(ages, bins, right=False) # 우측에 있는 값 포함x, 다음 그룹으로 넘어감

[[18, 25), [18, 25), [25, 35), [25, 35), [18, 25), ..., [25, 35), [60, 100), [35, 60), [35, 60), [25, 35)]
Length: 12
Categories (4, interval[int64, left]): [[18, 25) < [25, 35) < [35, 60) < [60, 100)]

In [53]:
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]
pd.cut(ages, bins, labels=group_names) # bins와 group_names 매핑

['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']

In [54]:
data = np.random.uniform(size=20) # 0과 1의 균등분포에서 난수 생성, 20개 생성함.
data

array([0.40684875, 0.75242561, 0.0153703 , 0.68741744, 0.99876101,
       0.62271155, 0.69725016, 0.70313847, 0.3875007 , 0.93936599,
       0.94038207, 0.43968566, 0.21955077, 0.10721414, 0.94935304,
       0.86564969, 0.85224432, 0.9201954 , 0.15848336, 0.22072388])

In [55]:
pd.cut(data, 4, precision=2) # 4개의 구간으로 나눔, 소수점 두자리로 나타냄.

[(0.26, 0.51], (0.51, 0.75], (0.014, 0.26], (0.51, 0.75], (0.75, 1.0], ..., (0.75, 1.0], (0.75, 1.0], (0.75, 1.0], (0.014, 0.26], (0.014, 0.26]]
Length: 20
Categories (4, interval[float64, right]): [(0.014, 0.26] < (0.26, 0.51] < (0.51, 0.75] < (0.75, 1.0]]

In [56]:
data = np.random.standard_normal(1000)
data

array([ 8.29674206e-01,  7.92515812e-01,  1.61273088e-01, -1.67308942e-01,
       -1.20791847e+00,  1.21034090e+00,  5.89230578e-01,  3.12750203e-01,
       -5.89561891e-01, -9.97349979e-01,  1.72218618e+00,  1.96253113e+00,
       -3.00480311e+00, -3.42962995e-01, -2.11959258e-01, -1.01711426e+00,
        1.28711629e+00, -1.90530862e+00,  1.79903543e+00, -1.09304246e+00,
        1.19968036e-03,  1.37805797e+00, -1.35094375e+00, -1.00265644e+00,
        1.07607575e+00, -9.27692158e-01, -9.02735116e-01, -3.33522032e-01,
        3.95827158e-01, -8.54109395e-01, -1.03278956e+00,  1.19127347e+00,
       -1.96122926e+00,  1.91989106e+00,  7.87427296e-01, -1.17874128e+00,
       -4.75385118e-01, -5.55397897e-01, -1.35864365e-01,  2.35531519e-01,
        1.30570344e+00, -5.74588682e-01, -1.28417936e+00,  1.38451681e-01,
       -2.83643323e+00,  2.97090799e-01,  1.03565512e+00, -5.75036135e-01,
       -1.40994162e+00, -1.77904857e+00,  1.39808141e+00, -3.99851395e-01,
        2.66234014e-01, -

In [57]:
quartiles = pd.qcut(data, 4, precision=2)
quartiles

[(0.73, 3.24], (0.73, 3.24], (0.026, 0.73], (-0.61, 0.026], (-3.0399999999999996, -0.61], ..., (-0.61, 0.026], (-0.61, 0.026], (0.73, 3.24], (0.026, 0.73], (0.026, 0.73]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.0399999999999996, -0.61] < (-0.61, 0.026] < (0.026, 0.73] <
                                           (0.73, 3.24]]

In [58]:
pd.value_counts(quartiles) # 데이터 개수 동일

  pd.value_counts(quartiles) # 데이터 개수 동일


Unnamed: 0,count
"(-3.0399999999999996, -0.61]",250
"(-0.61, 0.026]",250
"(0.026, 0.73]",250
"(0.73, 3.24]",250


In [59]:
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.]).value_counts()

Unnamed: 0,count
"(-3.0269999999999997, -1.228]",100
"(-1.228, 0.0259]",400
"(0.0259, 1.344]",400
"(1.344, 3.236]",100


## 이상치를 찾고 제외
### 이상치 (outlier)
- 전체적인 데이터 분포에서 크게 어긋나는 값
- 이상치를 찾고, 그 값을 수정하는 예시
  - bool 타입 색인
  - 값 바꾸기

In [60]:
data = DataFrame(np.random.standard_normal((1000, 4)))
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.01693,-0.0102,0.012873,-0.027178
std,1.039526,1.028482,1.019373,0.982506
min,-3.256964,-2.779318,-3.228944,-3.279516
25%,-0.744279,-0.707586,-0.656345,-0.661055
50%,-0.023069,-0.02327,0.011798,-0.039868
75%,0.645704,0.674692,0.690712,0.617183
max,3.47822,4.206283,3.373184,3.350856


In [61]:
data.abs() > 3

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
995,False,False,False,False
996,False,False,False,False
997,False,False,False,False
998,False,False,False,False


In [62]:
(data.abs()>3).any(axis="columns") # 각 행에서 True가 하나라도 있으면 True 반환

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
...,...
995,False
996,False
997,False
998,False


In [63]:
np.sum((data.abs()>3).any(axis="columns"))

15

In [64]:
data.loc[~(data.abs()>3).any(axis="columns"), :] # 절대값이 3보다 큰 값을 가진 행을 제외하고 나머지 행 선택

Unnamed: 0,0,1,2,3
0,-1.261470,-1.021912,-1.536202,0.904236
1,-0.237646,0.263143,-0.442733,0.299466
2,-0.118725,-1.531831,0.565194,-1.871200
3,0.547905,0.496985,1.280039,-0.237520
4,0.153326,-0.185828,-1.069638,0.292188
...,...,...,...,...
995,-1.481414,-0.042143,0.005509,-0.219667
996,-0.134052,-0.870875,0.720633,0.628045
997,-1.263805,0.522518,0.201947,0.953291
998,-1.731790,-0.677082,1.036615,1.824614


In [65]:
data.drop(data.index[(data.abs()>3).any(axis="columns")]) # 절대값이 3보다 큰 값을 가진 행 제거

Unnamed: 0,0,1,2,3
0,-1.261470,-1.021912,-1.536202,0.904236
1,-0.237646,0.263143,-0.442733,0.299466
2,-0.118725,-1.531831,0.565194,-1.871200
3,0.547905,0.496985,1.280039,-0.237520
4,0.153326,-0.185828,-1.069638,0.292188
...,...,...,...,...
995,-1.481414,-0.042143,0.005509,-0.219667
996,-0.134052,-0.870875,0.720633,0.628045
997,-1.263805,0.522518,0.201947,0.953291
998,-1.731790,-0.677082,1.036615,1.824614


In [66]:
np.sign(data) * 3 # 각 요소의 부호(sign)을 구하고 그 부호에 3을 곱한 값 반환 (양수는 1, 음수는 -1, 0은 0)

Unnamed: 0,0,1,2,3
0,-3.0,-3.0,-3.0,3.0
1,-3.0,3.0,-3.0,3.0
2,-3.0,-3.0,3.0,-3.0
3,3.0,3.0,3.0,-3.0
4,3.0,-3.0,-3.0,3.0
...,...,...,...,...
995,-3.0,-3.0,3.0,-3.0
996,-3.0,-3.0,3.0,3.0
997,-3.0,3.0,3.0,3.0
998,-3.0,-3.0,3.0,3.0


In [67]:
data[data.abs()>3] = np.sign(data) * 3 # 절대값 3보다 큰 요소들을 3또는 -3으로 바꿈.
data

Unnamed: 0,0,1,2,3
0,-1.261470,-1.021912,-1.536202,0.904236
1,-0.237646,0.263143,-0.442733,0.299466
2,-0.118725,-1.531831,0.565194,-1.871200
3,0.547905,0.496985,1.280039,-0.237520
4,0.153326,-0.185828,-1.069638,0.292188
...,...,...,...,...
995,-1.481414,-0.042143,0.005509,-0.219667
996,-0.134052,-0.870875,0.720633,0.628045
997,-1.263805,0.522518,0.201947,0.953291
998,-1.731790,-0.677082,1.036615,1.824614


In [68]:
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.017051,-0.011776,0.012659,-0.027844
std,1.036959,1.023104,1.0173,0.978542
min,-3.0,-2.779318,-3.0,-3.0
25%,-0.744279,-0.707586,-0.656345,-0.661055
50%,-0.023069,-0.02327,0.011798,-0.039868
75%,0.645704,0.674692,0.690712,0.617183
max,3.0,3.0,3.0,3.0


## 표시자, 더미 변수 계산
### 분류값을 더미, 표시자 행렬로 전환
- 통계 모델이나 머신러닝 애플리케이션을 위한 데이터 변환
- 한 column에 k개의 분류값이 있다면, 이를 k개의 columns로 확장하고 분류값에 따라 T와 F(1 혹은 0)로 나타내는 방법

- pd.get_dummies
  - 다른 데이터와 병합을 통해 데이터 변환을 할 수 있음
  - cut을 통한 이산화와 get_dummies를 활용하여 유용하게 더미 변수로 변환

In [69]:
df = DataFrame({"key": ["b", "d", "a", "c", "a", "b"],
                "data1": range(6)})
df

Unnamed: 0,key,data1
0,b,0
1,d,1
2,a,2
3,c,3
4,a,4
5,b,5


In [70]:
pd.get_dummies(df["key"], dtype=float) # 0(해당 범주에 속하지 않음), 1(해당 범주에 속함)로만 구성되어 있음.
# key 열을 더미 변수로 변환함.

Unnamed: 0,a,b,c,d
0,0.0,1.0,0.0,0.0
1,0.0,0.0,0.0,1.0
2,1.0,0.0,0.0,0.0
3,0.0,0.0,1.0,0.0
4,1.0,0.0,0.0,0.0
5,0.0,1.0,0.0,0.0


In [71]:
dummies = pd.get_dummies(df["key"], prefix="key", dtype=float) # key라는 prefix(접두사) 붙임.
dummies

Unnamed: 0,key_a,key_b,key_c,key_d
0,0.0,1.0,0.0,0.0
1,0.0,0.0,0.0,1.0
2,1.0,0.0,0.0,0.0
3,0.0,0.0,1.0,0.0
4,1.0,0.0,0.0,0.0
5,0.0,1.0,0.0,0.0


In [72]:
# df에서 data1 열만 선택한 새로운 데이터 프레임과 dummies를 열방향으로 연결 (pd.concat, axis=1)
df_with_dummy = pd.concat([df[["data1"]], dummies], axis=1)
df_with_dummy

Unnamed: 0,data1,key_a,key_b,key_c,key_d
0,0,0.0,1.0,0.0,0.0
1,1,0.0,0.0,0.0,1.0
2,2,1.0,0.0,0.0,0.0
3,3,0.0,0.0,1.0,0.0
4,4,1.0,0.0,0.0,0.0
5,5,0.0,1.0,0.0,0.0


In [73]:
values = np.random.uniform(size=10)
values

array([0.52996085, 0.07738786, 0.63350224, 0.18460537, 0.98577594,
       0.89584276, 0.03908537, 0.57341816, 0.37681325, 0.59116019])

In [74]:
bins = [0, 0.2, 0.4, 0.6, 0.8, 1]
pd.cut(values, bins, labels=['a', 'b', 'c', 'd', 'e'])

['c', 'a', 'd', 'a', 'e', 'e', 'a', 'c', 'b', 'c']
Categories (5, object): ['a' < 'b' < 'c' < 'd' < 'e']

In [75]:
pd.get_dummies(pd.cut(values, bins, labels=['a', 'b', 'c', 'd', 'e']))

Unnamed: 0,a,b,c,d,e
0,False,False,True,False,False
1,True,False,False,False,False
2,False,False,False,True,False
3,True,False,False,False,False
4,False,False,False,False,True
5,False,False,False,False,True
6,True,False,False,False,False
7,False,False,True,False,False
8,False,True,False,False,False
9,False,False,True,False,False


In [76]:
pd.get_dummies(pd.cut(values, bins, labels=['a', 'b', 'c', 'd', 'e']), dtype=int)

Unnamed: 0,a,b,c,d,e
0,0,0,1,0,0
1,1,0,0,0,0
2,0,0,0,1,0
3,1,0,0,0,0
4,0,0,0,0,1
5,0,0,0,0,1
6,1,0,0,0,0
7,0,0,1,0,0
8,0,1,0,0,0
9,0,0,1,0,0




---



## 데이터 준비하기: 조인, 병합, 변형
### 데이터 정제, 변형
- 결측치
- 값 변형
- 이산화
-이상치

### 데이터 조인, 병합
- 여러 데이터베이스에 저장된 데이터를 합치는 과정
- 변경, 병합, 재배열

## 데이터 합치기
- pd.merge
- pd.concat
- combine_first

## 데이터베이스 스타일로 합치기
### pd.merge(df1, df2)
- 데이터베이스에서 데이터 집합을 합치는 방식과 유사
- 하나 이상의 key를 사용해서 데이터 집합의 행을 합침
- default는 둘 다 갖고 있는 키 조합에 대해 병합 (how='inner')

### pd.merge(df1, df2, on='a')
- 'a'를 key로 사용하여 합침

### pd.merge(df1, df2, left_on='a', right_on='b')
- 공통되는 column이 없다면 각기 서로 다른 key를 기준으로 합침.

In [77]:
df1 = DataFrame({"key": ["b", "b", "a", "c", "a", "a", "b"],
                 "data": Series(range(7), dtype="int64")})
df1

Unnamed: 0,key,data
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [78]:
df2 = DataFrame({"key": ["a", "b", "d"],
                 "data2": Series(range(3), dtype="int64")})
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [80]:
pd.merge(df1, df2) # 둘 다 공통인 a, b에 대해 합침.

Unnamed: 0,key,data,data2
0,b,0,1
1,b,1,1
2,a,2,0
3,a,4,0
4,a,5,0
5,b,6,1


In [81]:
pd.merge(df1, df2, on="key") # 기준으로 적용할 column을 on 속성에 적음.

Unnamed: 0,key,data,data2
0,b,0,1
1,b,1,1
2,a,2,0
3,a,4,0
4,a,5,0
5,b,6,1


In [82]:
df3 = DataFrame({"lkey": ["b", "b", "a", "c", "a", "a", "b"],
                 "data": Series(range(7), dtype="int64")})
df3

Unnamed: 0,lkey,data
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [83]:
df4 = DataFrame({"rkey": ["a", "b", "d"],
                 "data2": ["a", "b", "d"]})
df4

Unnamed: 0,rkey,data2
0,a,a
1,b,b
2,d,d


In [85]:
pd.merge(df3, df4, left_on="lkey", right_on="rkey") # 공통되는 column이 없으면 서로 다른 key를 기준으로 합침.

Unnamed: 0,lkey,data,rkey,data2
0,b,0,b,b
1,b,1,b,b
2,a,2,a,a
3,a,4,a,a
4,a,5,a,a
5,b,6,b,b


## 데이터베이스 스타일로 합치기
### pd.merge(df1, df2, how)
- 병합하는 방식에 따라 how를 나타냄.
- 서로 다른 결과를 얻을 수 있음
  - how="inner", "left", "right", "outer" 등..

### pd.merge(df1, df2, on=[key1, key2])
- 여러 key를 사용하여 병합 가능

### pd.merge(df1, df2, suffixes=("_left", "_right"))
- 겹치는 column 이름에 대해 열 이름 뒤에 붙일 문자열 지정

### pd.merge(df1, df2, left_on="key", right_index=True)
- 선택적으로 병합을 위한 key에 인덱스 활용 가능

In [87]:
df1

Unnamed: 0,key,data
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [88]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [86]:
# how
pd.merge(df1, df2, how="outer") # 합집합, 없는 값은 결측치로 처리

Unnamed: 0,key,data,data2
0,a,2.0,0.0
1,a,4.0,0.0
2,a,5.0,0.0
3,b,0.0,1.0
4,b,1.0,1.0
5,b,6.0,1.0
6,c,3.0,
7,d,,2.0


In [92]:
df3

Unnamed: 0,lkey,data
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [93]:
df4

Unnamed: 0,rkey,data2
0,a,a
1,b,b
2,d,d


In [89]:
pd.merge(df3, df4, left_on="lkey", right_on="rkey", how="outer")

Unnamed: 0,lkey,data,rkey,data2
0,a,2.0,a,a
1,a,4.0,a,a
2,a,5.0,a,a
3,b,0.0,b,b
4,b,1.0,b,b
5,b,6.0,b,b
6,c,3.0,,
7,,,d,d


In [95]:
df1 = DataFrame({"key": ["b", "b", "a", "c", "a", "b"],
                 "data1": Series(range(6), dtype="Int64")})
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [97]:
df2 = DataFrame({"key": ["a", "b", "a", "b", "d"],
                 "data2": Series(range(5), dtype="Int64")})
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,a,2
3,b,3
4,d,4


In [98]:
pd.merge(df1, df2, on="key", how="left")

Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,0,3.0
2,b,1,1.0
3,b,1,3.0
4,a,2,0.0
5,a,2,2.0
6,c,3,
7,a,4,0.0
8,a,4,2.0
9,b,5,1.0


In [100]:
pd.merge(df1, df2, how="inner") # 양쪽 모두에 존재하는 키 조합 사용

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,a,2,0
5,a,2,2
6,a,4,0
7,a,4,2
8,b,5,1
9,b,5,3


In [101]:
pd.merge(df1, df2, how="right")

Unnamed: 0,key,data1,data2
0,a,2.0,0
1,a,4.0,0
2,b,0.0,1
3,b,1.0,1
4,b,5.0,1
5,a,2.0,2
6,a,4.0,2
7,b,0.0,3
8,b,1.0,3
9,b,5.0,3


In [102]:
left = DataFrame({"key1": ["foo", "foo", "bar"],
                  "key2": ["one", "two", "one"],
                  "lval": Series([1,2,3], dtype="int64")})
left

Unnamed: 0,key1,key2,lval
0,foo,one,1
1,foo,two,2
2,bar,one,3


In [103]:
right = DataFrame({"key1": ["foo", "foo", "bar", "bar"],
                   "key2": ["one", "one", "one", "two"],
                   "rval": Series([4, 5, 6, 7], dtype="int64")})
right

Unnamed: 0,key1,key2,rval
0,foo,one,4
1,foo,one,5
2,bar,one,6
3,bar,two,7


In [104]:
pd.merge(left, right, on=["key1", "key2"], how="outer") # 기준이 되는 feature 여러 개 설정 가능

Unnamed: 0,key1,key2,lval,rval
0,bar,one,3.0,6.0
1,bar,two,,7.0
2,foo,one,1.0,4.0
3,foo,one,1.0,5.0
4,foo,two,2.0,


In [106]:
pd.merge(left, right, on="key1") # key2명이 겹치므로 먼저 나오는 key2 값에 _x, 나중에 나오는 key2 값에 _y를 붙임.

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [108]:
pd.merge(left, right, on="key1", suffixes=("_left", "_right")) # 하나의 옵션으로 뒤에 뭐가 붙을지 설정 가능

Unnamed: 0,key1,key2_left,lval,key2_right,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [109]:
left1 = DataFrame({"key": ["a", "b", "a", "a", "b", "c"],
                   "value": Series(range(6), dtype="int64")})
left1

Unnamed: 0,key,value
0,a,0
1,b,1
2,a,2
3,a,3
4,b,4
5,c,5


In [113]:
right1 = DataFrame({"group_val": [3.5, 7]}, index=["a", "b"])
right1

Unnamed: 0,group_val
a,3.5
b,7.0


In [115]:
pd.merge(left1, right1, left_on="key", right_index=True) # 선택적 병합, 오른쪽에 index가 존재하는 부분만 병합

Unnamed: 0,key,value,group_val
0,a,0,3.5
1,b,1,7.0
2,a,2,3.5
3,a,3,3.5
4,b,4,7.0


In [119]:
pd.merge(left1, right1, left_on="key", right_index=True, how="outer")

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0
5,c,5,


## 축 따라 이어 붙이기
### concatenate: 데이터 이어 붙이기
- 넘파이에서 제공
- 특정 축을 따라 이어 붙임

### Series, DataFrame
- 축을 따라 이어붙일 때, Series나 DataFrame의 경우 색인과 관련된 아래 사항을 고려해야함
  - 연결하려는 두 객체의 색인이 서로 다르면 그 결과는 그 색인의 교집합이야하는가, 합집합이어야하는가?
  - 합쳐진 결과에서 합쳐지기 전 객체의 데이터를 구분할 수 있어야 하는가?
  - 어떤 축으로 연결할 것인지 고려해야 하는가?
    - 대부분의 경우 DataFrame 기본 정수 레이블이 가장 먼저 무시됨

In [124]:
# 축 따라 이어붙이기 - concat
arr = np.arange(12).reshape((3,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [125]:
np.concatenate([arr, arr], axis=1)

array([[ 0,  1,  2,  3,  0,  1,  2,  3],
       [ 4,  5,  6,  7,  4,  5,  6,  7],
       [ 8,  9, 10, 11,  8,  9, 10, 11]])

In [128]:
s1 = Series([0, 1], index=['a', 'b'], dtype="int64")
s1

Unnamed: 0,0
a,0
b,1


In [129]:
s2 = Series([2, 3, 4], index=['c', 'd', 'e'], dtype="int64")
s2

Unnamed: 0,0
c,2
d,3
e,4


In [130]:
s3 = Series([5, 6], index=['f', 'g'], dtype="int64")
s3

Unnamed: 0,0
f,5
g,6


In [132]:
pd.concat([s1, s2, s3]) # 디폴트는 행 방향으로 이어붙임

Unnamed: 0,0
a,0
b,1
c,2
d,3
e,4
f,5
g,6


In [133]:
pd.concat([s1, s2, s3], axis=1)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


## concat join 옵션
### pd.concat([s1, s2, s3], axis, join)
- axis='index'가 default (행 방향)
- join='inner', 'outer'를 통해 인덱스 결합을 교집합으로 할 지, 합집합으로 할 지 결정 (default outer)
  - merge에서 how와 같은 역할

In [136]:
s1, s3

(a    0
 b    1
 dtype: int64,
 f    5
 g    6
 dtype: int64)

In [135]:
s4 = pd.concat([s1, s3])
s4

Unnamed: 0,0
a,0
b,1
f,5
g,6


In [137]:
pd.concat([s1, s4], axis="columns")

Unnamed: 0,0,1
a,0.0,0
b,1.0,1
f,,5
g,,6


In [140]:
pd.concat([s1, s3], axis="columns", join="inner") # 교집합, 현재는 아무것도 X

Unnamed: 0,0,1


In [141]:
pd.concat([s1, s3], axis="columns") # default outer

Unnamed: 0,0,1
a,0.0,
b,1.0,
f,,5.0
g,,6.0


## concat keys
### pd.concat([s1, s2, s3], keys=['one', 'two', 'three'], names)
- key를 통해 s1, s2, s3의 인덱스에 추가 계층으로 구분할 수 있게 함



In [142]:
pd.concat([s1, s2, s3], axis="columns", keys=["one", "two", "three"])

Unnamed: 0,one,two,three
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


## concat ignore_index
### pd.concat([df1, df2], ignore_index=True)
- 기존 인덱스 레이블을 무시하고 새로운 기본 정수 인덱스로 정함

In [143]:
df1 = DataFrame(np.random.standard_normal((3, 4)),
                columns=["a", "b", "c", "d"])
df1

Unnamed: 0,a,b,c,d
0,0.343039,0.254305,-0.287529,0.603177
1,0.150919,-0.342842,1.317772,0.158368
2,0.322447,2.030313,0.234617,-0.439065


In [144]:
df2 = DataFrame(np.random.standard_normal((2, 3)),
                columns=["b", "d", "a"])
df2

Unnamed: 0,b,d,a
0,1.559279,0.873677,-0.656151
1,0.42806,-1.146811,1.544813


In [146]:
pd.concat([df1, df2], ignore_index=True) # 행방향으로 결합, 결합된 결과의 인덱스를 0부터 새로 부여

Unnamed: 0,a,b,c,d
0,0.343039,0.254305,-0.287529,0.603177
1,0.150919,-0.342842,1.317772,0.158368
2,0.322447,2.030313,0.234617,-0.439065
3,-0.656151,1.559279,,0.873677
4,1.544813,0.42806,,-1.146811


## combine_first
### 두 데이터의 색인 중 전체 혹은 일부가 겹칠 때
- a와 b seires를 합칠 때, a의 인덱스 중 결측치를 b로 채우고자 할 때
  - np.where(pd.isna(a), b, a)
    - a의 결측치 찾음, 찾으면 b로, 아닌 건 a로

- a.combine_first(b)
  - a와 b 인덱스를 합집합하여 데이터를 합침
  - np.where(pd.isna(a), b, a)와 달리 같은 인덱스에 대해 a의 결측치를 채우며 인덱스의 정렬도 진행

In [147]:
a = Series([np.nan, 2.5, 0.0, 3.5, 4.5, np.nan],
           index=["f", "e", "d", "c", "b", "a"])
a

Unnamed: 0,0
f,
e,2.5
d,0.0
c,3.5
b,4.5
a,


In [149]:
b = Series([0., np.nan, 2., np.nan, np.nan, 5.],
           index=["a", "b", "c", "d", "e", "f"])
b

Unnamed: 0,0
a,0.0
b,
c,2.0
d,
e,
f,5.0


In [150]:
np.where(pd.isna(a), b, a)

array([0. , 2.5, 0. , 3.5, 4.5, 5. ])

In [151]:
a.combine_first(b)

Unnamed: 0,0
a,0.0
b,4.5
c,3.5
d,0.0
e,2.5
f,5.0


In [152]:
df1 = DataFrame({"a": [1., np.nan, 5., np.nan],
                 "b": [np.nan, 2., np.nan, 6.],
                 "c": range(2, 18, 4)})
df1

Unnamed: 0,a,b,c
0,1.0,,2
1,,2.0,6
2,5.0,,10
3,,6.0,14


In [153]:
df2 = DataFrame({"a": [5., 4., np.nan, 3., 7.],
                 "b": [np.nan, 3., 4., 6., 8.]})
df2

Unnamed: 0,a,b
0,5.0,
1,4.0,3.0
2,,4.0
3,3.0,6.0
4,7.0,8.0


In [155]:
df1.combine_first(df2) # 같은 인덱스에 a의 결측치를 채움.

Unnamed: 0,a,b,c
0,1.0,,2.0
1,4.0,2.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,
