In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 특정값을 대체
* interpolate() : 데이터의 흐름 X. 특정 추이를 따라서 NA값을 보간 → 선형적인 데이터 형성. 신뢰감 ↓, 현실적이지 못함<br>
* fillna() : 결측치만 다른 값으로 대체할 때 사용<br>
* replace() : 결측치 외에 동일어, 유의어 등을 하나의 대표값으로 대체할 때 사용

### interploate()

In [9]:
df = pd.DataFrame(np.random.randn(5, 3), # numpy.random.randn(): 정규분포를 따르는 난수 생성 함수
                  columns=["c1", "c2", "c3"])
df

Unnamed: 0,c1,c2,c3
0,1.914757,0.648551,-0.846138
1,0.276985,-1.67846,-0.486211
2,0.809848,1.533496,1.435682
3,-0.32918,0.393275,-0.291403
4,-0.073707,0.355538,-0.63834


In [13]:
dfdate = ["07/03/2019", "07/04/2019", "07/05/2019", "07/06/2019"]
print(dfdate)
myDate = pd.to_datetime(dfdate) # 문자열 형태의 날짜를 Date 형태로 변환
print(myDate)

['07/03/2019', '07/04/2019', '07/05/2019', '07/06/2019']
DatetimeIndex(['2019-07-03', '2019-07-04', '2019-07-05', '2019-07-06'], dtype='datetime64[ns]', freq=None)


In [24]:
times = pd.Series([1, np.nan, np.nan, 20], index=myDate)
times

2019-07-03     1.0
2019-07-04     NaN
2019-07-05     NaN
2019-07-06    20.0
dtype: float64

In [25]:
ti = times.interpolate()
ti

2019-07-03     1.000000
2019-07-04     7.333333
2019-07-05    13.666667
2019-07-06    20.000000
dtype: float64

In [26]:
# interpolate(method="time") : 행 index가 시계열로 구성되어 있는 경우 사용할 수 있는 옵션
# 시간을 기준으로 보간
times.interpolate(method="time")

2019-07-03     1.000000
2019-07-04     7.333333
2019-07-05    13.666667
2019-07-06    20.000000
dtype: float64

In [27]:
dfdate = ["07/03/2019", "07/04/2019", "07/05/2019", "07/10/2019"]
myDate = pd.to_datetime(dfdate)
times = pd.Series([1, np.nan, np.nan, 20], index=myDate)
times.interpolate(method="time")

2019-07-03     1.000000
2019-07-04     3.714286
2019-07-05     6.428571
2019-07-10    20.000000
dtype: float64

In [30]:
df = pd.DataFrame({"c1": [1, 2, np.nan, np.nan, 5],
                   "c2": [6, 8, 10, np.nan, 20]})
df

Unnamed: 0,c1,c2
0,1.0,6.0
1,2.0,8.0
2,,10.0
3,,
4,5.0,20.0


In [31]:
# interpolate(method="values"): 앞, 뒤의 data를 보고 비례하는 값으로 대체
df.interpolate(method="values")

Unnamed: 0,c1,c2
0,1.0,6.0
1,2.0,8.0
2,3.0,10.0
3,4.0,15.0
4,5.0,20.0


In [34]:
# limit= 대체하는 값의 수: 대체하는 값의 개수 제한 가능
df.interpolate(method="values", limit=1)

Unnamed: 0,c1,c2
0,1.0,6.0
1,2.0,8.0
2,3.0,10.0
3,,15.0
4,5.0,20.0


In [35]:
#limit_direction="backward" : 변환 방향 제시
df.interpolate(method="values", limit=1, limit_direction="backward")

Unnamed: 0,c1,c2
0,1.0,6.0
1,2.0,8.0
2,,10.0
3,4.0,15.0
4,5.0,20.0


### replace()

In [38]:
s = Series([1, 2, 3, 4, np.nan])
s

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64

In [40]:
s.replace(np.nan, 10)
s.replace(3, 100)

0      1.0
1      2.0
2    100.0
3      4.0
4      NaN
dtype: float64

In [45]:
s.replace([1, 2, 3], [5, 6, 7])

0    5.0
1    6.0
2    7.0
3    4.0
4    NaN
dtype: float64

In [46]:
s.replace({1:10, np.nan:99}) # key에 해당하는 값을 value로 대체

0    10.0
1     2.0
2     3.0
3     4.0
4    99.0
dtype: float64

## 중복값 확인 및 대체
* duplicated(): bool 참조로 응용 <br>
* drop_duplicates() : 중복값 제거

In [48]:
df = pd.DataFrame({"k1": ["a", "b", "b", "c", "c"],
                   "k2": ["v", "w", "w", "x", "y"],
                   "c": [1, 2, 3, 4, 5]})
df

Unnamed: 0,k1,k2,c
0,a,v,1
1,b,w,2
2,b,w,3
3,c,x,4
4,c,y,5


In [49]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
k1    5 non-null object
k2    5 non-null object
c     5 non-null int64
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [51]:
df.duplicated(["k1"]) # k1을 기준으로 중복값을 구별

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [53]:
df.duplicated(["k1", "k2"]) # (k1 value, k2 value)를 기준으로 중복값을 구별

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [55]:
df.duplicated(["k1"])
df.duplicated(["k1"], keep="first") # default : 중복값 중 먼저 나온 값은 true로 출력

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [57]:
df.duplicated(["k1"], keep="last") # 중복값 중 마지막 값을 true로 출력

0    False
1     True
2    False
3     True
4    False
dtype: bool

In [58]:
df.duplicated(["k1"], keep=False) # 중복된 값은 다 찾는다

0    False
1     True
2     True
3     True
4     True
dtype: bool

In [61]:
df.drop_duplicates("k1") # 나중에 나온 중복값이 제거됨
df.drop_duplicates("k1", keep="first") # 처음나온 중복값이 keep됨

Unnamed: 0,k1,k2,c
0,a,v,1
1,b,w,2
3,c,x,4


In [62]:
df.drop_duplicates("k1", keep="last") # 마지막의 중복값을 keep하겠다

Unnamed: 0,k1,k2,c
0,a,v,1
2,b,w,3
4,c,y,5


In [63]:
df.drop_duplicates("k1", keep=False) # 중복된 모든 값을 keep하지 않겠다

Unnamed: 0,k1,k2,c
0,a,v,1


### 유일한 값 찾기
* unique() : 특정 col의 중복을 제거한 요소를 출력

In [65]:
df = pd.DataFrame({
    "s": ["f", "m", "m", "f", "m"],
    "d": ["a", "a", "a", "a", np.nan],
    "c": [1, 1, 3, 4, 4]})
df

Unnamed: 0,s,d,c
0,f,a,1
1,m,a,1
2,m,a,3
3,f,a,4
4,m,,4


In [69]:
df["s"].unique()

array(['f', 'm'], dtype=object)

In [70]:
print(df["s"].unique())
print(df["d"].unique())
print(df["c"].unique())

['f' 'm']
['a' nan]
[1 3 4]


### 유일한 값의 빈도
* value_counts(): Series 객체가 가지는 함수. Series 객체의 요소 빈도수를 출력.
**NaN값은 제외**

In [74]:
print(type(df))
print(type(df["s"]))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [75]:
df.values

array([['f', 'a', 1],
       ['m', 'a', 1],
       ['m', 'a', 3],
       ['f', 'a', 4],
       ['m', nan, 4]], dtype=object)

In [77]:
df.value_counts()

AttributeError: 'DataFrame' object has no attribute 'value_counts'

In [78]:
df["s"].value_counts()

m    3
f    2
Name: s, dtype: int64

In [79]:
df["d"].value_counts() # NaN은 안나옴

a    4
Name: d, dtype: int64

In [80]:
df["s"].value_counts(normalize=True) # 빈도수를 %로 나타낼 때 

m    0.6
f    0.4
Name: s, dtype: float64

In [84]:
df["s"].value_counts(sort=True) # default 빈도에 따른 내림차순 정렬
df["s"].value_counts(sort=True, ascending=False)

m    3
f    2
Name: s, dtype: int64

In [83]:
df["s"].value_counts(sort=True, ascending=True) # 오름차순 정렬

f    2
m    3
Name: s, dtype: int64

In [88]:
df["d"].value_counts(dropna=True) # default 

a    4
Name: d, dtype: int64

In [90]:
df["d"].value_counts(dropna=False) # [중요] NaN의 개수 포함

a      4
NaN    1
Name: d, dtype: int64

value_counts Opt.bins []괄호: 폐구간, 포함 ()괄호: 개구간, 불포함

In [91]:
df["c"].value_counts(sort=False, bins=[0, 1, 2, 3, 4])

(-0.001, 1.0]    2
(1.0, 2.0]       0
(2.0, 3.0]       1
(3.0, 4.0]       2
Name: c, dtype: int64

In [92]:
res = pd.cut(df["c"], bins=[0, 1, 2, 3, 4]) # 각 데이터의 구간 표시
res

0    (0, 1]
1    (0, 1]
2    (2, 3]
3    (3, 4]
4    (3, 4]
Name: c, dtype: category
Categories (4, interval[int64]): [(0, 1] < (1, 2] < (2, 3] < (3, 4]]

In [93]:
pd.value_counts(res) # 각 구간별 데이터 빈도

(3, 4]    2
(0, 1]    2
(2, 3]    1
(1, 2]    0
Name: c, dtype: int64