# DataFrame

In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame 
# Pandas에는 Series 와 DataFrame이라는 두 종류의 모듈을 사용한다.

In [3]:
# 정렬
# 인덱스를 정렬하는 방법
# Series의 기본 구조는 index와 그 index에 맵핑에 되는 values 값이 있다.
# Series(values 값 , index = index 값) 
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [4]:
obj.sort_index() 

a    1
b    2
c    3
d    0
dtype: int64

In [5]:
obj ## 위에서 sort를 해줬으나 obj의 결과는 변하지 않는다.

d    0
a    1
b    2
c    3
dtype: int64

In [6]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [7]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [8]:
frame.sort_index(axis=1)
# 열을 기준으로 정렬

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [9]:
frame.sort_index(axis = 1, ascending=False)
# 내림차순으로 정렬

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [10]:
frame = DataFrame({'b': [4,7,3,2], 'a': [4,9,2,5], 'c': [5,3,7,9]}) 
frame

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [11]:
frame.sort_values(by='b')

Unnamed: 0,b,a,c
3,2,5,9
2,3,2,7
0,4,4,5
1,7,9,3


In [12]:
frame.sort_values(by='a')

Unnamed: 0,b,a,c
2,3,2,7
0,4,4,5
3,2,5,9
1,7,9,3


In [13]:
# 순위 매기기 rank
obj = Series([100, 23, 55, 44, 22, 99, 33])
obj.rank()

0    7.0
1    2.0
2    5.0
3    4.0
4    1.0
5    6.0
6    3.0
dtype: float64

In [14]:
# 내림차순으로 순위를 매긴다
obj.rank(ascending=False)

0    1.0
1    6.0
2    3.0
3    4.0
4    7.0
5    2.0
6    5.0
dtype: float64

In [15]:
obj = Series([100, 22, 100, 44, 22, 99, 33])
obj.rank()
# 동점이 있으면 평균값을 준다

0    6.5
1    1.5
2    6.5
3    4.0
4    1.5
5    5.0
6    3.0
dtype: float64

In [16]:
obj = Series([100, 22, 100, 44, 22, 99, 33])
obj.rank(method='first')
# 동일한 값이 존재 할 경우 먼저 나타나는 것에게 높은 순위를 줄 수 있다

0    6.0
1    1.0
2    7.0
3    4.0
4    2.0
5    5.0
6    3.0
dtype: float64

In [17]:
frame = DataFrame({'b': [4,7,3,2], 'a': [4,9,2,5], 'c': [5,3,7,9]})
frame

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [18]:
frame.rank(axis=1) #행 기준으로 rank를 수행

Unnamed: 0,b,a,c
0,1.5,1.5,3.0
1,2.0,3.0,1.0
2,2.0,1.0,3.0
3,1.0,2.0,3.0


In [19]:
frame

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [20]:
frame.rank(axis=0)

Unnamed: 0,b,a,c
0,3.0,2.0,2.0
1,4.0,4.0,1.0
2,2.0,1.0,3.0
3,1.0,3.0,4.0


In [21]:
# NaN이 있는 경우 빼고 계산한다
frame = DataFrame({'b': [4, 7, 3, 2], 'a': [4,9,2,5], 'c': [5,3,7,np.nan]})
frame

Unnamed: 0,b,a,c
0,4,4,5.0
1,7,9,3.0
2,3,2,7.0
3,2,5,


In [22]:
frame.mean()

b    4.0
a    5.0
c    5.0
dtype: float64

In [23]:
frame.mean(skipna=False)

b    4.0
a    5.0
c    NaN
dtype: float64

In [24]:
frame.sum()

b    16.0
a    20.0
c    15.0
dtype: float64

In [25]:
frame.sum(skipna=False)
# NaN이 있으면 이를 반영하여 스킵하지 않는다
# skipna 은 skip NaN을 뜻함.

b    16.0
a    20.0
c     NaN
dtype: float64

In [26]:
frame

Unnamed: 0,b,a,c
0,4,4,5.0
1,7,9,3.0
2,3,2,7.0
3,2,5,


In [27]:
# 최대치가 있는 위치를 반환한다
frame.idxmax()

b    1
a    1
c    2
dtype: int64

In [28]:
# 최대치가 있는 위치를 반환한다
frame.idxmax(axis = 1)

0    c
1    a
2    c
3    a
dtype: object

In [29]:
frame

Unnamed: 0,b,a,c
0,4,4,5.0
1,7,9,3.0
2,3,2,7.0
3,2,5,


In [30]:
# 최소치가 있는 위치를 반환한다
frame.idxmin()

b    3
a    2
c    1
dtype: int64

In [31]:
# 항목 갯수 세기

# 유니크한 값 찾기 (set)
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [32]:
uniques = obj.unique() ## value 값의 종류를 확인 할 수 있다.
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [33]:
# 빈도수를 간단히 알 수 있다
# 빈도수가 높은 순으로 정렬된다.
obj.value_counts()

c    3
a    3
b    2
d    1
Name: count, dtype: int64

In [34]:
# 빈도수와 관련없이 나타나는 순서대로 보려면
obj.value_counts(sort=False)

c    3
a    3
d    1
b    2
Name: count, dtype: int64

In [35]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [36]:
# 특정한 내용이 들어있는지 알려면 isin()을 사용한다
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [37]:
obj
# obj 값 확인

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [38]:
obj[mask] ## obj에서 mask 값이 true인 값만을 출력

0    c
5    b
6    b
7    c
8    c
dtype: object

In [39]:
# 아래는 같은 결과를 얻는다
obj[obj.isin(['b', 'c'])] 

0    c
5    b
6    b
7    c
8    c
dtype: object

In [40]:
frame = DataFrame({'X':['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'], 
                  'Y':['f', 'g', 'd', 'g', 'h', 'e', 'd', 'h', 'f'],
                   'Z':['a', 'e', 'd', 'g', 'd', 'e', 'q', 'b', 'c']})

In [41]:
frame

Unnamed: 0,X,Y,Z
0,c,f,a
1,a,g,e
2,d,d,d
3,a,g,g
4,a,h,d
5,b,e,e
6,b,d,q
7,c,h,b
8,c,f,c


In [42]:
frame.apply(lambda s: s.value_counts())    # 아래와 같다

Unnamed: 0,X,Y,Z
a,3.0,,1.0
b,2.0,,1.0
c,3.0,,1.0
d,1.0,2.0,2.0
e,,1.0,2.0
f,,2.0,
g,,2.0,1.0
h,,2.0,
q,,,1.0


In [43]:
print(pd.value_counts)

<function value_counts at 0x0000015DE16E8360>


In [44]:
# 각 항목이 들어 있는 갯수를 센다. 없는 값은 NaN으로 표시된다
result = frame.apply(pd.value_counts)
result

Unnamed: 0,X,Y,Z
a,3.0,,1.0
b,2.0,,1.0
c,3.0,,1.0
d,1.0,2.0,2.0
e,,1.0,2.0
f,,2.0,
g,,2.0,1.0
h,,2.0,
q,,,1.0


In [45]:
# 없는 값에 0을 대입한다
result = frame.apply(pd.value_counts).fillna(0) ## fillna 은 fii NaN을 뜻한다.
result

Unnamed: 0,X,Y,Z
a,3.0,0.0,1.0
b,2.0,0.0,1.0
c,3.0,0.0,1.0
d,1.0,2.0,2.0
e,0.0,1.0,2.0
f,0.0,2.0,0.0
g,0.0,2.0,1.0
h,0.0,2.0,0.0
q,0.0,0.0,1.0


In [46]:
result.head(2)

Unnamed: 0,X,Y,Z
a,3.0,0.0,1.0
b,2.0,0.0,1.0


In [61]:
# 결측치 처리
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [62]:
data.dropna() # drop na은 drop NaN을 뜻하여 data에서 Na값들이 떨어져 나간 것을 볼 수 있습니다.

0    1.0
2    3.5
4    7.0
dtype: float64

In [63]:
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [64]:
data.notnull()

0     True
1    False
2     True
3    False
4     True
dtype: bool

In [48]:
# 같은 결과
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [66]:
data = DataFrame([[NA, 6.5, 3.], [NA, NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


In [50]:
# 한 항목이라도 NA가 있으면 해당 행을 삭제한다
cleaned = data.dropna()
cleaned

Unnamed: 0,0,1,2


In [67]:
data

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


In [51]:
# 행의 모든 항목이 NA일때 해당 행을 삭제한다
data.dropna(how='all')

Unnamed: 0,0,1,2
0,,6.5,3.0
3,,6.5,3.0


In [52]:
data

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


In [53]:
# 컬럼에 대한 삭제시는 axis=1을 사용한다
clean2 = data.dropna(axis=1)
clean2

0
1
2
3


In [68]:
data

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


In [54]:
clean2 = data.dropna(axis=1, how='all')
clean2

Unnamed: 0,1,2
0,6.5,3.0
1,,
2,,
3,6.5,3.0


In [70]:
df = DataFrame(np.random.randn(7 , 3))
df

Unnamed: 0,0,1,2
0,-0.249663,-0.708797,-0.784161
1,-0.85099,0.26905,-0.375013
2,0.521241,-0.626181,1.622853
3,-0.253987,-0.461401,-1.675201
4,-0.20696,-0.794814,-0.212909
5,0.868897,0.280513,-0.471885
6,-0.456836,-1.348495,-1.197307


In [71]:
df.iloc[:4, 1] = NA 
df.iloc[:2, 2] = NA
df.iloc[0,0] = NA
df

Unnamed: 0,0,1,2
0,,,
1,-0.85099,,
2,0.521241,,1.622853
3,-0.253987,,-1.675201
4,-0.20696,-0.794814,-0.212909
5,0.868897,0.280513,-0.471885
6,-0.456836,-1.348495,-1.197307


In [56]:
df.dropna(thresh=2)
# NA가 2개 이상인 경우 삭제

Unnamed: 0,0,1,2
2,-0.289554,,-0.203796
3,-1.429236,,0.853103
4,-1.426995,0.523364,1.74742
5,0.64957,-2.015957,-0.970391
6,0.975771,-1.512472,2.537851


In [72]:
df

Unnamed: 0,0,1,2
0,,,
1,-0.85099,,
2,0.521241,,1.622853
3,-0.253987,,-1.675201
4,-0.20696,-0.794814,-0.212909
5,0.868897,0.280513,-0.471885
6,-0.456836,-1.348495,-1.197307


In [58]:
# 컬럼별로 다른 값을 채울 수 있다. 사전을 사용한다
df.fillna({1: 0.5, 2: -1}) 

Unnamed: 0,0,1,2
0,,0.5,-1.0
1,0.63651,0.5,-1.0
2,-0.289554,0.5,-0.203796
3,-1.429236,0.5,0.853103
4,-1.426995,0.523364,1.74742
5,0.64957,-2.015957,-0.970391
6,0.975771,-1.512472,2.537851


In [59]:
df # fillna()로 내용은 바뀌지 않는다. 

Unnamed: 0,0,1,2
0,,,
1,0.63651,,
2,-0.289554,,-0.203796
3,-1.429236,,0.853103
4,-1.426995,0.523364,1.74742
5,0.64957,-2.015957,-0.970391
6,0.975771,-1.512472,2.537851


In [60]:
# 새로운 변수를 정의하면 바뀐 값을 얻는다
df2 = df.fillna({1: 0.5, 3: -1})
df2

Unnamed: 0,0,1,2
0,,0.5,
1,0.63651,0.5,
2,-0.289554,0.5,-0.203796
3,-1.429236,0.5,0.853103
4,-1.426995,0.523364,1.74742
5,0.64957,-2.015957,-0.970391
6,0.975771,-1.512472,2.537851
