# DataFrame 연습

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame 
# Pandas에는 Series 와 DataFrame이라는 두 종류의 모듈을 사용한다.

In [2]:
# 정렬
# 인덱스를 정렬하는 방법
# Series의 기본 구조는 index와 그 index에 맵핑에 되는 values 값이 있다.
# Series(values 값 , index = index 값) 
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [3]:
obj.sort_index() 

a    1
b    2
c    3
d    0
dtype: int64

In [4]:
obj.sort_values(ascending=False)

c    3
b    2
a    1
d    0
dtype: int64

In [5]:
obj ## 위에서 sort를 해줬으나 obj의 결과는 변하지 않는다.

d    0
a    1
b    2
c    3
dtype: int64

In [7]:
df = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])
df

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [8]:
df.sort_index()     # alphabet 순 정렬 

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [9]:
df.sort_index(axis=1)    # 열(columns)을 기준으로 정렬 
# 열을 기준으로 정렬

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [10]:
df.sort_column()

AttributeError: 'DataFrame' object has no attribute 'sort_column'

In [11]:
frame.sort_index(axis=1, ascending=False)
# 내림차순으로 정렬

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [12]:
frame = DataFrame({'b': [4,7,3,2], 'a': [4,9,2,5], 'c': [5,3,7,9]}) 
frame

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [13]:
frame.sort_values(by='b')

Unnamed: 0,b,a,c
3,2,5,9
2,3,2,7
0,4,4,5
1,7,9,3


In [14]:
frame.sort_values(by='a')

Unnamed: 0,b,a,c
2,3,2,7
0,4,4,5
3,2,5,9
1,7,9,3


In [21]:
# 순위 매기기 rank
obj = Series([100, 23, 99, 33])
obj.rank(ascending=False)

0    1.0
1    4.0
2    2.0
3    3.0
dtype: float64

In [24]:
obj = Series([100, 33, 99, 33])
obj.rank(ascending=False)
# 동점이 있으면 평균값을 준다

0    1.0
1    3.5
2    2.0
3    3.5
dtype: float64

In [26]:
obj.rank(method='first', ascending=False)
# 동일한 값이 존재 할 경우 먼저 나타나는 것에게 높은 순위를 줄 수 있다

0    1.0
1    3.0
2    2.0
3    4.0
dtype: float64

In [33]:
df = DataFrame({'b': [4,7,3,2], 'a': [4,9,2,5], 'c': [5,3,7,9]})
df

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [34]:
df.rank()

Unnamed: 0,b,a,c
0,3.0,2.0,2.0
1,4.0,4.0,1.0
2,2.0,1.0,3.0
3,1.0,3.0,4.0


In [35]:
df.rank(axis=1) #행 기준으로 rank를 수행

Unnamed: 0,b,a,c
0,1.5,1.5,3.0
1,2.0,3.0,1.0
2,2.0,1.0,3.0
3,1.0,2.0,3.0


In [36]:
# NaN이 있는 경우 빼고 계산한다
df = DataFrame({'b': [4, 7, 3, 2], 'a': [4,9,2,5], 'c': [5,3,7,np.nan]})
df

Unnamed: 0,b,a,c
0,4,4,5.0
1,7,9,3.0
2,3,2,7.0
3,2,5,


In [38]:
print(df.sum())
print(df.mean())

b    16.0
a    20.0
c    15.0
dtype: float64
b    4.0
a    5.0
c    5.0
dtype: float64


In [39]:
df.sum(skipna=False)
# NaN이 있으면 이를 반영하여 스킵하지 않는다
# skipna 은 skip NaN을 뜻함.

b    16.0
a    20.0
c     NaN
dtype: float64

In [41]:
# 최대치, 최소치가 있는 위치를 반환한다
print(df.idxmax(), df.idxmin())

b    1
a    1
c    2
dtype: int64 b    3
a    2
c    1
dtype: int64


In [42]:
# 항목 갯수 세기

# 유니크한 값 찾기 (set)
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [43]:
set(obj)

{'a', 'b', 'c', 'd'}

In [30]:
uniques = obj.unique()   ## value 값의 종류를 확인 할 수 있다.
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [44]:
# 빈도수를 간단히 알 수 있다. 빈도수가 높은 순으로 정렬된다.
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [45]:
# 빈도수와 관련없이 나타나는 순서대로 보려면
obj.value_counts(sort=False)

d    1
a    3
b    2
c    3
dtype: int64

In [46]:
# 특정한 내용이 들어있는지 알려면 isin()을 사용한다
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [47]:
obj
# obj 값 확인

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [48]:
obj[mask] ## obj에서 mask 값이 true인 값만을 출력

0    c
5    b
6    b
7    c
8    c
dtype: object

In [49]:
# 아래는 같은 결과를 얻는다
obj[obj.isin(['b', 'c'])] 

0    c
5    b
6    b
7    c
8    c
dtype: object

In [51]:
df = DataFrame({'X':['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'], 
                  'Y':['f', 'g', 'd', 'g', 'h', 'e', 'd', 'h', 'f'],
                   'Z':['a', 'e', 'd', 'g', 'd', 'e', 'q', 'b', 'c']})
df

Unnamed: 0,X,Y,Z
0,c,f,a
1,a,g,e
2,d,d,d
3,a,g,g
4,a,h,d
5,b,e,e
6,b,d,q
7,c,h,b
8,c,f,c


In [53]:
df.apply(lambda s: s.value_counts())    # same as the below

Unnamed: 0,X,Y,Z
a,3.0,,1.0
b,2.0,,1.0
c,3.0,,1.0
d,1.0,2.0,2.0
e,,1.0,2.0
f,,2.0,
g,,2.0,1.0
h,,2.0,
q,,,1.0


In [56]:
# 각 항목이 들어 있는 갯수를 센다. 없는 값은 NaN으로 표시된다
result = df.apply(pd.value_counts)
result

Unnamed: 0,X,Y,Z
a,3.0,,1.0
b,2.0,,1.0
c,3.0,,1.0
d,1.0,2.0,2.0
e,,1.0,2.0
f,,2.0,
g,,2.0,1.0
h,,2.0,
q,,,1.0


In [57]:
# 없는 값에 0을 대입한다
result = df.apply(pd.value_counts).fillna(0) ## fillna 은 fill NaN을 뜻한다.
result

Unnamed: 0,X,Y,Z
a,3.0,0.0,1.0
b,2.0,0.0,1.0
c,3.0,0.0,1.0
d,1.0,2.0,2.0
e,0.0,1.0,2.0
f,0.0,2.0,0.0
g,0.0,2.0,1.0
h,0.0,2.0,0.0
q,0.0,0.0,1.0


In [58]:
# 결측치 처리
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data.dropna() # drop na은 drop NaN을 뜻하여 data에서 Na값들이 떨어져 나간 것을 볼 수 있습니다.

0    1.0
2    3.5
4    7.0
dtype: float64

In [59]:
# 같은 결과
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [61]:
df = DataFrame([[NA, 6.5, 3.], [NA, NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3.]])
df

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


In [62]:
# 한 항목이라도 NA가 있으면 해당 행을 삭제한다
cleaned = df.dropna()
cleaned

Unnamed: 0,0,1,2


In [63]:
# 행의 모든 항목이 NA일때 해당 행을 삭제한다
df.dropna(how='all')

Unnamed: 0,0,1,2
0,,6.5,3.0
3,,6.5,3.0


In [64]:
df

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


In [65]:
# 컬럼에 대한 삭제시는 axis=1을 사용한다
clean2 = df.dropna(axis=1)
clean2

0
1
2
3


In [66]:
clean2 = df.dropna(axis=1, how='all')
clean2

Unnamed: 0,1,2
0,6.5,3.0
1,,
2,,
3,6.5,3.0


In [70]:
df = DataFrame(np.random.randn(7 , 3))
df.iloc[:4, 1] = NA 
df.iloc[:2, 2] = NA
df.iloc[0,0] = NA
df

Unnamed: 0,0,1,2
0,,,
1,0.964212,,
2,0.759722,,1.010795
3,2.454894,,1.71761
4,-1.485197,-0.20562,0.794192
5,-0.203317,0.277186,-0.793883
6,-0.451067,2.015733,0.070771


In [73]:
df.dropna(thresh=2) # Keep only the rows with at least 2 non-NA values.

Unnamed: 0,0,1,2
2,0.759722,,1.010795
3,2.454894,,1.71761
4,-1.485197,-0.20562,0.794192
5,-0.203317,0.277186,-0.793883
6,-0.451067,2.015733,0.070771


In [74]:
df

Unnamed: 0,0,1,2
0,,,
1,0.964212,,
2,0.759722,,1.010795
3,2.454894,,1.71761
4,-1.485197,-0.20562,0.794192
5,-0.203317,0.277186,-0.793883
6,-0.451067,2.015733,0.070771


In [75]:
# 컬럼별로 다른 값을 채울 수 있다. 사전을 사용한다
df.fillna({1: 0.5, 2: -1}) 

Unnamed: 0,0,1,2
0,,0.5,-1.0
1,0.964212,0.5,-1.0
2,0.759722,0.5,1.010795
3,2.454894,0.5,1.71761
4,-1.485197,-0.20562,0.794192
5,-0.203317,0.277186,-0.793883
6,-0.451067,2.015733,0.070771


In [54]:
df # fillna()로 내용은 바뀌지 않는다. 

Unnamed: 0,0,1,2
0,,,
1,0.339559,,
2,1.155971,,1.996444
3,-0.922381,,-0.504664
4,-0.466342,0.837099,0.559245
5,0.759055,0.012388,-0.796178
6,0.051424,0.373116,0.98019


In [55]:
# 새로운 변수를 정의하면 바뀐 값을 얻는다
df2 = df.fillna({1: 0.5, 2: -1})
df2

Unnamed: 0,0,1,2
0,,0.5,-1.0
1,0.339559,0.5,-1.0
2,1.155971,0.5,1.996444
3,-0.922381,0.5,-0.504664
4,-0.466342,0.837099,0.559245
5,0.759055,0.012388,-0.796178
6,0.051424,0.373116,0.98019


## concatenation
- concat 명령을 사용하면 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate)한다.
- 기본적으로는 위/아래로 데이터 행을 연결한다. 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.

In [114]:
df1 = pd.DataFrame(np.arange(12).reshape(3,4))
df1

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [115]:
df2 = pd.DataFrame(np.ones((3,4)))
df2

Unnamed: 0,0,1,2,3
0,1.0,1.0,1.0,1.0
1,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,1.0


In [116]:
pd.concat([df1,df2])

Unnamed: 0,0,1,2,3
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0
0,1.0,1.0,1.0,1.0
1,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,1.0


In [117]:
pd.concat([df1,df2], axis=1)

Unnamed: 0,0,1,2,3,0.1,1.1,2.1,3.1
0,0,1,2,3,1.0,1.0,1.0,1.0
1,4,5,6,7,1.0,1.0,1.0,1.0
2,8,9,10,11,1.0,1.0,1.0,1.0


## Merge

In [107]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004],
    '이름': ['A', 'B', 'C', 'D']
})
df1

Unnamed: 0,고객번호,이름
0,1001,A
1,1002,B
2,1003,C
3,1004,D


In [108]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1002, 1006],
    '금액': [10000, 20000, 15000, 5000]
})
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1002,15000
3,1006,5000


In [96]:
pd.merge(df1, df2)   # 공통인 열을 찾아 합친다 (inner join)

Unnamed: 0,고객번호,이름,금액
0,1001,A,10000
1,1001,A,20000
2,1002,B,15000


In [97]:
pd.merge(df1, df2, how='outer') # 키 값이 한쪽에만 있어도 보여줌 (outer join)

Unnamed: 0,고객번호,이름,금액
0,1001,A,10000.0
1,1001,A,20000.0
2,1002,B,15000.0
3,1003,C,
4,1004,D,
5,1006,,5000.0


In [98]:
pd.merge(df1, df2, how='left')  # 첫번째 데이터프레임의 키 값을 모두 보여준다

Unnamed: 0,고객번호,이름,금액
0,1001,A,10000.0
1,1001,A,20000.0
2,1002,B,15000.0
3,1003,C,
4,1004,D,


In [100]:
pd.merge(df1, df2, how='right') # 두번째 데이터프레임의 키 값을 모두 보여준다

Unnamed: 0,고객번호,이름,금액
0,1001,A,10000
1,1001,A,20000
2,1002,B,15000
3,1006,,5000


In [109]:
# join method 를 사용할 수도 있다.
df1 = df1.set_index('고객번호')
df2 = df2.set_index('고객번호')
df1

Unnamed: 0_level_0,이름
고객번호,Unnamed: 1_level_1
1001,A
1002,B
1003,C
1004,D


In [110]:
df2

Unnamed: 0_level_0,금액
고객번호,Unnamed: 1_level_1
1001,10000
1001,20000
1002,15000
1006,5000


In [111]:
df1.join(df2)

Unnamed: 0_level_0,이름,금액
고객번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,A,10000.0
1001,A,20000.0
1002,B,15000.0
1003,C,
1004,D,


In [113]:
df1.join(df2, how='outer')

Unnamed: 0_level_0,이름,금액
고객번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,A,10000.0
1001,A,20000.0
1002,B,15000.0
1003,C,
1004,D,
1006,,5000.0
