## Pandas

In [5]:
import pandas as pd
import numpy as np

1) Series
 - 일련의 객체를 담을 수 있는 1차원 배열과 같은 자료 구조
 - 색인이라고 하는 배열의 데이터에 연관된 이름을 가짐

In [12]:
data1_ = {"Ohio" : 35000, "Texas" : 71000, "Oregon" : 16000, "Utah : 5000" : 5000}
data1 = pd.Series(data1_)
data1

Ohio           35000
Texas          71000
Oregon         16000
Utah : 5000     5000
dtype: int64

2) DataFrame
 - 여러 개의 데이터 타입을 column별로 담은 데이터
 - 각 column을 feature, variable 등으로 볼 수 있음

In [16]:
data2 = {"state" : ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada"],
        "year" : [2000, 2001, 2002, 2001, 2002],
        "pop" : [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = pd.DataFrame(data2)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


3)주요함수

Re-indexing

In [3]:
data3_ = pd.Series([4.5, 7.2, -5.3, 3.6], index = ["d", "b", "a", "c"])
data3_

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [4]:
data3 = data3_.reindex(["a", "b", "c", "d", "e"])
data3

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Drop

In [11]:
data4 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                     index = ["Ohio", "Colorado", "Utah", "New York"], 
                     columns = ["one", "two", "three", "four"])
data4

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [12]:
data4.drop(["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [14]:
#column을 지울때는 axis 값을 넣어줘야됨
data4.drop("two", axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


Merge
 - 두 데이터 프레임의 공통 열, 인덱스를 기준으로 두 개의 테이블을 합친다.
   이 때 기준이 되는 열, 행의 데이터를 키(key)라고 한다.

In [19]:
df1 = pd.DataFrame({"고객번호" : [1001, 1002, 1003, 1004, 1005, 1006, 1007],
                   "이름" : ["둘리","도우너", "또치", "길동", "희동", "마이콜", "영희"]})
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [21]:
df2 = pd.DataFrame({"고객번호" : [1001, 1001, 1005, 1006, 1008, 1001],
                   "금액" : [10000, 20000, 15000, 5000, 100000, 30000]})
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [22]:
pd.merge(df1, df2)
#양쪽 데이트프레임에 모두 키가 존재하는 데이터만 보여줌

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [24]:
pd.merge(df1, df2, how = "outer")
#키 값이 한쪽에만 있어도 보여줌

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [25]:
pd.merge(df1, df2, how = "left")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [26]:
pd.merge(df1, df2, how = "right")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


In [27]:
# 두 데이터프레임에서 이름이 같은 열은 모두 키가됨
# 이름이 같아도 키가 안되는 열이 있으면 on 인수 사용
pd.merge(df1, df2, on = "고객번호")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [28]:
# 키가 되는 기준열의 이름이 두 데이터프레임에서 다를때 left_on, right_on
df3 = pd.DataFrame({"성적" : [1, 2, 3], "이름" : ["영희", "철수", "철수"]})
df3

Unnamed: 0,성적,이름
0,1,영희
1,2,철수
2,3,철수


In [30]:
df4 = pd.DataFrame({"성명" : ["영희", "영희", "철수"], "성적2" : [4, 5, 6]})
df4

Unnamed: 0,성명,성적2
0,영희,4
1,영희,5
2,철수,6


In [32]:
pd.merge(df3, df4, left_on = "이름", right_on = "성명")

Unnamed: 0,성적,이름,성명,성적2
0,1,영희,영희,4
1,1,영희,영희,5
2,2,철수,철수,6
3,3,철수,철수,6


In [None]:
# index를 기준열로 사용할 때 left_index = True, right_index = True 

In [36]:
df5 = pd.DataFrame({"도시" : ["서울", "서울", "서울", "부산", "부산"],
                   "연도" : [2000, 2005, 2010, 2000, 2005],
                   "인구": [9853972, 9762546, 9631482, 3655437, 3512547]})
df5

Unnamed: 0,도시,연도,인구
0,서울,2000,9853972
1,서울,2005,9762546
2,서울,2010,9631482
3,부산,2000,3655437
4,부산,2005,3512547


In [37]:
df6 = pd.DataFrame(np.arange(12).reshape((6, 2)),
                  index = [["부산", "부산", "서울", "서울", "서울", "서울"],
                  [2000, 2005, 2000, 2005, 2010, 2015]],
                   columns = ["데이터1", "데이터2"])
df6                

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [39]:
pd.merge(df5, df6, left_on = ["도시", "연도"], right_index = True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [42]:
df7 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]],
                   index = ["a", "c", "e"],
                   columns = ["서울", "부산"])
df7

Unnamed: 0,서울,부산
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [43]:
df8 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13., 14.]],
                  index = ["b", "c", "d", "e"],
                   columns = ["대구", "광주"])
df8

Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [47]:
pd.merge(df7, df8, how = "outer", left_index = True, right_index = True)

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


Concat
 - 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결

In [50]:
# 행으로 연결
s1 = pd.Series([0, 1], index=['A', 'B'])
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])

In [51]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [54]:
# 열로 연결
s3 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
s3

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [55]:
s4 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
s4

Unnamed: 0,데이터3,데이터4
a,5,6
c,7,8
