In [1]:
import pandas as pd

## 1. Syntax - Creating Dataframes

In [2]:
# 각 열별로 값 지정
df = pd.DataFrame({
    'a' : [4,5,6],
    'b' : [7,8,9,],
    'c' : [10,11,12]},
    index = [1,2,3])
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [9]:
# 각 행별로 값 지정
df = pd.DataFrame(
    [[4,7,10],
    [5,8,11],
    [6,9,12]],
    index = [1,2,3],
    columns = ['a','b','c'])
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [15]:
# 추출
sub1 = df['a']   # a열 추출
sub2 = df[['a','b']]   # a,b열 추출
sub3 = df.loc[1]   # 1행 추출
sub4 = df.loc[3,'a']   # 3행 a열 추출
sub5 = df.loc[[1,2],['a','b']]   # 여러 특정 행열 추출

print(sub1,sub2,sub3,sub4,sub5,sep='\n\n')

1    4
2    5
3    6
Name: a, dtype: int64

   a  b
1  4  7
2  5  8
3  6  9

a     4
b     7
c    10
Name: 1, dtype: int64

6

   a  b
1  4  7
2  5  8


In [8]:
df2 = pd.DataFrame({
    'a' : [4,5,6],
    'b' : [7,8,9,],
    'c' : [10,11,12]},
    index = pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',2)],
        names = ['n','v']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


## 2. Subset Operations (Rows)

In [36]:
df = pd.DataFrame({
    'a':[4,4,7,10],
    'b':[5,5,8,11],
    'c':[6,6,9,12]},
    index = [1,2,3,4])
df

Unnamed: 0,a,b,c
1,4,5,6
2,4,5,6
3,7,8,9
4,10,11,12


In [37]:
df[df.a > 4]  # 조건에 맞는 행 추출

Unnamed: 0,a,b,c
3,7,8,9
4,10,11,12


In [38]:
df.drop_duplicates()  # 중복된 행 제거

Unnamed: 0,a,b,c
1,4,5,6
3,7,8,9
4,10,11,12


In [40]:
df.head(2)   # 처음 2 행을 추출 

Unnamed: 0,a,b,c
1,4,5,6
2,4,5,6


In [41]:
df.tail(2)   # 마지막 2행을 추출

Unnamed: 0,a,b,c
3,7,8,9
4,10,11,12


In [48]:
df.sample(frac = 0.5)
    # df에서 무작위로 행 추출
    # frac: 전체 중 지정한 비율의 행을 추출
    ## frac = 0.5: 전체 행 수의 반만 추출

Unnamed: 0,a,b,c
3,7,8,9
1,4,5,6


In [47]:
df.sample(n = 3)
    # 3개의 행을 무작위로 추출
    # frac과 병용할 수 없다

Unnamed: 0,a,b,c
1,4,5,6
4,10,11,12
2,4,5,6


In [51]:
df.iloc[1:3]   # 위치 지정해 행 추출

Unnamed: 0,a,b,c
2,4,5,6
3,7,8,9


In [54]:
df.nlargest(2,'b') # b열 기준, 큰 순서로 2행 추출

Unnamed: 0,a,b,c
4,10,11,12
3,7,8,9


In [55]:
df.nsmallest(2,'b') # b열 기준, 작은 순서로 2행 추출

Unnamed: 0,a,b,c
1,4,5,6
2,4,5,6


### ※ Logic in Python (and pandas)

Logic | Meaning || Logic | Meaning
--- | --- || --- | ---
< | Less than || != | Not equal to
--- | --- || --- | ---
\> | Greater than || df.column.isin(values) | Group membership
--- | --- || --- | ---
== | Equals || pd.isnull(obj) | Is NaN
--- | --- || --- | ---
<= | Less than or equals || pd.notnull(obj) | Is not NaN
--- | --- || --- | ---
\>= | Greater than or equals || &,\|,~,^,df.any(),df.all() | Logical and, or, not, xor, any, all

## 3. Subset Variable (Columns)

In [57]:
df[['a','b']]   # 여러 열 추출

Unnamed: 0,a,b
1,4,5
2,4,5
3,7,8
4,10,11


In [59]:
df['a']
df.a

1     4
2     4
3     7
4    10
Name: a, dtype: int64

In [62]:
df.filter(regex = '^a')  # 정규표현식(regex)에 맞는 열을 추출

Unnamed: 0,a
1,4
2,4
3,7
4,10


### ※ regex (Regular Expressions) Examples  
```
'\.' | '.'을 포함한 string
'Length$' | 'Length'로 끝나는 string
'^Sepal' | 'Sepal'로 시작하는 string
'^x[1-5]$' | 'x'로 시작하고 1,2,3,4,5로 끝나는 string
'^(?!Species$).*' | 'Species'를 제외한 string
```

In [65]:
df.loc[:,'a':'c']   # a부터 c열까지 모든 열 추출

Unnamed: 0,a,b,c
1,4,5,6
2,4,5,6
3,7,8,9
4,10,11,12


In [67]:
df.iloc[:,[0,2]]   # 0, 2번째 위치 열 추출 (첫 열 위치는 0)

Unnamed: 0,a,c
1,4,6
2,4,6
3,7,9
4,10,12


In [68]:
df.loc[df['a']>4,['a','c']]   # 지정한 열에서 조건에 맞는 행 추출

Unnamed: 0,a,c
3,7,9
4,10,12


## 4. Reshaping Data - Change the layout of a data set

### pd.melt(df)
열에서 행으로 변환

In [69]:
df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6}})
df

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


In [70]:
pd.melt(df)

Unnamed: 0,variable,value
0,A,a
1,A,b
2,A,c
3,B,1
4,B,3
5,B,5
6,C,2
7,C,4
8,C,6


In [72]:
pd.melt(df, id_vars=['A'], value_vars=['B']) # B열을 행으로

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5


In [78]:
pd.melt(df, value_vars=['B','C']).rename(columns={
    'variable':'var','value':'val'})

Unnamed: 0,var,val
0,B,1
1,B,3
2,B,5
3,C,2
4,C,4
5,C,6


### df.pivot (columns = 'var', values = 'val')
행에서 열로 변환

In [80]:
df2 = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two','two'],
                    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                    'baz': [1, 2, 3, 4, 5, 6]})
df2

Unnamed: 0,foo,bar,baz
0,one,A,1
1,one,B,2
2,one,C,3
3,two,A,4
4,two,B,5
5,two,C,6


In [82]:
df2.pivot(index='foo',columns='bar',values='baz')
    # 행: foo, 열: bar, 값: baz

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


In [85]:
df3 = df2.pivot(index='foo',columns='bar',values='baz').reset_index()
df3
    # reset_index(): index로 세팅한 열을 df 열로 변환

bar,foo,A,B,C
0,one,1,2,3
1,two,4,5,6


In [89]:
(df3.melt(id_vars=['foo'], value_vars=['A','B','C'])
    .sort_values(['foo','bar'])   # foo, bar 순으로 오름차순 정렬
    .rename(columns={'value':'baz'}))   # value열을 baz로 변경

Unnamed: 0,foo,bar,baz
0,one,A,1
2,one,B,2
4,one,C,3
1,two,A,4
3,two,B,5
5,two,C,6


### pd.concat([df1, df2])
데이터프레임의 행 확장

#### Series 확장

In [99]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
print(s1)
print(s2)

0    a
1    b
dtype: object
0    c
1    d
dtype: object


In [100]:
pd.concat([s1,s2])

0    a
1    b
0    c
1    d
dtype: object

In [101]:
pd.concat([s1, s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

In [103]:
pd.concat([s1, s2], keys=['s1','s2'])

s1  0    a
    1    b
s2  0    c
    1    d
dtype: object

In [104]:
pd.concat([s1, s2],
    keys=['s1','s2'],
    names=['Series name','Row ID'])

Series name  Row ID
s1           0         a
             1         b
s2           0         c
             1         d
dtype: object

#### 데이터프레임 확장

In [110]:
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                   columns=['letter', 'number'])
df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [111]:
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                    columns = ['letter', 'number'])
df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [109]:
pd.concat([df1,df2])   # 행 확장

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [122]:
df3 = pd.DataFrame([['c', 3, 'cat'],
                    ['d', 4, 'dog']],
                   columns = ['letter', 'number', 'animal'])
df3

Unnamed: 0,letter,number,animal
0,c,3,cat
1,d,4,dog


In [114]:
pd.concat([df1,df3])   # 없는 행값은 NaN으로 할당됨 (join='outer' 상태)

Unnamed: 0,letter,number,animal
0,a,1,
1,b,2,
0,c,3,cat
1,d,4,dog


In [115]:
pd.concat([df1,df3], join='inner')   # 공통된 열에 대해서만 행 확장

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [117]:
df4 = pd.DataFrame([1], index=['a'])
df4

Unnamed: 0,0
a,1


In [118]:
df5 = pd.DataFrame([2], index=['a'])
df5

Unnamed: 0,0
a,2


In [119]:
pd.concat([df4,df5])

Unnamed: 0,0
a,1
a,2


pd.concat([df4,df5],verify_integrity=True)  
 - value error : 같은 index값이 존재  
 - 합칠 때 중복된 값 있는지 검증 가능

### pd.concat([df1, df2], axis = 1)
데이터프레임의 열 확장

In [131]:
df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [132]:
df6 = pd.DataFrame([['bird', 'polly'],
                    ['monkey', 'george']],
                   columns = ['animal', 'name'])
df6

Unnamed: 0,animal,name
0,bird,polly
1,monkey,george


In [133]:
pd.concat([df1,df6])   # 아래로 행 확장 (axis=0 상태)

Unnamed: 0,letter,number,animal,name
0,a,1.0,,
1,b,2.0,,
0,,,bird,polly
1,,,monkey,george


In [134]:
pd.concat([df1,df6], axis=1)   # 데이터프레임 열 확장

Unnamed: 0,letter,number,animal,name
0,a,1,bird,polly
1,b,2,monkey,george


### ※ Other Methods

df.sort_values('A') : 특정 열의 행값을 오름차순 정렬

df.sort_values('A', ascending=False) : 특정 열의 행값을 내림차순 정렬

df.rename(columns={'A':'A_col'}) : 데이터프레임의 열 이름 변경

df.sort_index() : 데이터프레임의 index를 정렬

df.reset_index() : 데이터프레임의 index를 행 번호로, index를 열로 리셋

df.drop(columns=['A','B']) : 데이터프레임에서 지정 열 삭제