In [1]:
import pandas as pd

# 데이터프레임 연결하기(concat)

In [5]:
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
df3 = pd.DataFrame([['e', 5, '!'], ['f', 6, '@']], columns=['letter', 'number', 'etc'])


In [3]:
df1

Unnamed: 0,letter,number,etc
0,e,5,!
1,f,6,@


## 행으로 연결하기

### 컬럼명 기준으로 연결하기



In [7]:
df_rowconcat = pd.concat([df1,df2,df3])
df_rowconcat

Unnamed: 0,letter,number,etc
0,a,1,
1,b,2,
0,c,3,
1,d,4,
0,e,5,!
1,f,6,@


### 공통된 컬럼만 남기기

* join='inner'

In [8]:
df_rowconcat = pd.concat([df1,df2,df3], join='inner')
df_rowconcat

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4
0,e,5
1,f,6


### 인덱스 재지정

* inore_index=True

In [9]:
df_rowconcat = pd.concat([df1,df2,df3], join='inner', ignore_index=True)
df_rowconcat

Unnamed: 0,letter,number
0,a,1
1,b,2
2,c,3
3,d,4
4,e,5
5,f,6


In [11]:
df4 = pd.DataFrame({'age': [20,21,22]}, index=['amy','james','david'])
df5 = pd.DataFrame({'phone': ['010-1111-1111','010-222-2222','010-3333-3333']}, index=['amy','james','david'])
df6 = pd.DataFrame({'job': ['student', 'programmer', 'ceo', 'designer']}, index=['amy','james','david','J'])

## 열로 연결하기

### 인덱스를 기준으로 연결하기

In [12]:
pd.concat([df4,df5,df6], axis=1)

Unnamed: 0,age,phone,job
amy,20.0,010-1111-1111,student
james,21.0,010-222-2222,programmer
david,22.0,010-3333-3333,ceo
J,,,designer


In [13]:
pd.concat([df4,df5,df6])

Unnamed: 0,age,phone,job
amy,20.0,,
james,21.0,,
david,22.0,,
amy,,010-1111-1111,
james,,010-222-2222,
david,,010-3333-3333,
amy,,,student
james,,,programmer
david,,,ceo
J,,,designer


In [15]:
df_column_concat = pd.concat([df4,df5,df6], axis=1, join='inner')
df_column_concat

Unnamed: 0,age,phone,job
amy,20,010-1111-1111,student
james,21,010-222-2222,programmer
david,22,010-3333-3333,ceo


## 공통된 열을 기준으로 연결하기(merge)

* pd.merge(left, right, on= 기준칼럼, how=연결방법)


In [17]:
df = pd.read_csv('data/scores.csv')
df7 = df.loc[[1,2,3]][['name','eng']]
df8 = df.loc[[1,2,4]][['name','math']]

In [18]:
df7

Unnamed: 0,name,eng
1,Charles,80.0
2,Danial,100.0
3,Evan,100.0


In [19]:
df8

Unnamed: 0,name,math
1,Charles,75.0
2,Danial,100.0
4,Henry,60.0


In [21]:
pd.merge(df7,df8,on='name')
# how='inner'(default)

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0


In [22]:
pd.merge(df7,df8,on='name',how='outer') 

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0
2,Evan,100.0,
3,Henry,,60.0


## 왼쪽 데이터 프레임 기준으로 연결

In [24]:
pd.merge(df7,df8,on='name',how='left') 

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0
2,Evan,100.0,


## 오른쪽 데이터 프레임 기준으로 연결

In [23]:
pd.merge(df7,df8,on='name',how='right') 

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0
2,Henry,,60.0


# 행과 열의 형태 변경하기

In [27]:
df = pd.read_csv('data/scores.csv')
df = df.head(2)

## 모든 열 melt

* df.melt()
* pd.melt(df)

In [28]:
df.melt()

Unnamed: 0,variable,value
0,name,Aiden
1,name,Charles
2,kor,100.0
3,kor,90.0
4,eng,90.0
5,eng,80.0
6,math,95.0
7,math,75.0


## 고정할 컬럼 지정하여 melt

* id_vars=[열이름리스트] -> 위치를 그대로 유지할 열 이름

In [29]:
df

Unnamed: 0,name,kor,eng,math
0,Aiden,100.0,90.0,95.0
1,Charles,90.0,80.0,75.0


In [30]:
df.melt(id_vars='name')

Unnamed: 0,name,variable,value
0,Aiden,kor,100.0
1,Charles,kor,90.0
2,Aiden,eng,90.0
3,Charles,eng,80.0
4,Aiden,math,95.0
5,Charles,math,75.0


In [31]:
df.melt(id_vars=['name','kor'])

Unnamed: 0,name,kor,variable,value
0,Aiden,100.0,eng,90.0
1,Charles,90.0,eng,80.0
2,Aiden,100.0,math,95.0
3,Charles,90.0,math,75.0


## 행으로 위치를 변경할 열 지정

* value_vars=[열이름리스트]

In [32]:
#kor

df.melt(id_vars='name', value_vars='kor')

Unnamed: 0,name,variable,value
0,Aiden,kor,100.0
1,Charles,kor,90.0


## 컬럼명 변경하기

* var_name=컬럼명
* value_name = var_name

In [33]:
df.melt(id_vars='name', value_vars=['kor','eng'], var_name='subject', value_name='score')

Unnamed: 0,name,subject,score
0,Aiden,kor,100.0
1,Charles,kor,90.0
2,Aiden,eng,90.0
3,Charles,eng,80.0


## 열을 행으로 보내기(pivot)

In [38]:
df = pd.read_csv('data/scores.csv')
df = df.head(2)
df = df.melt(id_vars = 'name', var_name='subject', value_name='score')

def get_grade(x):
    if x>=90: return 'A'
    elif x>=80: return 'B'
    elif x>=70: return 'C'
    elif x>=60: return 'D'
    else: return 'F'
    return grade
    
        
df['grade'] = df['score'].apply(get_grade)
df = df.sort_values('name')
df


Unnamed: 0,name,subject,score,grade
0,Aiden,kor,100.0,A
2,Aiden,eng,90.0,A
4,Aiden,math,95.0,A
1,Charles,kor,90.0,A
3,Charles,eng,80.0,B
5,Charles,math,75.0,C


* 데이터프레임.pivot(index=인덱스로 사용할 컬럼, columns=컬럼으로 사용할 컬럼, values=값으로 사용할 컬럼)

In [39]:
df.pivot(index='name', columns = 'subject', values='score')

subject,eng,kor,math
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aiden,90.0,100.0,95.0
Charles,80.0,90.0,75.0


In [40]:
df.pivot(index='name', columns = 'subject', values='grade')

subject,eng,kor,math
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aiden,A,A,A
Charles,B,A,C


In [41]:
df.pivot(index='name', columns = 'subject', values=['score','grade'])

Unnamed: 0_level_0,score,score,score,grade,grade,grade
subject,eng,kor,math,eng,kor,math
name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Aiden,90.0,100.0,95.0,A,A,A
Charles,80.0,90.0,75.0,B,A,C


## 행, 열 바꾸기

* 데이터프레임.transpose()

In [42]:
df.transpose()

Unnamed: 0,0,2,4,1,3,5
name,Aiden,Aiden,Aiden,Charles,Charles,Charles
subject,kor,eng,math,kor,eng,math
score,100.0,90.0,95.0,90.0,80.0,75.0
grade,A,A,A,A,B,C


# 행->열로 보내기(row->column)

In [51]:
df = pd.DataFrame({'item': ['shirts', 'shirts', 'shirts', 'shirts', 'shirts',
                            'pants','pants', 'pants', 'pants'],
                   'color': ['white', 'white', 'white', 'black', 'black',
                             'white', 'white', 'black','black'],
                   'size': ['small','large', 'large', 'small',
                            'small', 'large', 'large', 'small',
                            'large'],
                   'sale' : [1,2,2,3,3,4,5,6,7],
                   'inventory':[2,4,5,5,6,6,8,9,9]})

df

Unnamed: 0,item,color,size,sale,inventory
0,shirts,white,small,1,2
1,shirts,white,large,2,4
2,shirts,white,large,2,5
3,shirts,black,small,3,5
4,shirts,black,small,3,6
5,pants,white,large,4,6
6,pants,white,large,5,8
7,pants,black,small,6,9
8,pants,black,large,7,9


In [47]:
df.pivot_table(index='item', columns='size', values='inventory', aggfunc='sum')

size,large,small
item,Unnamed: 1_level_1,Unnamed: 2_level_1
pants,23,9
shirts,9,13


In [48]:
df.pivot_table(index=['item','color'], columns='size', values='inventory', aggfunc='sum')

Unnamed: 0_level_0,size,large,small
item,color,Unnamed: 2_level_1,Unnamed: 3_level_1
pants,black,9.0,9.0
pants,white,14.0,
shirts,black,,11.0
shirts,white,9.0,2.0


In [49]:
df.pivot_table(index=['item','color'], columns='size', values=['sale','inventory'], aggfunc='sum', fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,inventory,inventory,sale,sale
Unnamed: 0_level_1,size,large,small,large,small
item,color,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
pants,black,9,9,7,6
pants,white,14,0,9,0
shirts,black,0,11,0,6
shirts,white,9,2,4,1


* aggfunc=mean(default)

# 데이터 프레임 그룹화하여 그룹별 데이터 집계하기

## 그룹의 통계값 계산하기

 df.groupby(그룹기준컬럼).통계적용컬럼.통계함수  
  

  
* count() : 누락값을 제외한 데이터 수
* size() : 누락값을 포함한 데이터 수
* mean() : 평균
* sum() : 합계
* std() : 표준편차
* min() : 최소값
* max() : 최대값
* sum() : 전체 합

In [53]:
df1 = df.groupby('item').sale.sum().to_frame()
df1

Unnamed: 0_level_0,sale
item,Unnamed: 1_level_1
pants,22
shirts,11


## 그룹에 사용자 정의 함수 적용하기

* df.groupby(그룹기준컬럼).통계적용컬럼.agg(사용자정의함수, 매개변수들)

In [54]:
def my_mean(values):
    return sum(values)/len(values)

In [57]:
df.groupby(['item', 'color']).sale.agg(my_mean)

item    color
pants   black    6.500000
        white    4.500000
shirts  black    3.000000
        white    1.666667
Name: sale, dtype: float64

## 그룹 오브젝트 출력하기

* 데이터프레임.groupby(그룹기준컬럼).groups--> 그룹별 인덱스:[데이터리스트]출력
* 데이터프레임.groupby(그룹기준컬럼).get_group(그룹인덱스) --> 그룹별 인덱스에 해당하는 데이터 프레임 출력

In [59]:
df20=df[:6]
df20.head()

Unnamed: 0,item,color,size,sale,inventory
0,shirts,white,small,1,2
1,shirts,white,large,2,4
2,shirts,white,large,2,5
3,shirts,black,small,3,5
4,shirts,black,small,3,6


In [60]:
df20.groupby('item').groups

{'pants': [5], 'shirts': [0, 1, 2, 3, 4]}

In [61]:
df20.groupby('item').get_group('shirts')

Unnamed: 0,item,color,size,sale,inventory
0,shirts,white,small,1,2
1,shirts,white,large,2,4
2,shirts,white,large,2,5
3,shirts,black,small,3,5
4,shirts,black,small,3,6
