In [1]:
# 컬럼명 기준으로 연결
# pd.concat(데이터프레임리스트)

# 인덱스 기준으로 연결
# pd.concat(데이터프레임리스트, axis=1)


In [2]:
import pandas as pd

# 데이터프레임 연결하기(concat)
- pd.concat(데이터프레임리스트)
: 데이터프레임이 동일한 컬럼명 기준으로 행으로 연결된다.
- pd.concat(데이터프레임리스트, axis=1)
: 데이터프레임이동일한 인덱스 기준으로 열로 연결된다. 

## 행으로 연결하기

In [7]:
# 샘플데이터
df1 = pd.DataFrame([['a',1],['b',2],], columns=['letter','number'])
df2 = pd.DataFrame([['c',3],['d',4],], columns=['letter','number'])
df3 = pd.DataFrame([['e',1,'!'],['f',2,'@'],], columns=['letter','number','etc'])

In [8]:
df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [9]:
df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [10]:
df3

Unnamed: 0,letter,number,etc
0,e,1,!
1,f,2,@


### 컬럼명 기준으로 연결하기

In [13]:
df_rowconcat = pd.concat([df1,df2,df3])
df_rowconcat

Unnamed: 0,letter,number,etc
0,a,1,
1,b,2,
0,c,3,
1,d,4,
0,e,1,!
1,f,2,@


### 공통된 컬럼만 남기기
- join='inner'

In [15]:
df_rowconcat = pd.concat([df1,df2,df3], join='inner')
df_rowconcat

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4
0,e,1
1,f,2


In [16]:
df_rowconcat.loc[0] # 행의 고유 이름..

Unnamed: 0,letter,number
0,a,1
0,c,3
0,e,1


### 인덱스 재지정
- ignore_index=True

In [17]:
df_rowconcat = pd.concat([df1,df2,df3], join='inner',ignore_index=True)
df_rowconcat

Unnamed: 0,letter,number
0,a,1
1,b,2
2,c,3
3,d,4
4,e,1
5,f,2


## 열로 연결하기

In [19]:
# 샘플 데이터
df4 = pd.DataFrame({'age':[20,21,22]}, index=['amy','james','david'])
df5 = pd.DataFrame({'phone':['010-111-1111','010-222-2222','010-333-3333']}, index=['amy','james','david'])
df6 = pd.DataFrame({'job':['student','programmer','ceo','designer']}, index=['amy','james','david','J'])

In [20]:
df4

Unnamed: 0,age
amy,20
james,21
david,22


In [21]:
df5

Unnamed: 0,phone
amy,010-111-1111
james,010-222-2222
david,010-333-3333


In [22]:
df6

Unnamed: 0,job
amy,student
james,programmer
david,ceo
J,designer


### 인덱스를 기준으로 연결하기

In [26]:
df_column_concat = pd.concat([df4,df5,df6],axis=1)
df_column_concat

Unnamed: 0,age,phone,job
amy,20.0,010-111-1111,student
james,21.0,010-222-2222,programmer
david,22.0,010-333-3333,ceo
J,,,designer


### 공통된 인덱스만 남기기

In [27]:
df_column_concat = pd.concat([df4,df5,df6],axis=1,join='inner')
df_column_concat

Unnamed: 0,age,phone,job
amy,20,010-111-1111,student
james,21,010-222-2222,programmer
david,22,010-333-3333,ceo


In [29]:
pd.concat([df4,df5,df6],axis=1,join='inner',ignore_index=True)

Unnamed: 0,0,1,2
amy,20,010-111-1111,student
james,21,010-222-2222,programmer
david,22,010-333-3333,ceo


# 공통된 열을 기준으로 연결하기(merge)
- pd.merge(left,right,on=기준컬럼,how=연결방법)
- 2개의 데이터프레임을 연결한다.

In [30]:
df = pd.read_csv('data/scores.csv')
df7 = df.loc[[1,2,3]][['name','eng']]
df8 = df.loc[[1,2,4]][['name','math']]

In [32]:
df7

Unnamed: 0,name,eng
1,Charles,80.0
2,Danial,100.0
3,Evan,100.0


In [33]:
df8

Unnamed: 0,name,math
1,Charles,75.0
2,Danial,100.0
4,Henry,60.0


## 공통 데이터만으로 연결
- how='inner'(default)

In [34]:
pd.merge(df7,df8,on='name')

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0


In [35]:
pd.merge(df7,df8,on='name',how='inner')

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0


## 모든 행 연결
- how='outer'

In [36]:
pd.merge(df7,df8,on='name',how='outer')

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0
2,Evan,100.0,
3,Henry,,60.0


## 왼쪽 데이터프레임 기준으로 연결

In [37]:
pd.merge(df7,df8,on='name',how='left') # df7의 찰스 다니엘 에반을 기준으로 데이터가 들어간다

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0
2,Evan,100.0,


## 오른쪽 데이터프레임 기준으로 연결

In [38]:
pd.merge(df7,df8,on='name',how='right') # df8의 찰스 다니엘 헨리 기준으로

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0
2,Henry,,60.0


In [39]:
##

In [40]:
# 데이터프레임의행과 열의 형태를 변경할 수 있다 

In [41]:
# 열을 행으로 보내기(column->row) : 데이터프레임.melt()

# 행을 열로 보내기 (melt)
- 데이터프레임.melt()
- pd.melt(데이터프레임)

In [60]:
import pandas as pd
df = pd.read_csv('data/scores.csv')
df = df.head(2)
df

Unnamed: 0,name,kor,eng,math
0,Aiden,100.0,90.0,95.0
1,Charles,90.0,80.0,75.0


## 모든열 melt
- df.melt()
- pd.melt(df)

In [61]:
df.melt()

Unnamed: 0,variable,value
0,name,Aiden
1,name,Charles
2,kor,100.0
3,kor,90.0
4,eng,90.0
5,eng,80.0
6,math,95.0
7,math,75.0


## 고정할 컬럼 지정하여 melt
- id_vars=[열이름리스트] -> 위치를 그대로 유지할 열 이름

In [62]:
df

Unnamed: 0,name,kor,eng,math
0,Aiden,100.0,90.0,95.0
1,Charles,90.0,80.0,75.0


In [63]:
# name 고정
df.melt(id_vars=['name'])

Unnamed: 0,name,variable,value
0,Aiden,kor,100.0
1,Charles,kor,90.0
2,Aiden,eng,90.0
3,Charles,eng,80.0
4,Aiden,math,95.0
5,Charles,math,75.0


In [64]:
# name kor 고정
df.melt(id_vars=['name','kor'])

Unnamed: 0,name,kor,variable,value
0,Aiden,100.0,eng,90.0
1,Charles,90.0,eng,80.0
2,Aiden,100.0,math,95.0
3,Charles,90.0,math,75.0


## 행으로 위치를 변경할 열 지정
- value_vars=[열이름리스트]

In [65]:
# kor
df.melt(id_vars=['name'], value_vars=['kor'])

Unnamed: 0,name,variable,value
0,Aiden,kor,100.0
1,Charles,kor,90.0


In [66]:
# kor,eng
df.melt(id_vars=['name'], value_vars=['kor','eng'])

Unnamed: 0,name,variable,value
0,Aiden,kor,100.0
1,Charles,kor,90.0
2,Aiden,eng,90.0
3,Charles,eng,80.0


## 컬럼명 변경하기
- var_name = 컬럼명 -> value_vars로 위치를 변경한 열 이름
- value_name = var_name으로 위치를 변경한 열의 데이터를저장한 열 이름 

In [67]:
# subject, score
df.melt(id_vars=['name'], value_vars=['kor','eng'], var_name='subject', value_name='score')

Unnamed: 0,name,subject,score
0,Aiden,kor,100.0
1,Charles,kor,90.0
2,Aiden,eng,90.0
3,Charles,eng,80.0


# 열을 행으로 보내기(pivot)

In [70]:
# 샘플데이터
df = pd.read_csv('data/scores.csv')
df = df.head(2)
df = df.melt(id_vars=['name',], var_name='subject', value_name='score')

def get_grade(x):
    if x>=90: grade='A'
    elif x>=80: grade='B'
    elif x>=70: grade='C'
    elif x>=60: grade='D'
    else: grade='F'
    return grade

df['grade'] = df['score'].apply(get_grade)
df = df.sort_values('name')
df

Unnamed: 0,name,subject,score,grade
0,Aiden,kor,100.0,A
2,Aiden,eng,90.0,A
4,Aiden,math,95.0,A
1,Charles,kor,90.0,A
3,Charles,eng,80.0,B
5,Charles,math,75.0,C


- 데이터프레임.pivot(index=인덱스로 사용할 컬럼, columns=컬럼으로 사용할 컬럼, values=값으로 사용할 컬럼)

In [75]:
# name, subject, score
df.pivot(index='name',columns='subject',values='score')

subject,eng,kor,math
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aiden,90.0,100.0,95.0
Charles,80.0,90.0,75.0


In [76]:
# name, subject, grade
df.pivot(index='name',columns='subject',values='grade')

subject,eng,kor,math
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aiden,A,A,A
Charles,B,A,C


In [77]:
# name, subject, [grade,score]
df.pivot(index='name',columns='subject',values=['score','grade'])

Unnamed: 0_level_0,score,score,score,grade,grade,grade
subject,eng,kor,math,eng,kor,math
name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Aiden,90.0,100.0,95.0,A,A,A
Charles,80.0,90.0,75.0,B,A,C


In [78]:
# name, subject
df.pivot(index='name',columns='subject')

Unnamed: 0_level_0,score,score,score,grade,grade,grade
subject,eng,kor,math,eng,kor,math
name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Aiden,90.0,100.0,95.0,A,A,A
Charles,80.0,90.0,75.0,B,A,C


# 행과 열 바꾸기
- 데이터프레임.transpose()

In [79]:
df.head()

Unnamed: 0,name,subject,score,grade
0,Aiden,kor,100.0,A
2,Aiden,eng,90.0,A
4,Aiden,math,95.0,A
1,Charles,kor,90.0,A
3,Charles,eng,80.0,B


In [80]:
df.transpose()

Unnamed: 0,0,2,4,1,3,5
name,Aiden,Aiden,Aiden,Charles,Charles,Charles
subject,kor,eng,math,kor,eng,math
score,100.0,90.0,95.0,90.0,80.0,75.0
grade,A,A,A,A,B,C
