In [1]:
import numpy as np
import pandas as pd
from IPython.display import display

In [2]:
# 딕셔너리 DataFrame에 넣기
df = pd.DataFrame({'c0':[1,2,3],
                  'c1':[4,5,6],
                  'c2':[7,8,9],
                  'c3':[10,11,12],
                  'c4':[13,14,15]})

In [3]:
print(type(df))
display(df)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [4]:
# 리스트 DataFrame에 넣기
df = pd.DataFrame([[18,'남','김천고'],[19,'여','울산고']],
                 index = ['진현','민지'],
                 columns = ['나이','성별','학교'])
display(df)

Unnamed: 0,나이,성별,학교
진현,18,남,김천고
민지,19,여,울산고


In [5]:
# row 바꾸기
df.index = ['학생1','학생2']
display(df)

Unnamed: 0,나이,성별,학교
학생1,18,남,김천고
학생2,19,여,울산고


In [6]:
# column 바꾸기
df.columns = ['연령','남녀','소속']
display(df)

Unnamed: 0,연령,남녀,소속
학생1,18,남,김천고
학생2,19,여,울산고


In [7]:
# 행 인덱스나 열 이름을 변경하는 다른 방법
# inplace를 True로 안해주면 원본 DataFrame객체를 수정하는 것이 아닌 새로운 DataFrame객체를 생성하게 된다.
df.rename(columns={'나이':'연령','성별':'남녀',"학교":"소속"}, inplace=True)
df.rename(index={"진현":"학생1","민지":"학생2"}, inplace=True)

In [8]:
display(df)

Unnamed: 0,연령,남녀,소속
학생1,18,남,김천고
학생2,19,여,울산고


**행렬 삭제**<br>
1. drop() 함수 사용
 - 행을 삭제할 때는 axis=0
 - 열을 삭제할 때는 axis=1

In [9]:
# 행 삭제
df.drop('학생1',axis=0,inplace=True)
display(df)

Unnamed: 0,연령,남녀,소속
학생2,19,여,울산고


In [10]:
# 열 삭제
df.drop(['연령','소속'],axis=1,inplace=True)
display(df)

Unnamed: 0,남녀
학생2,여


**행 선택**<br>
1. loc : 인덱스 이름 기준으로 행을 선택할 때 사용
2. iloc : 정수형 위치 인덱스를 선택할 때 사용

In [11]:
exam_data = {'수학':[100,40,70,30],'영어':[50,70,90,80],'생물':[50,90,70,18],'도덕':[88,68,58,77]}
df2 = pd.DataFrame(exam_data, index=['진헌','민지','성철','지산'])

display(df2)

Unnamed: 0,수학,영어,생물,도덕
진헌,100,50,50,88
민지,40,70,90,68
성철,70,90,70,58
지산,30,80,18,77


In [12]:
# 행 선택
df2.loc['진헌']

수학    100
영어     50
생물     50
도덕     88
Name: 진헌, dtype: int64

In [13]:
# 인덱스로 민지부분 출력
df2.iloc[1]

수학    40
영어    70
생물    90
도덕    68
Name: 민지, dtype: int64

In [14]:
# 2개 이상의 행 인덱스 추출 (리스트로 가능)
# 민지 다음에 있는 모든 사람의 성적 출력
df2.loc['민지':]

Unnamed: 0,수학,영어,생물,도덕
민지,40,70,90,68
성철,70,90,70,58
지산,30,80,18,77


In [15]:
# 민지와 지산의 성적만 출력
df2.loc[['민지','지산']]

Unnamed: 0,수학,영어,생물,도덕
민지,40,70,90,68
지산,30,80,18,77


In [16]:
# 세 번째 인덱스부터 행 출력
df2.iloc[3:]

Unnamed: 0,수학,영어,생물,도덕
지산,30,80,18,77


In [17]:
# 두 번째 인덱스행과 세 번째 인덱스행 출력
df2.iloc[[2,1]]

Unnamed: 0,수학,영어,생물,도덕
성철,70,90,70,58
민지,40,70,90,68


**열 선택하기**<br>
1. 수학 선택 예
 - df.수학, df['수학'], df[['수학']]<br>
df.수학과 df['수학']은 Series 객체를 도출한다.<br>
df[['수학']]은 DataFrame객체로 반환된다.<br>

In [18]:
display(df2.수학)
print(type(df2.수학))

진헌    100
민지     40
성철     70
지산     30
Name: 수학, dtype: int64

<class 'pandas.core.series.Series'>


In [19]:
display(df2['수학'])
print(type(df2))

진헌    100
민지     40
성철     70
지산     30
Name: 수학, dtype: int64

<class 'pandas.core.frame.DataFrame'>


In [20]:
display(df2[['수학']])
print(type(df2[['수학']]))

Unnamed: 0,수학
진헌,100
민지,40
성철,70
지산,30


<class 'pandas.core.frame.DataFrame'>


In [21]:
# 2개 이상 열 인덱스 추출 시 리스트로 넣어서 추출이 가능하다.
df2[['수학','영어']]

Unnamed: 0,수학,영어
진헌,100,50
민지,40,70
성철,70,90
지산,30,80


**열을 인덱스로 지정하는 법**<br>
set_index() 함수로 지정된 열을 인덱스로 변경이 가능하다.

In [22]:
# inplace=True는 원본값을 바꿔준다.
df2.set_index('수학',inplace=True)
display(df2)

Unnamed: 0_level_0,영어,생물,도덕
수학,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100,50,50,88
40,70,90,68
70,90,70,58
30,80,18,77


**원소 선택**<br>
특정 데이터만 뽑아내고 싶을 때가 있다.<br>
이 때는 .loc, .iloc을 사용한다.

In [23]:
exam_data = {'이름': ['진현', '민지', '성철', '지산'], '수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data)
print(df)

   이름   수학  영어  생물  도덕
0  진현  100  50  50  88
1  민지   40  70  90  68
2  성철   70  90  70  58
3  지산   30  80  18  77


In [24]:
df2 = df.set_index('이름')
print(df2)

     수학  영어  생물  도덕
이름                 
진현  100  50  50  88
민지   40  70  90  68
성철   70  90  70  58
지산   30  80  18  77


In [25]:
# 인덱스 1에 있는 사람의 1 ~ 2 열 데이터 출력
print(df2.iloc[1, 1:3])

영어    70
생물    90
Name: 민지, dtype: int64


In [26]:
# 민지의 영어 ~ 도덕 성적만 출력
display(df2.loc['민지','영어':'도덕'])

영어    70
생물    90
도덕    68
Name: 민지, dtype: int64

In [27]:
# 민지의 영어, 생물 성적만 출력
display(df2.loc['민지',['영어','생물']])

영어    70
생물    90
Name: 민지, dtype: int64

In [28]:
display(df2.iloc[1,1])

70

In [29]:
display(df2.iloc[1][1])

70

**범위 슬라이싱**<br>
DataFrame객체.iloc[시작인덱스:끝인덱스:슬라이싱간격]

In [30]:
exam_data = {'수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data,index=['진현', '민지', '성철', '지산'])
display(df)

Unnamed: 0,수학,영어,생물,도덕
진현,100,50,50,88
민지,40,70,90,68
성철,70,90,70,58
지산,30,80,18,77


In [31]:
# 모든 행에 대해서 전체 데이터를 첫행부터 2행 간격으로 선택
df.iloc[::2]

Unnamed: 0,수학,영어,생물,도덕
진현,100,50,50,88
성철,70,90,70,58


In [32]:
# 1행부터 3행까지 2행 간격으로 선택
df.iloc[1:4:2]

Unnamed: 0,수학,영어,생물,도덕
민지,40,70,90,68
지산,30,80,18,77


In [33]:
# 역순 정렬
df.iloc[::-1]

Unnamed: 0,수학,영어,생물,도덕
지산,30,80,18,77
성철,70,90,70,58
민지,40,70,90,68
진현,100,50,50,88


**행/열 추가**

In [34]:
exam_data = {'이름': ['진현', '민지', '성철', '지산'], '수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data)
display(df)

Unnamed: 0,이름,수학,영어,생물,도덕
0,진현,100,50,50,88
1,민지,40,70,90,68
2,성철,70,90,70,58
3,지산,30,80,18,77


In [35]:
# 국어 과목 열 일괄 추가
df['국어'] = 80 # 딕셔너리처럼 추가
display(df)

Unnamed: 0,이름,수학,영어,생물,도덕,국어
0,진현,100,50,50,88,80
1,민지,40,70,90,68,80
2,성철,70,90,70,58,80
3,지산,30,80,18,77,80


In [36]:
# 기존 행 변경
df.loc[1] = ['하나',1,2,3,4,5]
display(df)

Unnamed: 0,이름,수학,영어,생물,도덕,국어
0,진현,100,50,50,88,80
1,하나,1,2,3,4,5
2,성철,70,90,70,58,80
3,지산,30,80,18,77,80


In [37]:
# 행 추가
df.loc[4] = ['만수', 1,2,3,4,5]
display(df)

Unnamed: 0,이름,수학,영어,생물,도덕,국어
0,진현,100,50,50,88,80
1,하나,1,2,3,4,5
2,성철,70,90,70,58,80
3,지산,30,80,18,77,80
4,만수,1,2,3,4,5


**전치**<br>
데이터프레임의 행과 열을 맞바꾸는 방법이다.<br>
transpose() 함수를 활용하거나 df.T과 같은 클래스 속성을 활용할 수 있다.<br>
두번 실행하면 최초 데이터프레임으로 돌아온다.

In [38]:
exam_data = {'이름': ['진현', '민지', '성철', '지산'], '수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data)
display(df)

Unnamed: 0,이름,수학,영어,생물,도덕
0,진현,100,50,50,88
1,민지,40,70,90,68
2,성철,70,90,70,58
3,지산,30,80,18,77


In [39]:
# 행과 열을 바꾼다
df = df.transpose()
display(df)

Unnamed: 0,0,1,2,3
이름,진현,민지,성철,지산
수학,100,40,70,30
영어,50,70,90,80
생물,50,90,70,18
도덕,88,68,58,77


In [40]:
# 행과 열을 바꾼다
df = df.T
display(df)

Unnamed: 0,이름,수학,영어,생물,도덕
0,진현,100,50,50,88
1,민지,40,70,90,68
2,성철,70,90,70,58
3,지산,30,80,18,77


**행 인덱스 수정**<br>
행 인덱스를 재배열하기 위해서는 reindex() 함수와 fill_value옵션을 사용하고<br>
인덱스 초기화는 reset_index() 함수를 사용한다.

In [41]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
display(df)

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [42]:
# 인덱스를 재정의한다. 추가되는 부분의 값들은 NaN값이 된다.
new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index)
display(ndf)

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [43]:
# 추가되는 부분을 NaN이 아닌 0으로 초기화해서 넣는다.
new_index = ['r0','r1','r2','r3','r4']
ndf2 = df.reindex(new_index, fill_value=0)
display(ndf2)

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [44]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
display(df)

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [45]:
display(ndf)

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [46]:
# 기존 index값이 행으로 빠지고 인덱스는 기본이 된다.
ndf = df.reset_index()
display(ndf)

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


In [47]:
import pandas as pd
# plotly express에 내장되어있는 gapminder 데이터프레임을 사용하겠습니다.
import plotly.express as px

In [50]:
df = px.data.gapminder()

# 데이터 df를 인덱스 기준으로 정렬
# 기본 정렬 방식으로는 오름차순 (ascending)입니다.
# 내림차순으로 정렬하고 싶다면 ascending 옵션을 False로 설정합니다.
df_sorted_by_index = df.sort_index(ascending=False)
df_sorted_by_index.head()
# display(df_sorted_by_index)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298,ZWE,716
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623,ZWE,716
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996,ZWE,716
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786,ZWE,716
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306,ZWE,716


In [54]:
# 데이터프레임을 year 칼럼의 값을 기준으로 정렬합니다.
# 기본 정렬방식은 오름차순 (ascending)입니다.
# 내림차순으로 정렬하고 싶다면 ascending 옵션을 False로 설정하세요.
df_sorted_by_values = df.sort_values(by='year',ascending=False)

display(df_sorted_by_values.head())

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298,ZWE,716
491,Equatorial Guinea,Africa,2007,51.579,551201,12154.08975,GNQ,226
515,Ethiopia,Africa,2007,52.947,76511887,690.805576,ETH,231
527,Finland,Europe,2007,79.313,5238460,33207.0844,FIN,246
539,France,Europe,2007,80.657,61083916,30470.0167,FRA,250


In [55]:
# 여러개를 기준으로 하고 싶다면 by에 리스트로 여러가지를 설정해주면 됩니다.
df_sorted_values_2 = df.sort_values(by=['year','pop'],ascending=False)
df_sorted_values_2.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
299,China,Asia,2007,72.961,1318683096,4959.114854,CHN,156
707,India,Asia,2007,64.698,1110396331,2452.210407,IND,356
1619,United States,Americas,2007,78.242,301139947,42951.65309,USA,840
719,Indonesia,Asia,2007,70.65,223547000,3540.651564,IDN,360
179,Brazil,Americas,2007,72.39,190010647,9065.800825,BRA,76
