# 데이터프레임 (DateFrame)


- 하나의 열이 되는 데이터를 리스트나 Array로 준비한다.

- 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.

- 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다. 


In [111]:
import numpy as np
import pandas as pd

In [112]:
data = {
    "2015":[9904312, 3448737, 2890451, 2466052],
    "2010":[9631482, 3393191, 2632035, 2431774],
    "2005":[9762546, 3512547, 2517680, 2456016],
    "2000":[9853972, 3655437, 2466338, 2473990],
    "지역":["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ['지역','2000','2005','2010','2015','2010-2015 증가율']
# columns를 정해놓으면 내가 순서를 정하는 것이고,
# columns를 주지 않으면 딕셔너리 키값 순서대로 들어간다
index = ['서울','부산','인천','대구']
df = pd.DataFrame(data, columns = columns, index = index)
df

Unnamed: 0,지역,2000,2005,2010,2015,2010-2015 증가율
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


In [113]:
# 데이터만 끄집어내기
df.values

array([['수도권', 9853972, 9762546, 9631482, 9904312, 0.0283],
       ['경상권', 3655437, 3512547, 3393191, 3448737, 0.0163],
       ['수도권', 2466338, 2517680, 2632035, 2890451, 0.0982],
       ['경상권', 2473990, 2456016, 2431774, 2466052, 0.0141]], dtype=object)

In [114]:
# Header 끄집어내기
# 만약 df만들때 columns를 주지 않았다면 딕셔너리 키값 순서대로 
df.columns

Index(['지역', '2000', '2005', '2010', '2015', '2010-2015 증가율'], dtype='object')

In [115]:
# 열방향, 행방향 인덱스에 이름 붙이기
df.index.name = "도시"
df.columns.name = "인구수"
df

인구수,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


In [116]:
df.T

도시,서울,부산,인천,대구
인구수,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2000,9853972,3655437,2466338,2473990
2005,9762546,3512547,2517680,2456016
2010,9631482,3393191,2632035,2431774
2015,9904312,3448737,2890451,2466052
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [117]:
data = {
    "독일어표기":["Berlin","München","Hamburg","Frankfurt","Dresden"],
    "주":["베를린","바이에른 자유주","함부르크","헤센","작센"],
    "인구수":[233151,134155,200143,160023,501430],
    "인구증가율":[1.52,1.42,1.38,1.33,1.61],
    "소득":[23412,28904,22451,23500,20012]
}
columns = ['인구수','독일어표기','인구증가율','소득','주']
index = ['베를린','뮌헨','함부르크','프랑크푸르트','드레스덴']
germany = pd.DataFrame(data, index=index, columns=columns)
germany

Unnamed: 0,인구수,독일어표기,인구증가율,소득,주
베를린,233151,Berlin,1.52,23412,베를린
뮌헨,134155,München,1.42,28904,바이에른 자유주
함부르크,200143,Hamburg,1.38,22451,함부르크
프랑크푸르트,160023,Frankfurt,1.33,23500,헤센
드레스덴,501430,Dresden,1.61,20012,작센


### 열 데이터(=시리즈) 갱신, 추가, 삭제

In [118]:
# "2010-2015 증가율"이라는 이름의 열 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

인구수,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,2.83
부산,경상권,3655437,3512547,3393191,3448737,1.63
인천,수도권,2466338,2517680,2632035,2890451,9.82
대구,경상권,2473990,2456016,2431774,2466052,1.41


In [119]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

인구수,지역,2000,2005,2010,2015,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9853972,9762546,9631482,9904312,2.83,-1.34
부산,경상권,3655437,3512547,3393191,3448737,1.63,-3.4
인천,수도권,2466338,2517680,2632035,2890451,9.82,4.54
대구,경상권,2473990,2456016,2431774,2466052,1.41,-0.99


In [120]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

인구수,지역,2000,2005,2010,2015,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,-1.34
부산,경상권,3655437,3512547,3393191,3448737,-3.4
인천,수도권,2466338,2517680,2632035,2890451,4.54
대구,경상권,2473990,2456016,2431774,2466052,-0.99


### 열 인덱싱

- !!! df\[열\]\[행\] 
- !!! df\[열, :행\]

In [121]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [122]:
type(df["지역"])

pandas.core.series.Series

In [123]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
# 데이터프레임으로 뽑고싶으면 중첩리스트로 인덱싱해야함
df[["2010", "2015"]]

인구수,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [124]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
df[["2010"]]

인구수,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [125]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
type(df[["2010"]])

pandas.core.frame.DataFrame

In [126]:
# columns(열 인덱스)를 따로 준 경우에는 정수로 인덱싱을 할 수 없다
df[0]

KeyError: 0

In [127]:
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [128]:
# columns를 따로 안 준 경우엔 정수로 인덱싱 가능
df2[0]

0    0
1    4
2    8
Name: 0, dtype: int32

### 행 인덱싱

- 만약 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing) : 을 해야 한다. 아니면 열로 알아먹는다
- 인덱스의 값이 문자 라벨이면 라벨 슬라이싱도 가능하다.

In [129]:
df[:1]

인구수,지역,2000,2005,2010,2015,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,-1.34


In [130]:
df[:'서울']

인구수,지역,2000,2005,2010,2015,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,-1.34


In [131]:
df[1:2]

인구수,지역,2000,2005,2010,2015,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3655437,3512547,3393191,3448737,-3.4


In [132]:
df["서울":"부산"]

인구수,지역,2000,2005,2010,2015,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,-1.34
부산,경상권,3655437,3512547,3393191,3448737,-3.4


### 개별 데이터 인덱싱

In [133]:
# df[열][행]
df["2015"]["서울"]

9904312

### 연습문제

In [134]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [135]:
#1 모든 학생의 수학 점수를 시리즈로 나타낸다.
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [136]:
#2 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [137]:
#3 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
df['평균'] = ( (
    df['국어'] + \
    df['영어'] + \
    df['수학']
) / 3 ).round(2)

# df['평균'] = df.mean(axis=1).round(2)
""" 이 방법은 열을 따로 고를 필요 없이 다 더해서 평균 낼 때 """
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [138]:
#4 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
df['영어']['방자'] = 80
df['평균'] = ( (
    df['국어'] + \
    df['영어'] + \
    df['수학']
) / 3 ).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [139]:
#5 춘향의 점수를 데이터프레임으로 나타낸다.
df[:'춘향']

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [140]:
#6 향단의 점수를 시리즈로 나타낸다.
""" 중간에 한 행을 뽑으려면 """
df['향단':"향단"].values

array([[70., 60., 80., 70.]])

In [144]:
# 위처럼 하면 잘해도 Array로 밖에 못 뽑아낸다.columns
""" Transpose로 해주면 """
df.T['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64