# DataFrame class

In [53]:
import numpy as np
import pandas as pd

# 데이터 프레임 생성

In [54]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [55]:
data = np.arange(24).reshape(4,6)
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,0,1,2,3,4,5
부산,6,7,8,9,10,11
인천,12,13,14,15,16,17
대구,18,19,20,21,22,23


In [56]:
df.지역.values

array([ 0,  6, 12, 18])

In [57]:
df['2015'].values

array([ 1,  7, 13, 19])

In [58]:
df.columns


Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [59]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,0,1,2,3,4,5
부산,6,7,8,9,10,11
인천,12,13,14,15,16,17
대구,18,19,20,21,22,23


In [60]:
# 전치
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,0,6,12,18
2015,1,7,13,19
2010,2,8,14,20
2005,3,9,15,21
2000,4,10,16,22
2010-2015 증가율,5,11,17,23


## 열 데이터의 갱신, 추가, 삭제
데이터프레임 열 시리즈의 딕셔너리로 볼 수 있는 열 단위로 데이터를 갱신하거나 추가, 삭제 가능

In [61]:
# "2010-2015 증가율"이라는 이름의 열 추가
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,0,1,2,3,4,500
부산,6,7,8,9,10,1100
인천,12,13,14,15,16,1700
대구,18,19,20,21,22,2300


In [62]:
df['2020'] = [1,2,3,4]
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2020
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,0,1,2,3,4,500,1
부산,6,7,8,9,10,1100,2
인천,12,13,14,15,16,1700,3
대구,18,19,20,21,22,2300,4


In [63]:
del df['2020']

In [64]:
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,0,1,2,3,4,500
부산,6,7,8,9,10,1100
인천,12,13,14,15,16,1700
대구,18,19,20,21,22,2300


#열 인덱싱

In [65]:
df['지역']        # 결과는 Series

도시
서울     0
부산     6
인천    12
대구    18
Name: 지역, dtype: int64

In [66]:
df[['지역','2015']]     # 결과는 DataFrame

특성,지역,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,0,1
부산,6,7
인천,12,13
대구,18,19


In [67]:
df[['지역']]          # 결과는 DataFrame

특성,지역
도시,Unnamed: 1_level_1
서울,0
부산,6
인천,12
대구,18


In [68]:
type(df['지역']), type(df['지역'])

(pandas.core.series.Series, pandas.core.series.Series)

# 행 인덱싱

In [69]:
df[:'서울']

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,0,1,2,3,4,500


In [70]:
df[1:2]

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,6,7,8,9,10,1100


In [71]:
df['부산':'인천']

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,6,7,8,9,10,1100
인천,12,13,14,15,16,1700


In [72]:
df.head(3)

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,0,1,2,3,4,500
부산,6,7,8,9,10,1100
인천,12,13,14,15,16,1700


#개별 데이터 인덱싱
- df['열 이름]['행 이름]

In [73]:
df['2015']['서울'],df['2015'][0]

(1, 1)

## 연습 문제 4.1.3

In [76]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
colums = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [77]:
# 1) 수학 점수를 시리즈로
df['수학']

KeyError: ignored

In [78]:
# 2) 국어, 영어 점수를 데이터프레임으로
df[['국어', '영어']]

KeyError: ignored

In [49]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

TypeError: ignored

In [None]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

In [None]:
np.mean(df.values, axis=1)

array([86.66666667, 73.33333333, 70.        , 46.66666667])

In [None]:
1

1

In [None]:
df['평균'] = np.mean(df.values, axls=1).round(1)

TypeError: ignored

In [None]:
# 4) 방자 영어점수를 80점으로 수정
del df['평균']
df['영어'][3] = 80
df['평균'] = np.round(df.mean(axis=1),1)
df

KeyError: ignored

In [None]:
# 5) 춘향의 점수를 데이터프레임으로
df.T[:'춘향']

KeyError: ignored

In [None]:
# 6) 향단의 점수를 시리즈로
df.T['향단']

국어    70
영어    60
수학    80
Name: 향단, dtype: int64

In [None]:
df['영어']['방자']

40