## 데이터 프레임

![](./dataframe.png)


- Pandas 라이브러리에서 기본적으로 데이터를 다루는 단위는 DataFrame : spreadsheet와 같은 개념

- 이러한 형태의 데이터는 Structured Data 또는 Panel Data 또는 Tabular Data라고 부름

- pandas를 공부한다는 것은 결국 dataframe의 사용법을 익히고 활용하는 방법을 배운다는 것

- pandas를 잘 활용하면 대부분의 structured data를 자유자재로 다룰 수 있게 됨


## 데이터 프레임 개념
- 2차원 행렬 데이터에 인덱스를 붙인 것
- 행과 열로 만들어지는 2차원 배열 구조
- R의 데이터 프레임에서 유래
- 데이프레임의 각 열은 시리즈로 구성되어 있음 (각 열의 데이터 타입은 동일해야 함)
- DataFrame()함수를 사용해서 생성


![dataframe.png](attachment:dataframe.png)

## 데이터프레임 생성
- DataFrame()

## 리스트로 데이터 프레임 만들기

- DataFrame([[list1],[list2]]) 
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장


In [1]:
import pandas as pd
import numpy as np

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [4]:
#### 1차원 리스트를 이용해서 df 생성 -원소가 각 행으로 매핑
df = pd.DataFrame(['a','b','c']) ## 각각 한 행으로 입력 (열로 들어간다고 생각하면 됨)
df

Unnamed: 0,0
0,a
1,b
2,c


In [5]:
df = pd.DataFrame([['a','b','c']]) ## 동일한 행으로 입력 (대괄호를 두번 묶어주면 동일한 행으로)
df

Unnamed: 0,0,1,2
0,a,b,c


In [6]:
### 2차원 리스틀ㄹ 이용해 df 생성 - 하위 리스트가 각 행으로 매핑
df = pd.DataFrame([['a','b','c'],['a','a','a']]) 
df

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,a


In [7]:
### 하위 리스트의 원소의 개수 서로 다른 경우 - NaN 값을 저장
df = pd.DataFrame([['a','b','c'],['a','a','a'],['a','a']]) 
df

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,a
2,a,a,


## 딕셔너리로 데이터 프레임 생성
- dict의 key -> column name 생성
- dict item은 데이터프레임의 column으로 정의

In [8]:
df1= pd.DataFrame({'A':[90,80,70],
                   'B':[85,98,75],
                   'C':[88,99,77],                   
                   'D':[87,89,86]},
                 index=[0,1,2])
df1

Unnamed: 0,A,B,C,D
0,90,85,88,87
1,80,98,99,89
2,70,75,77,86


In [10]:
## 데이터 프레임에서 열의 순서는 중요하지 않음 (딕셔너리 동일함)
df1= pd.DataFrame({'A':[90,80,70],
                   'B':[85,98,75],
                   'C':[88,99,77],                   
                   'D':[87,89,86]})
df1

Unnamed: 0,A,B,C,D
0,90,85,88,87
1,80,98,99,89
2,70,75,77,86


In [14]:
# df의 값을 위한 dict
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2000002],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982,0.0141]
}

#열방향 인덱스(컬럼명) columns=
columns = ['지역','2015','2010','2005','2000','2010-2015 증가율']

#행방향 인덱스 index =
index=['서울','부산','인천','대구']

#pd.DataFrame(데이터, index =, columss=)
df3 = pd.DataFrame(data, index=index, columns=columns)

df3

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


## 시리즈로 데이터 프레임 생성
- pd.DataFrame(시리즈) : 시리즈를 열로 정의 - 1개의 시리즈가 전달
- 여러 개의 시리즈를 이용해서 데이터 프레임 생성 : 리스트로 묶어서 전달
    - pd.DataFrame([시리즈1, 시리즈2, ...]) : 리스트 원소 시리즈 1개가 한 행으로 정의
    - 시리즈의 인덱스 => 컬럼 명으로 생성

In [16]:
a = pd.Series([100, 200, 300], ['a', 'b', 'd'])
b = pd.Series([101, 201, 301], ['a', 'b', 'k'])
c = pd.Series([110, 210, 310], ['a', 'b', 'c'])
a
b
c

a    100
b    200
d    300
dtype: int64

a    101
b    201
k    301
dtype: int64

a    110
b    210
c    310
dtype: int64

In [17]:
pd.DataFrame(a) #시리즈를 열로 정의 - 1개의 시리즈가 전달

Unnamed: 0,0
a,100
b,200
d,300


In [18]:
pd.DataFrame([a]) #리스트 원소 시리즈 1개가 한 행으로 정의

Unnamed: 0,a,b,d
0,100,200,300


In [20]:
pd.DataFrame([a,b]) #여러 개의 시리즈를 묶어주면 하나의 행으로 생성 를 사용할 경우 

Unnamed: 0,a,b,d,k
0,100.0,200.0,300.0,
1,101.0,201.0,,301.0


In [21]:
pd.DataFrame([a,b,c]) #np의 array에서 나온 값이라 여기서는 NaN 임 (NaN = None = 결측지)

Unnamed: 0,a,b,d,k,c
0,100.0,200.0,300.0,,
1,101.0,201.0,,301.0,
2,110.0,210.0,,,310.0


In [23]:
pd.DataFrame([a,b,c], index=['가','나','다'])

Unnamed: 0,a,b,d,k,c
가,100.0,200.0,300.0,,
나,101.0,201.0,,301.0,
다,110.0,210.0,,,310.0


## csv 데이터로 부터 Dataframe 생성
 - 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법
 - 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성
 - pandas.read_csv 함수 사용


In [25]:
# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
train_data = pd.read_csv('../data/train.csv') ##..의미 한단계 위 경로
train_data.shape #shape는 행과 열을 파악하게 도와줌

(891, 12)

In [27]:
train_data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [28]:
train_data.head() #df의 처음 5행을 출력

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [29]:
train_data.head(10) #df의 10행까지 출력

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


## read_csv 함수 파라미터
 - sep - 각 데이터 값을 구별하기 위한 구분자(separator) 설정 
 - header - header를 무시할 경우, None 설정
 - index_col - index로 사용할 column 설정
 - usecols - 실제로 dataframe에 로딩할 columns만 설정


In [30]:
train_data = pd.read_csv('../data/train.csv', index_col='PassengerId',usecols=['PassengerId', 'Survived', 'Pclass', 'Name'])
train_data

Unnamed: 0_level_0,Survived,Pclass,Name
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,3,"Braund, Mr. Owen Harris"
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
3,1,3,"Heikkinen, Miss. Laina"
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
5,0,3,"Allen, Mr. William Henry"
...,...,...,...
887,0,2,"Montvila, Rev. Juozas"
888,1,1,"Graham, Miss. Margaret Edith"
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie"""
890,1,1,"Behr, Mr. Karl Howell"


In [31]:
train_data.columns

Index(['Survived', 'Pclass', 'Name'], dtype='object')

In [32]:
train_data.index

Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            882, 883, 884, 885, 886, 887, 888, 889, 890, 891],
           dtype='int64', name='PassengerId', length=891)

## 인덱스와 컬럼의 이해

1. 인덱스(index)
 - index 속성
 - 각 아이템을 특정할 수 있는 고유의 값을 저장
 - 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능
 
 
2. 컬럼(column)
 - columns 속성
 - 각각의 특성(feature)을 나타냄
 - 복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능


In [33]:
df3  ### 위쪽에 있는 내용

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [34]:
#df의 컬럼명 확인 (= 열 인덱스) - columns 속성

df3.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [35]:
#df의 인덱스 (행 인덱스) 확인 index 속성
df3.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

## 행/열 인덱스 이름 설정
- index.name
- columns.name

In [36]:
df3.index.name = '도시'
df3

Unnamed: 0_level_0,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [37]:
df3.columns.name = '특성'
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [38]:
# df프레임의 data값만 추출하려면 values 속성 사용
df3.values #np.array 형태

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2000002, 2456016, 2473990, 0.0141]], dtype=object)

In [39]:
df3.values[0]

array(['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283], dtype=object)

## dataframe 데이터 파악하기
- shape 속성 (row, column)
- describe 함수 - 숫자형 데이터의 통계치 계산
- info 함수 - 데이터 타입, 각 아이템의 개수 등 출력


In [40]:
#예제 호출
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [41]:
## data 전체 양 확인 - df.shpae : (row, column)
df3.shape

(4, 6)

In [42]:
# Dataframe 개요 정보 출력
df3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 서울 to 대구
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   지역             4 non-null      object 
 1   2015           4 non-null      int64  
 2   2010           4 non-null      int64  
 3   2005           4 non-null      int64  
 4   2000           4 non-null      int64  
 5   2010-2015 증가율  4 non-null      float64
dtypes: float64(1), int64(4), object(1)
memory usage: 224.0+ bytes


In [43]:
# DataFrame의 기본 통계량 출력 - df.decribe() # 지수값
df3.describe()

특성,2015,2010,2005,2000,2010-2015 증가율
count,4.0,4.0,4.0,4.0,4.0
mean,4677388.0,4414178.0,4562197.0,4612434.0,0.039225
std,3507776.0,3524531.0,3500545.0,3538749.0,0.039809
min,2466052.0,2000002.0,2456016.0,2466338.0,0.0141
25%,2784351.0,2474027.0,2502264.0,2472077.0,0.01575
50%,3169594.0,3012613.0,3015114.0,3064714.0,0.0223
75%,5062631.0,4952764.0,5075047.0,5205071.0,0.045775
max,9904312.0,9631482.0,9762546.0,9853972.0,0.0982


In [44]:
#판다스 실수 출력 형식 변경 코드
pd.options.display.float_format = '{:.2f}'.format # 일반 실수 표현

In [45]:
# DataFrame의 기본 통계량 출력 - df.decribe() # 일반 실수로 출력 위에 입력값 땜에
df3.describe()

특성,2015,2010,2005,2000,2010-2015 증가율
count,4.0,4.0,4.0,4.0,4.0
mean,4677388.0,4414177.5,4562197.25,4612434.25,0.04
std,3507775.58,3524530.93,3500544.86,3538749.06,0.04
min,2466052.0,2000002.0,2456016.0,2466338.0,0.01
25%,2784351.25,2474026.75,2502264.0,2472077.0,0.02
50%,3169594.0,3012613.0,3015113.5,3064713.5,0.02
75%,5062630.75,4952763.75,5075046.75,5205070.75,0.05
max,9904312.0,9631482.0,9762546.0,9853972.0,0.1


In [46]:
pd.reset_option('display.float_format') # 기본 형태 출력(지수표현)

In [47]:
df3.describe() #다시 지수형으로 출력

특성,2015,2010,2005,2000,2010-2015 증가율
count,4.0,4.0,4.0,4.0,4.0
mean,4677388.0,4414178.0,4562197.0,4612434.0,0.039225
std,3507776.0,3524531.0,3500545.0,3538749.0,0.039809
min,2466052.0,2000002.0,2456016.0,2466338.0,0.0141
25%,2784351.0,2474027.0,2502264.0,2472077.0,0.01575
50%,3169594.0,3012613.0,3015114.0,3064714.0,0.0223
75%,5062631.0,4952764.0,5075047.0,5205071.0,0.045775
max,9904312.0,9631482.0,9762546.0,9853972.0,0.0982


In [None]:
##위 작업 train으로 반복 3가지 함수 적용

In [87]:
### train data 원본 위에서 출력해서 다시 오기

In [49]:
train_data

Unnamed: 0_level_0,Survived,Pclass,Name
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,3,"Braund, Mr. Owen Harris"
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
3,1,3,"Heikkinen, Miss. Laina"
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
5,0,3,"Allen, Mr. William Henry"
...,...,...,...
887,0,2,"Montvila, Rev. Juozas"
888,1,1,"Graham, Miss. Margaret Edith"
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie"""
890,1,1,"Behr, Mr. Karl Howell"


In [50]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Survived  891 non-null    int64 
 1   Pclass    891 non-null    int64 
 2   Name      891 non-null    object
dtypes: int64(2), object(1)
memory usage: 27.8+ KB


## 데이터플레임 전치
- 판다스 데이터프레임은 전치를 포함해서 Numpy 2차원 배열에서 사용할 수 있는 속성이나 메서드를 대부분 지원
- 전치 : 행과 열을 바꿈 
    - 관련속성 : df.T
    - 전치를 해도 DataFrame 속성유지 및 원본 데이터는 변환되지 않음

In [51]:
# df3 전치전
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [52]:
# df3 전치후
df3.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2000002
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [53]:
df3.T['서울'] #dtype: object
#전치를 하는 과정에서 문자와 섞이면서 data type 문자로 변경된 것

특성
지역                   수도권
2015             9904312
2010             9631482
2005             9762546
2000             9853972
2010-2015 증가율     0.0283
Name: 서울, dtype: object

In [54]:
type(df3.T) #전치를 해도 DataFrame 속성유지

pandas.core.frame.DataFrame

## 데이터프레임 내용 변경
- 열 추가/삭제, 내용 갱신
- 시리즈 및 딕셔너리에서 사용하는 방법과 동일

In [55]:
# 사용 예제 df3
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


## 해당열이 있으면 내용 갱신, 열이 없으면 추가
- 열추가 : df[열이름(key)]=values
- 열 내용 갱신 : df[열이름(key)]=values


In [56]:
## 열 갱신
# 2010-2015 증가율 변경
df3['2010-2015 증가율']


도시
서울    0.0283
부산    0.0163
인천    0.0982
대구    0.0141
Name: 2010-2015 증가율, dtype: float64

In [58]:
# 이 하나가 시르지이고 연산 벡터화되면서 진행
df3['2010-2015 증가율'] * 100
### 문제 발생 지점
# df3['2010-2015 증가율'] = df3['2010-2015 증가율'] * 100
#다음과 같이 입력해야 해당값이 반영됨
df3['2010-2015 증가율'] = df3['2010-2015 증가율'] * 100

도시
서울    2.83
부산    1.63
인천    9.82
대구    1.41
Name: 2010-2015 증가율, dtype: float64

In [59]:
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2000002,2456016,2473990,1.41


In [60]:
# 새로운 열 추가 (인덱싱 이용)
#df3['2005-2015 증가율'] 
((df3['2015']-df3['2005'])/df3['2005']*100).round(2)

도시
서울     1.45
부산    -1.82
인천    14.81
대구     0.41
dtype: float64

In [61]:
## 새로운 열 추가
df3['2005-2015 증가율'] = ((df3['2015']-df3['2005'])/df3['2005']*100).round(2)

In [62]:
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,1.45
부산,경상권,3448737,3393191,3512547,3655437,1.63,-1.82
인천,수도권,2890451,2632035,2517680,2466338,9.82,14.81
대구,경상권,2466052,2000002,2456016,2473990,1.41,0.41


In [63]:
## 특정 열 삭제
df3['2010-2015 증가율']

도시
서울    2.83
부산    1.63
인천    9.82
대구    1.41
Name: 2010-2015 증가율, dtype: float64

In [64]:
del df3['2010-2015 증가율']

In [65]:
df3 #삭제 결과 한번더 하면 오류 (원본을 반영되기 때문)

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41


## 데이터프레임 기본 인덱싱
1. 열인덱싱
2. 인덱서를 사용하지않는 행 인덱싱
- [ ]기호를 이용해서 인덱싱할때 주의점 : [ ]기호는 열 위주 인덱싱이 원칙


## 1. 열인덱싱
1.열 라벨(컬럼명)을 키값으로 생각하고 인덱싱한다.
- 인덱스로 라벨값을 하나 넣으면 시리즈 객체가 반환
- 라벨의 배열이나 리스트를 넣으면 부분적 df 가 반환


In [66]:
# 사용예제 df3
df3

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41


In [67]:
# 인덱스로 라벨 값  1 개 사용 -열 위주 인덱싱
df3['지역'] #열은 시리즈 형태로 구성되어 있음

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [68]:
type(df3 ['지역']) 
# pandas.core.series.Series 데이터 타입이 시리즈인 것을 확인 가능

pandas.core.series.Series

In [69]:
# 열 1개를 접근할 떄는 .(dot) 연산자 사용 가능 : df.컬럼명
df3.지역 #시리즈 형태 반환

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [71]:
# 열 추출할때 데이터프레임으로 반환받고자 하면 컬럼명을 리스트 형태로 사용
# [ ] df 형태로 추출
df3[['지역']]

특성,지역
도시,Unnamed: 1_level_1
서울,수도권
부산,경상권
인천,수도권
대구,경상권


In [72]:
type(df3[['지역']])  ## 리스트 형태로 넘어 주면 데이타프레임으로 넘길 수 있음

pandas.core.frame.DataFrame

In [73]:
# 여러개의 열을 추출 후 데이터프레임 반환 - [] 리스트 사용
df3[['2010', '2015']] 

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2000002,2466052


In [74]:
type(df3[['2010', '2015']]) #데이터프레임으로 반환

pandas.core.frame.DataFrame

## 데이터 프레임에 열이름(컬럼명)이 문자열일 경우 위치/수치 인덱스 사용 x
- 수치 인덱스를 사용할 수 없음
- 위치 인덱싱 기능을 사용할 수 없다. : keyerror 발생


In [75]:
try: ### 에러가 너무 길어서 예외처리
    df3[0]
except Exception as e:
    print(type(e))

<class 'KeyError'>


## 위치 인덱싱처럼 보이는 예제

In [76]:
np.arange(12)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [77]:
np.arange(12).reshape(3,4) # np.arange().reshape(행,열) - 요소의 배치를 변경

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [78]:
df5 = pd.DataFrame(np.arange(12).reshape(3,4))
df5

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [79]:
df5[[1,2]] #위치 인덱싱이 아님 단지, 컬럼명이 숫자로 되어 있는 df 인덱싱임

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [80]:
df5[[0:3]] ### 슬라이싱은 인식하지 못함

SyntaxError: invalid syntax (<ipython-input-80-8674a7a569b0>, line 1)

## 행 단위 인덱싱
- 행단위 인덱싱을 하고자 하면 인덱서라는 특수 기능을 사용하지 않는 경우 슬라이싱을 해야 함(인덱서는 바로 뒤에 배움)
- 인덱스 값이 문자(라벨)면 문자슬라이싱도 가능하다

In [81]:
#예제 df3
df3

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41


In [82]:
# 1행 추출 [:1] - 슬라이싱 사용
df3[:1]

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45


In [83]:
df3[1:3] #[시작위치 : 끝위치 + 1]
# 1~2번째 행 추출

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81


In [85]:
df3['서울':'부산']

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82


In [86]:
df3['부산':'대구']

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41


## 개별요소 접근[열][행]
- 열 행 순서 입력해야 접근 가능
- loc 기능 사용하면 행 열 순으로 접근 가능

In [90]:
df3['2015']['서울']

9904312

In [91]:
type(df3['2015']['서울'])

numpy.int64

In [92]:
df3['서울']['2015'] # 행열 순서로 입력시 오류

KeyError: '서울'