# DataFrame

- 2차원 테이블 형태의 데이터에 인덱스를 붙인 것  
- 행과 열로 만들어진 2차원 배열 구조  
- R의 데이터프레임에서 유래  
- DataFrame() 함수를 사용해서 데이터프레임 생성  
- 데이터프레의 각 열은 시리즈로 구성되어 있음

## 데이터프레임 학습 내용
- 데이터프레임 생성 방법
- 데이터의 갱신, 추가, 삭제 
- 인덱싱 / 슬라이싱
- 인덱스 조작
- 데이터프레임 복사 
- 데이터 병합 (concat()/merge())
- 피벗 (pivot)

## 데이터프레임 생성 방법
1. 리스트로 데이터 프레임 생성
2. 딕셔너리로 데이터프레임 생성
3. 시리즈로 데이터프레임 생성
4. 파일(csv/엑셀) 데이터로 데이터프레임 생성

### 1. 리스트로 데이터 프레임 생성

 DataFrame([[list1],[list2], ...])
    - 리스트 안에 리스트 형태로 인수를 전달 (2차원 리스트 형태로 전달)
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장
- index 인수값이 없으면 기본 인덱스 (0-base 위치 인덱스)가 생성됨

In [3]:
import pandas as pd
import numpy as np

In [4]:
# 변수 명이 두 번 이상 출력되어도 모두 콘솔에서 보여주도록 함.

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [9]:
df= pd.DataFrame([['a', 'b', 'c'],
                ['a', 'a', 'g'],
                ['a', 'i', 'j']])

df

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,i,j


In [10]:
df2 = pd.DataFrame([['a', np.nan, 'c'],
                   ['a', 'g'],
                   ['a', 'i']], 
                   columns=['a', 'b', 'c'],  # 열이름
                   index=[1, 2, 3])  # 행이름
df2

Unnamed: 0,a,b,c
1,a,,c
2,a,g,
3,a,i,


In [11]:
# 결측치 개수 세기
df2.isna()

Unnamed: 0,a,b,c
1,False,True,False
2,False,False,True
3,False,False,True


In [16]:
# 리스트로 데이터프레임 생성
# 열이름 / 인덱스 설정
# data, columns, index 변수로 사용
data = [
    [22, 60.1, 170.5, '남', '서울'],
    [45, 51.3, 160.5, '여', '부산'],
    [23, 88.1, 175.5, '남', '대구'],
    [33, 60.1, 180.5, '남', '제주'],
    [40, 60.1, 173.5, '남', '강릉']    
]

columns = ['나이', '몸무게', '키', '성별', '주소']
index = ['홍길동', '성춘향', '이몽룡', '변학도', '강길동']

df3 = pd.DataFrame(data, index = index, columns = columns)
df3

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


In [19]:
# 데이터 프레임에서 특정 열 추출
df3['나이']
df3[['나이','주소']]

홍길동    22
성춘향    45
이몽룡    23
변학도    33
강길동    40
Name: 나이, dtype: int64

Unnamed: 0,나이,주소
홍길동,22,서울
성춘향,45,부산
이몽룡,23,대구
변학도,33,제주
강길동,40,강릉


In [20]:
df3.columns

Index(['나이', '몸무게', '키', '성별', '주소'], dtype='object')

### 열/인덱스 이름 설정
- index.name
- columns.name

In [25]:
df3.index.name = '이름'
df3

Unnamed: 0_level_0,나이,몸무게,키,성별,주소
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


### 딕셔너리로 데이터프레임 생성
- DataFrame(딕셔너리)
- 딕셔너리의 key가 열이름(열방향 인덱스)이 되고
- index가 행방향 인덱스가 됨

In [24]:
# 딕셔너리 생성
# 딕셔너리의 key 값은 데이터프레임의 열방향 인덱스(열이름)으로 설정
# key 값이 열 이름이 되므로 별도의 columns 값이 필요 없음

data = {
    '지역':['수도권', '경상권', '수도권', '경상권'],
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2000002],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],   
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982,0.0141]
}

# 행방향 인덱스 (index)
index = ['서울', '부산', '인천', '대구']

# 데이터프레임 생성 : DataFrame(데이터, index, columns)
# DataFrame(데이터, index)
df4 = pd.DataFrame(data, index=index)
df4

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


### 시리즈로 데이터프레임 생성

- 여러 개의 시리즈로 데이터프레임 생성
- 각 시리즈의 index가 열이름이 됨 (열 방향 인덱스가 됨)

In [26]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([10, 20, 30], index=['a', 'b', 'd'])
s3 = pd.Series([100, 200, 300], index=['a', 'b', 'e'])

pd.DataFrame([s1,s2,s3], index=[1,2,3])

Unnamed: 0,a,b,c,d,e
1,1.0,2.0,3.0,,
2,10.0,20.0,,30.0,
3,100.0,200.0,,,300.0


### 파일(csv/엑셀) 데이터로 데이터프레임 생성
- CSV 파일 : read_csv() 함수 사용
- 엑셀 파일 : read_excel() 함수 사용

In [42]:
df_train = pd.read_csv('data/train.csv') # 파일 경로와 파일명

df_train.head()
df_train.tail()

df_train.columns

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

#### read_csv() 함수의 주요 파라미터
    sep : 각 데이터 값을 구별하기 위한 구분자(separator) 설정
    header : 헤더(제목) 위치. header를 무시할 경우, None 설정
    skiprows : 제외하는 행 지정
    thousands : 천 단위 구분 표시 제거
    index_col : index로 사용할 열 설정
    usecols : 선택 열 지정
    encoding : 인코딩 설정 
        (utf-8f로 저장된 파일은 encodin='utf-8'
         euc-kr로 저장된 파일은 encodin='euc-kr'로 해야 오류 없음)

In [46]:
df_train2 = pd.read_csv('data/train.csv',
                        index_col = 'PassengerId',
                        usecols= ['PassengerId','Survived','Name','Sex','Age'])
df_train2.head()
df_train2.index

Unnamed: 0_level_0,Survived,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0,"Braund, Mr. Owen Harris",male,22.0
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
3,1,"Heikkinen, Miss. Laina",female,26.0
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
5,0,"Allen, Mr. William Henry",male,35.0


Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
       ...
       882, 883, 884, 885, 886, 887, 888, 889, 890, 891],
      dtype='int64', name='PassengerId', length=891)

In [47]:
# header 설정하지 않은 경우 : 첫 행이 헤더가 됨
df_pop = pd.read_csv('data/population_in_Seoul.csv') # 파일경로와 파일명을
df_pop.head()


Unnamed: 0,기간,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
1,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
2,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2,1321458
3,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2,25425
4,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2,20764


In [49]:
# header 설정한 경우
df_pop = pd.read_csv('data/population_in_Seoul.csv', header=2) 
df_pop.head()

Unnamed: 0,기간,자치구,세대,계,남자,여자,계.1,남자.1,여자.1,계.2,남자.2,여자.2,세대당인구,65세이상고령자
0,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2,1321458
1,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2,25425
2,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2,20764
3,2017.1/4,용산구,106544,244203,119132,125071,229456,111167,118289,14747,7965,6782,2,36231
4,2017.1/4,성동구,130868,311244,153768,157476,303380,150076,153304,7864,3692,4172,2,39997


In [50]:
# header 무시할 경우 : None
# 0-base 열 방향 인덱스 자동 생성
df_pop = pd.read_csv('data/population_in_Seoul.csv', header=None)
df_pop.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,기간,자치구,세대,인구,인구,인구,인구,인구,인구,인구,인구,인구,세대당인구,65세이상고령자
1,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
2,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
3,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2,1321458
4,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2,25425


In [52]:
# 열 선택
df_pop = pd.read_csv('data/population_in_Seoul.csv', 
                     header=2,
                     usecols=['자치구', '세대','세대당인구','65세이상고령자']) 
df_pop.head()

df_pop.dtypes

Unnamed: 0,자치구,세대,세대당인구,65세이상고령자
0,합계,4202888,2,1321458
1,종로구,72654,2,25425
2,중구,59481,2,20764
3,용산구,106544,2,36231
4,성동구,130868,2,39997


In [54]:
# 천단위 구분 기호 제거하고 파일 읽기
df_pop2 = pd.read_csv('data/population_in_Seoul.csv', 
                     header=2,
                     thousands=',',
                     usecols=['자치구', '세대','세대당인구','65세이상고령자']) 
df_pop2.head()

Unnamed: 0,자치구,세대,세대당인구,65세이상고령자
0,합계,4202888,2,1321458
1,종로구,72654,2,25425
2,중구,59481,2,20764
3,용산구,106544,2,36231
4,성동구,130868,2,39997


### 엑셀 파일 : read_excel() 함수 사용

#### read_excel() 함수의 주요 파라미터
    header : 헤더(제목) 위치. header를 무시할 경우, None 설정
    skiprows : 제외하는 행 지정
    index_col : index로 사용할 열 설정
    usecols : 선택 열 지정
    thousands : 천 단위 구분 표시 (,)
    encoding : 인코딩 설정 
        (utf-8로 저장된 파일은 encodin='utf-8'
         euc-kr로 저장된 파일은 encodin='euc-kr'로 해야 오류 없음)

In [62]:
# !pip install openpyxl

df_pop3 = pd.read_excel('data/population_in_Seoul.xlsx', 
                        header=2,
                        usecols=['자치구', '세대','세대당인구','65세이상고령자'])
df_pop3.head()

df_pop3.dtypes

Unnamed: 0,자치구,세대,세대당인구,65세이상고령자
0,합계,4202888,2.36,1321458
1,종로구,72654,2.11,25425
2,중구,59481,2.09,20764
3,용산구,106544,2.15,36231
4,성동구,130868,2.32,39997


자치구          object
세대            int64
세대당인구       float64
65세이상고령자      int64
dtype: object

#### 데이터프레임 데이터 파악
- shape 속성 (row, column)
- describe() 함수 - 숫자형 데이터의 통계 정보 출력
- info() 함수 - 데이터 타입, Non-Null Count 출력

In [70]:
df3.info()

# Age 열의 NaN 값 개수 확인
df_train2['Age'].isna().sum()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 홍길동 to 강길동
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   나이      5 non-null      int64  
 1   몸무게     5 non-null      float64
 2   키       5 non-null      float64
 3   성별      5 non-null      object 
 4   주소      5 non-null      object 
dtypes: float64(2), int64(1), object(2)
memory usage: 412.0+ bytes


177

### 데이터프레임 전치
- 전치 : 행과 열을 바꾸는 기능
- df.T 
- df.transpose()

In [74]:
df4
df4.T
df4.transpose()

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2000002
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2000002
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [75]:
df4.T['서울'].values

array(['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283], dtype=object)

In [76]:
df4.T['서울']['2000']

9853972

### 데이터의 갱신, 추가, 삭제
- 열 추가 : df[열이름(key)]=values  
- 열 내용 갱신 : df[열이름(key)]=values  
- 열 삭제 : del df[열이름]  
- 행 추가  
    - loc 인덱서 사용 : df.loc[추가할 행이름(index)]=[데이터1,...,데이터n]  
    - df 새로 생성 후 concate() 사용해서 df 결합
- 행 삭제 
    - drop() 함수 사용 : df.drop(행 인덱스 이름, axis=0, inplace=True)  
        - axis=0 : 행 의미 (디폴트로 생략 가능)
        - axis=1 : 열 의미
        - inplace=True : 결과 반영 (원본 데이터 변경)


In [119]:
# df4가 변경되지 않도록 얕은 복사
df5 = df4.copy()

In [120]:
df5['2010-2015 증가율'] = df5['2010-2015 증가율'] *100

df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2000002,2456016,2473990,1.41


In [121]:
df5['2005-2015 증가율'] = ((df5['2015']-df5['2005'])/df5['2005']*100).round(2)
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83,1.45
부산,경상권,3448737,3393191,3512547,3655437,1.63,-1.82
인천,수도권,2890451,2632035,2517680,2466338,9.82,14.81
대구,경상권,2466052,2000002,2456016,2473990,1.41,0.41


In [122]:
del df5['2010-2015 증가율']

df5

Unnamed: 0,지역,2015,2010,2005,2000,2005-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41


In [123]:
# '명칭' 열 추가 : 각 행의 값 다르게 리스트로 value 추가
# df[새이름] = value
df5['명칭'] = ['특별시', '광역시', '광역시', '광역시']
df5

# 열 추가 시 1개의 값을 지정하면 모든 행에 동일한 값으로 추가
df5['국가'] = '대한민국'
df5

Unnamed: 0,지역,2015,2010,2005,2000,2005-2015 증가율,명칭
서울,수도권,9904312,9631482,9762546,9853972,1.45,특별시
부산,경상권,3448737,3393191,3512547,3655437,-1.82,광역시
인천,수도권,2890451,2632035,2517680,2466338,14.81,광역시
대구,경상권,2466052,2000002,2456016,2473990,0.41,광역시


Unnamed: 0,지역,2015,2010,2005,2000,2005-2015 증가율,명칭,국가
서울,수도권,9904312,9631482,9762546,9853972,1.45,특별시,대한민국
부산,경상권,3448737,3393191,3512547,3655437,-1.82,광역시,대한민국
인천,수도권,2890451,2632035,2517680,2466338,14.81,광역시,대한민국
대구,경상권,2466052,2000002,2456016,2473990,0.41,광역시,대한민국


In [98]:
# 행추가(loc 인덱스 사용)
# df.loc[추가할 행이름(index)]=[데이터1,...,데이터n]

df5.loc['광주'] = ['호남권',2470000,2456000,2453000,2460000,1.00]
df5

Unnamed: 0,지역,2015,2010,2005,2000,2005-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41
광주,호남권,2470000,2456000,2453000,2460000,1.0


In [99]:
# 행 삭제 : drop() 함수 사용
# df.drop(행 인덱스 이름, axis=0, inplace=True)
# axis =0 : 행 의미(기본값이기 때문에 생략 가능)
# inplace = True : 결과 반영 (원본 데이터 변경)

df5.drop('광주',axis=0, inplace = True)
df5


Unnamed: 0,지역,2015,2010,2005,2000,2005-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41


In [100]:
# 여러 행 삭제: drop([행 인덱스 여러 개])
df5.drop(['서울','대구'], axis=0, inplace =True)
df5

Unnamed: 0,지역,2015,2010,2005,2000,2005-2015 증가율
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81


In [101]:
# 여러 열 삭제: drop([열 인덱스 여러 개])
df5.drop(['2015','2010'], axis=1, inplace =True)
df5

Unnamed: 0,지역,2005,2000,2005-2015 증가율
부산,경상권,3512547,3655437,-1.82
인천,수도권,2517680,2466338,14.81


In [104]:
df5.drop(index='인천') # 행 삭제 (원볻 데이터 영향X)

df5.drop(labels='2005', axis=1) # 열 삭제 (원본 데이터 영향X)

Unnamed: 0,지역,2005,2000,2005-2015 증가율
부산,경상권,3512547,3655437,-1.82


Unnamed: 0,지역,2000,2005-2015 증가율
부산,경상권,3655437,-1.82
인천,수도권,2466338,14.81


Unnamed: 0,지역,2005,2000,2005-2015 증가율
부산,경상권,3512547,3655437,-1.82
인천,수도권,2517680,2466338,14.81


In [108]:
df5 = df4.copy()
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [112]:
# 슬라이싱을 사용하여 여러 행 삭제
df5.drop(df5.index[1:3], inplace=True)  # 0-base 행 인덱스 1~2행 삭제
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [113]:
# 슬라이싱을 사용하여 여러 열 삭제
df5.drop(df5.columns[1:3], axis=1, inplace=True) # 0-base 열 인덱스 1~2 삭제
df5

Unnamed: 0,지역,2005,2000,2010-2015 증가율
서울,수도권,9762546,9853972,0.0283
대구,경상권,2456016,2473990,0.0141


In [114]:
# 특정 열, 특정 행의 값 변경
# df[열 인덱스][행 인덱스]
# 2005 열의 대구 행 값 변경
df5['2005']['대구'] = 2500000
df5

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df5['2005']['대구'] = 2500000


Unnamed: 0,지역,2005,2000,2010-2015 증가율
서울,수도권,9762546,9853972,0.0283
대구,경상권,2500000,2473990,0.0141


In [115]:
# 경고 무시
pd.set_option('mode.chained_assignment',  None) 

In [116]:
# 특정 열, 특정 행의 값 변경
# df[열 인덱스][행 인덱스]
# 2005 열의 대구 행 값 변경
df5['2005']['대구'] = 2500000
df5

Unnamed: 0,지역,2005,2000,2010-2015 증가율
서울,수도권,9762546,9853972,0.0283
대구,경상권,2500000,2473990,0.0141


In [117]:
df3
df4

Unnamed: 0_level_0,나이,몸무게,키,성별,주소
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141
