# Pandas_DataFrame

### 데이터프레임
- 2차원 테이블 형태의 데이터에 인덱스를 붙인 것  
- 행과 열로 만들어진 2차원 배열 구조  
- R의 데이터프레임에서 유래  
- DataFrame() 함수를 사용해서 데이터프레임 생성  
- 데이터프레임의 각 열은 시리즈로 구성되어 있음  

### 데이터프레임 학습 내용
- 데이터프레임 생성 방법
- 데이터의 갱신, 추가, 삭제 
- 인덱싱 / 슬라이싱
- 인덱스 조작 / 함수
- 데이터프레임 복사 
- 데이터 병합 (concat()/merge())
- 피벗 (pivot)

### 데이터프레임 생성 방법
- 리스트로 데이터 프레임 생성
- 딕셔너리로 데이터프레임 생성
- 시리즈로 데이터프레임 생성
- 파일(csv/엑셀) 데이터로 데이터프레임 생성

In [1]:
################################################################################

#### 리스트로 데이터 프레임 생성
- DataFrame([[list1],[list2], ...])
    - 리스트 안에 리스트 형태로 인수를 전달 (2차원 리스트 형태로 전달)
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장
- index 인수값이 없으면 기본 인덱스 (0-base 위치 인덱스)가 생성됨

In [2]:
import pandas as pd
import numpy as np

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [4]:
# 리스트로 데이터 프레임 생성
df = pd.DataFrame([
    ['a', 'b', 'c'],
    ['a', 'a', 'g'],
    ['a', 'i', 'j']
])
df

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,i,j


In [5]:
# 열(가로) : columns, 인덱스(세로) : index
df.columns = ['a', 'b', 'c']
df.index = [1, 2, 3]
df

Unnamed: 0,a,b,c
1,a,b,c
2,a,a,g
3,a,i,j


In [6]:
# 없는 경우는 None으로 들어간다
df2 = pd.DataFrame(
    [['a', np.nan, 'c'],
    ['a', 'g'],
    ['i', 'j']],
    columns = ['a', 'b', 'c'],
    index = [1, 2, 3]
)
df2

Unnamed: 0,a,b,c
1,a,,c
2,a,g,
3,i,j,


In [7]:
# NaN, None 둘 다 결측치가 된다
df2.isna()

Unnamed: 0,a,b,c
1,False,True,False
2,False,False,True
3,False,False,True


In [8]:
data = [
    [22, 60.1, 170.5, '남', '서울'],
    [45, 51.3, 160.5, '여', '부산'],
    [23, 88.1, 175.5, '남', '대구'],
    [33, 60.1, 180.5, '남', '제주'],
    [40, 60.1, 173.5, '남', '강릉']
]

columns = ['나이', '몸무게', '키', '성별', '주소']
index = ['홍길동', '성춘향', '이몽룡', '변학도', '강길동']
df3 = pd.DataFrame(data, columns=columns, index=index)
df3

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


In [9]:
# 이건 당연히 데이터프레임
type(df3)

pandas.core.frame.DataFrame

In [10]:
# 특정 열을 추출하면 시리즈로 반환된다
df3['나이']
type(df3['나이'])

홍길동    22
성춘향    45
이몽룡    23
변학도    33
강길동    40
Name: 나이, dtype: int64

pandas.core.series.Series

In [11]:
# 여러 열을 추출하면 그냥 데이터프레임이다
df3[['몸무게', '키']]
type(df3[['몸무게', '키']])

Unnamed: 0,몸무게,키
홍길동,60.1,170.5
성춘향,51.3,160.5
이몽룡,88.1,175.5
변학도,60.1,180.5
강길동,60.1,173.5


pandas.core.frame.DataFrame

In [12]:
# 마치 여러 열을 추출하는 방법으로 하나만 추출해도 데이터프레임이다
df3[['나이']]
type(df3[['나이']])

Unnamed: 0,나이
홍길동,22
성춘향,45
이몽룡,23
변학도,33
강길동,40


pandas.core.frame.DataFrame

In [13]:
df3.columns
df3.index

Index(['나이', '몸무게', '키', '성별', '주소'], dtype='object')

Index(['홍길동', '성춘향', '이몽룡', '변학도', '강길동'], dtype='object')

#### 열/인덱스 이름 설정
- index.name
- columns.name

In [14]:
df3.columns.name = '정보'
df3.index.name = '성명'
df3

정보,나이,몸무게,키,성별,주소
성명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


#### 딕셔너리로 데이터프레임 생성
- DataFrame(딕셔너리)
- 딕셔너리의 key가 열이름(열방향 인덱스)이 되고
- index가 행방향 인덱스가 됨

In [15]:
data = {
    '지역':['수도권', '경상권', '수도권', '경상권'],
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2000002],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],   
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982,0.0141]
}
index = ['서울', '부산', '인천', '대구']
df4 = pd.DataFrame(data, index=index)
df4

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


#### 시리즈로 데이터프레임 생성
- 여러 개의 시리즈로 데이터프레임 생성
- 각 시리즈의 index가 열이름이 됨 (열 방향 인덱스가 됨)

In [16]:
# 빈 곳은 NaN으로 들어간다
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([10, 20, 30], index=['a', 'b', 'd'])
s3 = pd.Series([100, 200, 300], index=['a', 'd', 'e'])
df5 = pd.DataFrame([s1, s2, s3], index=['s1', 's2', 's3'])
df5

Unnamed: 0,a,b,c,d,e
s1,1.0,2.0,3.0,,
s2,10.0,20.0,,30.0,
s3,100.0,,,200.0,300.0


#### 파일(csv/엑셀) 데이터로 데이터프레임 생성
- CSV 파일 : read_csv() 함수 사용
- 엑셀 파일 : read_excel() 함수 사용

데이터 출처 : train.csv (Titanic-Dataset)  
https://www.kaggle.com/datasets/hesh97/titanicdataset-traincsv?resource=download

#### CSV 파일 : read_csv() 함수 사용

##### read_csv() 함수의 주요 파라미터
    sep : 각 데이터 값을 구별하기 위한 구분자(separator) 설정
    header : 헤더(제목) 위치. header를 무시할 경우, None 설정
    skiprows : 제외하는 행 지정
    thousands : 천 단위 구분 표시 제거
    index_col : index로 사용할 열 설정
    usecols : 선택 열 지정
    encoding : 인코딩 설정 
        (utf-8로 저장된 파일은 encoding='utf-8'
         euc-kr로 저장된 파일은 encoding='euc-kr'로 해야 오류 없음)

In [17]:
df_titanic = pd.read_csv('titanic_train.csv')
df_titanic.head() # 상위 5행
df_titanic.tail() # 하위 5행

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [18]:
df_titanic.columns
df_titanic.index

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

RangeIndex(start=0, stop=891, step=1)

In [19]:
df_titanic2 = pd.read_csv('titanic_train.csv',
                          index_col='PassengerId',
                          usecols=['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age'])
df_titanic2

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
3,1,3,"Heikkinen, Miss. Laina",female,26.0
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
5,0,3,"Allen, Mr. William Henry",male,35.0
...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0
888,1,1,"Graham, Miss. Margaret Edith",female,19.0
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,
890,1,1,"Behr, Mr. Karl Howell",male,26.0


In [20]:
# 아무 설정이 없으면 첫 행이 header가 된다
df_population = pd.read_csv('population_in_Seoul.csv')
df_population.head()

Unnamed: 0,기간,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
1,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
2,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
3,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
4,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764


In [21]:
# header를 0-base로 바꾸고 모든 내용을 가져온다
df_population = pd.read_csv('population_in_Seoul.csv', header=None)
df_population.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,기간,자치구,세대,인구,인구,인구,인구,인구,인구,인구,인구,인구,세대당인구,65세이상고령자
1,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
2,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
3,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
4,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425


In [22]:
# 인덱스 2를 header로 시작할 수도 있다
df_population = pd.read_csv('population_in_Seoul.csv', header=2)
df_population.head()

Unnamed: 0,기간,자치구,세대,계,남자,여자,계.1,남자.1,여자.1,계.2,남자.2,여자.2,세대당인구,65세이상고령자
0,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
1,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
2,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764
3,2017.1/4,용산구,106544,244203,119132,125071,229456,111167,118289,14747,7965,6782,2.15,36231
4,2017.1/4,성동구,130868,311244,153768,157476,303380,150076,153304,7864,3692,4172,2.32,39997


In [23]:
# 몇 가지 행을 스킵할 수 있다
df_population = pd.read_csv('population_in_Seoul.csv', skiprows=[1, 2])
df_population.head()

Unnamed: 0,기간,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
1,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
2,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764
3,2017.1/4,용산구,106544,244203,119132,125071,229456,111167,118289,14747,7965,6782,2.15,36231
4,2017.1/4,성동구,130868,311244,153768,157476,303380,150076,153304,7864,3692,4172,2.32,39997


In [24]:
# 종합
df_population = pd.read_csv('population_in_Seoul.csv',
                            header=2, # 인덱스 2를 header로 지정
                            usecols=['자치구', '세대', '세대당인구', '65세이상고령자'], # header에서 추출할 column만 지정
                            skiprows=[3]) # 스킵할 인덱스 지정
df_population.head()

Unnamed: 0,자치구,세대,세대당인구,65세이상고령자
0,종로구,72654,2.11,25425
1,중구,59481,2.09,20764
2,용산구,106544,2.15,36231
3,성동구,130868,2.32,39997
4,광진구,158960,2.25,42214


In [25]:
df_population.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26 entries, 0 to 25
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   자치구       25 non-null     object 
 1   세대        25 non-null     object 
 2   세대당인구     25 non-null     float64
 3   65세이상고령자  25 non-null     object 
dtypes: float64(1), object(3)
memory usage: 964.0+ bytes


#### 엑셀 파일 : read_excel() 함수 사용

##### read_excel() 함수의 주요 파라미터
    header : 헤더(제목) 위치. header를 무시할 경우, None 설정
    skiprows : 제외하는 행 지정
    index_col : index로 사용할 열 설정
    usecols : 선택 열 지정
    thousands : 천 단위 구분 표시 (,)
    encoding : 인코딩 설정 
        (utf-8로 저장된 파일은 encodin='utf-8'
         euc-kr로 저장된 파일은 encodin='euc-kr'로 해야 오류 없음)

In [26]:
# 동일하다
df_population2 = pd.read_excel('population_in_Seoul.xlsx',
                              skiprows=[0, 1])
df_population2.head()

Unnamed: 0,기간,자치구,세대,계,남자,여자,계.1,남자.1,여자.1,계.2,남자.2,여자.2,세대당인구,65세이상고령자
0,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
1,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
2,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764
3,2017.1/4,용산구,106544,244203,119132,125071,229456,111167,118289,14747,7965,6782,2.15,36231
4,2017.1/4,성동구,130868,311244,153768,157476,303380,150076,153304,7864,3692,4172,2.32,39997


In [27]:
df_population2 = pd.read_excel('population_in_Seoul.xlsx',
                              header=2,
                              skiprows=[3])
df_population2.head()

Unnamed: 0,기간,자치구,세대,계,남자,여자,계.1,남자.1,여자.1,계.2,남자.2,여자.2,세대당인구,65세이상고령자
0,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
1,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764
2,2017.1/4,용산구,106544,244203,119132,125071,229456,111167,118289,14747,7965,6782,2.15,36231
3,2017.1/4,성동구,130868,311244,153768,157476,303380,150076,153304,7864,3692,4172,2.32,39997
4,2017.1/4,광진구,158960,372164,180992,191172,357211,174599,182612,14953,6393,8560,2.25,42214


#### 데이터프레임 데이터 파악
- shape 속성 (row, column)
- describe() 함수 - 숫자형 데이터의 통계 정보 출력
- info() 함수 - 데이터 타입, Non-Null Count 출력

In [28]:
df_population2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   기간        25 non-null     object 
 1   자치구       25 non-null     object 
 2   세대        25 non-null     int64  
 3   계         25 non-null     int64  
 4   남자        25 non-null     int64  
 5   여자        25 non-null     int64  
 6   계.1       25 non-null     int64  
 7   남자.1      25 non-null     int64  
 8   여자.1      25 non-null     int64  
 9   계.2       25 non-null     int64  
 10  남자.2      25 non-null     int64  
 11  여자.2      25 non-null     int64  
 12  세대당인구     25 non-null     float64
 13  65세이상고령자  25 non-null     int64  
dtypes: float64(1), int64(11), object(2)
memory usage: 2.9+ KB


In [29]:
# 통계 정보
df_population2.describe()

Unnamed: 0,세대,계,남자,여자,계.1,남자.1,여자.1,계.2,남자.2,여자.2,세대당인구,65세이상고령자
count,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0
mean,168115.52,407904.16,200000.2,207903.96,397078.72,194862.4,202216.32,10825.44,5137.8,5687.64,2.342,52858.32
std,51617.639976,130273.67526,63300.948136,67146.827175,131802.414218,63913.054631,68030.263853,8301.513236,4575.390439,3857.58076,0.169681,14173.072031
min,59481.0,133240.0,65790.0,67450.0,124312.0,61656.0,62656.0,2017.0,737.0,1280.0,2.0,20764.0
25%,137207.0,330192.0,161686.0,170398.0,326686.0,160353.0,166333.0,4445.0,1939.0,2375.0,2.23,48161.0
50%,172272.0,412520.0,202573.0,208401.0,400456.0,195775.0,204681.0,8928.0,4064.0,4794.0,2.31,54173.0
75%,188512.0,479978.0,237117.0,242861.0,475949.0,235278.0,240671.0,14747.0,5911.0,8029.0,2.43,63167.0
max,259883.0,667483.0,325040.0,342443.0,660584.0,321676.0,338908.0,34913.0,18868.0,16045.0,2.69,72548.0


In [31]:
df_titanic2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 891 entries, 1 to 891
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 41.8+ KB


In [48]:
df_titanic2[df_titanic2.Age.isna()]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
6,0,3,"Moran, Mr. James",male,
18,1,2,"Williams, Mr. Charles Eugene",male,
20,1,3,"Masselmani, Mrs. Fatima",female,
27,0,3,"Emir, Mr. Farred Chehab",male,
29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,
...,...,...,...,...,...
860,0,3,"Razi, Mr. Raihed",male,
864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,
869,0,3,"van Melkebeke, Mr. Philemon",male,
879,0,3,"Laleff, Mr. Kristo",male,


#### 데이터프레임 전치
- 전치 : 행과 열을 바꾸는 기능
- df.T 
- df.transpose()
- 필요에 의해 행과 열의 위치를 바꿔야 할 경우 전치해서 사용

In [46]:
df4.T
df3.transpose()

Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2000002
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


성명,홍길동,성춘향,이몽룡,변학도,강길동
정보,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
나이,22,45,23,33,40
몸무게,60.1,51.3,88.1,60.1,60.1
키,170.5,160.5,175.5,180.5,173.5
성별,남,여,남,남,남
주소,서울,부산,대구,제주,강릉


In [30]:
################################################################################

### 데이터의 갱신, 추가, 삭제
- 열 추가 : df[열이름(key)]=values  
- 열 내용 갱신 : df[열이름(key)]=values  
- 열 삭제 : del df[열이름]  
- 행 추가  
    - loc 인덱서 사용 : df.loc[추가할 행이름(index)]=[데이터1,...,데이터n]  
    - df 새로 생성 후 concate() 사용해서 df 결합
- 행 삭제 
    - drop() 함수 사용 : df.drop(행 인덱스 이름, axis=0, inplace=True)  
        - axis=0 : 행 의미 (디폴트로 생략 가능)
        - axis=1 : 열 의미
        - inplace=True : 결과 반영 (원본 데이터 변경)

In [50]:
df6 = df4.copy() # deep copy
df6

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [51]:
df6['명칭'] = ['특별시', '광역시', '광역시', '광역시']
df6

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,명칭
서울,수도권,9904312,9631482,9762546,9853972,0.0283,특별시
부산,경상권,3448737,3393191,3512547,3655437,0.0163,광역시
인천,수도권,2890451,2632035,2517680,2466338,0.0982,광역시
대구,경상권,2466052,2000002,2456016,2473990,0.0141,광역시


In [52]:
# 하나만 넣으면 전부 공통적으로 들어간다
df6['국가'] = '대한민국'
df6

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,명칭,국가
서울,수도권,9904312,9631482,9762546,9853972,0.0283,특별시,대한민국
부산,경상권,3448737,3393191,3512547,3655437,0.0163,광역시,대한민국
인천,수도권,2890451,2632035,2517680,2466338,0.0982,광역시,대한민국
대구,경상권,2466052,2000002,2456016,2473990,0.0141,광역시,대한민국


In [53]:
# 하나만 넣으면 전부 공통적으로 들어간다
del df6['국가']
df6

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,명칭
서울,수도권,9904312,9631482,9762546,9853972,0.0283,특별시
부산,경상권,3448737,3393191,3512547,3655437,0.0163,광역시
인천,수도권,2890451,2632035,2517680,2466338,0.0982,광역시
대구,경상권,2466052,2000002,2456016,2473990,0.0141,광역시


In [54]:
df6.loc['광주'] = ['호남권', 2470000, 2456000, 2453000, 246000, 1.00, '대한민국']
df6

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,명칭
서울,수도권,9904312,9631482,9762546,9853972,0.0283,특별시
부산,경상권,3448737,3393191,3512547,3655437,0.0163,광역시
인천,수도권,2890451,2632035,2517680,2466338,0.0982,광역시
대구,경상권,2466052,2000002,2456016,2473990,0.0141,광역시
광주,호남권,2470000,2456000,2453000,246000,1.0,대한민국


In [55]:
df6.drop('광주', axis=0, inplace=True)
df6

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,명칭
서울,수도권,9904312,9631482,9762546,9853972,0.0283,특별시
부산,경상권,3448737,3393191,3512547,3655437,0.0163,광역시
인천,수도권,2890451,2632035,2517680,2466338,0.0982,광역시
대구,경상권,2466052,2000002,2456016,2473990,0.0141,광역시


In [57]:
# 여러 행, 열 삭제
df6.drop(df6.columns[1:3], axis=1, inplace=True)
df6

Unnamed: 0,지역,2005,2000,2010-2015 증가율,명칭
서울,수도권,9762546,9853972,0.0283,특별시
부산,경상권,3512547,3655437,0.0163,광역시
인천,수도권,2517680,2466338,0.0982,광역시
대구,경상권,2456016,2473990,0.0141,광역시


In [59]:
# df[열][행]
df6['2005']['대구'] = 2456015
df6

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df6['2005']['대구'] = 2456015


Unnamed: 0,지역,2005,2000,2010-2015 증가율,명칭
서울,수도권,9762546,9853972,0.0283,특별시
부산,경상권,3512547,3655437,0.0163,광역시
인천,수도권,2517680,2466338,0.0982,광역시
대구,경상권,2456015,2473990,0.0141,광역시
