# Pandas_DataFrame

### 데이터프레임
- 2차원 테이블 형태의 데이터에 인덱스를 붙인 것  
- 행과 열로 만들어진 2차원 배열 구조  
- R의 데이터프레임에서 유래  
- DataFrame() 함수를 사용해서 데이터프레임 생성  
- 데이터프레임의 각 열은 시리즈로 구성되어 있음  

### 데이터프레임 학습 내용
- 데이터프레임 생성 방법
- 데이터의 갱신, 추가, 삭제 
- 인덱싱 / 슬라이싱
- 인덱스 조작 / 함수
- 데이터프레임 복사 
- 데이터 병합 (concat()/merge())
- 피벗 (pivot)

### 데이터프레임 생성 방법
- 리스트로 데이터 프레임 생성
- 딕셔너리로 데이터프레임 생성
- 시리즈로 데이터프레임 생성
- 파일(csv/엑셀) 데이터로 데이터프레임 생성

In [None]:
################################################################################

#### 리스트로 데이터 프레임 생성
- DataFrame([[list1],[list2], ...])
    - 리스트 안에 리스트 형태로 인수를 전달 (2차원 리스트 형태로 전달)
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장
- index 인수값이 없으면 기본 인덱스 (0-base 위치 인덱스)가 생성됨

In [1]:
import pandas as pd
import numpy as np

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [4]:
# 리스트로 데이터 프레임 생성
# 인덱스 명시하지 않으면
# 열이름과 인덱스 자동 생성 (0-base)
df = pd.DataFrame([['a','b','c'],
                   ['a','a','g'],
                   ['a','i','j']])
df

# 열이름(컬럼명) : 열 방향 인덱스 (가로) : columns
# 인덱스 (행 이름) : 행방향 인덱스 (세로) : index

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,i,j


In [6]:
# index와 열이름 명시
df2 = pd.DataFrame([['a', np.nan, 'c'],
                    ['a','g'],
                    ['a','i']],
                  columns=['a','b','c'],
                  index=[1,2,3])
df2
# np.nan은 NaN으로
# 빈 값은 Nonne으로 저장
# 판다스에서는 NaN과 None 둘 다 결측치로 인식

Unnamed: 0,a,b,c
1,a,,c
2,a,g,
3,a,i,


In [7]:
# 결측치 확인 : isna() 사용
# NaN과 None 둘 다 : True
df2.isna()

Unnamed: 0,a,b,c
1,False,True,False
2,False,False,True
3,False,False,True


In [8]:
# 결측치 개수 확인 : sum()
df2.isna().sum()

a    0
b    1
c    2
dtype: int64

In [9]:
# 리스트로 데이터프레임 생성
# 열이름 / 인덱스 설정
# data, columns, index 변수로 사용
data = [
    [22, 60.1, 170.5, '남', '서울'],
    [45, 51.3, 160.5, '여', '부산'],
    [23, 88.1, 175.5, '남', '대구'],
    [33, 60.1, 180.5, '남', '제주'],
    [40, 60.1, 173.5, '남', '강릉']  
]
columns = ['나이', '몸무게', '키', '성별', '주소']
index = ['홍길동', '성춘향', '이몽룡', '변학도', '강길동']

df3 = pd.DataFrame(data, index=index, columns=columns)
df3

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


In [10]:
type(df3)

pandas.core.frame.DataFrame

In [11]:
# 데이터프레임에서 특정 열 추출
df3['나이']
type(df3['나이'])

홍길동    22
성춘향    45
이몽룡    23
변학도    33
강길동    40
Name: 나이, dtype: int64

pandas.core.series.Series

In [12]:
# 여러 개의 열 추출 : 리스트 사용 -> 데이터프레임으로 출력
df3[['나이','주소']]

Unnamed: 0,나이,주소
홍길동,22,서울
성춘향,45,부산
이몽룡,23,대구
변학도,33,제주
강길동,40,강릉


In [14]:
# 한 개의 열이라도 리스트 안에 넣으면 데이터프레임으로 생성됨
df3[['나이']]
type(df3[['나이']])

Unnamed: 0,나이
홍길동,22
성춘향,45
이몽룡,23
변학도,33
강길동,40


pandas.core.frame.DataFrame

In [16]:
df3.columns # 컬럼(열) : 열방향 인덱스
type(df3.columns)

Index(['나이', '몸무게', '키', '성별', '주소'], dtype='object')

pandas.core.indexes.base.Index

In [17]:
df3.index # 행방향 인덱스
type(df3.index)

Index(['홍길동', '성춘향', '이몽룡', '변학도', '강길동'], dtype='object')

pandas.core.indexes.base.Index

#### 열/인덱스 이름 설정
- index.name
- columns.name

In [18]:
df3.index.name = '성명'
df3.columns.name = '정보'
df3

정보,나이,몸무게,키,성별,주소
성명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


#### 딕셔너리로 데이터프레임 생성
- DataFrame(딕셔너리)
- 딕셔너리의 key가 열이름(열방향 인덱스)이 되고
- index가 행방향 인덱스가 됨

In [None]:
# '지역':['수도권', '경상권', '수도권', '경상권'],
# "2015": [9904312, 3448737, 2890451, 2466052],
# "2010": [9631482, 3393191, 2632035, 2000002],
# "2005": [9762546, 3512547, 2517680, 2456016],
# "2000": [9853972, 3655437, 2466338, 2473990],   
# "2010-2015 증가율":[0.0283, 0.0163, 0.0982,0.0141]

In [None]:
# 딕셔너리로 데이터프레임 생성
# 딕셔너리의 key 값은 데이터프레임의 열방향 인덱스(열이름)으로 설정
# key 값이 열 이름이 되므로 별도의 columns 값 필요 없음

In [19]:
data = {
    '지역':['수도권', '경상권', '수도권', '경상권'],
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2000002],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],   
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982,0.0141]
}

# 행방향 인덱스 (index)
index = ['서울','부산','인천','대구']
df4 = pd.DataFrame(data, index=index)
df4

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


#### 시리즈로 데이터프레임 생성
- 여러 개의 시리즈로 데이터프레임 생성
- 각 시리즈의 index가 열이름이 됨 (열 방향 인덱스가 됨)

In [21]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([10, 20, 30], index=['a', 'b', 'd'])
s3 = pd.Series([100, 200, 300], index=['a', 'b', 'e'])

pd.DataFrame([s1, s2, s3], index=[1,2,3])

# 빈 값은 NaN으로 채워짐

Unnamed: 0,a,b,c,d,e
1,1.0,2.0,3.0,,
2,10.0,20.0,,30.0,
3,100.0,200.0,,,300.0


#### 파일(csv/엑셀) 데이터로 데이터프레임 생성
- CSV 파일 : read_csv() 함수 사용
- 엑셀 파일 : read_excel() 함수 사용

데이터 출처 : train.csv (Titanic-Dataset)  
https://www.kaggle.com/datasets/hesh97/titanicdataset-traincsv?resource=download

#### CSV 파일 : read_csv() 함수 사용

##### read_csv() 함수의 주요 파라미터
    sep : 각 데이터 값을 구별하기 위한 구분자(separator) 설정
    header : 헤더(제목) 위치. header를 무시할 경우, None 설정
    skiprows : 제외하는 행 지정
    thousands : 천 단위 구분 표시 제거
    index_col : index로 사용할 열 설정
    usecols : 선택 열 지정
    encoding : 인코딩 설정 
        (utf-8로 저장된 파일은 encoding='utf-8'
         euc-kr로 저장된 파일은 encoding='euc-kr'로 해야 오류 없음)

In [27]:
df_titanic = pd.read_csv('../data/titanic_train.csv')
df_titanic.head()
df_titanic.tail()
# data 폴더에 csv 파일 저장
# source_code 폴더에 소스코드 파일 저장

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [23]:
# 열이름 확인
df_titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [24]:
# index 확인
df_titanic.index

RangeIndex(start=0, stop=891, step=1)

In [28]:
# 사용할 열 선택해서 읽어오기
# usecols : 선택 열 지정 (PassengerId	Survived	Pclass	Name	Sex	Age)
df_titanic2 = pd.read_csv('../data/titanic_train.csv',
                        index_col='PassengerId',
                        usecols=['PassengerId', 'Survived', 'Name', 'Sex', 'Age'])
df_titanic2.head()

Unnamed: 0_level_0,Survived,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0,"Braund, Mr. Owen Harris",male,22.0
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
3,1,"Heikkinen, Miss. Laina",female,26.0
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
5,0,"Allen, Mr. William Henry",male,35.0


In [29]:
# 열이름 확인
df_titanic2.columns

Index(['Survived', 'Name', 'Sex', 'Age'], dtype='object')

In [30]:
# index 확인
df_titanic2.index

Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
       ...
       882, 883, 884, 885, 886, 887, 888, 889, 890, 891],
      dtype='int64', name='PassengerId', length=891)

In [32]:
# 한글 CSV 파일 읽기 : population_in_Seoul.csv
df_pop = pd.read_csv('../data/population_in_Seoul.csv')
df_pop.head()
# header 설정하지 않으면 첫 행이 헤더가 됨

Unnamed: 0,기간,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
1,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
2,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
3,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
4,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764


In [33]:
# header 무시 : None
# 0-base 열 방향 인덱스 자동 생성
df_pop = pd.read_csv('../data/population_in_Seoul.csv', header=None)
df_pop.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,기간,자치구,세대,인구,인구,인구,인구,인구,인구,인구,인구,인구,세대당인구,65세이상고령자
1,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
2,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
3,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
4,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425


In [34]:
# header 설정 : 인덱스 2행(세 번째 행)을 header(제목행)로 지정
# header=2
# 0-base 열 방향 인덱스 자동 생성
df_pop = pd.read_csv('../data/population_in_Seoul.csv', header=2)
df_pop.head()

Unnamed: 0,기간,자치구,세대,계,남자,여자,계.1,남자.1,여자.1,계.2,남자.2,여자.2,세대당인구,65세이상고령자
0,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
1,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
2,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764
3,2017.1/4,용산구,106544,244203,119132,125071,229456,111167,118289,14747,7965,6782,2.15,36231
4,2017.1/4,성동구,130868,311244,153768,157476,303380,150076,153304,7864,3692,4172,2.32,39997


In [35]:
# header 지정하지 않고 skiprows 사용
df_pop = pd.read_csv('../data/population_in_Seoul.csv', skiprows=[0,1])
df_pop.head()

Unnamed: 0,기간,자치구,세대,계,남자,여자,계.1,남자.1,여자.1,계.2,남자.2,여자.2,세대당인구,65세이상고령자
0,2017.1/4,합계,4202888,10197604,5000005,5197599,9926968,4871560,5055408,270636,128445,142191,2.36,1321458
1,2017.1/4,종로구,72654,162820,79675,83145,153589,75611,77978,9231,4064,5167,2.11,25425
2,2017.1/4,중구,59481,133240,65790,67450,124312,61656,62656,8928,4134,4794,2.09,20764
3,2017.1/4,용산구,106544,244203,119132,125071,229456,111167,118289,14747,7965,6782,2.15,36231
4,2017.1/4,성동구,130868,311244,153768,157476,303380,150076,153304,7864,3692,4172,2.32,39997


In [37]:
# 열 선택
df_pop = pd.read_csv('../data/population_in_Seoul.csv', header=2,
                    usecols=['자치구', '세대', '세대당인구', '65세이상고령자'])
df_pop.head()

Unnamed: 0,자치구,세대,세대당인구,65세이상고령자
0,합계,4202888,2.36,1321458
1,종로구,72654,2.11,25425
2,중구,59481,2.09,20764
3,용산구,106544,2.15,36231
4,성동구,130868,2.32,39997


In [38]:
# 열 선택, 특정 행 제회
df_pop = pd.read_csv('../data/population_in_Seoul.csv', 
                    header=2,
                    usecols=['자치구', '세대', '세대당인구', '65세이상고령자'],
                    skiprows=[3])
df_pop.head()

Unnamed: 0,자치구,세대,세대당인구,65세이상고령자
0,종로구,72654,2.11,25425
1,중구,59481,2.09,20764
2,용산구,106544,2.15,36231
3,성동구,130868,2.32,39997
4,광진구,158960,2.25,42214


In [39]:
df_pop4 = pd.read_csv('../data/population_in_Seoul.csv', 
                    header=2,
                    usecols=['자치구', '세대', '세대당인구', '65세이상고령자'],
                    skiprows=range(5, 8)) # 5~7행 범위 제외
df_pop4.head()

Unnamed: 0,자치구,세대,세대당인구,65세이상고령자
0,합계,4202888,2.36,1321458
1,종로구,72654,2.11,25425
2,광진구,158960,2.25,42214
3,동대문구,159839,2.22,54173
4,중랑구,177548,2.31,56774


In [40]:
df_pop.info()
# 세대와 65세이상 고량자 열의 값은 숫자인데 데이터 타입이 object
# 숫자에 쉼표가 포함되어 있기 때문에 문자타입이 됨
# -> 쉼표 제거하면 숫자로 읽어옴 -> thousands=','

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26 entries, 0 to 25
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   자치구       25 non-null     object 
 1   세대        25 non-null     object 
 2   세대당인구     25 non-null     float64
 3   65세이상고령자  25 non-null     object 
dtypes: float64(1), object(3)
memory usage: 964.0+ bytes


In [44]:
df_pop = pd.read_csv('../data/population_in_Seoul.csv', 
                    header=2,
                    thousands=',',
                    usecols=['자치구', '세대', '세대당인구', '65세이상고령자'],
                    skiprows=[3])
df_pop.head()

Unnamed: 0,자치구,세대,세대당인구,65세이상고령자
0,종로구,72654.0,2.11,25425.0
1,중구,59481.0,2.09,20764.0
2,용산구,106544.0,2.15,36231.0
3,성동구,130868.0,2.32,39997.0
4,광진구,158960.0,2.25,42214.0


In [45]:
df_pop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26 entries, 0 to 25
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   자치구       25 non-null     object 
 1   세대        25 non-null     float64
 2   세대당인구     25 non-null     float64
 3   65세이상고령자  25 non-null     float64
dtypes: float64(3), object(1)
memory usage: 964.0+ bytes


#### 엑셀 파일 : read_excel() 함수 사용

##### read_excel() 함수의 주요 파라미터
    header : 헤더(제목) 위치. header를 무시할 경우, None 설정
    skiprows : 제외하는 행 지정
    index_col : index로 사용할 열 설정
    usecols : 선택 열 지정
    thousands : 천 단위 구분 표시 (,)
    encoding : 인코딩 설정 
        (utf-8로 저장된 파일은 encodin='utf-8'
         euc-kr로 저장된 파일은 encodin='euc-kr'로 해야 오류 없음)

In [46]:
df_pop2 = pd.read_excel('../data/population_in_Seoul.xlsx', 
                    header=2,
                    usecols=['자치구', '세대', '세대당인구', '65세이상고령자'],
                    skiprows=[3])
df_pop2.head()

Unnamed: 0,자치구,세대,세대당인구,65세이상고령자
0,종로구,72654,2.11,25425
1,중구,59481,2.09,20764
2,용산구,106544,2.15,36231
3,성동구,130868,2.32,39997
4,광진구,158960,2.25,42214


In [47]:
df_pop2.dtypes

자치구          object
세대            int64
세대당인구       float64
65세이상고령자      int64
dtype: object

#### 데이터프레임 데이터 파악
- shape 속성 (row, column)
- describe() 함수 - 숫자형 데이터의 통계 정보 출력
- info() 함수 - 데이터 타입, Non-Null Count 출력

In [67]:
df3

정보,나이,몸무게,키,성별,주소
성명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


In [68]:
df3.shape # (행, 열)

(5, 5)

In [69]:
df3.info(0)

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 홍길동 to 강길동
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   나이      5 non-null      int64  
 1   몸무게     5 non-null      float64
 2   키       5 non-null      float64
 3   성별      5 non-null      object 
 4   주소      5 non-null      object 
dtypes: float64(2), int64(1), object(2)
memory usage: 412.0+ bytes


In [70]:
df3.describe() # 숫자형 데이터의 통계 정보 출력

정보,나이,몸무게,키
count,5.0,5.0,5.0
mean,32.6,63.94,172.1
std,10.163661,14.033104,7.436397
min,22.0,51.3,160.5
25%,23.0,60.1,170.5
50%,33.0,60.1,173.5
75%,40.0,60.1,175.5
max,45.0,88.1,180.5


In [71]:
df_titanic2.head()

Unnamed: 0_level_0,Survived,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0,"Braund, Mr. Owen Harris",male,22.0
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
3,1,"Heikkinen, Miss. Laina",female,26.0
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
5,0,"Allen, Mr. William Henry",male,35.0


In [72]:
df_titanic2.shape

(891, 4)

In [73]:
df_titanic2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 891 entries, 1 to 891
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Name      891 non-null    object 
 2   Sex       891 non-null    object 
 3   Age       714 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 34.8+ KB


In [74]:
df_titanic2.describe()

Unnamed: 0,Survived,Age
count,891.0,714.0
mean,0.383838,29.699118
std,0.486592,14.526497
min,0.0,0.42
25%,0.0,20.125
50%,0.0,28.0
75%,1.0,38.0
max,1.0,80.0


In [75]:
# Age 열의 NaN 값 개수 확인
df_titanic2['Age'].isna().sum()

177

In [76]:
# Age 열의 NaN 값인 행 추출
df_titanic2[df_titanic2['Age'].isna()]

Unnamed: 0_level_0,Survived,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6,0,"Moran, Mr. James",male,
18,1,"Williams, Mr. Charles Eugene",male,
20,1,"Masselmani, Mrs. Fatima",female,
27,0,"Emir, Mr. Farred Chehab",male,
29,1,"O'Dwyer, Miss. Ellen ""Nellie""",female,
...,...,...,...,...
860,0,"Razi, Mr. Raihed",male,
864,0,"Sage, Miss. Dorothy Edith ""Dolly""",female,
869,0,"van Melkebeke, Mr. Philemon",male,
879,0,"Laleff, Mr. Kristo",male,


#### 데이터프레임 전치
- 전치 : 행과 열을 바꾸는 기능
- df.T 
- df.transpose()
- 필요에 의해 행과 열의 위치를 바꿔야 할 경우 전치해서 사용

In [54]:
df4

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [55]:
df4.T
df4.transpose()

Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2000002
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2000002
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [56]:
df4.T['서울'].values

array(['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283], dtype=object)

In [58]:
df4.T['서울']['2000'] # 열이름, 행이름
# 서울 열, 2000 행의 데이터만 추출

9853972

In [None]:
################################################################################

### 데이터의 갱신, 추가, 삭제
- 열 추가 : df[열이름(key)]=values  
- 열 내용 갱신 : df[열이름(key)]=values  
- 열 삭제 : del df[열이름]  
- 행 추가  
    - loc 인덱서 사용 : df.loc[추가할 행이름(index)]=[데이터1,...,데이터n]  
    - df 새로 생성 후 concate() 사용해서 df 결합
- 행 삭제 
    - drop() 함수 사용 : df.drop(행 인덱스 이름, axis=0, inplace=True)  
        - axis=0 : 행 의미 (디폴트로 생략 가능)
        - axis=1 : 열 의미
        - inplace=True : 결과 반영 (원본 데이터 변경)

In [59]:
df4

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [61]:
# df4 원본 변경되지 않도록 복사해서 사용
# 주의! df5 = df4 (복사본 변경하면 원본도 변경됨)
# copy() 사용
df5 = df4.copy()
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [62]:
# 열 추가 : df[새이름] = 값(리스트)
# 각 행마다 값을 다르게 저장할 경우 리스트 사용
# 열 이름 : 명칭
df5['명칭'] = ['특별시','광역시','광역시','광역시']
df5

# 주의!!
# 여러 개의 값을 지정할 때 행의 개수와 값의 수가 다르면 오류 발생

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,명칭
서울,수도권,9904312,9631482,9762546,9853972,0.0283,특별시
부산,경상권,3448737,3393191,3512547,3655437,0.0163,광역시
인천,수도권,2890451,2632035,2517680,2466338,0.0982,광역시
대구,경상권,2466052,2000002,2456016,2473990,0.0141,광역시


In [63]:
# 열 추가 : 모든 행에 동일한 값으로 추가
# 값 1개 지정
df5['국가'] = '대한민국'
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,명칭,국가
서울,수도권,9904312,9631482,9762546,9853972,0.0283,특별시,대한민국
부산,경상권,3448737,3393191,3512547,3655437,0.0163,광역시,대한민국
인천,수도권,2890451,2632035,2517680,2466338,0.0982,광역시,대한민국
대구,경상권,2466052,2000002,2456016,2473990,0.0141,광역시,대한민국


In [64]:
# 열 추가
# 가공열 추가 : 기존 열들을 이용하여 새로운 열로 추가
df5['2005-2015 증가율'] = ((df5['2015']-df5['2005'])/df5['2005']*100).round(2)
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,명칭,국가,2005-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283,특별시,대한민국,1.45
부산,경상권,3448737,3393191,3512547,3655437,0.0163,광역시,대한민국,-1.82
인천,수도권,2890451,2632035,2517680,2466338,0.0982,광역시,대한민국,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.0141,광역시,대한민국,0.41


In [65]:
# 열 삭제 : del 사용
del df5['2005-2015 증가율']
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,명칭,국가
서울,수도권,9904312,9631482,9762546,9853972,0.0283,특별시,대한민국
부산,경상권,3448737,3393191,3512547,3655437,0.0163,광역시,대한민국
인천,수도권,2890451,2632035,2517680,2466338,0.0982,광역시,대한민국
대구,경상권,2466052,2000002,2456016,2473990,0.0141,광역시,대한민국


In [66]:
del df5['명칭']
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,국가
서울,수도권,9904312,9631482,9762546,9853972,0.0283,대한민국
부산,경상권,3448737,3393191,3512547,3655437,0.0163,대한민국
인천,수도권,2890451,2632035,2517680,2466338,0.0982,대한민국
대구,경상권,2466052,2000002,2456016,2473990,0.0141,대한민국


In [78]:
# 행 추가 : loc 인덱서 사용
# df.loc[추가할 행이름(index)] = [데이터1, ..., 데이터n]
df5.loc['광주'] = ['호남권', 2470000, 2456000, 2453000, 246000, 1.00, '대한민국']
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,국가
서울,수도권,9904312,9631482,9762546,9853972,0.0283,대한민국
부산,경상권,3448737,3393191,3512547,3655437,0.0163,대한민국
인천,수도권,2890451,2632035,2517680,2466338,0.0982,대한민국
대구,경상권,2466052,2000002,2456016,2473990,0.0141,대한민국
광주,호남권,2470000,2456000,2453000,246000,1.0,대한민국


In [79]:
# 행 삭제 : drop() 사용
# df.drop(행 인덱스, axis=0, inplace=True)
# axis=0 : 행(디폴트로 생략 가능)
# axis=1 : 열
# inplace=True : 결과 반영 (원본 데이터 변경)
df5.drop('광주', axis=0, inplace=True)
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,국가
서울,수도권,9904312,9631482,9762546,9853972,0.0283,대한민국
부산,경상권,3448737,3393191,3512547,3655437,0.0163,대한민국
인천,수도권,2890451,2632035,2517680,2466338,0.0982,대한민국
대구,경상권,2466052,2000002,2456016,2473990,0.0141,대한민국


In [80]:
# 여러 행 삭제 : drop([행 인덱스 여러개])
df5.drop(['서울', '대구'], axis=0, inplace=True)
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,국가
부산,경상권,3448737,3393191,3512547,3655437,0.0163,대한민국
인천,수도권,2890451,2632035,2517680,2466338,0.0982,대한민국


In [81]:
df5 = df4.copy()
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [82]:
# 여러 행 삭제 : 슬라이싱 이용
df5.drop(df5.index[1:3], inplace=True) # 2~3행 삭제
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [83]:
df5 = df4.copy()
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [84]:
# drop() 사용 여러 열 삭제
df5.drop(['2015', '2005'], axis=1, inplace=True)
df5

Unnamed: 0,지역,2010,2000,2010-2015 증가율
서울,수도권,9631482,9853972,0.0283
부산,경상권,3393191,3655437,0.0163
인천,수도권,2632035,2466338,0.0982
대구,경상권,2000002,2473990,0.0141


In [85]:
df5 = df4.copy()
df5

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [86]:
# 여러 열 삭제 : 슬라이싱
df5.drop(df5.columns[1:3], axis=1, inplace=True) # 2~3행 삭제
df5

Unnamed: 0,지역,2005,2000,2010-2015 증가율
서울,수도권,9762546,9853972,0.0283
부산,경상권,3512547,3655437,0.0163
인천,수도권,2517680,2466338,0.0982
대구,경상권,2456016,2473990,0.0141


In [88]:
# 경고 무시
pd.set_option('mode.chained_assignment', None)

In [89]:
# 특정 열, 특정 행의 값 변경
# df[열인덱스][행인덱스]
# 2005 열의 대구 행 값을 2500000으로 변경
df5['2005']['대구'] = 2500000
df5

Unnamed: 0,지역,2005,2000,2010-2015 증가율
서울,수도권,9762546,9853972,0.0283
부산,경상권,3512547,3655437,0.0163
인천,수도권,2517680,2466338,0.0982
대구,경상권,2500000,2473990,0.0141


In [90]:
df3
df4

정보,나이,몸무게,키,성별,주소
성명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [92]:
# 여러 개의 데이터프레임 한 번에 출력
display(df3, df4)

정보,나이,몸무게,키,성별,주소
성명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141
