In [1]:
import numpy as np
import pandas as pd

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [4]:
import warnings
warnings.filterwarnings(action='ignore')

# pandas의 데이터 구조#2. DataFrame

#### 학습내용
1. 데이터 프레임 생성
2. 데이터 프레임 구조
3. 데이터 프레임의 데이터 파악
4. 데이터 프레임 변경
5. 데이터 프레임 인덱싱
6. 데이터 프레임 인덱스 변경

--------------------

## DataFrame

- Pandas에서 주로 다루는 단위
- spreadsheet와 같은 개념
- Structured Data, Panel Data 또는 Tabular Data라고 부름
- pandas를 공부한다는 것 == dataframe의 사용법과 활용법을 배운다
- pandas를 잘 활용하면 대부분의 structured data를 자유자재로 다룰 수 있게 됨

### 데이터 프레임 특징
- 행과 열로 만들어지는 2차원 배열 구조
- 2차원 행렬 데이터에 인덱스를 붙인 것
- R의 데이터프레임에서 유래
- 데이프레임의 각 열은 시리즈로 구성되어 있음

## 1. 데이터 프레임 생성

**DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)함수 사용**

- data : array-like, Iterable, dict, or scalar value
- index : index or array-like
- columns : index or array-like
- dtype : dtype

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

### 1) 리스트로 데이터 프레임 만들기

- DataFrame([[list1],[list2]]) 
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장

In [7]:
df1 = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [8]:
df1.shape

(3, 3)

**자동으로 생성된 index와 column을 갖는 DataFrame 데이터**

### 2) 딕셔너리로 데이터프레임 생성

**dict의 key → column**

In [11]:
data = {
    '2015': [9904312, 3448737, 2890451, 2466052],
    '2016': [9631482, 3393191, 2632035, 2000002],
    '2017': [9762546, 3512547, 2517680, 2456016],
    '2018': [9912345, 1513057, 2648043, 2504991]
}

data

{'2015': [9904312, 3448737, 2890451, 2466052],
 '2016': [9631482, 3393191, 2632035, 2000002],
 '2017': [9762546, 3512547, 2517680, 2456016],
 '2018': [9912345, 1513057, 2648043, 2504991]}

In [13]:
df2 = pd.DataFrame(data)
df2

Unnamed: 0,2015,2016,2017,2018
0,9904312,9631482,9762546,9912345
1,3448737,3393191,3512547,1513057
2,2890451,2632035,2517680,2648043
3,2466052,2000002,2456016,2504991


In [17]:
df2.columns

Index(['2015', '2016', '2017', '2018'], dtype='object')

In [15]:
df2.index

RangeIndex(start=0, stop=4, step=1)

### 3) 시리즈로 데이터 프레임 생성

**각 Series의 인덱스 → column**

In [24]:
s1 = pd.Series([100,101,102], index='a b c'.split())
s2 = pd.Series([200,201,202], index='a b k'.split())
s3 = pd.Series([300,301,302], index='a b d'.split())
pd.DataFrame([s1,s2,s3])

Unnamed: 0,a,b,c,k,d
0,100.0,101.0,102.0,,
1,200.0,201.0,,202.0,
2,300.0,301.0,,,302.0


In [25]:
pd.DataFrame([s1,s2,s3], index=[10,11,12])

Unnamed: 0,a,b,c,k,d
10,100.0,101.0,102.0,,
11,200.0,201.0,,202.0,
12,300.0,301.0,,,302.0


### 4) csv 데이터로 부터 Dataframe 생성

- 데이터 분석을 위해 dataframe을 생성하는 가장 일반적인 방법
- 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성
- **pandas.read_csv()** 함수 사용

#### read_csv() 함수 파라미터
 - sep : 각 데이터 값을 구별하기 위한 구분자(separator) 설정 
 - header : header를 무시할 경우, None 설정
 - index_col : index로 사용할 column 설정
 - usecols : 실제로 dataframe에 로딩할 columns만 설정
 
 https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [26]:
df_tin = pd.read_csv('data/train.csv')

In [27]:
df_tin.head(4)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


In [28]:
df_tin.index

RangeIndex(start=0, stop=891, step=1)

In [32]:
df_tin.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [29]:
df_tin.shape

(891, 12)

In [30]:
df_tin.size

10692

In [31]:
type(df_tin)

pandas.core.frame.DataFrame

#### csv 파일의 일부 컬럼만 가지도록 데이터프레임을 다시 생성

In [39]:
df_tin2 = pd.read_csv('data/train.csv', index_col='PassengerId', usecols = ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'])

In [40]:
df_tin2

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


#### 데이터프레임을 csv파일로 저장 : 

In [42]:
df_tin2.to_csv('data/train.csv')

In [41]:
df4 = pd.DataFrame({'name': ['Raphael', 'Donatello'],
                   'mask': ['red', 'purple'],
                   'weapon': ['sai', 'bo staff']})
df4

Unnamed: 0,name,mask,weapon
0,Raphael,red,sai
1,Donatello,purple,bo staff


In [43]:
df4.index

RangeIndex(start=0, stop=2, step=1)

In [44]:
df4.columns

Index(['name', 'mask', 'weapon'], dtype='object')

In [45]:
df4.values

array([['Raphael', 'red', 'sai'],
       ['Donatello', 'purple', 'bo staff']], dtype=object)

In [46]:
df4.to_csv('data/sampledf4.csv')

## 2. 데이터프레임의 구조

### 1) 행/열 방향 인덱스

**인덱스(index)**
 - index 속성
 - 각 아이템을 특정할 수 있는 고유의 값을 저장
 - 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능
 
 
**컬럼(columns)**
 - columns 속성
 - 각각의 특성(feature)을 나타냄
 - 복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능

### 2) 행/열 인덱스 출력

In [47]:
df_tin.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [49]:
df1.index = [1,2,3]
df1

Unnamed: 0,0,1,2
1,1,2,3
2,4,5,6
3,7,8,9


In [51]:
df1.columns = ['a b c'.split()]
df1

Unnamed: 0,a,b,c
1,1,2,3
2,4,5,6
3,7,8,9


### 3) 행/열 인덱스 이름 설정

- index.name 
- columns.name

In [52]:
print(df1.index.name, df1.columns.name)

None None


In [53]:
df1.index.name = 'id'
df1.columns.name = 'attr'
df1

Unnamed: 0_level_0,a,b,c
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,2,3
2,4,5,6
3,7,8,9


### 4) 데이터프레임의 값 접근

**values 속성**

In [54]:
df1.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]], dtype=int64)

-------------------------------

## 3. 데이터프레임의 데이터 파악하기
 - shape 속성 (row, column)
 - describe() 함수 : 숫자형 데이터의 통계치 계산
 - info() 함수 : 데이터 타입, 각 아이템의 개수 등 출력

### shape : 데이터프레임의 행,렬 개수 출력

In [55]:
df_tin.shape

(891, 12)

### info() : 데이터프레임 개요

- 컬럼별 요약 : 데이터 개수(결측치제외한 데이터), 데이터유형(dtype)

In [56]:
df_tin.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [58]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    2 non-null      object
 1   mask    2 non-null      object
 2   weapon  2 non-null      object
dtypes: object(3)
memory usage: 180.0+ bytes


### describe(): 수치형 데이터의 기술통계 출력

In [61]:
df_tin.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [60]:
df_tin.describe(include='all')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,,,891,2,,,,681.0,,147,3
top,,,,"Braund, Mr. Owen Harris",male,,,,347082.0,,B96 B98,S
freq,,,,1,577,,,,7.0,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


In [69]:
df_tin.describe(include='object')

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Braund, Mr. Owen Harris",male,347082,B96 B98,S
freq,1,577,7,4,644


In [73]:
df_tin.describe(exclude=['float','int'])

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Braund, Mr. Owen Harris",male,347082,B96 B98,S
freq,1,577,7,4,644


##### 참고. 데이터 유형
- 수치형 데이터 : 평균, 분산, 최소값, 최대값, 중위수, 사분위수
  - 예. 타이타닉 데이터의 경우 age, SibSp
- 범주형 데이터 : 빈도, 비율
  - 예. 타이타닉 데이터의 경우 : sex, pclass
  

- PassengerID : 범주형 (명목형)
- Pclass : 범주형 (순서형)
- Sex : 범주형 (명목형)
- Age : 수치형 (비율형) => 사칙연산

-------------------------------------

## 4. 데이터프레임 변경

### 1) 데이터프레임 전치(transpose)

- pandas의 데이터 프레임은 전치를 포함해서 Numpy 2차원 배열의 대부분 속성이나 메서드를 지원.

- 전치 : 행과 열을 바꾸는 기능

In [74]:
df2

Unnamed: 0,2015,2016,2017,2018
0,9904312,9631482,9762546,9912345
1,3448737,3393191,3512547,1513057
2,2890451,2632035,2517680,2648043
3,2466052,2000002,2456016,2504991


In [76]:
# 행과열을 바꾸기 / 원본은 변경x
df2.T
df2

Unnamed: 0,0,1,2,3
2015,9904312,3448737,2890451,2466052
2016,9631482,3393191,2632035,2000002
2017,9762546,3512547,2517680,2456016
2018,9912345,1513057,2648043,2504991


Unnamed: 0,2015,2016,2017,2018
0,9904312,9631482,9762546,9912345
1,3448737,3393191,3512547,1513057
2,2890451,2632035,2517680,2648043
3,2466052,2000002,2456016,2504991


### 2) 열(column) 추가

#### 해당열이 있으면 내용 갱신, 열이 없으면 추가

- 열추가 : df[열이름(key)]=values
- 열 내용 갱신 : df[열이름(key)]=values

In [79]:
df2.index = ['서울','부산','인천','대구']
df2

Unnamed: 0,2015,2016,2017,2018
서울,9904312,9631482,9762546,9912345
부산,3448737,3393191,3512547,1513057
인천,2890451,2632035,2517680,2648043
대구,2466052,2000002,2456016,2504991


In [82]:
df2['평균 인구'] = (df2['2015'] + df2['2016'] + df2['2017'] + df2['2018']) /4
df2

Unnamed: 0,2015,2016,2017,2018,평균 인구
서울,9904312,9631482,9762546,9912345,9802671.25
부산,3448737,3393191,3512547,1513057,2966883.0
인천,2890451,2632035,2517680,2648043,2672052.25
대구,2466052,2000002,2456016,2504991,2356765.25


In [84]:
df2['지역'] = ['수도권', '경상권', '수도권', '경상권']
df2

Unnamed: 0,2015,2016,2017,2018,평균 인구,지역
서울,9904312,9631482,9762546,9912345,9802671.25,수도권
부산,3448737,3393191,3512547,1513057,2966883.0,경상권
인천,2890451,2632035,2517680,2648043,2672052.25,수도권
대구,2466052,2000002,2456016,2504991,2356765.25,경상권


### 3) 열(column) 삭제

**del df[삭제열]**

In [86]:
del df2['지역']
df2

Unnamed: 0,2015,2016,2017,2018,평균 인구
서울,9904312,9631482,9762546,9912345,9802671.25
부산,3448737,3393191,3512547,1513057,2966883.0
인천,2890451,2632035,2517680,2648043,2672052.25
대구,2466052,2000002,2456016,2504991,2356765.25


-------------------------------

## 5. 데이터 프레임 인덱싱

- 열단위 인덱싱  `[ ]`
- 인덱서(loc, iloc)를 사용하지 않는 행단위 인덱싱  `[ : ]`
- 개별 요소 접근 `[열][행]`

### 1) 열단위 인덱싱

- 열 라벨(컬럼명)을 키값으로 생각하고 인덱싱
- `[ ]`기호 또는 `df.열이름`을 이용
    - [ ]는 열 위주 인덱싱이 원칙
- 인덱스로 라벨값을 하나 넣으면 시리즈 객체가 반환
- 라벨의 배열이나 리스트를 넣으면 부분적 df 가 반환

In [87]:
data = {
    '2015': [9904312, 3448737, 2890451, 2466052],
    '2016': [9631482, 3393191, 2632035, 2000002],
    '2017': [9762546, 3512547, 2517680, 2456016],
    '2018': [9912345, 1513057, 2648043, 2504991]
}
df = pd.DataFrame(data, index=['서울','부산','인천','대구'])
df.columns.name = '연도'
df.index.name = '도시'
df

연도,2015,2016,2017,2018
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,9904312,9631482,9762546,9912345
부산,3448737,3393191,3512547,1513057
인천,2890451,2632035,2517680,2648043
대구,2466052,2000002,2456016,2504991


In [88]:
df['지역'] = ['수도권','경상권','수도권','경상권']

In [92]:
df['2015']
type(df['2015'])

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

pandas.core.series.Series

#### 열이름(컬럼명)이 문자열인 경우 위치인덱스 사용 불가
- 수치 인덱스를 사용할 수 없음
- keyerror 발생

In [95]:
df_int = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df_int

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


df_int[0]

In [98]:
df_int.columns = 'a b c'.split()
df_int

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [100]:
# keyError 발생: 열이름이 문자열인 경우 위치 인덱스 사용x
df_int[0] 

In [103]:
try:
    df_int[1]
except:
    print(type(Exception))

<class 'type'>


#### 추출한 열을 데이터프레임으로 받기

- 리스트로 인덱싱

In [104]:
df

연도,2015,2016,2017,2018,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9904312,9631482,9762546,9912345,수도권
부산,3448737,3393191,3512547,1513057,경상권
인천,2890451,2632035,2517680,2648043,수도권
대구,2466052,2000002,2456016,2504991,경상권


In [108]:
#series형태
df['2015']
#dataframe 형태
df[['2015']]

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

연도,2015
도시,Unnamed: 1_level_1
서울,9904312
부산,3448737
인천,2890451
대구,2466052


#### 리스트를 사용하여 여러 개 열 추출

In [106]:
df[['2015','2017']]

연도,2015,2017
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9904312,9762546
부산,3448737,3512547
인천,2890451,2517680
대구,2466052,2456016


#### 열이름이 수치인 경우(위치인덱스)

In [109]:
df_int = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df_int

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [110]:
df_int[[0,2]]

Unnamed: 0,0,2
0,1,3
1,4,6
2,7,9


### 2) 행 단위 인덱싱

- **슬라이싱(slicing)** 사용
    - 열단위 인덱싱과 구분하기 위해
    - 인덱스 값이 문자(label)인 경우 문자 슬라이싱
- 인덱서(loc, iloc) 사용

In [111]:
df

연도,2015,2016,2017,2018,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9904312,9631482,9762546,9912345,수도권
부산,3448737,3393191,3512547,1513057,경상권
인천,2890451,2632035,2517680,2648043,수도권
대구,2466052,2000002,2456016,2504991,경상권


In [113]:
# 행
df['서울':'서울']

연도,2015,2016,2017,2018,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9904312,9631482,9762546,9912345,수도권


#### 한개의 행 추출

In [114]:
df['부산':'부산']

연도,2015,2016,2017,2018,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
부산,3448737,3393191,3512547,1513057,경상권


In [117]:
df['서울':'인천']

연도,2015,2016,2017,2018,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9904312,9631482,9762546,9912345,수도권
부산,3448737,3393191,3512547,1513057,경상권
인천,2890451,2632035,2517680,2648043,수도권


In [119]:
# Error발생
df[['부산':'부산','인천':'인천']]

SyntaxError: invalid syntax (3069840942.py, line 1)

In [120]:
df['서울':]

연도,2015,2016,2017,2018,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9904312,9631482,9762546,9912345,수도권
부산,3448737,3393191,3512547,1513057,경상권
인천,2890451,2632035,2517680,2648043,수도권
대구,2466052,2000002,2456016,2504991,경상권


#### 여러 행 추출

In [121]:
df_int

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [122]:
df_int[1:3]

Unnamed: 0,0,1,2
1,4,5,6
2,7,8,9


In [123]:
df[:-1]

연도,2015,2016,2017,2018,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9904312,9631482,9762546,9912345,수도권
부산,3448737,3393191,3512547,1513057,경상권
인천,2890451,2632035,2517680,2648043,수도권


In [125]:
df[::2]

연도,2015,2016,2017,2018,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9904312,9631482,9762546,9912345,수도권
인천,2890451,2632035,2517680,2648043,수도권


In [126]:
df[::-1]

연도,2015,2016,2017,2018,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,2466052,2000002,2456016,2504991,경상권
인천,2890451,2632035,2517680,2648043,수도권
부산,3448737,3393191,3512547,1513057,경상권
서울,9904312,9631482,9762546,9912345,수도권


### 3) 개별요소 접근 [열][행]

In [127]:
df['2015']['서울']

9904312

In [130]:
df[['2015','2017']]['서울':'인천']

연도,2015,2017
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9904312,9762546
부산,3448737,3512547
인천,2890451,2517680


### 인덱싱 정리
- 데이터프레임은 열기준으로 접근 원칙 : [열이름]
- 행기준 접근을 위해서는 슬라이싱을 적용 : [행이름:행이름]
- 행과열을 같이 적용(개별요소) : [열이름][행이름]

- **데이터프레임의 기본 행인덱싱은 슬라이싱방식을 사용하므로 연속된 위치만 접근 가능한 한계점이 있음**
- 이 단점을 보완한 인덱서 : loc[], iloc[]

--------------------------

## 6. 인덱스 변경

### 1) 행인덱스 변경

- 기본인덱스 : 행인덱스를 명시적으로 지정하지 않는 경우 0부터 1씩 증가하는 정수 인덱스 지정됨
    
    
- **set_index(keys, drop=True, append=False, inplace=False, ...,)**
    - 기존의 행인덱스를 제거하고 지정한 열로 인덱스 변경


- **reset_index(level=None, drop=False, inplace=False, ...)**
    - 기존의 행인덱스를 제거하고 기본인덱스로 변경

In [132]:
# 행인덱스를 명시적으로 지정하지 않은 데이터프레임 생성
df = pd.DataFrame({'a':[1,3,2,4,3],
                   'b':[2,1,3,4,5],
                   'c':[1,5,8,4,2]})
df

Unnamed: 0,a,b,c
0,1,2,1
1,3,1,5
2,2,3,8
3,4,4,4
4,3,5,2


In [133]:
df.columns

Index(['a', 'b', 'c'], dtype='object')

In [134]:
df.index

RangeIndex(start=0, stop=5, step=1)

#### 행인덱스 변경 : set_index(열이름)

In [135]:
# 원본은 변경x
df.set_index('a')

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,1
3,1,5
2,3,8
4,4,4
3,5,2


In [136]:
df

Unnamed: 0,a,b,c
0,1,2,1
1,3,1,5
2,2,3,8
3,4,4,4
4,3,5,2


#### 기본인덱스(정수인덱스)로 변경 : reset_index(drop=False) 

In [146]:
df.set_index('a')
df.reset_index(drop=True)
df

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,1
3,1,5
2,3,8
4,4,4
3,5,2


Unnamed: 0,a,b,c
0,1,2,1
1,3,1,5
2,2,3,8
3,4,4,4
4,3,5,2


Unnamed: 0,a,b,c
0,1,2,1
1,3,1,5
2,2,3,8
3,4,4,4
4,3,5,2


In [147]:
df_tin

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [152]:
# 원본을 바꾸려면 inplace=True
df_tin.reset_index(drop=False)
df_tin.set_index('PassengerId',inplace=True)
df_tin

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


KeyError: "None of ['PassengerId'] are in the columns"

In [156]:
df_tin.reset_index(drop=False)
df_tin.set_index('Name', inplace=True)
df_tin

Unnamed: 0,Name,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,"Braund, Mr. Owen Harris",0,3,male,22.0,1,0,A/5 21171,7.2500,,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,"Heikkinen, Miss. Laina",1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,1,female,35.0,1,0,113803,53.1000,C123,S
4,"Allen, Mr. William Henry",0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
886,"Montvila, Rev. Juozas",0,2,male,27.0,0,0,211536,13.0000,,S
887,"Graham, Miss. Margaret Edith",1,1,female,19.0,0,0,112053,30.0000,B42,S
888,"Johnston, Miss. Catherine Helen ""Carrie""",0,3,female,,1,2,W./C. 6607,23.4500,,S
889,"Behr, Mr. Karl Howell",1,1,male,26.0,0,0,111369,30.0000,C148,C


KeyError: "None of ['Name'] are in the columns"

### 2) 인덱스 이름 변경

- 행인덱스(index) 또는 열인덱스(columns)의 값 변경


- **rename(index= { }, columns={ }, ..., inplace=False,...)** 함수
    - 딕셔너리 형식으로 지정
    - 행인덱스(index) 이름 변경 : rename(index={행이름1:변경값1, 행이름1:변경값1, ...})
    - 열인덱스(columns) 이름 변경 : rename(columns={열이름1:변경값1 , 열이름2:변경값2 , ... })

#### 열인덱스 이름 변경

In [161]:
df.reset_index(drop=True,inplace=True)
df

Unnamed: 0,level_0,index,a,b,c
0,0,0,1,2,1
1,1,1,3,1,5
2,2,2,2,3,8
3,3,3,4,4,4
4,4,4,3,5,2


In [162]:
df.columns

Index(['level_0', 'index', 'a', 'b', 'c'], dtype='object')

In [167]:
df.rename(columns={'a':'A','b':'B'}, inplace=True)
df

Unnamed: 0,level_0,index,A,B,c
0,0,0,1,2,1
1,1,1,3,1,5
2,2,2,2,3,8
3,3,3,4,4,4
4,4,4,3,5,2


#### 행인덱스 이름 변경

In [168]:
df.rename(index={0:'I',1:'J'}, inplace=True)
df

Unnamed: 0,level_0,index,A,B,c
I,0,0,1,2,1
J,1,1,3,1,5
2,2,2,2,3,8
3,3,3,4,4,4
4,4,4,3,5,2


In [173]:
df.index = range(5)
del df['index']
df

Unnamed: 0,A,B,c
0,1,2,1
1,3,1,5
2,2,3,8
3,4,4,4
4,3,5,2


In [174]:
df.rename(index=str).index

Index(['0', '1', '2', '3', '4'], dtype='object')

--------------------------------------------------------

### 학습내용
1. 데이터프레임 생성
    - pd.DataFrame()
    - 2차원 리스트, 딕셔너리, 시리즈
    - csv 파일(pd.read_csv())
    - 데이터프레임을 csv 저장: pd.to_csv()


2. 데이터프레임 구조
    - 2차원 tabular 형식 (행, 열)
    - columns, index, values


3. 데이터프레임의 데이터 파악
    - info() : 데이터 변수, 결측치, 데이터 유형 등 개요
    - describe() : 수치형데이터의 요약통계량(count, mean, std, min, 25%, 50%, 75%, max)
        - all : 범주형데이터와 수치형데이터 요약통계량
        - 범주형 데이터는 top, freq, unique
    - head(), tail()
    - size, shape


4. 데이터프레임 변경
    - 컬럼 삭제, 삽입
    

5. 데이터프레임 인덱싱
    - 열 인덱싱 []
    - 행 인덱싱 [:]
    - 개별요소 인덱싱 [열][행:행]
    

6. 데이터프레임 인덱스(index) 변경
    - set_index()
    - reset_index()

----