In [1]:
import numpy as np
import pandas as pd

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [4]:
import warnings
warnings.filterwarnings(action='ignore')

# pandas의 데이터 구조#2. DataFrame

#### 학습내용
1. 데이터 프레임 생성
2. 데이터 프레임 구조
3. 데이터 프레임의 데이터 파악
4. 데이터 프레임 변경
5. 데이터 프레임 인덱싱
6. 데이터 프레임 인덱스 변경

--------------------

## DataFrame

- Pandas에서 주로 다루는 단위
- spreadsheet와 같은 개념
- Structured Data, Panel Data 또는 Tabular Data라고 부름
- pandas를 공부한다는 것 == dataframe의 사용법과 활용법을 배운다
- pandas를 잘 활용하면 대부분의 structured data를 자유자재로 다룰 수 있게 됨

### 데이터 프레임 특징
- 행과 열로 만들어지는 2차원 배열 구조
- 2차원 행렬 데이터에 인덱스를 붙인 것
- R의 데이터프레임에서 유래
- 데이프레임의 각 열은 시리즈로 구성되어 있음

## 1. 데이터 프레임 생성

**DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)함수 사용**

- data : array-like, Iterable, dict, or scalar value
- index : index or array-like
- columns : index or array-like
- dtype : dtype

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

### 1) 리스트로 데이터 프레임 만들기

- DataFrame([[list1],[list2]]) 
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장

In [7]:
df1 = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [8]:
df1.shape

(3, 3)

**자동으로 생성된 index와 column을 갖는 DataFrame 데이터**

### 2) 딕셔너리로 데이터프레임 생성

**dict의 key → column**

In [11]:
data = {
    '2015': [9904312, 3448737, 2890451, 2466052],
    '2016': [9631482, 3393191, 2632035, 2000002],
    '2017': [9762546, 3512547, 2517680, 2456016],
    '2018': [9912345, 1513057, 2648043, 2504991]
}

data

{'2015': [9904312, 3448737, 2890451, 2466052],
 '2016': [9631482, 3393191, 2632035, 2000002],
 '2017': [9762546, 3512547, 2517680, 2456016],
 '2018': [9912345, 1513057, 2648043, 2504991]}

In [13]:
df2 = pd.DataFrame(data)
df2

Unnamed: 0,2015,2016,2017,2018
0,9904312,9631482,9762546,9912345
1,3448737,3393191,3512547,1513057
2,2890451,2632035,2517680,2648043
3,2466052,2000002,2456016,2504991


In [17]:
df2.columns

Index(['2015', '2016', '2017', '2018'], dtype='object')

In [15]:
df2.index

RangeIndex(start=0, stop=4, step=1)

### 3) 시리즈로 데이터 프레임 생성

**각 Series의 인덱스 → column**

In [24]:
s1 = pd.Series([100,101,102], index='a b c'.split())
s2 = pd.Series([200,201,202], index='a b k'.split())
s3 = pd.Series([300,301,302], index='a b d'.split())
pd.DataFrame([s1,s2,s3])

Unnamed: 0,a,b,c,k,d
0,100.0,101.0,102.0,,
1,200.0,201.0,,202.0,
2,300.0,301.0,,,302.0


In [25]:
pd.DataFrame([s1,s2,s3], index=[10,11,12])

Unnamed: 0,a,b,c,k,d
10,100.0,101.0,102.0,,
11,200.0,201.0,,202.0,
12,300.0,301.0,,,302.0


### 4) csv 데이터로 부터 Dataframe 생성

- 데이터 분석을 위해 dataframe을 생성하는 가장 일반적인 방법
- 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성
- **pandas.read_csv()** 함수 사용

#### read_csv() 함수 파라미터
 - sep : 각 데이터 값을 구별하기 위한 구분자(separator) 설정 
 - header : header를 무시할 경우, None 설정
 - index_col : index로 사용할 column 설정
 - usecols : 실제로 dataframe에 로딩할 columns만 설정
 
 https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [26]:
df_tin = pd.read_csv('data/train.csv')

In [27]:
df_tin.head(4)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


In [28]:
df_tin.index

RangeIndex(start=0, stop=891, step=1)

In [29]:
df_tin.shape

(891, 12)

In [30]:
df_tin.size

10692

In [31]:
type(df_tin)

pandas.core.frame.DataFrame

#### csv 파일의 일부 컬럼만 가지도록 데이터프레임을 다시 생성

#### 데이터프레임을 csv파일로 저장 : 
- https://pandas.pydata.org 의 API reference에서 함수 찾아보기

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

In [None]:
df4 = pd.DataFrame({'name': ['Raphael', 'Donatello'],
                   'mask': ['red', 'purple'],
                   'weapon': ['sai', 'bo staff']})
df4

## 2. 데이터프레임의 구조

### 1) 행/열 방향 인덱스

**인덱스(index)**
 - index 속성
 - 각 아이템을 특정할 수 있는 고유의 값을 저장
 - 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능
 
 
**컬럼(columns)**
 - columns 속성
 - 각각의 특성(feature)을 나타냄
 - 복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능

### 2) 행/열 인덱스 출력

### 3) 행/열 인덱스 이름 설정

- index.name 
- columns.name

### 4) 데이터프레임의 값 접근

**values 속성**

-------------------------------

## 3. 데이터프레임의 데이터 파악하기
 - shape 속성 (row, column)
 - describe() 함수 : 숫자형 데이터의 통계치 계산
 - info() 함수 : 데이터 타입, 각 아이템의 개수 등 출력

### shape : 데이터프레임의 행,렬 개수 출력

### info() : 데이터프레임 개요

- 컬럼별 요약 : 데이터 개수(결측치제외한 데이터), 데이터유형(dtype)

### describe(): 수치형 데이터의 기술통계 출력

##### 참고. 데이터 유형
- 수치형 데이터 : 평균, 분산, 최소값, 최대값, 중위수, 사분위수
  - 예. 타이타닉 데이터의 경우 age, SibSp
- 범주형 데이터 : 빈도, 비율
  - 예. 타이타닉 데이터의 경우 : sex, pclass
  

- PassengerID : 범주형 (명목형)
- Pclass : 범주형 (순서형)
- Sex : 범주형 (명목형)
- Age : 수치형 (비율형) => 사칙연산

-------------------------------------

## 4. 데이터프레임 변경

### 1) 데이터프레임 전치(transpose)

- pandas의 데이터 프레임은 전치를 포함해서 Numpy 2차원 배열의 대부분 속성이나 메서드를 지원.

- 전치 : 행과 열을 바꾸는 기능

### 2) 열(column) 추가

#### 해당열이 있으면 내용 갱신, 열이 없으면 추가

- 열추가 : df[열이름(key)]=values
- 열 내용 갱신 : df[열이름(key)]=values

### 3) 열(column) 삭제

**del df[삭제열]**

-------------------------------

## 5. 데이터 프레임 인덱싱

- 열단위 인덱싱  `[ ]`
- 인덱서(loc, iloc)를 사용하지 않는 행단위 인덱싱  `[ : ]`
- 개별 요소 접근 `[열][행]`

### 1) 열단위 인덱싱

- 열 라벨(컬럼명)을 키값으로 생각하고 인덱싱
- `[ ]`기호 또는 `df.열이름`을 이용
    - [ ]는 열 위주 인덱싱이 원칙
- 인덱스로 라벨값을 하나 넣으면 시리즈 객체가 반환
- 라벨의 배열이나 리스트를 넣으면 부분적 df 가 반환

In [None]:
data = {
    '2015': [9904312, 3448737, 2890451, 2466052],
    '2016': [9631482, 3393191, 2632035, 2000002],
    '2017': [9762546, 3512547, 2517680, 2456016],
    '2018': [9912345, 1513057, 2648043, 2504991]
}
df = pd.DataFrame(data, index=['서울','부산','인천','대구'])
df.columns.name = '연도'
df.index.name = '도시'
df

#### 열이름(컬럼명)이 문자열인 경우 위치인덱스 사용 불가
- 수치 인덱스를 사용할 수 없음
- keyerror 발생

#### 추출한 열을 데이터프레임으로 받기

- 리스트로 인덱싱

#### 리스트를 사용하여 여러 개 열 추출

#### 열이름이 수치인 경우(위치인덱스)

### 2) 행 단위 인덱싱

- **슬라이싱(slicing)** 사용
    - 열단위 인덱싱과 구분하기 위해
    - 인덱스 값이 문자(label)인 경우 문자 슬라이싱
- 인덱서(loc, iloc) 사용

#### 한개의 행 추출

#### 여러 행 추출

### 3) 개별요소 접근 [열][행]

### 인덱싱 정리
- 데이터프레임은 열기준으로 접근 원칙 : [열이름]
- 행기준 접근을 위해서는 슬라이싱을 적용 : [행이름:행이름]
- 행과열을 같이 적용(개별요소) : [열이름][행이름]

- **데이터프레임의 기본 행인덱싱은 슬라이싱방식을 사용하므로 연속된 위치만 접근 가능한 한계점이 있음**
- 이 단점을 보완한 인덱서 : loc[], iloc[]

--------------------------

## 6. 인덱스 변경

### 1) 행인덱스 변경

- 기본인덱스 : 행인덱스를 명시적으로 지정하지 않는 경우 0부터 1씩 증가하는 정수 인덱스 지정됨
    
    
- **set_index(keys, drop=True, append=False, inplace=False, ...,)**
    - 기존의 행인덱스를 제거하고 지정한 열로 인덱스 변경


- **reset_index(level=None, drop=False, inplace=False, ...)**
    - 기존의 행인덱스를 제거하고 기본인덱스로 변경

In [None]:
# 행인덱스를 명시적으로 지정하지 않은 데이터프레임 생성


#### 행인덱스 변경 : set_index(열이름)

#### 기본인덱스(정수인덱스)로 변경 : reset_index(drop=False) 

### 2) 인덱스 이름 변경

- 행인덱스(index) 또는 열인덱스(columns)의 값 변경


- **rename(index= { }, columns={ }, ..., inplace=False,...)** 함수
    - 딕셔너리 형식으로 지정
    - 행인덱스(index) 이름 변경 : rename(index={행이름1:변경값1, 행이름1:변경값1, ...})
    - 열인덱스(columns) 이름 변경 : rename(columns={열이름1:변경값1 , 열이름2:변경값2 , ... })

#### 열인덱스 이름 변경

#### 행인덱스 이름 변경

--------------------------------------------------------

### 학습내용
1. 데이터프레임 생성
    - pd.DataFrame()
    - 2차원 리스트, 딕셔너리, 시리즈
    - csv 파일(pd.read_csv())
    - 데이터프레임을 csv 저장: pd.to_csv()


2. 데이터프레임 구조
    - 2차원 tabular 형식 (행, 열)
    - columns, index, values


3. 데이터프레임의 데이터 파악
    - info() : 데이터 변수, 결측치, 데이터 유형 등 개요
    - describe() : 수치형데이터의 요약통계량(count, mean, std, min, 25%, 50%, 75%, max)
        - all : 범주형데이터와 수치형데이터 요약통계량
        - 범주형 데이터는 top, freq, unique
    - head(), tail()
    - size, shape


4. 데이터프레임 변경
    - 컬럼 삭제, 삽입
    

5. 데이터프레임 인덱싱
    - 열 인덱싱 []
    - 행 인덱싱 [:]
    - 개별요소 인덱싱 [열][행:행]
    

6. 데이터프레임 인덱스(index) 변경
    - set_index()
    - reset_index()

----