## 데이터프레임

![](./dataframe.png)


- Pandas 라이브러리에서 기본적으로 데이터를 다루는 단위는 DataFrame : spreadsheet와 같은 개념

- 이러한 형태의 데이터는 Structured Data 또는 Panel Data 또는 Tabular Data라고 부름

- pandas를 공부한다는 것은 결국 dataframe의 사용법을 익히고 활용하는 방법을 배운다는 것과 같다

- pandas를 잘 활용하면 대부분의 structured data를 자유자재로 다룰 수 있게 됨


### 데이터 프레임
- 2차원 행렬 데이터에 인덱스를 붙인 것
- 행과 열로 만들어지는 2차원 배열 구조
- R의 데이터 프레임 에서 유래
- 데이프레임의 각 열은 시리즈로 구성되어 있음 (각 열의 데이터 타입은 동일해야 함)
- DataFrame()함수를 사용해서 생성


![data_type](./pandas_files.png)

## 데이터프레임 생성

#### 리스트로 데이터 프레임 만들기

- DataFrame([[list1],[list2]]) 
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장


In [1]:
import pandas as pd
import numpy as np

In [15]:
#### 1차원 리스트를 이용해서 df 생성 -원소가 각 행으로 매핑
df = pd.DataFrame(['a','b','c']) ## 각각 한 행으로 입력
df

Unnamed: 0,0
0,a
1,b
2,c


In [16]:
df = pd.DataFrame([['a','b','c']]) ## 동일한 행으로 입력
df

Unnamed: 0,0,1,2
0,a,b,c


In [17]:
### 2차원 리스틀ㄹ 이용해 df 생성 - 하위 리스트가 각 행으로 매핑
df = pd.DataFrame([['a','b','c'],['a','a','a']]) 
df

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,a


In [18]:
### 하위 리스트의 원소의 개수 서로 다른 경우 - NaN 값을 저장
df = pd.DataFrame([['a','b','c'],['a','a','a'],['a','a']]) 
df

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,a
2,a,a,


### 딕셔너리로 데이터 프레임 생성
- dict의 key -> column name 생성
- dict item은 데이터프레임의 column으로 정의

In [19]:
df1= pd.DataFrame({'A':[90,80,70],
                   'B':[85,98,75],
                   'C':[88,99,77],                   
                   'D':[87,89,86]},
                 index=[0,1,2])
df1

Unnamed: 0,A,B,C,D
0,90,85,88,87
1,80,98,99,89
2,70,75,77,86


In [20]:
## 데이터 플레임에서 열의 순서는 중요하지 않음
df1= pd.DataFrame({'A':[90,80,70],
                   'B':[85,98,75],
                   'C':[88,99,77],                   
                   'D':[87,89,86]})
df1

Unnamed: 0,A,B,C,D
0,90,85,88,87
1,80,98,99,89
2,70,75,77,86


In [24]:
# df의 값을 위한 dict
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2000002],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982,0.0141]
}

#열방향 인덱스(컬럼명) columns=
columns = ['지역','2015','2010','2005','2000','2010-2015 증가율']

#행방향 인덱스 index =
index=['서울','부산','인천','대구']

#pd.DataFrame(데이터, index =, columss=)
df3 = pd.DataFrame(data, index=index, columns=columns)

df3

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


### 시리즈로 데이터 플레임 생성
- pd.DataFrame(시리즈) : 시리즈를 열로 정의 - 1개의 시리즈가 전달
- 여러 개의 시리즈를 이용해서 데이터 프레임 생성 : 리스트로 묶어서 전달
    - pd.DataFrame([시리즈1, 시리즈2, ...]) : 리스트 원소 시리즈 1개가 한 행으로 정의
    - 시리즈의 인덱스 => 컬럼 명으로 생성

In [25]:
a = pd.Series([100, 200, 300], ['a', 'b', 'd'])
b = pd.Series([101, 201, 301], ['a', 'b', 'k'])
c = pd.Series([110, 210, 310], ['a', 'b', 'c'])

In [28]:
pd.DataFrame(a) #시리즈를 열로 정의 - 1개의 시리즈가 전달

Unnamed: 0,0
a,100
b,200
d,300


In [29]:
pd.DataFrame([a]) #리스트 원소 시리즈 1개가 한 행으로 정의

Unnamed: 0,a,b,d
0,100,200,300


In [27]:
pd.DataFrame([a,b]) #여러 개의 시리즈를 묶어주면 하나의 행으로 생성 를 사용할 경우 

Unnamed: 0,a,b,d,k
0,100.0,200.0,300.0,
1,101.0,201.0,,301.0


In [30]:
pd.DataFrame([a,b,c]) #np의 array에서 나온 값이라 여기서는 NaN 임 (NaN = None = 결측지)

Unnamed: 0,a,b,d,k,c
0,100.0,200.0,300.0,,
1,101.0,201.0,,301.0,
2,110.0,210.0,,,310.0


#### csv 데이터로 부터 Dataframe 생성
 - 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법
 - 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성
 - pandas.read_csv 함수 사용


In [5]:
# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
train_data = pd.read_csv('../data/train.csv') ##..의미 한단계 위 경로
train_data.shape

(891, 12)

In [6]:
train_data.head() #df의 처음 5행을 출력

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
