# DataFrame 생성

- 2차원 배열과 유사한 자료형
- 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능
- 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사
- 하나의 컬럼은 하나의 Series로서 하나의 Dataframe은 여러 개의 Series 묶음으로 구성됨
- index 특징
    - row index(행 인덱스) : 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명(라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음
    - column index(열 인덱스) : 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음

<img src="img/df_example.png" width="500" align="center">

In [8]:
import pandas as pd
import numpy as np

In [3]:
data = [[1,2,3,4],
        ['a','b'],
        [0.1,0.2,0.5,0.3]]

In [5]:
# 데이터 크기가 다르면 부족한 곳은 NaN이 들어감
df = pd.DataFrame(data)
df 

Unnamed: 0,0,1,2,3
0,1,2,3.0,4.0
1,a,b,,
2,0.1,0.2,0.5,0.3


In [6]:
# 딕셔너리 자료형을 데이터프레임 데이터로 사용
# 아이템 개수 3개, value 길이는 다르게
# 개수가 모자란 튜플(셀):ValueError -> key별 매칭 value의 길이가 모두 동일해야함
data4 = {'a':[10],
        'b':[1, 2, 3, 4],
        'c':[5, 6, 7]}
df4 = pd.DataFrame(data4)

ValueError: All arrays must be of the same length

In [10]:
data4 = {'a':[10, np.nan, np.nan, np.nan],
        'b':[1, 2, 3, 4],
        'c':[5, 6, 7, np.nan]}
df4 = pd.DataFrame(data4)
df4

Unnamed: 0,a,b,c
0,10.0,1,5.0
1,,2,6.0
2,,3,7.0
3,,4,


In [11]:
df4.dropna()

Unnamed: 0,a,b,c
0,10.0,1,5.0


In [12]:
df4

Unnamed: 0,a,b,c
0,10.0,1,5.0
1,,2,6.0
2,,3,7.0
3,,4,


## DataFrame 속성

- 속성은 소괄호를 붙이지 않음
- index : df 객체의 행 인덱스 배열을 반환
- columns : df 객체의 열 인덱스 배열을 반환
- axes : df 객체의 행, 열 인덱스를 아이템으로 가지는 배열을 반환
- values : df 객체의 데이터(값)를 아이템으로 가지는 2차원 배열을 반환
- dtypes : df 객체의 데이터 타입을 열 기준으로 반환
- size : df 객체의 데이터 개수(길이)를 반환
- shape : df 객체의 구조(행, 열, 차원)를 반환
- T : 행과 열을 전환시킴

In [13]:
# 행 인덱스 이름 지정
df4.index.name = 'year'
df4

Unnamed: 0_level_0,a,b,c
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,10.0,1,5.0
1,,2,6.0
2,,3,7.0
3,,4,


In [21]:
data = np.random.randint(1,1000, 100)

In [23]:
s = pd.Series(data)
s.value_counts(bins=10, sort=False)

(6.008, 106.1]    10
(106.1, 205.2]    10
(205.2, 304.3]     6
(304.3, 403.4]    13
(403.4, 502.5]     6
(502.5, 601.6]     9
(601.6, 700.7]    12
(700.7, 799.8]    10
(799.8, 898.9]    10
(898.9, 998.0]    14
dtype: int64

In [25]:
s.value_counts(bins=list(range(0, 1001, 100)), sort=False)

(-0.001, 100.0]    10
(100.0, 200.0]     10
(200.0, 300.0]      6
(300.0, 400.0]     13
(400.0, 500.0]      5
(500.0, 600.0]     10
(600.0, 700.0]     12
(700.0, 800.0]     10
(800.0, 900.0]     12
(900.0, 1000.0]    12
dtype: int64

## 연습문제

아래와 같은 데이터프레임을 생성하고 출력화면과 동일한 결과를 생성하세요.

<img src="img/df_practice1.png" width="250" align="left">

In [31]:
data = {'A': [0, 'big', 2.70, True],
        'B': [3, 'data', -5.00, True],
        'C': ['ks01', 'is', 2.12, False],
        'D': [2, 'very', 8.31, False],
        'E': [5, 'good', -1.34, True],}
columns = ['Col1', 'Col2','Col3','Col4']

df = pd.DataFrame(data)
df = df.T
df.columns = columns
df

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


In [32]:
df.loc[:, ['Col1', 'Col3']]

Unnamed: 0,Col1,Col3
A,0,2.7
B,3,-5.0
C,ks01,2.12
D,2,8.31
E,5,-1.34


In [33]:
df.loc[['A','C','D']]

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
C,ks01,is,2.12,False
D,2,very,8.31,False


In [34]:
df.loc[['B','D'], ['Col1','Col2']]

Unnamed: 0,Col1,Col2
B,3,data
D,2,very


In [35]:
df.loc['B':'D']

Unnamed: 0,Col1,Col2,Col3,Col4
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False


## 컬럼, 로우 추가

- 컬럼 추가 / 변경
    - 컬럼 인덱싱 = 스칼라 값
    - 컬럼 인덱싱 = 배열, 리스트(로우 개수와 아이템 개수 일치)
    - 컬럼 인덱싱 = 컬럼 간의 연산
    - 컬럼 인덱싱 = series
- 로우 추가
    - 로우 인덱싱 = 스칼라 값
    - 로우 인덱싱 = 로우 간의 연산
- 데이터 분석에서 컬럼과 로우의 의미
    - 컬럼 : 변수(특성)
    - 로우 : 개별 데이터(레코드)
    - 전체 데이터를 구성하는 변수를 추가/삭제하는 일은 빈번하게 발생하지만 특정 인덱스를 기준으로 전체 로우 데이터를 추가/삭제하는 일은 자주 발생하지 않으며 데이터 처리를 하는 과정에서 권장하지 않는 작업