# 데이터 프레임(DataFrame)
- 2차원 데이터 구조 (like Excel 시트)
- 행(row), 열(column) 으로 구성되어 있다

In [2]:
import numpy as np
import pandas as pd


### 생성
- 리스트를 통해 생성 가능

In [None]:
# 가장 바깥의 ,로 나눠진 것이 1행부터 채워서 들어감감
pd.DataFrame([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9]])



Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [4]:
# 열 지정 가능
# pd.DataFrame([2차원 배열], columns = [열 이름])
pd.DataFrame([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9]], columns=['가', '나', '다'])


Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# 사전으로도 생성 가능, key값 => column 명으로 지정됨
data = {
    'name': ['Kim', 'Lee', 'Park'], 
    'age': [24, 27, 34], 
    'children': [2, 1, 3]
}
pd.DataFrame(data)

# 리스트는 행 중심으로 1행부터 채워지고, 사전은 열 중심으로 1열부터 채워진다.
# 이게 채워지는 방식이 달라 헷갈린다.
# 판다스는 key를 열 이름으로 인식하기로 약속해서 그렇단다.


Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


### 속성(attribute)
- index
- colums
- values
- dtypes
- T

In [7]:
data = {
    'name': ['Kim', 'Lee', 'Park'], 
    'age': [24, 27, 34], 
    'children': [2, 1, 3]
}

df = pd.DataFrame(data)
df


Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [8]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [9]:
df.columns

Index(['name', 'age', 'children'], dtype='object')

In [None]:
# 행을 기준으로 출력함함
df.values

array([['Kim', 24, 2],
       ['Lee', 27, 1],
       ['Park', 34, 3]], dtype=object)

In [12]:
df.dtypes


name        object
age          int64
children     int64
dtype: object

In [None]:
# 행과 열을 위치를 바꿔버림림
df.T

Unnamed: 0,0,1,2
name,Kim,Lee,Park
age,24,27,34
children,2,1,3


In [14]:
df

Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [16]:
# index 지정하기
df.index = list('abc')
df

Unnamed: 0,name,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


### column 다루기

In [17]:
# 1개 열 가져오기
df['name']

a     Kim
b     Lee
c    Park
Name: name, dtype: object

In [None]:
# 2개 이상의 열 가져오기 <= fancy indexing 이용
# df [ [리스트] ]
df[['name','children']]

Unnamed: 0,name,children
a,Kim,2
b,Lee,1
c,Park,3


In [19]:
# rename으로 column 명 변경 가능.
# 인덱스는 그냥 index = []로
# 데이터프레임.rename( columns = {원래이름 : 새 이름}) <= 열 이름은 key값 같은거니까 사전 형식으로??
df.rename(columns={'name' : '이름'})

Unnamed: 0,이름,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


In [20]:
# 만약 아예 변경해버리고 싶으면 inplace = True로
df.rename(columns={'name':'이름'},inplace=True)
df

Unnamed: 0,이름,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


# 총정리
- 리스트나 사전으로 DataFrame생성
    - df=pd.DataFrame(리스트,사전)
        - 리스트는 행 우선 중심으로 채워짐
        - 사전은 key값이 열이름이 되기 때문에 열 우선 중심으로 채워짐
- 속성
    - 인덱스 확인 : df.index
    - 열 확인 : df.colums
    - 값들 확인 : df.values (행으로 묶어서 출력됨)
    - 전치 : df.T
    - 인덱스 지정 : df.index = []
    - 열 다루기
        + 1개 열 가져오기 : df['열이름']
        + 2개 이상 열 가져오기 : df[[리스트]]
        + 열 이름 바꾸기 : df.rename( columns = {원래이름 : 새 이름} )