### DataFrame
- Series가 모여서 행과 열(또는 2차원) 형태를 이룬 Data
- index도 row, column 각각 존재

In [1]:
import numpy as np
import pandas as pd

#### 생성
- Series
- dictionary

```
dictionary -> Series -> DataFrame
dictionary ----------> DataFrame
- dictionary로 Series를 만들 수 있고 여러 개의 Series로 DataFrame를 만듬
- dictionary에서 바로 DataFrame를 만들 수 있음
```

- Series

In [2]:
# Series
s1 = pd.Series([1, 2, 3], ['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], ['a', 'b', 'd'])
s3 = pd.Series([7, 8, 9], ['a', 'b', 'e'])

print(s1)
print(' ')
print(s2)
print(' ')
print(s3)

a    1
b    2
c    3
dtype: int64
 
a    4
b    5
d    6
dtype: int64
 
a    7
b    8
e    9
dtype: int64


In [3]:
# index 없이 만들기 => 0을 시작으로 하는 index가 자동 생성
df = pd.DataFrame([s1, s2, s3])
df

Unnamed: 0,a,b,c,d,e
0,1.0,2.0,3.0,,
1,4.0,5.0,,6.0,
2,7.0,8.0,,,9.0


In [4]:
# index 지정
df = pd.DataFrame([s1, s2, s3], index=['가', '나', '다'])
df

Unnamed: 0,a,b,c,d,e
가,1.0,2.0,3.0,,
나,4.0,5.0,,6.0,
다,7.0,8.0,,,9.0


- Dictionary

In [5]:
dic = {
    'a': [1, 2, 3],
    'b': [4, 5, 6],
    'c': [7, 8, 9],
} 
dic

{'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]}

In [6]:
# index 없이 만들기 => 0을 시작으로 하는 index가 자동 생성
df = pd.DataFrame(dic)
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [7]:
# index 지정
df = pd.DataFrame(dic, index = ['가', '나', '다'])
df

Unnamed: 0,a,b,c
가,1,4,7
나,2,5,8
다,3,6,9


#### DataFrame : index, columns, values

In [8]:
df = pd.DataFrame(
    {
    '철수' : [90, 85, 73],
    '영희' : [95, 90, 97], 
    '길동' : [80, 85, 90] 
    },
    index=['국어', '영어', '수학']
)
df

Unnamed: 0,철수,영희,길동
국어,90,95,80
영어,85,90,85
수학,73,97,90


In [9]:
# index
df.index

Index(['국어', '영어', '수학'], dtype='object')

In [10]:
# columns
df.columns

Index(['철수', '영희', '길동'], dtype='object')

In [11]:
# values
df.values

array([[90, 95, 80],
       [85, 90, 85],
       [73, 97, 90]], dtype=int64)

In [12]:
# index.name -> index의 명
df.index.name

In [13]:
df.index.name = '과목'
df

Unnamed: 0_level_0,철수,영희,길동
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국어,90,95,80
영어,85,90,85
수학,73,97,90


In [14]:
df.index.name

'과목'

#### index
- set_index : values의 columns을 index로 설정
- reset_index : 설정된 index를 values의 column으로 설정

In [15]:
df = df.reset_index()
df

Unnamed: 0,과목,철수,영희,길동
0,국어,90,95,80
1,영어,85,90,85
2,수학,73,97,90


In [16]:
df = df.set_index("과목")
df

Unnamed: 0_level_0,철수,영희,길동
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국어,90,95,80
영어,85,90,85
수학,73,97,90


In [17]:
df.reset_index(inplace = True)
df

Unnamed: 0,과목,철수,영희,길동
0,국어,90,95,80
1,영어,85,90,85
2,수학,73,97,90


In [18]:
df.set_index("과목", inplace = True)
df

Unnamed: 0_level_0,철수,영희,길동
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국어,90,95,80
영어,85,90,85
수학,73,97,90


- 컬럼명 변경

In [19]:
df.columns = ['홍길동', '김길동', '이길동']
df

Unnamed: 0_level_0,홍길동,김길동,이길동
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
국어,90,95,80
영어,85,90,85
수학,73,97,90


- 속성

In [20]:
df.shape

(3, 3)

In [21]:
df.size

9

In [22]:
df.ndim

2

In [23]:
df.values

array([[90, 95, 80],
       [85, 90, 85],
       [73, 97, 90]], dtype=int64)