#### 데이터 프레임

pandas에서 데이터(테이블 형태 - DB, 엑셀, csv 등)를 처리하는 가장 기본이 되는 자료구조

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99FD8D385BFBECE32D" width="500">

##### 데이터 프레임 생성
pd.DataFrame(...)

In [2]:
import pandas as pd
import numpy as np

In [4]:
datas = {
    '이름' : ['길동이', '길순이', '유고', '애슐리'],
    '국어' : [80, 100, 10, 90],
    '영어' : [80, 100, 99, 100],
    '수학' : [90, 100, 10, 50],
    '미술' : [100, 100, 99, 30]
}

df1 = pd.DataFrame(data=datas)
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,길동이,80,80,90,100
1,길순이,100,100,100,100
2,유고,10,99,10,99
3,애슐리,90,100,50,30


#### 특정 컬럼 사용

In [6]:
# 특정 컬럼만으로 데이터프레임을 생성
df2 = pd.DataFrame(datas, columns=['이름', '영어'])
df2

Unnamed: 0,이름,영어
0,길동이,80
1,길순이,100
2,유고,99
3,애슐리,100


In [9]:
# 데이터가 없는 컬럼은 그 값들을 결측치(NaN)로 생성
df3 = pd.DataFrame(datas, columns=['이름', '음악'])
df3

Unnamed: 0,이름,음악
0,길동이,
1,길순이,
2,유고,
3,애슐리,


In [13]:
[x for x in range(1, len(datas))]

[1, 2, 3, 4]

In [14]:
df4 = pd.DataFrame(data=datas, index=[x for x in range(1, len(datas))])
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,80,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99
4,애슐리,90,100,50,30


#### 데이터 프레임 내의 데이터 조회

In [15]:
df4['이름']

1    길동이
2    길순이
3     유고
4    애슐리
Name: 이름, dtype: object

In [16]:
# 단일 컬럼 : Series
type(df4['이름'])

pandas.core.series.Series

In [17]:
df4[['이름', '국어']]

Unnamed: 0,이름,국어
1,길동이,80
2,길순이,100
3,유고,10
4,애슐리,90


In [18]:
# 다중 컬럼 : DataFrame
type(df4[['이름', '국어']])

pandas.core.frame.DataFrame

In [20]:
# 데이터를 가로로 조회
df4.loc[1] # 인덱스 1번 조회

이름    길동이
국어     80
영어     80
수학     90
미술    100
Name: 1, dtype: object

In [21]:
# loc로 조회 : Series
type(df4.loc[1])

pandas.core.series.Series

In [22]:
# 다중 인덱스
df4.loc[[1, 3]] # 인덱스 1번, 3번 조회

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,80,90,100
3,유고,10,99,10,99


In [23]:
# 시스템 기본 인덱스값으로 인덱싱
df4.iloc[0]

이름    길동이
국어     80
영어     80
수학     90
미술    100
Name: 1, dtype: object

In [24]:
# loc(), iloc() 차이
df5 = pd.DataFrame(data=datas, index=['A', 'B', 'C', 'D'])
df5

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,80,90,100
B,길순이,100,100,100,100
C,유고,10,99,10,99
D,애슐리,90,100,50,30


In [25]:
df5.loc['A']

이름    길동이
국어     80
영어     80
수학     90
미술    100
Name: A, dtype: object

In [26]:
df5.iloc[0]

이름    길동이
국어     80
영어     80
수학     90
미술    100
Name: A, dtype: object

In [27]:
# 인덱스 슬라이싱 == 리스트 슬라이싱
df4[0:3]

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,80,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99


#### 특정 데이터 상세 조회

In [28]:
df5.loc['A', ['미술']]

미술    100
Name: A, dtype: object

In [29]:
df4.iloc[1, [3]]

수학    100
Name: 2, dtype: object

In [31]:
type(df4.iloc[1, 3])

numpy.int64

In [33]:
# df4.iloc[1, 3] => numpy.int64
type(int(df4.iloc[1, 3]))

int

#### 조건식 조회

In [34]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,80,90,100
B,길순이,100,100,100,100
C,유고,10,99,10,99
D,애슐리,90,100,50,30


In [36]:
df5['미술'] > 99

A     True
B     True
C    False
D    False
Name: 미술, dtype: bool

In [37]:
df5[df5['미술'] > 99]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,80,90,100
B,길순이,100,100,100,100
