#### 데이터 프레임

판다스에서 데이터(테이블 형태 - DB, 엑셀, csv)를 처리하는 가장 기본이 되는 자료구조

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99FD8D385BFBECE32D">


##### 데이터프레임 생성
```python
pd.DataFrame(...)
```

In [1]:
# 판다스, 넘파이 import
import pandas as pd
import numpy as np

In [6]:
datas = {
    '이름' : ['길동이', '길순이', '유고', '애슐리'],
    '국어' : [80, 100, 10, 90],
    '영어' : [50, 100, 99, 100],
    '수학' : [90, 100, 10, 50],
    '미술' : [100, 100, 99, 30]
} # 기본데이터 생성 , 실제로는 excel, csv, db, openAPI에서 받아와서 처리할거임

df1 = pd.DataFrame(datas)
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,길동이,80,50,90,100
1,길순이,100,100,100,100
2,유고,10,99,10,99
3,애슐리,90,100,50,30


##### 특정컬럼 사용

In [9]:
# 특정 컬럼만으로 데이터프레임을 생성
df2 = pd.DataFrame(datas, columns=['이름', '영어'])
df2

Unnamed: 0,이름,영어
0,길동이,50
1,길순이,100
2,유고,99
3,애슐리,100


In [10]:
# 컬럼정보가 없으면 NaN으로 생성
df3 = pd.DataFrame(datas, columns=['이름','음악'])
df3

Unnamed: 0,이름,음악
0,길동이,
1,길순이,
2,유고,
3,애슐리,


In [14]:
[x for x in range(1, len(datas))] #확인

[1, 2, 3, 4]

In [16]:
# 인덱스 번호 추가
df4 = pd.DataFrame(data=datas, index=[x for x in range(1, len(datas))]) #기본적으로 인덱스가 0부터 시작하니깐 내가 1부터 시작하게 바꿨음
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99
4,애슐리,90,100,50,30


##### 데이터 프레임내의 데이터 조회

In [20]:
type(df4['이름'])

pandas.core.series.Series

In [23]:
type(df4[['이름', '국어']])

pandas.core.frame.DataFrame

In [26]:
# 레코드(row)형태로 데이터 가지고 온 것 (df4['국어']와 정반대)
df4.loc[1]

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [28]:
type(df4.loc[1])

pandas.core.series.Series

In [45]:
# 다중 인덱스
df4.loc[[1, 2, 3]] # 리스트 슬라이싱

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99


In [46]:
# 인덱스 슬라이싱
df4[0:3] # df4.loc[[1, 2, 3]] 와 같음 # 인덱스 슬라이싱 == 리스트 슬라이싱

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99


In [33]:
# 시스템 기본 인덱스값으로 인덱싱
df4.iloc[0]

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [35]:
# loc(), iloc() 차이를 보려면
df5 = pd.DataFrame(data=datas, index=['A', 'B', 'C', 'D'])
df5

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100
C,유고,10,99,10,99
D,애슐리,90,100,50,30


In [37]:
df5.loc['A'] # 이렇게 우리가 추가한 인덱스로 찾아도 되고

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: A, dtype: object

In [38]:
df5.iloc[0] # 시스템에 기본 데이터프레임 인덱스로 찾아도 됨

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: A, dtype: object

In [48]:
# 인덱스 슬라이싱
df4[0:3] # df4.loc[[1, 2, 3]] 와 같음 # 인덱스 슬라이싱 == 리스트 슬라이싱

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99


##### 특정 데이터 상세 조회

In [50]:
df5.loc['A',['미술']]

미술    100
Name: A, dtype: object

In [52]:
# 최종 시리즈 확인
df4.iloc[1,[3]]

수학    100
Name: 2, dtype: object

In [55]:
# 최종 데이터 확인
df4.iloc[1, 3]

100

In [56]:
# df4.iloc[1, 3] => numpy.ing64 != int
type(int(df4.iloc[1, 3]))

int

##### 조건식 조회

In [58]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100
C,유고,10,99,10,99
D,애슐리,90,100,50,30


In [64]:
# 미술점수가 99점 초과한 학생
df5['미술'] >= 99

A     True
B     True
C     True
D    False
Name: 미술, dtype: bool

In [66]:
df5[df5['미술'] > 99]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100


In [67]:
df5[df5['국어'] < 50]

Unnamed: 0,이름,국어,영어,수학,미술
C,유고,10,99,10,99
