# 7-2.Pandas_DataFrame

    DataFrame은 표 같은 스프레드시트 형식의 자료구조로 여러개의 행과 열로 구성돼 있다.
    각 행과 열에는 서로 다른 데이터구조(숫자,문자열,불리언 등)을 담을 수 있다.
    DataFrame의 각 행과 열은 Series로 구성돼 있다.
    자세한사항은 다큐멘테이션 참조!!
    https://pandas.pydata.org/pandas-docs/stable/
    
    1. DataFrame 생성
    2. DataFrame 인덱싱
    3. DataFrame 삭제

In [None]:
from IPython.display import display

## 1. DataFrame 생성

In [1]:
import pandas as pd

# 1. 여러개의 리스트로 DataFrame(df) 구성
name = ['김씨', '이씨', '박씨']
age = [17,26,45]
sex = ["남","여","남"]
height = [170, 160, 180]

df = pd.DataFrame({'name':name, 'age':age,         
                      'sex':sex, 'height' : height},
                      columns = ['name','age','sex','height'])
display(df)

Unnamed: 0,name,age,sex,height
0,김씨,17,남,170
1,이씨,26,여,160
2,박씨,45,남,180


In [3]:
# 2. 딕셔너리를 이용하여 df 구성
dic = {'name':name, 'age':age, 'sex':sex, 'height' : height}
df2 = pd.DataFrame(dic, index = ['a', 'b', 'c'],
                      columns = ['name','age','sex','height'])
display(df2)

Unnamed: 0,name,age,sex,height
a,김씨,17,남,170
b,이씨,26,여,160
c,박씨,45,남,180


In [4]:
# 3. Series를 이용하여 df 구성추가 
weight = pd.Series([70, 60, 45] , index = ['a', 'b', 'c'] ) 
df2['weight'] = weight
display(df2)

Unnamed: 0,name,age,sex,height,weight
a,김씨,17,남,170,70
b,이씨,26,여,160,60
c,박씨,45,남,180,45


In [5]:
# 4. numpy 객체를 이용하여 df 구성
import numpy as np

df3 = pd.DataFrame(np.arange(12).reshape( (3,4) ),
                      columns = ['a','b','c','d'])
display(df3)

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


## 2. DataFrame 인덱싱

In [6]:
import pandas as pd
import numpy as np

df3 = pd.DataFrame(np.arange(12).reshape( (3,4) ),
                      columns = ['a','b','c','d'], index = ['A', 'B', 'C'])
display(df3)

Unnamed: 0,a,b,c,d
A,0,1,2,3
B,4,5,6,7
C,8,9,10,11


In [7]:
# 1. 칼럼(열) 색인
display(df3.b)  
display(df3['b'])  
display(df3['b'][2])

A    1
B    5
C    9
Name: b, dtype: int32

A    1
B    5
C    9
Name: b, dtype: int32

9

In [8]:
# 2. 조건식(불리언 식) 검색
result = df3[df3 > 10]
display(result) # 10이하 NaN 처리 

Unnamed: 0,a,b,c,d
A,,,,
B,,,,
C,,,,11.0


In [9]:
# 3. DF 행렬 검색 
# .iloc : integer positon를 통해 값을 찾을 수 있다. label로는 찾을 수 없다
# .loc : label 을 통해 값을 찾을 수 있다. integer position로는 찾을 수 없다.

# 1-1) iloc 속성 이용 : 단일행,열 참조 
display(df3.iloc[1]) # ix[행 번호]
display(df3.iloc[1,2]) # ix[행 번호, 열 번호] 


a    4
b    5
c    6
d    7
Name: B, dtype: int32

6

In [10]:
# 1-2)iloc 속성 이용 : 복수 행과열 참조 
display(df3.iloc[ [0,1], [1,2] ]) # [[행], [열]]

Unnamed: 0,b,c
A,1,2
B,5,6


In [11]:
# 2-1) loc 속성 이용 : 단일행, 열 참조
display(df3.loc['C'])
display(df3.loc['C','a'])

a     8
b     9
c    10
d    11
Name: C, dtype: int32

8

In [12]:
# 2-2)loc 속성 이용 : 복수 행과열 참조 
display(df3.loc[ ['C','A'], ['a','b'] ]) # [[행], [열]]

Unnamed: 0,a,b
C,8,9
A,0,1


In [13]:
# 3) 칼럼으로 참조
display(df3['a']) # a칼럼 : 단일칼럼 
col_name = ['a', 'c']
display(df3[col_name]) # [[a, c]] 칼럼 : 복수칼럼 

A    0
B    4
C    8
Name: a, dtype: int32

Unnamed: 0,a,c
A,0,2
B,4,6
C,8,10


In [14]:
# 4) 데이터 프레임의 컬럼이름 알아보기
display(df3.columns)

Index(['a', 'b', 'c', 'd'], dtype='object')

## 3. DataFrame 삭제

In [15]:
df4 = df3.drop('A', axis = 0 ) # axis = 0 : A행 삭제 
display(df4)

Unnamed: 0,a,b,c,d
B,4,5,6,7
C,8,9,10,11


In [16]:
df5 = df3.drop('c', axis = 1) # axis = 1 : 열기준   , 'c'열 삭제
display(df5)

Unnamed: 0,a,b,d
A,0,1,3
B,4,5,7
C,8,9,11
