# 2. Pandas 주요 데이터 타입
## 2.2 DataFrame (데이터프레임)
<img src="img/dataframe구조.jpg" alt="datetime" style="width: 1200px;"/>

In [1]:
# Pandas 라이브러리 임포트
import pandas as pd 
from pandas import Series, DataFrame

### 2.2.1 데이터프레임 생성
### 생성자 인자
#### 1) data : dataFrame에 저장할 데이터 (numpy ndarray, dict, DataFrame 등 여러 형태 가능)
#### 2) index : 행(row) 이름, 기본값 = 0부터 1씩 증가하는 정수
#### 3) columns : 열(column) 이름, 기본값 = 0부터 1씩 증가하는 정수
#### 4) dtype : 데이터 형태(type), 만약 지정하지 않으면 파이썬이 자동으로 값의 형태를 보고 결정
#### 5) copy : 입력 데이터를 복사할지 지정. 디폴트는 False 임. (복사할 거 아니면 메모리 관리 차원에서 디폴트인 False 설정 사용하면 됨)

In [4]:
# 1. 2차원 데이터 생성
df1 = DataFrame([
                                [1,2,3],
                                ['kim','park','lee'],
                                [1.5, 3.2, 9.1]
                           ], index = ['a','b','c'],columns = ['d','e','f'])
df1

Unnamed: 0,d,e,f
a,1,2,3
b,kim,park,lee
c,1.5,3.2,9.1


In [5]:
# 2. 로우 인덱스와 컬럼 인덱스 설정
df1.index = ['A','B','C']
df1.columns = ['X','Y','Z']
df1

Unnamed: 0,X,Y,Z
A,1,2,3
B,kim,park,lee
C,1.5,3.2,9.1


In [None]:
# 1,2를 한꺼번에 하기


In [7]:
# 3. 사전 타입 데이터를 이용하여 데이터 프레임 생성하기
인구통계 = {'서울': [1053.5, 1023, 987],
        '경기':[1023, 1067, 1123],
        '충청':[512,489,487],
        '경상':[897, 872, 811],
        '전라':[451, 421, 399]
      }
df3 = DataFrame(인구통계)
df3

Unnamed: 0,경기,경상,서울,전라,충청
0,1023,897,1053.5,451,512
1,1067,872,1023.0,421,489
2,1123,811,987.0,399,487


<img src="./img/데이터프레임구조1.jpg" width="640">
<img src="./img/데이터프레임구조2.jpg" width="480">

### 2.2.2. DataFrame 속성 조회하기 (속성을 조회할 때에는 ()를 사용하지 않으니 유의하기 바람.)

In [8]:
# df3에 로우 인덱스를 2015, 2016, 2017로 만들기
df3.index = [2015,2016,2017]
df3

Unnamed: 0,경기,경상,서울,전라,충청
2015,1023,897,1053.5,451,512
2016,1067,872,1023.0,421,489
2017,1123,811,987.0,399,487


In [9]:
#1. T (Transpose) : 행과 열을 바꾸기.
df3.T

Unnamed: 0,2015,2016,2017
경기,1023.0,1067.0,1123.0
경상,897.0,872.0,811.0
서울,1053.5,1023.0,987.0
전라,451.0,421.0,399.0
충청,512.0,489.0,487.0


In [10]:
#2. axes : 행과 열 이름을 리스트로 반환
df3.axes

[Int64Index([2015, 2016, 2017], dtype='int64'),
 Index(['경기', '경상', '서울', '전라', '충청'], dtype='object')]

In [11]:
#3. dtypes : 데이터 형태 반환
df3.dtypes

경기      int64
경상      int64
서울    float64
전라      int64
충청      int64
dtype: object

In [12]:
#4. shape : 행과 열의 개수(차원)을 튜플로 반환
df3.shape

(3, 5)

In [13]:
#5. size : DataFrame의 원소의 개수를 반환
df3.size

15

In [14]:
#6. index : 데이터프레임의 인덱스를 리스트로 반환
df3.index

Int64Index([2015, 2016, 2017], dtype='int64')

In [15]:
#7. columns : 데이터프레임의 컬럼을 리스트로 반환
df3.columns

Index(['경기', '경상', '서울', '전라', '충청'], dtype='object')

In [16]:
#8. values : 데이터프레임의 값들을 반환
df3.values

array([[ 1023. ,   897. ,  1053.5,   451. ,   512. ],
       [ 1067. ,   872. ,  1023. ,   421. ,   489. ],
       [ 1123. ,   811. ,   987. ,   399. ,   487. ]])

### 2.2.3. 데이터프레임 조회하기

In [17]:
# 테스트 데이터프레임 생성
df4 = DataFrame({'Col1': [0, 3, 'ks01', 2, 5],
                       'Col2': ['big', 'data', 'is', 'very', 'good'],
                       'Col3': [2.7, -5, 2.12, 8.31, -1.34],
                       'Col4': [True, True, False, False, True]},
                      index=['A', 'B', 'C', 'D', 'E'])
df4

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


## **데이터프레임 조회 규칙 **
### 로우 인덱스는 숫자 슬라이싱이 되지만, 컬럼은 불가능하다. (컬럼은 순서 개념이 없음)
### 기본적으로 "컬럼"을 먼저 인덱싱한다. 
<img src="./img/데이터프레임조회.jpg" width="900">

In [19]:
# 1) col4만 조회하기
df4['Col4']

pandas.core.series.Series

In [21]:
# 2) Col2와 Col3 조회하기
# 여러 개의 컬럼들을 조회하기 위해서는 컬럼명들을 리스트로 선언해야 함.
df4[['Col2','Col3']]

Unnamed: 0,Col2,Col3
A,big,2.7
B,data,-5.0
C,is,2.12
D,very,8.31
E,good,-1.34


In [23]:
# 3) 로우를 로우 인덱스로 접근하여 조회하기 (loc)
# 로우 인덱스가 'E'인 경우만 조회하기
df4.loc['E']

Col1       5
Col2    good
Col3   -1.34
Col4    True
Name: E, dtype: object

In [24]:
# 4) 로우를 숫자 인덱스로 접근하여 조회하기 (iloc)
df4.iloc[-1]

Col1       5
Col2    good
Col3   -1.34
Col4    True
Name: E, dtype: object

In [25]:
# 5) 숫자 인덱스로 슬라이싱하기 (start index는 포함되지만, end index는 포함 안됨.)
# 숫자 인덱스가 1~4까지 데이터만 조회하기
df4.iloc[1:5]

Unnamed: 0,Col1,Col2,Col3,Col4
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


In [27]:
# 기본적으로 인덱싱을 하면, 컬럼을 기준으로 탐색을 하지만, 슬라이싱은 컬럼에 적용할 수 없기 때문에 로우에 적용된다. 
df4[1:5]

Unnamed: 0,Col1,Col2,Col3,Col4
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


In [29]:
# 6) 로우 인덱스로 슬라이싱하기 (start index와 end index 모두 포함)
# B,C,D까지 조회
df4.loc['B':'D']

Unnamed: 0,Col1,Col2,Col3,Col4
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False


In [30]:
# 7. 특정 컬럼과 로우를 동시에 인덱싱하기
# B, C 로우에 대해서 Col1, Col3만 선택
df4[['Col1','Col3']]['B':'C']

Unnamed: 0,Col1,Col3
B,3,-5.0
C,ks01,2.12


In [32]:
# 8. 조건 인덱싱 
# Col3의 값이 0보다 큰 경우만 조회하기
df4[df4['Col3']>0]

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
C,ks01,is,2.12,False
D,2,very,8.31,False


In [34]:
#column 슬라이싱 하는 방법 -> 로우를 먼저 슬라이싱 해야 한다.
df4.loc[:,'Col1':'Col3']

Unnamed: 0,Col1,Col2,Col3
A,0,big,2.7
B,3,data,-5.0
C,ks01,is,2.12
D,2,very,8.31
E,5,good,-1.34


In [16]:
# 아래 결과들이 출력되도록 코드를 완성하시오.
# 실습 1.


A       0
B       3
C    ks01
D       2
E       5
Name: Col1, dtype: object

In [17]:
# 실습 2.


Unnamed: 0,Col1,Col3
A,0,2.7
B,3,-5.0
C,ks01,2.12
D,2,8.31
E,5,-1.34


In [18]:
# 실습 3.


Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
C,ks01,is,2.12,False


In [19]:
# 실습 4.


Unnamed: 0,Col1,Col2
B,3,data
C,ks01,is
D,2,very


### 2.2.4. 데이터프레임에 새로운 컬럼 추가하기

In [None]:
# 컬럼 추가하기 1.
# Col5 컬럼 추가하고, 값을 1,2,3,4,5로 저장


In [None]:
# 컬럼 추가하기 2 - 기존 컬럼을 이용하여 새 컬럼 추가하기
# Col3과 Col5의 값을 합한 값을 'Col6'라는 새 컬럼으로 추가


### 2.2.5.데이터프레임 로우, 컬럼 삭제

In [None]:
# drop() 함수 사용 (원본 변경 X)
## 첫번째 인자 - 지우고자 하는 인덱스명 (로우 인덱스, 컬럼 인덱스 모두 가능)
## 두번째 인자 (axis)- 0 혹은 1. 0 = 로우 삭제, 1 = 컬럼 삭제

In [None]:
# 로우 인덱스가 'C'인 로우(row) 삭제


In [None]:
# 'Col6' 컬럼 삭제


In [None]:
# 원본 변경을 위해서는 다시 변수에 할당해야 함. 
