# 2. Pandas 주요 데이터 타입
## 2.2 DataFrame (데이터프레임)
<img src="img/2강/dataframe구조NEW.jpg" alt="datetime" style="width: 800px;"/>

In [1]:
# Pandas 라이브러리 임포트
import pandas as pd 
from pandas import Series, DataFrame

### 2.2.1 데이터프레임 생성
### 생성자 인자
#### 1) data : dataFrame에 저장할 데이터 (numpy ndarray, dict, DataFrame 등 여러 형태 가능)
#### 2) index : 행(row) 이름, 기본값 = 0부터 1씩 증가하는 정수
#### 3) columns : 열(column) 이름, 기본값 = 0부터 1씩 증가하는 정수
#### 4) dtype : 데이터 형태(type), 만약 지정하지 않으면 파이썬이 자동으로 값의 형태를 보고 결정
#### 5) copy : 입력 데이터를 복사할지 지정. 디폴트는 False 임. (복사할 거 아니면 메모리 관리 차원에서 디폴트인 False 설정 사용하면 됨)

In [2]:
# 1. 2차원 데이터 생성
df1 = DataFrame([
                                [1,2,3],
                                ['kim','park','lee'],
                                [1.5, 3.2, 9.1]
                           ])
df1

Unnamed: 0,0,1,2
0,1,2,3
1,kim,park,lee
2,1.5,3.2,9.1


In [4]:
# 2. 로우 인덱스와 컬럼 인덱스 설정
df1.index = ['A','B','C'] # 0,1,2 -> A,B,C 로 바뀜
df1

Unnamed: 0,0,1,2
A,1,2,3
B,kim,park,lee
C,1.5,3.2,9.1


In [5]:
df1.columns = ['X','Y','Z']
df1

Unnamed: 0,X,Y,Z
A,1,2,3
B,kim,park,lee
C,1.5,3.2,9.1


In [6]:
# 1,2를 한꺼번에 하기
df2 = DataFrame(data = [[1,2,3],
                        ['kim','park','lee'],
                        [1.5, 3.2, 9.1]],
                index = ['A','B','C'],
                columns = ['X','Y','Z'])
df2

Unnamed: 0,X,Y,Z
A,1,2,3
B,kim,park,lee
C,1.5,3.2,9.1


In [7]:
# 3. 사전 타입 데이터를 이용하여 데이터 프레임 생성하기
인구통계 = {'서울': [1053.5, 1023, 987],
        '경기':[1023, 1067, 1123],
        '충청':[512,489,487],
        '경상':[897, 872, 811],
        '전라':[451, 421, 399]
      }
df3 = DataFrame(인구통계)
df3

Unnamed: 0,서울,경기,충청,경상,전라
0,1053.5,1023,512,897,451
1,1023.0,1067,489,872,421
2,987.0,1123,487,811,399


<img src="./img/2강/데이터프레임구조1.jpg" width="640">
<img src="./img/2강/데이터프레임구조2.jpg" width="480">

### 2.2.2. DataFrame 속성 조회하기 (속성을 조회할 때에는 ()를 사용하지 않으니 유의하기 바람.)

In [8]:
# df3에 로우 인덱스를 2015, 2016, 2017로 만들기
df3.index = [ 2015,2016,2017 ]
df3

Unnamed: 0,서울,경기,충청,경상,전라
2015,1053.5,1023,512,897,451
2016,1023.0,1067,489,872,421
2017,987.0,1123,487,811,399


DataFrame도 Series와 같이 속성과 함수를 가지고 있다.

In [9]:
#1. T (Transpose) : 행과 열을 바꾸기. 원본데이터에 영향을 미치지 않음
df3.T

Unnamed: 0,2015,2016,2017
서울,1053.5,1023.0,987.0
경기,1023.0,1067.0,1123.0
충청,512.0,489.0,487.0
경상,897.0,872.0,811.0
전라,451.0,421.0,399.0


In [10]:
#2. axes : 행과 열 이름을 리스트로 반환
df3.axes

[Int64Index([2015, 2016, 2017], dtype='int64'),
 Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')]

In [11]:
#3. dtypes : 데이터 형태 반환, 컬럼별로 알려줌
df3.dtypes

서울    float64
경기      int64
충청      int64
경상      int64
전라      int64
dtype: object

In [12]:
#4. shape : 행과 열의 개수(차원)을 튜플로 반환
df3.shape

(3, 5)

In [13]:
#5. size : DataFrame의 원소의 개수를 반환, 전체 항목의 갯수이므로 3x5 = 15 개
df3.size

15

In [14]:
#6. index : 데이터프레임의 인덱스를 리스트로 반환
df3.index

Int64Index([2015, 2016, 2017], dtype='int64')

In [15]:
#7. columns : 데이터프레임의 컬럼을 리스트로 반환
df3.columns

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')

In [16]:
#8. values : 데이터프레임의 값들을 반환, numpy array 형태로
df3.values

array([[1053.5, 1023. ,  512. ,  897. ,  451. ],
       [1023. , 1067. ,  489. ,  872. ,  421. ],
       [ 987. , 1123. ,  487. ,  811. ,  399. ]])

### 2.2.3. 데이터프레임 조회하기

In [18]:
# 테스트 데이터프레임 생성
df4 = DataFrame(data = {'Class': ['IoT','Network', 'Economy','Big Data', 'Cloud'],
                        'Year': [2018, 2017, 2018, 2018, 2019],
                        'Price': [100, 125, 132, 312, 250],
                        'Location': ['Korea','Korea', 'Korea', 'US','France']},
                index=['C01','C02','C03', 'C04', 'C05'])
df4

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US
C05,Cloud,2019,250,France


## **데이터프레임 조회 규칙 **
### 로우 인덱스는 숫자 슬라이싱이 되지만, 컬럼은 불가능하다. (컬럼은 순서 개념이 없음)
### 기본적으로 "컬럼"을 먼저 인덱싱한다. 
<img src="./img/2강/데이터프레임조회NEW.jpg" width="900">

In [21]:
# 1) col4만 조회하기
df4['Class']

C01         IoT
C02     Network
C03     Economy
C04    Big Data
C05       Cloud
Name: Class, dtype: object

In [25]:
# 2) Col2와 Col3 조회하기
# 여러 개의 컬럼들을 조회하기 위해서는 컬럼명들을 리스트로 선언해야 함.
df4[['Class','Price']]

Unnamed: 0,Class,Price
C01,IoT,100
C02,Network,125
C03,Economy,132
C04,Big Data,312
C05,Cloud,250


In [26]:
# 3) 로우를 로우 인덱스로 접근하여 조회하기 (loc함수 이용)
# 이렇게 해야 column 가져오는 것과 혼동 없음
# 즉, df4['A'] 라 했을때, 이게 행에서 가져오는건지, 열에서 가져오는건지 헷갈림
# 로우 인덱스가 'C04'인 경우만 조회하기
df4.loc['C04']

Class       Big Data
Year            2018
Price            312
Location          US
Name: C04, dtype: object

In [28]:
# 4) 로우를 숫자 인덱스로 접근하여 조회하기 (iloc함수 이용)
df4.iloc[2] # loc로 호출하면 에러남, iloc로 함수 호출해야함

Class       Economy
Year           2018
Price           132
Location      Korea
Name: C03, dtype: object

In [29]:
# 5) 숫자 인덱스로 슬라이싱하기 (start index는 포함되지만, end index는 포함 안됨.)
# 숫자 인덱스가 1~4까지 데이터만 조회하기
df4.iloc[1:4]

Unnamed: 0,Class,Year,Price,Location
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US


In [31]:
# 기본적으로 인덱싱을 하면, 컬럼을 기준으로 탐색을 하지만, 슬라이싱은 컬럼에 적용할 수 없기 때문에 로우에 적용된다. 
# 컬럼은 순서가 없기 때문에 기본적으로 슬라이싱 안됨
# 즉, 슬라이싱의 경우 iloc를 생략가능
# 이렇게 하면 컬럼에서 찾을거 같지만, 컬럼에는 순서가 없기 때문에 알아서 로우에서 찾을거라고 생각
df4[1:4] 

Unnamed: 0,Class,Year,Price,Location
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US


In [32]:
# 6) 로우 인덱스로 슬라이싱하기 (start index와 end index 모두 포함)
# C02~C04까지 조회
df4.loc['C02':'C04']

Unnamed: 0,Class,Year,Price,Location
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US


In [33]:
# 동일하게 loc 생략가능
df4['C02':'C04']

Unnamed: 0,Class,Year,Price,Location
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US


```python
df4[['C02','C03','C04']] # 안되는 이유는 이걸 column으로 생각하기 때문에
```

```
---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-35-ccb57288e7de> in <module>
----> 1 df4[['C02','C03','C04']]

/anaconda3/lib/python3.6/site-packages/pandas/core/frame.py in __getitem__(self, key)
   2932                 key = list(key)
   2933             indexer = self.loc._convert_to_indexer(key, axis=1,
-> 2934                                                    raise_missing=True)
   2935 
   2936         # take() does not accept boolean indexers

/anaconda3/lib/python3.6/site-packages/pandas/core/indexing.py in _convert_to_indexer(self, obj, axis, is_setter, raise_missing)
   1352                 kwargs = {'raise_missing': True if is_setter else
   1353                           raise_missing}
-> 1354                 return self._get_listlike_indexer(obj, axis, **kwargs)[1]
   1355         else:
   1356             try:

/anaconda3/lib/python3.6/site-packages/pandas/core/indexing.py in _get_listlike_indexer(self, key, axis, raise_missing)
   1159         self._validate_read_indexer(keyarr, indexer,
   1160                                     o._get_axis_number(axis),
-> 1161                                     raise_missing=raise_missing)
   1162         return keyarr, indexer
   1163 

/anaconda3/lib/python3.6/site-packages/pandas/core/indexing.py in _validate_read_indexer(self, key, indexer, axis, raise_missing)
   1244                 raise KeyError(
   1245                     u"None of [{key}] are in the [{axis}]".format(
-> 1246                         key=key, axis=self.obj._get_axis_name(axis)))
   1247 
   1248             # We (temporarily) allow for some missing keys with .loc, except in

KeyError: "None of [Index(['C02', 'C03', 'C04'], dtype='object')] are in the [columns]"
```

In [39]:
df4.loc[['C01','C04']]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C04,Big Data,2018,312,US


In [41]:
# 7. 특정 컬럼과 로우를 동시에 인덱싱하기
# C02,C03 강의의 Class와 Year를 가져와라
df4[['Class','Year']].loc[['C02','C03']]

Unnamed: 0,Class,Year
C02,Network,2017
C03,Economy,2018


In [45]:
df4[['Class','Year']]['C02':'C03'] # 슬라이싱으로 접근할 수 있음

Unnamed: 0,Class,Year
C02,Network,2017
C03,Economy,2018


In [46]:
df4.loc[['C02','C03']][['Class','Year']]

Unnamed: 0,Class,Year
C02,Network,2017
C03,Economy,2018


In [47]:
# 위 방법들은 지저분하니까 loc,iloc를 통해서 접근가능
df4.loc[['C02','C03'],['Class','Year']] # loc[row_idx,col_idx]

Unnamed: 0,Class,Year
C02,Network,2017
C03,Economy,2018


In [50]:
df4.loc['C02':'C03','Class':'Year']

Unnamed: 0,Class,Year
C02,Network,2017
C03,Economy,2018


In [51]:
# iloc로 가져와보자
df4.iloc[1:3,:2]

Unnamed: 0,Class,Year
C02,Network,2017
C03,Economy,2018


In [53]:
df4['Class':'Price'] # row로 생각했기 때문에 아무것도 안 나옴

Unnamed: 0,Class,Year,Price,Location


In [54]:
df4.loc[:,'Class':'Price'] # row를 처음부터 끝까지 볼때

Unnamed: 0,Class,Year,Price
C01,IoT,2018,100
C02,Network,2017,125
C03,Economy,2018,132
C04,Big Data,2018,312
C05,Cloud,2019,250


In [57]:
# 8. 조건 인덱싱 
# 2018년도에 개설된 과목만 조회하기
df4['Year'] == 2018 # 시리즈라는거 잊지마

C01     True
C02    False
C03     True
C04     True
C05    False
Name: Year, dtype: bool

In [58]:
df4[df4['Year']==2018]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US


In [61]:
df4[df4.Year == 2018]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US


In [66]:
# 아래 결과들이 출력되도록 코드를 완성하시오.
# 실습 1. 'Class' 컬럼만 출력
df4['Class'] # df4.Class

C01         IoT
C02     Network
C03     Economy
C04    Big Data
C05       Cloud
Name: Class, dtype: object

In [67]:
# 실습 2. 'Class'와 'Location' 컬럼만 조회
df4[['Class','Location']]

Unnamed: 0,Class,Location
C01,IoT,Korea
C02,Network,Korea
C03,Economy,Korea
C04,Big Data,US
C05,Cloud,France


In [80]:
# 실습 3. C01과 C03 강의 모든 컬럼 조회
#df4.loc[['C01','C03']]
df4.iloc[[0,2]]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C03,Economy,2018,132,Korea


In [84]:
# 실습 4.C01~C03 강의의 Class와 Price만 조회
df4.loc['C01':'C03',['Class','Price']]

Unnamed: 0,Class,Price
C01,IoT,100
C02,Network,125
C03,Economy,132


In [78]:
# 실습 5. Price가 200이하이고, Location이 Korea인 강의만 조회
df4[(df4.Price <= 200) & (df4.Location == 'Korea')]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea


### 2.2.4. 데이터프레임에 새로운 컬럼 추가하기

In [86]:
# 컬럼 추가하기 1.
# numStudent 컬럼 추가하고, 값을 10로 저장
df4['numStudent'] = 10 # 모든 값을 10으로 할당함
df4

Unnamed: 0,Class,Year,Price,Location,numStudent
C01,IoT,2018,100,Korea,10
C02,Network,2017,125,Korea,10
C03,Economy,2018,132,Korea,10
C04,Big Data,2018,312,US,10
C05,Cloud,2019,250,France,10


In [87]:
# 값 업데이트 : 기존의 컬럼이 있는 경우는 업데이트로 생각함
# numStudent의 값을 25,17,35,17,18로 업데이트
df4['numStudent'] = [25,17,35,17,18]
df4

Unnamed: 0,Class,Year,Price,Location,numStudent
C01,IoT,2018,100,Korea,25
C02,Network,2017,125,Korea,17
C03,Economy,2018,132,Korea,35
C04,Big Data,2018,312,US,17
C05,Cloud,2019,250,France,18


In [89]:
# 컬럼 추가하기 2 - 기존 컬럼을 이용하여 새 컬럼 추가하기
# Price과 numStudent의 값의 곱을 'Income'이라는 새 컬럼으로 추가
df4['Income'] = df4.Price * df4.numStudent
df4

Unnamed: 0,Class,Year,Price,Location,numStudent,Income
C01,IoT,2018,100,Korea,25,2500
C02,Network,2017,125,Korea,17,2125
C03,Economy,2018,132,Korea,35,4620
C04,Big Data,2018,312,US,17,5304
C05,Cloud,2019,250,France,18,4500


### 2.2.5.데이터프레임 로우, 컬럼 삭제

In [91]:
# drop() 함수 사용 (원본 변경 X)
## 첫번째 인자 - 지우고자 하는 인덱스명 (로우 인덱스, 컬럼 인덱스 모두 가능)
## 두번째 인자 (axis)- 0 혹은 1. 0 = 로우 삭제, 1 = 컬럼 삭제

# Income 컬럼 삭제
df4 = df4.drop('Income', axis=1)

In [92]:
df4

Unnamed: 0,Class,Year,Price,Location,numStudent
C01,IoT,2018,100,Korea,25
C02,Network,2017,125,Korea,17
C03,Economy,2018,132,Korea,35
C04,Big Data,2018,312,US,17
C05,Cloud,2019,250,France,18


In [93]:
# 로우 인덱스가 'C'인 로우(row) 삭제
df4.drop('C03',
         axis=0,
         inplace=True) # inplace 를 True로 하면 원본에 영향을 줌
df4

Unnamed: 0,Class,Year,Price,Location,numStudent
C01,IoT,2018,100,Korea,25
C02,Network,2017,125,Korea,17
C04,Big Data,2018,312,US,17
C05,Cloud,2019,250,France,18
