# Pandas 주요 데이터 타입
## DataFrame (데이터프레임)
<img src="img/2강/dataframe구조NEW.jpg" alt="datetime" style="width: 1200px;"/>

In [1]:
# Pandas 라이브러리 임포트
import pandas as pd

### 2.2.1 데이터프레임 생성
### 생성자 인자
#### 1) data : dataFrame에 저장할 데이터
#### 2) index : 행(row) 이름, 기본값 = 0부터 1씩 증가하는 정수
#### 3) columns : 열(column) 이름, 기본값 = 0부터 1씩 증가하는 정수
#### 4) dtype : 데이터 형태(type), 만약 지정하지 않으면 파이썬이 자동으로 값의 형태를 보고 결정
#### 5) copy : 입력 데이터를 복사할지 지정. 디폴트는 False 임. (복사할 거 아니면 메모리 관리 차원에서 디폴트인 False 설정 사용하면 됨)

In [119]:
# 1. 2차원 데이터 생성
df1 = pd.DataFrame([[1, 'kim', 23], [2, 'lee', 27]])
df1

Unnamed: 0,0,1,2
0,1,kim,23
1,2,lee,27


In [120]:
# 2. row index 설정
df1.index = ['A', 'B']
df1

Unnamed: 0,0,1,2
A,1,kim,23
B,2,lee,27


In [121]:
# 3. column index 설정
df1.columns = ['순서', '이름', '나이']
df1

Unnamed: 0,순서,이름,나이
A,1,kim,23
B,2,lee,27


In [118]:
# 1,2,3 한꺼번에 하기
df2 = pd.DataFrame(data = [[1, 'kim', 23], [2, 'lee', 27]],
                   index = ['A', 'B'],
                   columns = ['순서', '이름', '나이'])
df2

Unnamed: 0,순서,이름,나이
A,1,kim,23
B,2,lee,27


In [13]:
# 사전 타입 데이터를 이용하여 데이터 프레임 생성하기
population_dic = {'서울':[1053.5, 1023, 987],
                  '경기':[1023, 1067, 1123],
                  '충청':[512, 489, 487],
                  '경상':[897, 872, 811],
                  '전라':[451, 421, 399]}

In [14]:
df3 = pd.DataFrame(population_dic)
df3

Unnamed: 0,서울,경기,충청,경상,전라
0,1053.5,1023,512,897,451
1,1023.0,1067,489,872,421
2,987.0,1123,487,811,399


In [15]:
# row index를 2015, 2016, 2017로 만들기
df3.index = [x for x in range(2015, 2018)]
df3

Unnamed: 0,서울,경기,충청,경상,전라
2015,1053.5,1023,512,897,451
2016,1023.0,1067,489,872,421
2017,987.0,1123,487,811,399


<img src="./img/2강/데이터프레임구조1.jpg" width="640">
<img src="./img/2강/데이터프레임구조2.jpg" width="480">

## DataFrame 속성 조회하기 (속성을 조회할 때에는 ()를 사용하지 않으니 유의하기 바람.)

In [16]:
#1. T (Transpose) : 행과 열을 바꾸기.
df3.T

Unnamed: 0,2015,2016,2017
서울,1053.5,1023.0,987.0
경기,1023.0,1067.0,1123.0
충청,512.0,489.0,487.0
경상,897.0,872.0,811.0
전라,451.0,421.0,399.0


In [17]:
#2. axes : 행과 열 이름을 리스트로 반환
df3.axes

[Int64Index([2015, 2016, 2017], dtype='int64'),
 Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')]

In [18]:
#3. dtypes : 데이터 형태 반환
df3.dtypes

서울    float64
경기      int64
충청      int64
경상      int64
전라      int64
dtype: object

In [20]:
# 참고
# float64 -> int64 data type 변경
df3['서울'] = df3['서울'].astype('int64')

In [21]:
df3.dtypes

서울    int64
경기    int64
충청    int64
경상    int64
전라    int64
dtype: object

In [22]:
#4. shape : 행과 열의 개수(차원)을 튜플로 반환
df3.shape

(3, 5)

In [23]:
#5. size : DataFrame의 원소의 개수를 반환
df3.size

15

In [24]:
#6. index : 데이터프레임의 인덱스를 리스트로 반환
df3.index

Int64Index([2015, 2016, 2017], dtype='int64')

In [25]:
#7. columns : 데이터프레임의 컬럼을 리스트로 반환
df3.columns

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')

In [28]:
#8. values : 데이터프레임의 값들을 반환
df3.values

array([[1053, 1023,  512,  897,  451],
       [1023, 1067,  489,  872,  421],
       [ 987, 1123,  487,  811,  399]], dtype=int64)

### 2.2.3. 데이터프레임 조회하기

In [57]:
# 테스트 데이터프레임 생성
df = pd.DataFrame({'Class': ['IoT','Network', 'Economy','Big Data', 'Cloud'],
                'Year': [2018, 2017, 2018, 2018, 2019],
                'Price': [100, 125, 132, 312, 250],
                'Location': ['Korea','Korea', 'Korea', 'US','France']},
                index=['C01','C02','C03', 'C04','C05'])
df

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US
C05,Cloud,2019,250,France


## **데이터프레임 조회 규칙 **
### 로우 인덱스는 숫자 슬라이싱이 되지만, 컬럼은 불가능하다. (컬럼은 순서 개념이 없음)
### 기본적으로 "컬럼"을 먼저 인덱싱한다. 
<img src="./img/2강/데이터프레임조회NEW.jpg" width="900">

## data frame에서 바로 접근

## 1. 행

In [91]:
# 숫자 인덱스 하나를 쓰면 접근 x
df[2]

KeyError: 2

In [92]:
# index slicing은 가능
df[:3]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea


In [94]:
# index label 하나로 접근 x
df['C01']

KeyError: 'C01'

In [95]:
# index label slicing은 가능
df['C01':'C03']

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea


## 2. 열

In [96]:
# 열로 접근하고 싶으면 column명을 직접 입력
# Price 정보만 조회하기
df['Price']

C01    100
C02    125
C03    132
C04    312
C05    250
Name: Price, dtype: int64

In [97]:
# Class와 Year 컬럼만 조회
# 여러 개의 컬럼들을 조회하기 위해서는 컬럼명들을 리스트로 선언해야 함.
df[['Class', 'Year']]

Unnamed: 0,Class,Year
C01,IoT,2018
C02,Network,2017
C03,Economy,2018
C04,Big Data,2018
C05,Cloud,2019


## loc를 통합 접근
### loc는 특정 name을 지정해줘야함

### 1. 행

In [101]:
# 행을 row로 접근하여 조회하기
# row index가 'C04'인 경우만 조회하기
df.loc['C04']

Class       Big Data
Year            2018
Price            312
Location          US
Name: C04, dtype: object

In [102]:
# row label로 slicing (start index와 end index 모두 포함)
# :로 접근
df.loc['C02':'C04']

Unnamed: 0,Class,Year,Price,Location
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US


In [103]:
# C01, C03 추출
#loc를 생략하면 KeyError 발생
df.loc[['C01', 'C03']]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C03,Economy,2018,132,Korea


### 2. 열

In [105]:
# Price 정보만 조회하기
df.loc[:, 'Price']

C01    100
C02    125
C03    132
C04    312
C05    250
Name: Price, dtype: int64

In [99]:
# Class와 Year 컬럼만 조회
df.loc[:, ['Class', 'Year']]

Unnamed: 0,Class,Year
C01,IoT,2018
C02,Network,2017
C03,Economy,2018
C04,Big Data,2018
C05,Cloud,2019


In [111]:
# 특정 컬럼과 로우를 동시에 인덱싱하기
# C02, C03 강의의 Class와 Year, Price 정보만 조회
df.loc['C02':'C03', 'Class':'Price']

Unnamed: 0,Class,Year,Price
C02,Network,2017,125
C03,Economy,2018,132


## iloc를 통한 접근
### i는 index를 의미하며 숫자로 통해 접근

### 1. 행

In [107]:
# 행을 숫자 index로 접근하여 조회하기 (iloc)
df.iloc[3]

Class       Big Data
Year            2018
Price            312
Location          US
Name: C04, dtype: object

In [108]:
# row index로 slicing (start index와 end index 모두 포함)
df.iloc[:4]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea
C04,Big Data,2018,312,US


### 2. 열

In [114]:
# Class와 Year, Price 정보만 조회
df.iloc[:, 0:3]

Unnamed: 0,Class,Year,Price
C01,IoT,2018,100
C02,Network,2017,125
C03,Economy,2018,132
C04,Big Data,2018,312
C05,Cloud,2019,250


In [83]:
# C02, C03 강의의 Class와 Year, Price 정보만 조회
df.iloc[1:3, 0:3]

Unnamed: 0,Class,Year,Price
C01,IoT,2018,100
C02,Network,2017,125
C03,Economy,2018,132
C04,Big Data,2018,312
C05,Cloud,2019,250


## 조건 indexing

In [115]:
# Price의 값이 200보다 큰 경우만 조회하기
df[df.Price > 200]
df[df['Price'] > 200]

Unnamed: 0,Class,Year,Price,Location
C04,Big Data,2018,312,US
C05,Cloud,2019,250,France


In [117]:
# 아래 결과들이 출력되도록 코드를 완성하시오.
# 실습 1. 'Location' 컬럼만 조회

# 그냥 접근
df['Location']

# loc를 통해 접근
df.loc[:,'Location']

# iloc를 통해 접근
df.iloc[:, 3]

C01     Korea
C02     Korea
C03     Korea
C04        US
C05    France
Name: Location, dtype: object

In [125]:
# 실습 2. 'Class'와 'Price' 컬럼만 조회

# 그냥 접근
df[['Class', 'Price']]

# loc를 통해 접근
df.loc[:, ['Class', 'Price']]

# iloc를 통해 접근
df.iloc[:, :3]

Unnamed: 0,Class,Year,Price
C01,IoT,2018,100
C02,Network,2017,125
C03,Economy,2018,132
C04,Big Data,2018,312
C05,Cloud,2019,250


In [144]:
# 실습 3. C01과 C03 강의의 모든 컬럼 조회

# loc를 통해 접근
df.loc[['C01','C03'],:]

# iloc를 통해 접근
df.iloc[[0,2], :]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C03,Economy,2018,132,Korea


In [147]:
# 실습 4. C01~C03 강의의 Class와 Price만 조회

# 그냥 접근
df['C01':'C03']

# loc를 통해 접근
df.loc['C01':'C03', :]

# iloc를 통해 접근
df.iloc[:3, :]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C02,Network,2017,125,Korea
C03,Economy,2018,132,Korea


In [150]:
# 실습 5. Year가 2018이고, Price가 200 미만인 강의만 조회
df[(df.Year==2018) & (df.Price < 200)]

Unnamed: 0,Class,Year,Price,Location
C01,IoT,2018,100,Korea
C03,Economy,2018,132,Korea


## 데이터프레임에 새로운 컬럼 추가하기

In [151]:
# 컬럼 추가하기 1.
# numStudent 컬럼 추가하고, 값을 10으로 저장
df['numStudent'] = 10
df

Unnamed: 0,Class,Year,Price,Location,numStudent
C01,IoT,2018,100,Korea,10
C02,Network,2017,125,Korea,10
C03,Economy,2018,132,Korea,10
C04,Big Data,2018,312,US,10
C05,Cloud,2019,250,France,10


In [152]:
# numStudent 의 값을 15, 30, 26, 32, 50으로 변경
df['numStudent'] = [15, 30, 26, 32, 50]
df

Unnamed: 0,Class,Year,Price,Location,numStudent
C01,IoT,2018,100,Korea,15
C02,Network,2017,125,Korea,30
C03,Economy,2018,132,Korea,26
C04,Big Data,2018,312,US,32
C05,Cloud,2019,250,France,50


In [153]:
# 컬럼 추가하기 2 - 기존 컬럼을 이용하여 새 컬럼 추가하기
# Price과 numStudent의 값을 곱한 값을 'Income'라는 새 컬럼으로 추가
df['income'] = df['Price'] * df['numStudent']
df

Unnamed: 0,Class,Year,Price,Location,numStudent,income
C01,IoT,2018,100,Korea,15,1500
C02,Network,2017,125,Korea,30,3750
C03,Economy,2018,132,Korea,26,3432
C04,Big Data,2018,312,US,32,9984
C05,Cloud,2019,250,France,50,12500


### 2.2.5.데이터프레임 로우, 컬럼 삭제

In [154]:
# drop() 함수 사용 (원본 변경 X)
## 첫번째 인자 - 지우고자 하는 인덱스명 (로우 인덱스, 컬럼 인덱스 모두 가능)
## 두번째 인자 (axis)- 0 혹은 1. 0 = 로우 삭제, 1 = 컬럼 삭제
df.drop(['numStudent'], axis=1)

Unnamed: 0,Class,Year,Price,Location,income
C01,IoT,2018,100,Korea,1500
C02,Network,2017,125,Korea,3750
C03,Economy,2018,132,Korea,3432
C04,Big Data,2018,312,US,9984
C05,Cloud,2019,250,France,12500


In [155]:
# 'Income' 컬럼 삭제
df.drop(['income'], axis=1)

Unnamed: 0,Class,Year,Price,Location,numStudent
C01,IoT,2018,100,Korea,15
C02,Network,2017,125,Korea,30
C03,Economy,2018,132,Korea,26
C04,Big Data,2018,312,US,32
C05,Cloud,2019,250,France,50


In [None]:
# 원본 변경을 위해서는 다시 변수에 할당해야 함. 
df = df.drop(['numStudent'], axis=1)

In [None]:
# inplace=True option 부여
df.drop(['numStudent'], axis=1, inplace=True)

In [None]:
# 여러 index를 한 번에 지우기 위해서는 list로 column name을 인자로 넘김
df.drop(['numStudent', 'income'], axis=1, inplace=True)