<a href="https://colab.research.google.com/github/codingfarm1/studing/blob/main/Pandas_00_%EA%B8%B0%EB%B3%B8%EC%9E%90%EB%A3%8C%EA%B5%AC%EC%A1%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Google Colab 사용 방법

- 방향키 ↑↓: 셀 간 이동
- Enter: 편집모드
- Ctrl + Enter: 셀 실행
- Shift + Enter: 셀 실행 + 다음 셀 선택

---

- Ctrl +M D: 셀 삭제
- Ctrl + M K: 셀 위로 이동
- Ctrl + M J: 셀 아래로 이동

![alt text](https://hackernoon.com/hn-images/0*Xhz01Vby2rg86xZj)

# 1. Pandas

Pandas는 다음과 같은 특징을 같습니다.
- NumPy를 내부적으로 활용함(NumPy의 특징을 그대로 가짐)
- 데이터분석에 특화된 데이터 구조 제공
- 다양한 데이터 분석 함수 제공
- 데이터베이스에 쉽게 연결 가능

## Cheat Sheet

판다스는 많은 기능을 제공합니다. 이번 강의에서는 이러한 기능들을 학습할 예정입니다.</br>
그러나 이 모든 기능을 외울 순 없습니다. 외울 필요도 없고요.

**아래는 판다스를 한 장에 정리해 둔 치트시트입니다**

어떠한 기능들을 하는 함수들이 있다는것만 학습한 뒤 해당 기능이 필요할 때 아래의 치트시트를 참조해가며 판다스를 사용하면 됩니다.



![](https://image.slidesharecdn.com/pandascheatsheet-191104183054/95/pandas-cheat-sheet-1-638.jpg?cb=1572892479)

파이썬에서 pandas를 사용할 때는 일반적으로 다음과 같이 pd형태로 임포트해서 사용합니다

In [None]:
import pandas as pd

In [None]:
# numpy와 matplotlib 임포트
# %matplotlib inline # 노트북에서 그래프를 보여주기 위해 추가해주는 코드
import numpy as np
import matplotlib.pyplot as plt

Pandas의 모든 API는 help 함수를 이용하여 도움말을 확인할 수 있습니다.

In [None]:
# help(pd)
# help(pd.read_csv)
help(pd.DataFrame)
# pd.DataFrame?

# 00. Pandas 데이터 구조

![](https://www.codinground.com/storage/2020/05/Screenshot_1-min-1-1.png)

## **1) Series**
- 1차원 데이터 구조
- 일반적으로 s 또는 sr로 이름 붙임
- 데이터를 담는 **차원 배열 구조**를 가짐
- **인덱스(index)를 사용 가능**함
- **데이터 타입**을 가짐 (dtype)

![](https://bites-data.s3.us-east-2.amazonaws.com/series_spreadsheet.png)


### Series의 생성

- numpy array로 생성한 경우

In [None]:
# numpy 생성
arr = np.arange(100,105)
arr

array([100, 101, 102, 103, 104])

In [None]:
s = pd.Series(arr)
s

0    100
1    101
2    102
3    103
4    104
dtype: int64

- dtype를 지정하여 생성한 경우

In [None]:
s = pd.Series(arr, dtype='int32')
s

0    100
1    101
2    102
3    103
4    104
dtype: int32

- list로 생성하는 경우

In [None]:
s = pd.Series([3, -5, 7, 4]) # 인덱스 없이 생성

In [None]:
s

0    3
1   -5
2    7
3    4
dtype: int64

- 다양한 타입(type)의 데이터를 섞은 경우

- ->Series에 다양한 데이터 타입의 데이터로 생성 시, **object 타입**으로 생성됨

In [None]:
s = pd.Series([91, 2.5, '스포츠', 4, 5.16])
s

0      91
1     2.5
2     스포츠
3       4
4    5.16
dtype: object

**type()**을 통해 데이터타입이 Series인 걸 확인할 수 있습니다.

In [None]:
type(s)

### 인덱싱(indexing)

인덱스를 특별히 지정해주지 않으면 **NumPy 다차원배열처럼 0부터 인덱스가 시작**됩니다.

NumPy 다차원 배열과 다르게 Pandas Series는 **인덱스를 지정**해 줄 수 있으며 숫자가 아닌 **문자열**도 인덱스가 될 수 있습니다.

In [None]:
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s

0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object

- **RangeIndex**

Series 생성 시 0부터 순차적으로 부여되는 index

In [None]:
s.index

RangeIndex(start=0, stop=5, step=1)

- **fancy indexing**

In [None]:
s[[1,3]]

1    차장
3    사원
dtype: object

In [None]:
s[np.arange(1, 4, 2)]

1    차장
3    사원
dtype: object

- **boolean indexing**

조건식을 만들어서 특정 조건에 대하여 **TRUE**에 해당하는 값만 필터링 할 수 있음

In [None]:
np.random.seed(0)
s = pd.Series(np.random.randint(10000, 20000, size=(10,)))
s

0    12732
1    19845
2    13264
3    14859
4    19225
5    17891
6    14373
7    15874
8    16744
9    13468
dtype: int64

In [None]:
s > 15000   #boolean series를 생성한 후 index로 활용하여 필터함

0    False
1     True
2    False
3    False
4     True
5     True
6    False
7     True
8     True
9    False
dtype: bool

In [None]:
s[s>15000] # 15000이상인 데이터 필터

1    19845
4    19225
5    17891
7    15874
8    16744
dtype: int64

Series는 기본값으로 부여되는 **RangeIndex**에 사용자 정의의 **index**를 지정할 수 있습니다.

- 요소는 index명 또는 index의 순서를 통해 인덱싱할 수 있습니다.

In [None]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'], index=['a', 'b', 'c', 'd', 'e'])

In [None]:
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

In [None]:
# index명으로 조회
s['a']

'마케팅'

In [None]:
s[['a','d']]

a    마케팅
d     기획
dtype: object

In [None]:
# index순서로 조회
s[0]

'마케팅'

In [None]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

먼저 Series를 생성 후 index 속성 값에 새로운 index를 할당하여 인덱스를 지정할 수 있습니다.

In [None]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'])
s.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
s.index = list('abcde')
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

### 속성(attribute)

#### values
- Series는 index와 values를 가집니다.

- values는 Series 데이터 값(value)만 numpy array 형식으로 가져 옵니다.

In [None]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [None]:
s.values

array(['마케팅', '경영', '개발', '기획', '인사'], dtype=object)

#### ndim-차원

- Series는 1차원 자료 구조이기 때문에 ndim 출력 시 1이 출력됩니다.


In [None]:
s.ndim

1

#### shape

- shape는 데이터의 모양(shape)를 알아보기 위하여 사용함
- Series의 shape는 **데이터의 갯수**를 나타냄
- **tuple**형식으로 출력됨

In [None]:
s.shape

(5,)

#### NaN(Not a Number)

- Pandas에서 **NaN 값**은 비어있는 **결측치 데이터**를 의미함
- 임의로 비어있는 값을 대입하고자 할 때 **numpy의 nan(np.nan)**을 입력함

In [None]:
s = pd.Series(['선화', '강호', np.nan, '소정', '우영'])
s

0     선화
1     강호
2    NaN
3     소정
4     우영
dtype: object

#### 결측치(NaN)값 처리

- **isnull()**과 **isna()**은 NaN 값을 찾는 함수
- 둘의 결과가 동일함

In [None]:
s.isnull()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [None]:
s.isna()

0    False
1    False
2     True
3    False
4    False
dtype: bool

이를 boolean indexing에 적용해 볼 수 있음.

In [None]:
s[s.isnull()]

2    NaN
dtype: object

In [None]:
s[s.isna()]

2    NaN
dtype: object

- **notnull()**은 NaN값이 아닌, 즉 비어있지 않은 데이터를 찾는 함수

In [None]:
s.notnull() # 결측값은 False로 출력한 boolean 데이터 출력

0     True
1     True
2    False
3     True
4     True
dtype: bool

In [None]:
s.notna()

0     True
1     True
2    False
3     True
4     True
dtype: bool

In [None]:
s[s.notnull()] # 결측값 제거한 데이터 출력

0    선화
1    강호
3    소정
4    우영
dtype: object

### **슬라이싱(slicing)**

- (주의) 숫자형 index로 접근할 때는 뒷 index가 포함되지 않음.

In [None]:
s = pd.Series(np.arange(100, 150, 10))
s

0    100
1    110
2    120
3    130
4    140
dtype: int64

In [None]:
s[1:3]

1    110
2    120
dtype: int64

- 새롭게 지정한 인덱스(문자열)는 시작 index와 끝 index 모두 포함함

In [None]:
s.index = list('가나다라마')
s

가    100
나    110
다    120
라    130
마    140
dtype: int64

In [None]:
s['가':'다']

가    100
나    110
다    120
dtype: int64

### 파이썬 딕셔너리와 Pandas Series의 공통점, 차이점

Index와 value를 가진다는 점에서 key와 value를 가지는 파이썬 딕셔너리와 유사하다 볼 수 있습니다.

그렇기에 파이썬 딕셔너리를 통해 Series를 생성할 수 있습니다.

In [None]:
# pop_dict는 파이썬 딕셔너리
pop_dict = {'Germany': 81.3,
            'Belgium': 11.3,
            'France': 64.3,
            'United Kingdom': 64.9,
            'Netherlands': 16.9}

# pop_dict로 Series 생성 (dict를 선언한 후 series에 생성)
population = pd.Series(pop_dict)
population

Germany           81.3
Belgium           11.3
France            64.3
United Kingdom    64.9
Netherlands       16.9
dtype: float64

딕셔너리에서 key값을 이용해 value를 조회하듯 Series에서 index를 이용해 value를 조회할 수 있습니다.

In [None]:
pop_dict['France']

64.3

In [None]:
population['France']

64.3

**딕셔너리와 Series의 차이점**

딕셔너리의 Key는 순서가 없고 pandas Series의 index는 순서가 있다는 점입니다.

- 그렇기에 Series는 index의 순서를 통해서도 value 조회가 가능합니다.

In [None]:
# KeyError 발생(2라는 Key 값은 없음)
pop_dict[2]

KeyError: 2

In [None]:
population[2]

64.3

- 또한 Series는 딕셔너리와 다르게 아래와 같은 연산이 가능합니다.

In [None]:
population*1000

Germany           81300.0
Belgium           11300.0
France            64300.0
United Kingdom    64900.0
Netherlands       16900.0
dtype: float64

In [None]:
# TypeError발생 (dict * int)
pop_dict * 1000

TypeError: unsupported operand type(s) for *: 'dict' and 'int'

## 참고. Index가 문자열에 저장된 숫자일 경우

Series의 요소를 조회하는데 혼돈이 올 수 있으니 숫자 Index를 원할 경우,
- 문자가 아닌 정수형으로 index를 지정합시다.
- 1이 아닌 0부터 index를 지정합시다.

In [None]:
sr = pd.Series([1, 2, 3, 4], index=['1', '2', '3', '4'])

In [None]:
# index명으로 접근
sr['1']

1

In [None]:
# index순서로 접근
sr[1]

2

DataFrame에서도 마찬가지로 숫자 Index를 사용할 경우 염두해두어야 합니다.

## **2) DataFrame**
- 2차원 데이터 구조
- 일반적으로 df로 이름 붙임
- 엑셀 스프레드시트, 데이터베이스등과 동일한 2차원 구조
- 가장 많이 활용하게될 구조
- Series가 합쳐진 형태

![](https://i.imgur.com/mdeZQdj.jpg)

DataFrame은 **pd.DataFrame()** 으로 생성합니다.

- (주의) DataFrame의 대소문자 구분해야 함!!

### 생성

중첩된 리스트나 딕셔너리를 통해 DataFrame을 생성할 수 있습니다.

In [None]:
# 중첩된 리스트를 통한 데이터 생성
# 각 행을 리스트로 만들어야 함
data = [['Belgium', 'Brussels', 11190846],
        ['India', 'New Delhi', 1303171035],
        ['Brazil', 'Brasília', 207847528]]

# 변수 = pd.DataFrame(중첩된 리스트)
df = pd.DataFrame(data)

df

Unnamed: 0,0,1,2
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


- columns parameter를 통해 **칼럼명** 지정 가능

In [None]:
# 중첩된 리스트를 통한 데이터 생성
# 각 행을 리스트로 만들어야 함
data = [['Belgium', 'Brussels', 11190846],
        ['India', 'New Delhi', 1303171035],
        ['Brazil', 'Brasília', 207847528]]
# 변수 = pd.DataFrame(중첩된 리스트, columns = '칼럼명)
df = pd.DataFrame(data, columns=['Country', 'Capital', 'Population'])

df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


데이터프레임의 데이터는 **'dictionary'**로 넘겨주는게 일반적입니다.

- 칼럼명을 함께 넘겨줄 수 있기 때문입니다.
- **동일한 데이터타입끼리 함께 묶어서 넘겨줄 수 있기 때문입니다.**

In [None]:
data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasília'],
        'Population': [11190846, 1303171035, 207847528]}

df = pd.DataFrame(data)

df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


칼럼명과 마찬가지로 인덱스 역시 변경할 수 있습니다.

In [None]:
data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasília'],
        'Population': [11190846, 1303171035, 207847528]}

df_2 = pd.DataFrame(data,
                    index=['aa', 'bb', 'cc'])

df_2

Unnamed: 0,Country,Capital,Population
aa,Belgium,Brussels,11190846
bb,India,New Delhi,1303171035
cc,Brazil,Brasília,207847528


**type()**을 통해 데이터타입이 DataFrame인 걸 확인할 수 있습니다.

In [None]:
type(df)

데이터프레임의 하나의 열은 어떤 데이터구조로 되어있을까요?

In [None]:
type(df['Country'])

데이터프레임 각 열의 데이터타입은 Series라는걸 알 수 있습니다.

### 속성

아래와 같은 속성을 가집니다.

- index : index (기본 값으로 RangeIndex)
- columns : column 명
- dtypes : column 별 데이터 타입
- values : numpy array 형식의 데이터 값
- T : DataFrame을 전치(Transpose)

In [None]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


In [None]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [None]:
df.columns

Index(['Country', 'Capital', 'Population'], dtype='object')

In [None]:
df.dtypes

Country       object
Capital       object
Population     int64
dtype: object

In [None]:
df.values

array([['Belgium', 'Brussels', 11190846],
       ['India', 'New Delhi', 1303171035],
       ['Brazil', 'Brasília', 207847528]], dtype=object)

Index, columns, dtypes를 한번에 조회하고 싶다면 info()를 사용하세요.

In [None]:
df.info()
# DataFrame
# 3 entries (0~2행까지 인덱스)
# 3 columns (3개의 열)
# 칼럼 명과 각 칼럼의 datatype
# 메모리 양

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Country     3 non-null      object
 1   Capital     3 non-null      object
 2   Population  3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


특정한 칼럼을 index로 사용할수도 있습니다.

In [None]:
df # index가 0,1,2

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


In [None]:
# 어떤 칼럼을 인덱스로 할 것인지 : df.set_index(칼럼명)
df_index_with_country = df.set_index('Country')

df_index_with_country

Unnamed: 0_level_0,Capital,Population
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,Brussels,11190846
India,New Delhi,1303171035
Brazil,Brasília,207847528


하나의 인덱스만 가능한것은 아닙니다. DataFrame은 여러개의 인덱스를 가질 수 있습니다.

In [None]:
# 여러 개의 인덱스 : [칼럼 명을 리스트로]
df_index_with_country_and_capital = df.set_index(['Country', 'Capital'])

df_index_with_country_and_capital

Unnamed: 0_level_0,Unnamed: 1_level_0,Population
Country,Capital,Unnamed: 2_level_1
Belgium,Brussels,11190846
India,New Delhi,1303171035
Brazil,Brasília,207847528


In [None]:
# 인덱싱 [인덱스가 2개일 경우 2개 다 적기]
df_index_with_country_and_capital.loc[['Belgium']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Population
Country,Capital,Unnamed: 2_level_1
Belgium,Brussels,11190846


### Dataframe의 column은 어떤 데이터타입일까

기존에 학습한 데이터프레임 생성 방식은 아래처럼 모든 데이터를 직접 명시해주는 것이었습니다.

아래 코드는 각 열을 파이썬의 리스트 형태로 입력하는 방식입니다.
리스트 형태로 입력된 데이터를 기반으로 판다스가 Series를 만들고 Series들로 DataFrame을 만드는 것이죠.

In [None]:
data = {'col1': [1, 2, 3, 4],
        'col2': [5, 6, 7, 8],
        'col3': [9, 10, 11, 12]}

df_3 = pd.DataFrame(data,
                    index=['A', 'B', 'C', 'D'])

df_3

파이썬 리스트가 아닌 **Series를 통해서도 DataFrame을 생성**할 수 있습니다.

In [None]:
s_1 = pd.Series([1, 2, 3, 4], index=['A', 'B', 'C', 'D'])
s_2 = pd.Series([5, 6, 7, 8], index=['A', 'B', 'C', 'D'])
s_3 = pd.Series([9, 10, 11, 12], index=['A', 'B', 'C', 'D'])

data = {'col1': s_1,
        'col2': s_2,
        'col3': s_3}

df_4 = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])

df_4

Unnamed: 0,col1,col2,col3
A,1,5,9
B,2,6,10
C,3,7,11
D,4,8,12


## NumPy ndarray와 비교

### 공통점

NumPy 다차원배열처럼 많은 연산들이 요소들간에 이루어집니다.(Elementwise-operation)

In [None]:
s

가    100
나    110
다    120
라    130
마    140
dtype: int64

In [None]:
s + 10

가    110
나    120
다    130
라    140
마    150
dtype: int64

In [None]:
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


In [None]:
df['Population'] / 1000

0      11190.846
1    1303171.035
2     207847.528
Name: Population, dtype: float64

In [None]:
df['Country'] + df['Capital'] # concetenate처럼 더할 경우 합쳐짐

0    BelgiumBrussels
1     IndiaNew Delhi
2     BrazilBrasília
dtype: object

### 차이점

Series간 연산을 하는 경우, index를 기반으로 이루어집니다.

(모든 NumPy 다차원배열은 shape가 동일하다면 index도 동일하기에 index가 달라 연산이 이루어지지 않는 경우는 없음.)

In [None]:
s

가    100
나    110
다    120
라    130
마    140
dtype: int64

In [None]:
s1 = s[['가', '나']]
s2 = s[['나', '다']]

In [None]:
s1

가    100
나    110
dtype: int64

In [None]:
s2

나    110
다    120
dtype: int64

In [None]:
# '나' 끼리는 연산이 되었으나 '가'는 s1에만 있고 '다'는 s3에만 있어서 연산 안됨
s1 + s2

가      NaN
나    220.0
다      NaN
dtype: float64

## 실습

In [None]:
df_index_with_country

Unnamed: 0_level_0,Capital,Population
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,Brussels,11190846
India,New Delhi,1303171035
Brazil,Brasília,207847528


<div class="alert alert-success">
    <b>EXERCISE</b>: df_index_with_country이 데이터로 주어졌을때 각 국가의 수도 인구는 벨기에 수도 인구 대비 몇 배인지 구하세요.
</div>

In [None]:
df_index_with_country['Population']
df_index_with_country['Population']['Belgium']
df_index_with_country['Population'] / df_index_with_country['Population']['Belgium']

Country
Belgium      1.000000
India      116.449734
Brazil      18.572995
Name: Population, dtype: float64