In [None]:
from IPython.display import Image
import numpy as np

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1280px-Pandas_logo.svg.png"
     width="250">

# Pandas

## 개요

**관계형** 또는 **레이블이 된** 데이터로 쉽고 직관적 으로 작업할 수 있도록 설계되었고, 빠르고, 유연한 데이터 구조를 제공하는 Python 패키지입니다.

또한, 어떤 언어로도 사용할 수 있는 가장 **강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구**입니다.

Pandas는 다음의 종류의 데이터에 **적합한 분석 패키지**입니다.

- SQL 테이블 또는 Excel 스프레드 시트에서와 같은 열과 행으로 이루어진 테이블 형식 데이터
- 정렬되고 정렬되지 않은 시계열 데이터
- 다른 형태의 관찰 / 통계 데이터 세트

## Pandas 공식 문서

공식 문서는 다음 링크에서 확인할 수 있습니다.
- [공식 도큐먼트](https://pandas.pydata.org/docs/reference/index.html)

## Pandas의 Alias 지정

pandas는 `pd`의 alias를 사용합니다.

In [None]:
import pandas as pd

In [None]:
pd

In [None]:
pd.__version__

## Series

[도큐먼트](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html?highlight=series#pandas.Series)

Pandas의 Series는 1차원 배열로서 다음의 특징을 가집니다.

- 데이터를 담는 **차원 배열 구조**를 가집니다.
- **인덱스(index)를 사용 가능**합니다.
- **데이터 타입**을 가집니다. (dtype)

### Series의 생성

`numpy array`로 생성한 경우

In [None]:
# numpy 생성
arr = np.arange(100, 105)
arr

In [None]:
s = pd.Series(arr)
s

`dtype`을 지정하여 생성한 경우

In [None]:
s = pd.Series(arr, dtype='int32')
s

#### **list**로 생성한 경우

In [None]:
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s

#### 다양한 타입(type)의 데이터를 섞은 경우

Series에 다양한 데이터 타입의 데이터로 생성시, **object** 타입으로 생성됩니다.

In [None]:
s = pd.Series([91, 2.5, '스포츠', 4, 5.16])
s

### 연습문제

다음의 Series를 생성하세요.
- dtype은 `float32`가 되도록 생성하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>0     3.0
1     5.0
2     7.0
3     9.0
4    11.0
dtype: float32</pre>

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>0    가
1    나
2    다
3    라
4    마
dtype: object</pre>

## 인덱싱 (indexing)

In [None]:
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s

Series 생성시 0부터 순차적으로 부여되는 index를 확인할 수 있습니다.

이를 `RangeIndex`라 부릅니다.

In [None]:
s.index

인덱싱 사례

In [None]:
s[0]

### fancy indexing

In [None]:
s[[1, 3]]

In [None]:
s[np.arange(1, 4, 2)]

### boolean indexing

조건식을 만들어서 특정 조건에 대하여 `True`에 해당하는 값만 필터링 할 수 있습니다.

In [None]:
np.random.seed(0)
s = pd.Series(np.random.randint(10000, 20000, size=(10,)))
s

boolean series를 생성 후 index로 활용하여 필터합니다.

In [None]:
s > 15000

In [None]:
# 15000 이상인 데이터 필터
s[s > 15000]

기본 값으로 부여되는 `RangeIndex`에 사용자 정의의 `index`를 **지정**할 수 있습니다.

In [None]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'], index=['a', 'b', 'c', 'd', 'e'])
s

In [None]:
s.index

사용자 정의의 index 부여시 **변경된 index**로 조회 가능합니다.

In [None]:
s['c']

In [None]:
s[['a', 'd']]

먼저, `Series`를 생성 후 index 속성 값에 새로운 index를 할당하여 인덱스를 지정할 수 있습니다.

In [None]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'])
s.index

In [None]:
s.index = list('abcde')

In [None]:
s

### 연습문제

다음의 Series를 생성하고 `sample` 변수에 대입하고 출력하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>가    10
나    20
다    30
라    40
마    50
dtype: int64</pre>

`sample`중 **'나'**와 **'라'** 데이터를 조회하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>나    20
라    40
dtype: int64</pre>

In [None]:
np.random.seed(20)
sample2 = pd.Series(np.random.randint(100, 200, size=(15,)))
sample2

`sample2` 중 160 이하인 데이터만 필터하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>2     115
4     128
6     109
7     120
9     122
11    134
13    140
dtype: int64</pre>

`sample2` 중 **130 이상 170 이하**인 데이터만 필터하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>11    134
13    140
dtype: int64</pre>

## 속성 (attribute)

### values

`values`는 Series 데이터 값(value)만 **numpy array** 형식으로 가져 옵니다.

In [None]:
s.values

### ndim - 차원

Series는 1차원 자료구조이기 때문에 ndim 출력시 **1**이 출력됩니다.

In [None]:
s.ndim

### shape

shape은 데이터의 모양(shape)을 알아보기 위하여 사용하는데, Series의 shape은 **데이터의 갯수**를 나타냅니다.

**튜플(tuple)** 형식으로 출력됩니다.

In [None]:
s.shape

### NaN (Not a Number)

Pandas에서 **NaN 값**은 비어있는 **결측치 데이터**를 의미합니다.

임의로 비어있는 값을 대입하고자 할 때는 **numpy의 nan (np.nan)**을 입력합니다.

In [None]:
s = pd.Series(['선화', '강호', np.nan, '소정', '우영'])
s

### 연습문제

다음과 같은 Series를 생성해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>가     apple
나       NaN
다    banana
라      kiwi
마    gubong
dtype: object</pre>

### 결측치 (NaN) 값 처리

`isnull()`과 `isna()`은 **NaN** 값을 찾는 함수 입니다.

`isnull()`과 `isna()`는 결과가 동일합니다.

In [None]:
s.isnull()

In [None]:
s.isna()

이를 boolean indexing에 적용해볼 수 있습니다.

In [None]:
s[s.isnull()]

In [None]:
s[s.isna()]

`notnull()`은 NaN값이 아닌, 즉 비어있지 않은 데이터를 찾는 함수 입니다.

In [None]:
s.notnull()

In [None]:
s.notna()

In [None]:
s[s.notnull()]

### 연습문제

In [None]:
sample = pd.Series(['IT서비스', np.nan, '반도체', np.nan, '바이오', '자율주행'])
sample

`sample` 중 결측치 데이터만 필터하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>1    NaN
3    NaN
dtype: object</pre>

`sample`중 결측치가 아닌 데이터만 필터하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>0    IT서비스
2      반도체
4      바이오
5     자율주행
dtype: object</pre>

## 슬라이싱

**(주의)** 숫자형 index로 접근할 때는 뒷 index가 포함되지 않습니다.

In [None]:
s = pd.Series(np.arange(100, 150, 10))
s

In [None]:
s[1:3]

새롭게 지정한 인덱스(문자열)는 시작 index와 끝 index **모두 포함**합니다.

In [None]:
s.index = list('가나다라마')
s

In [None]:
s['나':'라']

### 연습문제

In [None]:
np.random.seed(0)
sample = pd.Series(np.random.randint(100, 200, size=(10,)))
sample

`sample`에서 다음과 같은 결과를 가지도록 **슬라이싱** 하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>2    164
3    167
4    167
5    109
6    183
dtype: int64</pre>

In [None]:
np.random.seed(0)
sample2 = pd.Series(np.random.randint(100, 200, size=(10,)), index=list('가나다라마바사아자차'))
sample2

`sample2`에서 다음과 같은 결과를 가지도록 **슬라이싱** 하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>바    109
사    183
아    121
자    136
차    187
dtype: int64</pre>

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>가    144
나    147
다    164
dtype: int64</pre>

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>나    147
다    164
라    167
마    167
바    109
dtype: int64</pre>

## DataFrame

[도큐먼트](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

`pd.DataFrame`

- 2차원 데이터 구조 (Excel 데이터 시트를 생각하시면 됩니다)
- 행(row), 열(column)으로 구성되어 있습니다.
- 각 열(column)은 각각의 데이터 타입 (dtype)을 가집니다.

### 생성

**list 를 통한 생성**할 수 있습니다. DataFrame을 만들 때는 **2차원 list를 대입**합니다.

In [None]:
pd.DataFrame([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9]])

아래 예제와 같이 **columns를 지정**하면, DataFrame의 각 열에 대한 컬럼명이 붙습니다.

In [None]:
pd.DataFrame([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9]], columns=['가', '나', '다'])

**dictionary를 통한 생성**도 가능합니다.

편리한 점은 dictionary의 **key 값이 자동으로 column 명으로 지정**됩니다.

In [None]:
data = {
    'name': ['Kim', 'Lee', 'Park'], 
    'age': [24, 27, 34], 
    'children': [2, 1, 3]
}

In [None]:
pd.DataFrame(data)

### 속성

DataFrame은 다음의 **속성**을 가집니다.

- **index**: index (기본 값으로 RangeIndex)
- **columns**: column 명
- **values**: numpy array형식의 데이터 값
- **dtypes**: column 별 데이터 타입
- **T**: DataFrame을 전치(Transpose)

In [None]:
data = {
    'name': ['Kim', 'Lee', 'Park'], 
    'age': [24, 27, 34], 
    'children': [2, 1, 3]
}

df = pd.DataFrame(data)
df

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.values

데이터프레임에서의 `dtypes` 속성은 컬럼별 dtype을 출력합니다

In [None]:
df.dtypes

In [None]:
df.T

### index 지정

In [None]:
df

In [None]:
df.index = list('abc')
df

(참고) DataFrame의 indexing / slicing은 나중에 세부적으로 다루도록 하겠습니다.

### column 다루기

DataFrame에 key 값으로 column의 이름을 지정하여 column을 선택할 수 있습니다.

1개의 column을 가져올 수 있으며, **1개의 column 선택시 Series**가 됩니다.

In [None]:
df['name']

In [None]:
type(df['name'])

2개 이상의 column 선택은 **fancy indexing으로 가능**합니다.

In [None]:
df[['name', 'children']]

(참고) column에 대한 slicing도 가능 하지만 이 부분도 나중에 다루도록 하겠습니다.

**rename**으로 column명 변경 가능합니다.

DataFrame.rename(columns={'바꾸고자 하는 컬럼명': '바꿀 컬럼명'})

In [None]:
df.rename(columns={'name': '이름'})

`inplace=True` 옵션으로 변경사항을 바로 적용할 수 있습니다.

In [None]:
df.rename(columns={'name': '이름'}, inplace=True)
df

### 연습문제

다음의 DataFrame을 생성하세요

- 생성된 DataFrame은 df 변수에 할당합니다.

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>food</th>
      <th>price</th>
      <th>rating</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>KFC</td>
      <td>1000</td>
      <td>4.5</td>
    </tr>
    <tr>
      <th>1</th>
      <td>McDonald</td>
      <td>2000</td>
      <td>3.9</td>
    </tr>
    <tr>
      <th>2</th>
      <td>SchoolFood</td>
      <td>2500</td>
      <td>4.2</td>
    </tr>
  </tbody>
</table>
</div>

food 컬럼과 rating 컬럼만 선택하여 출력하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>food</th>
      <th>rating</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>KFC</td>
      <td>4.5</td>
    </tr>
    <tr>
      <th>1</th>
      <td>McDonald</td>
      <td>3.9</td>
    </tr>
    <tr>
      <th>2</th>
      <td>SchoolFood</td>
      <td>4.2</td>
    </tr>
  </tbody>
</table>
</div>

food 컬럼명을 place로 컬럼명을 변경해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>place</th>
      <th>price</th>
      <th>rating</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>KFC</td>
      <td>1000</td>
      <td>4.5</td>
    </tr>
    <tr>
      <th>1</th>
      <td>McDonald</td>
      <td>2000</td>
      <td>3.9</td>
    </tr>
    <tr>
      <th>2</th>
      <td>SchoolFood</td>
      <td>2500</td>
      <td>4.2</td>
    </tr>
  </tbody>
</table>
</div>