## 데이터분석에 유용한 pandas
pandas 는 데이터 조작 및 분석을 위한 Python 프로그래밍 언어 용으로 작성된
소프트웨어 라이브러리
* Pandas 공식 문서 https://pandas.pydata.org/docs/user_guide/index.html
* Pandas 튜토리얼 10 minutes to pandas https://pandas.pydata.org/docs/user_guide/10min.html

## Pandas 불러오기


In [None]:
# 판다스 라이브러리 불러오기
import pandas

In [None]:
# 판다스 라이브러리를 별칭으로 불러오기
import pandas as pd

In [None]:
# 판다스 & 넘파이 불러오기
import pandas as pd # 데이터 분석에 유용한 판다스
import numpy as np # 배열 연산에 강한 넘파이

## Pandas 자료구조
* 시리즈 : 1차원
* 데이터프레임 : 2차원
* 패널 : 3차원




## Series
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html?highlight=series#pandas.Series

### Series의 생성 : pd.Series()

In [None]:
# range()로 생성한 경우
s = pd.Series(range(10, 21))
s
#type(s)

0     10
1     11
2     12
3     13
4     14
5     15
6     16
7     17
8     18
9     19
10    20
dtype: int64

In [None]:
# list로 생성한 경우
a = ['서울', '대전', '대구', '부산', '제주']
#
s

0     10
1     11
2     12
3     13
4     14
5     15
6     16
7     17
8     18
9     19
10    20
dtype: int64

In [None]:
# 다양한 타입(type)의 데이터를 섞은 경우
s = pd.Series([91, 2.5, '판다스', 'python', 5.16])
s

0        91
1       2.5
2       판다스
3    python
4      5.16
dtype: object

### Series의 index, value

In [None]:
s = pd.Series(['서울', '대전', '대구', '부산', '제주'])
print(s.index)
print(s.values)
print(s[2])
#print(s1[-1]) # 음수 색인 불가능

RangeIndex(start=0, stop=5, step=1)
['서울' '대전' '대구' '부산' '제주']
대구


In [None]:
s = pd.Series(['서울', '대전', '대구', '부산', '제주'], index=['a', 'b', 'c', 'd', 'e'])
print(s.index)
print(s.values)
print(s['c'])
print(s[2])
print(s[-1])

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['서울' '대전' '대구' '부산' '제주']
대구
대구
제주


### fancy indexing

In [None]:
# fancy indexing : index를 선택하여 list로 정의하여 indexing 하는 방법
s[['a','c']]

a    서울
c    대구
dtype: object

In [None]:
# 조건 indexing
s = pd.Series([29, 80, np.nan, 11, 56], index=['a', 'b', 'c', 'd', 'e'])
s[s > 50]

b    80.0
e    56.0
dtype: float64

### 연습문제

다음과 같은 Series를 생성해 주세요

In [None]:
# 코드를 입력해 주세요
s1 = pd.Series(range(50, 55))
s1

0    50
1    51
2    52
3    53
4    54
dtype: int64

<p><strong>[출력 결과]</strong></p><pre>0    50
1    51
2    52
3    53
4    54
dtype: int64</pre>

### NaN (Not a Number)

**NaN 값**은 비어있는 **결측치 데이터**를 의미


In [None]:
# 임의로 비어있는 값을 대입하고자 할 때는 np.nan을 입력
s = pd.Series(['서울', '대전',np.nan, '부산', '제주'])
s

0     서울
1     대전
2    NaN
3     부산
4     제주
dtype: object

In [None]:
print(np.nan==0)
print(np.nan==" ")

False
False


### 결측치 (NaN) 값 처리

In [None]:
s = pd.Series(['서울', '대전',np.nan, '부산', '제주'])
s

0     서울
1     대전
2    NaN
3     부산
4     제주
dtype: object

In [None]:
#isnull()과 isna() :NaN값을 찾는 함수
s.isnull()
#s.isna()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [None]:
s[s.isnull()]

2    NaN
dtype: object

### slicing

In [None]:
s = pd.Series([29, 80, np.nan, 11, 56], index=['a', 'b', 'c', 'd', 'e'])
print(s[1:3]) # (주의) 숫자형 index로 접근할 때는 뒷 index가 포함되지 않음
s['b':'d']

b    80.0
c     NaN
dtype: float64


b    80.0
c     NaN
d    11.0
dtype: float64

## DataFrame https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

- 2차원 데이터 구조 (== Excel 데이터 시트와 유사)
- 행(row), 열(column)으로 구성
- 각 열(column)은 각각의 데이터 타입 (dtype)을 가짐

### DataFrame 생성 : **pd.DataFrame()**

In [None]:
# list로 생성한 경우
pd.DataFrame([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# 컬럼명 지정 추가
pd.DataFrame([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]], columns=['가', '나', '다'])

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# dictionary를 통한 생성, key 값이 자동으로 column 명으로 지정
data = {
    'name': ['Kim', 'Lee', 'Park'],
    'age': [24, 27, 34],
    'children': [2, 1, 3]
}
pd.DataFrame(data)

Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


### DataFrame 속성

- **index**: index
- **columns**: column 명
- **values**: numpy array형식의 데이터 값
- **dtypes**: column 별 데이터 타입
- **T**: DataFrame을 전치(Transpose)

In [None]:
data = {
    'name': ['Kim', 'Park', 'Sin'],
    'age': [24, 28, 34],
    'children': [2, 0, 3]
}

#
df = pd.DataFrame(data)
df

Unnamed: 0,name,age,children
0,Kim,24,2
1,Park,28,0
2,Sin,34,3


In [None]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [None]:
df.columns

Index(['name', 'age', 'children'], dtype='object')

In [None]:
df.values

array([['Kim', 24, 2],
       ['Park', 28, 0],
       ['Sin', 34, 3]], dtype=object)

In [None]:
df.dtypes

name        object
age          int64
children     int64
dtype: object

In [None]:
df.T

Unnamed: 0,0,1,2
name,Kim,Park,Sin
age,24,28,34
children,2,0,3


In [None]:
#df=df.T

In [None]:
df

Unnamed: 0,name,age,children
0,Kim,24,2
1,Park,28,0
2,Sin,34,3


In [None]:
# index 지정
df.index = list('abc')
df

Unnamed: 0,name,age,children
a,Kim,24,2
b,Park,28,0
c,Sin,34,3


### column 다루기

In [None]:
# 1개의 컬럼 추출 > 시리즈
df[['name']]

Unnamed: 0,name
a,Kim
b,Park
c,Sin


In [None]:
type(df['name'])

pandas.core.series.Series

In [None]:
# 2개 이상의 컹럼 추출 > 데이터프레임
df[['name', 'children']]

Unnamed: 0,name,children
a,Kim,2
b,Park,0
c,Sin,3


In [None]:
type(df[['name', 'children']])

pandas.core.frame.DataFrame

In [None]:
# rename()으로 column명 변경
df.rename(columns={'name': '이름'})

Unnamed: 0,이름,age,children
a,Kim,24,2
b,Park,28,0
c,Sin,34,3


In [None]:
df

Unnamed: 0,name,age,children
a,Kim,24,2
b,Park,28,0
c,Sin,34,3


In [None]:
df.rename(columns={'name': '이름'}, inplace=True) # inplace=True 실제로 데이터프레임 변경
df

Unnamed: 0,이름,age,children
a,Kim,24,2
b,Park,28,0
c,Sin,34,3


### 연습문제

다음의 DataFrame을 생성하세요. 생성된 DataFrame은 df 변수에 할당합니다.

In [None]:
import pandas as pd

In [None]:
# 코드를 입력해 주세요
data = {
    'food' : ['KFC', 'McDonald', 'SchoolFood'],
    'price' : [1000, 2000, 2500],
    'rating' : [4.5, 3.9, 4.2]
}

df = pd.DataFrame(data)
df

Unnamed: 0,food,price,rating
0,KFC,1000,4.5
1,McDonald,2000,3.9
2,SchoolFood,2500,4.2


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>food</th>
      <th>price</th>
      <th>rating</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>KFC</td>
      <td>1000</td>
      <td>4.5</td>
    </tr>
    <tr>
      <th>1</th>
      <td>McDonald</td>
      <td>2000</td>
      <td>3.9</td>
    </tr>
    <tr>
      <th>2</th>
      <td>SchoolFood</td>
      <td>2500</td>
      <td>4.2</td>
    </tr>
  </tbody>
</table>
</div>

food 컬럼과 rating 컬럼만 선택하여 출력하세요

In [None]:
# 코드를 입력해 주세요
df[['food', 'rating']]

Unnamed: 0,food,rating
0,KFC,4.5
1,McDonald,3.9
2,SchoolFood,4.2


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>food</th>
      <th>rating</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>KFC</td>
      <td>4.5</td>
    </tr>
    <tr>
      <th>1</th>
      <td>McDonald</td>
      <td>3.9</td>
    </tr>
    <tr>
      <th>2</th>
      <td>SchoolFood</td>
      <td>4.2</td>
    </tr>
  </tbody>
</table>
</div>

food 컬럼명을 place로 컬럼명을 변경해 주세요

In [None]:
# 코드를 입력해 주세요
df.rename(columns={'food' : 'place'}, inplace=True)
df

Unnamed: 0,place,price,rating
0,KFC,1000,4.5
1,McDonald,2000,3.9
2,SchoolFood,2500,4.2


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>place</th>
      <th>price</th>
      <th>rating</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>KFC</td>
      <td>1000</td>
      <td>4.5</td>
    </tr>
    <tr>
      <th>1</th>
      <td>McDonald</td>
      <td>2000</td>
      <td>3.9</td>
    </tr>
    <tr>
      <th>2</th>
      <td>SchoolFood</td>
      <td>2500</td>
      <td>4.2</td>
    </tr>
  </tbody>
</table>
</div>