# 2. 파이썬으로 데이터 주무르기, pandas
**pandas를 활용해서 데이터프레임을 다뤄봅시다.**

1. Pandas 시작하기
    - prerequisite : Table
    - pandas import하기
   
2. Pandas로 1차원 데이터 다루기 - Series 
    - Series 선언하기
    - Series vs ndarray
    - Series vs dict
    - Series에 이름 붙이기
3. Pandas로 2차원 데이터 다루기 - dataframe
    - dataframe 선언하기
    - from csv to dataframe
    - dataframe 자료 접근하기

[수업에 사용된 covid 데이터](https://www.kaggle.com/imdevskp/corona-virus-report)

## I. pandas 시작하기

### Prerequisite : Table
- 행과 열을 이용해서 데이터를 저장하고 관리하는 자료구조(컨테이너)
- 주로 행을 개체, 열은 속성을 나타냄

### Pandas 시작하기
`import pandas`를 통해서 진행

In [2]:
import pandas as pd

## II. pandas로 1차원 데이터 다루기 - Series

### Serise?
- 1-D labeled ***array***
- 인덱스를 지정해줄 수 있음

In [None]:
s = pd.Series([1,4,9,16,25])

s

In [None]:
t = pd.Series({'one':1, 'two':2, 'three':3, 'four':4, 'five':5})

t

### ***Serise + Numpy***
- Serise는 ndarray와 유사하다!

In [None]:
s[1]

In [None]:
t[1]

In [None]:
t[1:3]

In [None]:
s[s > s.median()] #자기 자신의 median(중앙값)보다 큰 값들만 가지고 와라

In [None]:
s[[3,1,4]]

In [None]:
import numpy as np

np.exp(s)

In [None]:
s.dtype

### Series + dict
- series는 dict와 유사하다

In [None]:
t

In [None]:
t['one']

In [None]:
# Series에 값 추가
t['six'] = 6

t

In [None]:
'six' in t

In [None]:
'seven' in t

In [None]:
#t['seven']

In [None]:
t.get('seven')

In [None]:
t.get('seven',0)

### Series에 이름 붙이기
- `name` 속성을 가지고 있다.
- 처음 Series를 만들 때 이름을 붙일 수 있습니다.

In [1]:
s = pd.Series(np.random.randn(5), name="random_nums")

s

SyntaxError: invalid syntax (1668972034.py, line 2)

In [None]:
s.name = "임의의 난수"

In [None]:
s

## III. Pandas로 2차원 데이터 다루기 - dataframe

### dataframe?
- 2-D labeled ***table***
- 인덱스를 지정할 수도 있음

In [None]:
d = {"height":[1,2,3,4], "weight":[30,40,50,60]}

df = pd.DataFrame(d)

df

In [None]:
## dtype 확인

df.dtypes

In [None]:
# 동일 경로에 country_wise_latest.csv가 존재하면:

covid = pd.read_csv("./country_wise_latest.csv")

covid

### Pandas 활용 1.일부분만 관찰하기

`head(n)`: 처음 n개의 데이터 참조

In [None]:
# 위에서부터 5개를 관찰하는 방법(함수)

covid.head(5)

In [None]:
# 아래에서부터 5개를 관찰하는 방법(함수)

covid.tail(5)

### Pandas 활용 2. 데이터 접근하기

- `df['column_name']` or `df.column_name`

In [None]:
covid['Confirmed']

In [None]:
covid.Active #컬럼 네임에 띄어쓰기가 있으면 사용할 수 없음

### Honey Tip! Dataframe의 각 column은 "Series"다!

In [None]:
covid['Confirmed'][0]

In [None]:
covid['Confirmed'][1:5]

### Pandas 활용 3. "조건"을 이용해서 데이터 접근하기

In [None]:
# 신규 확진자가 100명이 넘는 나라를 찾아보자!

covid[covid['New cases'] > 100].head(5)

In [None]:
# WHO 지역(WHO Region)이 동남아시아인 나라 찾기

covid['WHO Region'].unique()

In [None]:
covid[covid['WHO Region'] == 'South-East Asia']

### Pandas 활용 4. 행을 기준으로 데이터 접근하기

In [None]:
# 예시 데이터 - 도서관 정보

books_dict = {"Available":[True, True, False], "Location":[102, 215, 323], "Genre":["Programming", "Physics", "Math"]}

books_df = pd.DataFrame(books_dict, index=['버그란 무엇인가', '두근두근 물리학', '미분해줘 홈즈'])

books_df

### 인덱스를 이용해서 가져오기 : `.loc[row, col]`

In [None]:
books_df.loc["버그란 무엇인가"]

In [None]:
# "미분해줘 홈즈 책이 대출가능한지?"

books_df.loc["미분해줘 홈즈", 'Available']

### 숫자 인덱스를 이용해서 가져오기 : `.iloc[rowidx, colidx]`

In [None]:
# 인덱스 0행의 인덱스 1열 가지고 오기

books_df.iloc[0, 1]

In [None]:
# 인덱스 1행의 인덱스 0~1열 가지고오기

books_df.iloc[1, 0:2]

### Pandas 활용 5. groupby

- Split : 특정한 "기준"을 바탕으로 DataFrame을 분할
- Apply : 통계함수 - sum(), mean(), median(), 등을 적용해서 각 데이터를 압축
- Combine : Apply된 결과를 바탕으로 새로운 Series를 생성 (group_key: applied_value)

`.groupby()`

In [None]:
covid.head(5)

In [None]:
# WHO Region 별 확진자 수

# 1. covid에서 확진자 수 column만 추출한다
# 2. 이를 covid의 WHO Region을 기준으로 groupby한다.

covid_by_region = covid['Confirmed'].groupby(by=covid["WHO Region"])

covid_by_region

In [None]:
covid_by_region.sum()

In [None]:
# 국가당 감염자 수

covid_by_region.mean() # sum() / 국가 수

## Mission:
### 1. covid 데이터에서 100 case 대비 사망률(`Deaths / 100 Cases`)이 가장 높은 국가는?

### 2. covid 데이터에서 신규 확진자가 없는 나라 중 WHO Region이 'Europe'를 모두 출력하면?  
Hint : 한 줄에 동시에 두가지 조건을 Apply하는 경우 Warning이 발생할 수 있습니다.

### 3. 다음 [데이터](https://www.kaggle.com/neuromusic/avocado-prices)를 이용해 각 Region별로 아보카도가 가장 비싼 평균가격(AveragePrice)을 출력하면?