## I. Pandas 시작하기
***Prerequisite: Table***
- 행/ 열을 이용해 데이터 저장하고 관리하는 자료구조 (컨테이너)
- 주로 행은 객체, 열은 속성

### Pandas 시작하기
`import pandas` 이용

In [4]:
import pandas as pd

-----------

## II. Pandas로 1D 데이터 다루기 - Series

**Series**
- 1-D labeled array
- 인덱스 지정해 줄 수 있음
- Numpy array와 유사함 (Numpy func.들과 호환 가능)
- Dictionary와도 유사
- `pd.dtype` 이용해 데이터 타입 얻을 수 있음 

In [3]:
s= pd.Series([1,3,4,5,6])
s


0    1
1    3
2    4
3    5
4    6
dtype: int64

In [97]:
s= pd.Series({'one':1, 'two':2, 'three':3})
s

one      1
two      2
three    3
dtype: int64

**NUMPY와의 유사성**

In [14]:
#indexcing & slicing
print(s[1:3])
print(s[[1,2]]) ##multi indexing 가넝

two      2
three    3
dtype: int64
two      2
three    3
dtype: int64


In [12]:
s[s > s.median()] #s의 median보다 큰 값만 반환

three    3
dtype: int64

In [18]:
#numpy 함수 적용 가능
import numpy as np
np.exp(s)

one       2.718282
two       7.389056
three    20.085537
dtype: float64

**DICTIONARY와의 유사성**

In [98]:
s['one'] #index를 Dictionary의 'key'처럼 

1

In [26]:
'five' in s

False

#### Series에 이름 붙이기
- `name` 속성을 가지고 있음 
-  처음 Series 만들 때 이름 붙일 수 있음

In [29]:
s=pd.Series(np.random.randn(5), name='random_nums')
s

0    1.328892
1   -1.970912
2    1.023841
3    1.173661
4   -0.677546
Name: random_nums, dtype: float64

In [31]:
s.name='임의의 난수들'

In [34]:
s

0    1.328892
1   -1.970912
2    1.023841
3    1.173661
4   -0.677546
Name: 임의의 난수들, dtype: float64

--------
## III. Pandas로 2D 데이터 다루기 - dataframe
- **`pd.DataFrame`**
- 2D labeled **table**
- Index 지정 가능
- 데이터 타입은 각 열 별로 상이할 수 있음>> **`df.dtypes`**
- CSV (Comma Seperated Values) >> dataframe으로 열 수 있음
   **`.read_csv()`**


In [38]:
D={'height':[1,2,3,4],'wieght':[30,40,50,60]}
df= pd.DataFrame(D)
df

Unnamed: 0,height,wieght
0,1,30
1,2,40
2,3,50
3,4,60


**COVID-19.csv를 DataFrame으로 불러오기**

In [2]:
root= '/Users/jiwookim/Library/Mobile Documents/com~apple~CloudDocs/Documents/Academy/2022CNU_SW_ACADEMY/Programmers/covid-19/country_wise_latest.csv'

In [5]:
covid= pd.read_csv(root)
covid.head()

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.5,69.49,5.04,35526,737,2.07,Eastern Mediterranean
1,Albania,4880,144,2745,1991,117,6,63,2.95,56.25,5.25,4171,709,17.0,Europe
2,Algeria,27973,1163,18837,7973,616,8,749,4.16,67.34,6.17,23691,4282,18.07,Africa
3,Andorra,907,52,803,52,10,0,0,5.73,88.53,6.48,884,23,2.6,Europe
4,Angola,950,41,242,667,18,1,0,4.32,25.47,16.94,749,201,26.84,Africa


In [50]:
covid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 187 entries, 0 to 186
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Country/Region          187 non-null    object 
 1   Confirmed               187 non-null    int64  
 2   Deaths                  187 non-null    int64  
 3   Recovered               187 non-null    int64  
 4   Active                  187 non-null    int64  
 5   New cases               187 non-null    int64  
 6   New deaths              187 non-null    int64  
 7   New recovered           187 non-null    int64  
 8   Deaths / 100 Cases      187 non-null    float64
 9   Recovered / 100 Cases   187 non-null    float64
 10  Deaths / 100 Recovered  187 non-null    float64
 11  Confirmed last week     187 non-null    int64  
 12  1 week change           187 non-null    int64  
 13  1 week % increase       187 non-null    float64
 14  WHO Region              187 non-null    ob


### Pandas 활용 1. 데이터의 일부분 확인
- `.head(n)`: 0행 부터 ~ n행 확인 (default: 5)
- `.tail(n)`: 가장 마지막 행에서 ~ n 행 확인 (default: 5)

### Pandas 활용 2. 데이터 접근
- `df['column name']` or `df.'column name'`
- 후자의 경우 space 들어간 column name 가져오기 힘듦.

<span style='color: orange'>**Honey Tip!**</span>
Dataframe의 각 columm은 'Series'다!

In [53]:
covid['Active']

0      9796
1      1991
2      7973
3        52
4       667
       ... 
182    6791
183       1
184     375
185    1597
186    2126
Name: Active, Length: 187, dtype: int64

In [56]:
covid.Active

0      9796
1      1991
2      7973
3        52
4       667
       ... 
182    6791
183       1
184     375
185    1597
186    2126
Name: Active, Length: 187, dtype: int64

### Pandas 활용 3. "조건"을 이용해서 데이터 접근
특정 열이 주어진 조건에 <span style='color: green'>**True**</span>인 데이터 추출

<span style='color: royalblue'>**EXAMPLE 1** *신규 확진자가 100명이 넘는 나라를 찾아보자!* </span>

In [67]:
over100= covid['New cases'] > 100 #조건: T - 100이상 
#조건부 boolean output을 원 데이터에 key로 넣어주면 조건을 만족하는 index(국가)의 모든 데이터 columns 까지 얻을 수 있음 
over100= covid[over100] 
over100.head()

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.5,69.49,5.04,35526,737,2.07,Eastern Mediterranean
1,Albania,4880,144,2745,1991,117,6,63,2.95,56.25,5.25,4171,709,17.0,Europe
2,Algeria,27973,1163,18837,7973,616,8,749,4.16,67.34,6.17,23691,4282,18.07,Africa
6,Argentina,167416,3059,72575,91782,4890,120,2057,1.83,43.35,4.21,130774,36642,28.02,Americas
8,Australia,15303,167,9311,5825,368,6,137,1.09,60.84,1.79,12428,2875,23.13,Western Pacific


<span style='color: royalblue'>**EXAMPLE 2** *WHO Region이 동남아시아인 나라 찾아보자!* </span>

In [72]:
# 1. WHO Region의 unique value >> '동남아시아'의 저장명 알아보기
covid['WHO Region'].unique()

array(['Eastern Mediterranean', 'Europe', 'Africa', 'Americas',
       'Western Pacific', 'South-East Asia'], dtype=object)

In [78]:
# 2. 조건
SEAsia= covid['WHO Region'] == 'South-East Asia'
SEAsia= covid[SEAsia]
SEAsia.head()

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
13,Bangladesh,226225,2965,125683,97577,2772,37,1801,1.31,55.56,2.36,207453,18772,9.05,South-East Asia
19,Bhutan,99,0,86,13,4,0,1,0.0,86.87,0.0,90,9,10.0,South-East Asia
27,Burma,350,6,292,52,0,0,2,1.71,83.43,2.05,341,9,2.64,South-East Asia
79,India,1480073,33408,951166,495499,44457,637,33598,2.26,64.26,3.51,1155338,324735,28.11,South-East Asia
80,Indonesia,100303,4838,58173,37292,1525,57,1518,4.82,58.0,8.32,88214,12089,13.7,South-East Asia


### Pandas 활용 4. 행을 기준으로 데이터 접근하기

In [85]:
# 예시 데이터 생성 : 도서관 정보
booksD= {'Available':[True,True,False],'Location':[102,214,323], 'Genre':['Programming','Physics','Math']}
books_df= pd.DataFrame(booksD, index=['버그란 무엇인가','두근두근 물리학','미분해줘 홈즈'])
books_df

Unnamed: 0,Available,Location,Genre
버그란 무엇인가,True,102,Programming
두근두근 물리학,True,214,Physics
미분해줘 홈즈,False,323,Math


<span style='color: royalblue'>**1. Index Name 이용해서 가져오기: `.loc['row','col']`** </span>

In [87]:
# 책 '버그란 무엇인가'의 정보
books_df.loc['버그란 무엇인가']

Available           True
Location             102
Genre        Programming
Name: 버그란 무엇인가, dtype: object

In [90]:
# '미분해줘 홈즈 책이 대출 가능한가?'
print(books_df.loc['미분해줘 홈즈'].Available == True)

print(books_df.loc['미분해줘 홈즈','Available'] == True)

False
False


<span style='color: royalblue'>**2. Index Number 이용해서 가져오기: `.iloc['rowidx','colidx']`** </span>
* slicing 가능!

In [93]:
books_df.iloc[0,1]

102

In [95]:
books_df.iloc[0,:]

Available           True
Location             102
Genre        Programming
Name: 버그란 무엇인가, dtype: object

### Pandas 활용 5. Groupby
`.groupby()`
- **SPLIT** 특정한 '기준'을 바탕을 Dataframe 분할
- **APPLY** 통계함수 `sum()`, `mean()`, `median()`을 적용해서 각 데이터를 압축 
- **COMBINE** Apply된 결과를 바탕으로 새로운 Series 생성 (group_key: applied_value)

특정 열을 기준으로 다른 열을 통계

In [100]:
covid.head()

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.5,69.49,5.04,35526,737,2.07,Eastern Mediterranean
1,Albania,4880,144,2745,1991,117,6,63,2.95,56.25,5.25,4171,709,17.0,Europe
2,Algeria,27973,1163,18837,7973,616,8,749,4.16,67.34,6.17,23691,4282,18.07,Africa
3,Andorra,907,52,803,52,10,0,0,5.73,88.53,6.48,884,23,2.6,Europe
4,Angola,950,41,242,667,18,1,0,4.32,25.47,16.94,749,201,26.84,Africa


<span style='color: royalblue'>**EXAMPLE 1** *WHO Region 별 확진자 수는?* </span><br><br>
<span style='color: gray'>\* *Prograss: <br>
(1) covid에서 확진자 수 (Confirmed)만 추출한다.<br>
(2) 이를 covid의 WHO Region을 기준으로 groupby 한다.*<br>   
</span>

In [113]:
covid_byregion= covid['Confirmed'].groupby(by= covid['WHO Region'])
covid_byregion
    

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7fa5a22f1d50>

<span style='color: gray'> 위의 경우 output은 SeriesGroupBy object<br>
--> Dataframe이 **'Split'**만 되었기 때문!<br>  
**Apply** 와 **Combine**을 해주어야 우리가 기대하는 결과를 얻을 수 있음!
</span>

In [114]:
covid_byregion.sum()

WHO Region
Africa                    723207
Americas                 8839286
Eastern Mediterranean    1490744
Europe                   3299523
South-East Asia          1835297
Western Pacific           292428
Name: Confirmed, dtype: int64

In [117]:
covid_byregion.mean() #pandas는 groupby된 values의 '국가 수'를 알기 때문에 따로 평균 ?개 지정해주지 않아도 ㅇㅋ


WHO Region
Africa                    15066.812500
Americas                 252551.028571
Eastern Mediterranean     67761.090909
Europe                    58920.053571
South-East Asia          183529.700000
Western Pacific           18276.750000
Name: Confirmed, dtype: float64

______
### \*\*Mission:
#### 1. covid 데이터에서 100case 대비 사망률(Death / 100 Cases)이 가장 높은 국가는?

In [47]:
Dratio= covid['Deaths / 100 Cases'].groupby(by=covid['Country/Region'])
Dratio_df=pd.DataFrame(Dratio.sum())

# [Dratio_df == Dratio_df.max()]
Dratio.max()


Country/Region
Afghanistan            3.50
Albania                2.95
Algeria                4.16
Andorra                5.73
Angola                 4.32
                      ...  
West Bank and Gaza     0.73
Western Sahara        10.00
Yemen                 28.56
Zambia                 3.08
Zimbabwe               1.33
Name: Deaths / 100 Cases, Length: 187, dtype: float64