# 프로그래밍 기초 (Numpy, Pandas, Matplotlib)

# Pandas
- 파이썬 라이브러리 중 하나
- 데이터 프레임을 다루기에 용이함

## 1. Pandas 시작하기
### (1) prerequisite : Table
- pandas는 Table의 역할을 할 수 있다.
- 즉, 행과 열을 이용해서 데이터를 저장하고 관리하는 자료구조(컨테이너)
- 주로 행은 개체, 열은 속성을 나타낸다.

### (2) pandas import 하기

In [5]:
import pandas as pd

## 2. Pandas로 1차원 데이터 다루기 (`pd.Series()`)
- dic처럼 인덱스의 값을 지정해 줄 수 있는 1차원 **array**.

### (1) pd.Series() 사용법

In [7]:
import pandas as pd

# list
s = pd.Series([1, 4, 9, 16, 25])
print(s) # 인덱스와 값이 출력된다.

# dictionary
t = pd.Series({'one':1, 'two':2, 'three':3})
print(t)

0     1
1     4
2     9
3    16
4    25
dtype: int64
one      1
two      2
three    3
dtype: int64


### (2) pd.Series()와 Numpy
- series는 ndarray와 유사하다.
- 조건을 붙여서 값을 불러올 수 있는 기능이 있다.

In [12]:
# index
print(s[1])
print(t[1])

# slicing
print(t[1:3])

# 조건으로 불러올 수 있다.
print(s[s > s.median()]) 
# 자신의 median(중앙값)보다 큰 값을 가져옴 (9보다 큰 값)

# 원하는 인덱스 순서대로 불러오기
print(s[[3, 2, 4]])

# numpy와 함께 사용할 수 있다.
import numpy as np
print(np.exp(s))

# cf. 데이터 타입 확인
s.dtype

4
2
two      2
three    3
dtype: int64
3    16
4    25
dtype: int64
3    16
2     9
4    25
dtype: int64
0    2.718282e+00
1    5.459815e+01
2    8.103084e+03
3    8.886111e+06
4    7.200490e+10
dtype: float64


dtype('int64')

### (3) pd.Series()와 Dictionary
- series는 Dictionary와도 유사하다.

In [17]:
# index
print(t['two'])

# 값 추가
t['four']=4
print(t)

# key 값 유무 확인
print('six' in t)

# .get()으로 key값 유무 확인 후 없으면 원하는 값 반환
print(t.get('six', 18))


2
one      1
two      2
three    3
four     4
dtype: int64
False
18


### (4) pd.Series()에 이름 붙이기
- Series는 `name` 속성을 가진다.
- 처음 Series를 만들 때 이름을 붙일 수 있다.

In [22]:
s = pd.Series(np.random.randn(5), name="random_nums")
print(s) # name을 붙여서 각 Series 관리 가능

# 이름 변경
s.name = "임의의 변수"
s

0   -0.011571
1    0.082735
2    0.609933
3   -0.404719
4    0.569367
Name: random_nums, dtype: float64


0   -0.011571
1    0.082735
2    0.609933
3   -0.404719
4    0.569367
Name: 임의의 변수, dtype: float64

## 3. Pandas로 2차원 데이터 다루기 (`pd.DataFrame()`)
- 인덱스가 가능한 2차원 labeled **table**. 
- key와 value가 존재하는 자료구조

### (1) pd.DataFrame() 사용법

In [24]:
d = {"height":[1,2,3,4], "weight":[30,40,50,60]}
df = pd.DataFrame(d)
df

Unnamed: 0,height,weight
0,1,30
1,2,40
2,3,50
3,4,60


### (2) pd.DataFrame()에서 dtype 확인의 중요성
- DataFrame은 column에 다양한 데이터 타입을 넣을 수 있으므로 각 column들에 어떤 데이터 타입이 들어있는지 확인해줄 필요가 있음

In [25]:
# numpy의 dtype 확인법
# np.array.dtype

# pandas의 dtype 확인법
# 여러 column이 존재하므로 .dtypes로 확인한다.
df.dtypes

height    int64
weight    int64
dtype: object

### (3) pd.DataFrame()로 CSV(Comma Separated Value) File를 dataframe화 하기 (`.read_csv()`)
- 엑셀 데이터들을 쉽게 dataframe화 하기

- country_wise_latest.csv 파일 from kaggle
https://www.kaggle.com/datasets/imdevskp/corona-virus-report?resource=download
- 파일을 사용하는 같은 경로에 저장해야함.

- 구글 계정으로 로그인, 계정 이름 : jit hoon

In [26]:
# 동일 경로에 csv 파일이 존재하면 : 
covid = pd.read_csv("./country_wise_latest.csv")
covid

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.50,69.49,5.04,35526,737,2.07,Eastern Mediterranean
1,Albania,4880,144,2745,1991,117,6,63,2.95,56.25,5.25,4171,709,17.00,Europe
2,Algeria,27973,1163,18837,7973,616,8,749,4.16,67.34,6.17,23691,4282,18.07,Africa
3,Andorra,907,52,803,52,10,0,0,5.73,88.53,6.48,884,23,2.60,Europe
4,Angola,950,41,242,667,18,1,0,4.32,25.47,16.94,749,201,26.84,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
182,West Bank and Gaza,10621,78,3752,6791,152,2,0,0.73,35.33,2.08,8916,1705,19.12,Eastern Mediterranean
183,Western Sahara,10,1,8,1,0,0,0,10.00,80.00,12.50,10,0,0.00,Africa
184,Yemen,1691,483,833,375,10,4,36,28.56,49.26,57.98,1619,72,4.45,Eastern Mediterranean
185,Zambia,4552,140,2815,1597,71,1,465,3.08,61.84,4.97,3326,1226,36.86,Africa


## Pandas 활용
### (1) data frame의 일부분만 관찰하기 (`head(n)`, `tail(n)`)
- `head(n)` : 처음 n개의 데이터 참조
- `tail(n)` : 마지막 n개의 데이터 참조

In [30]:
# 위에서부터 5개를 관찰하는 함수
covid.head(5)

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
182,West Bank and Gaza,10621,78,3752,6791,152,2,0,0.73,35.33,2.08,8916,1705,19.12,Eastern Mediterranean
183,Western Sahara,10,1,8,1,0,0,0,10.0,80.0,12.5,10,0,0.0,Africa
184,Yemen,1691,483,833,375,10,4,36,28.56,49.26,57.98,1619,72,4.45,Eastern Mediterranean
185,Zambia,4552,140,2815,1597,71,1,465,3.08,61.84,4.97,3326,1226,36.86,Africa
186,Zimbabwe,2704,36,542,2126,192,2,24,1.33,20.04,6.64,1713,991,57.85,Africa


In [31]:
# 아래에서부터 5개를 관찰하는 함수
covid.tail(5)

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
182,West Bank and Gaza,10621,78,3752,6791,152,2,0,0.73,35.33,2.08,8916,1705,19.12,Eastern Mediterranean
183,Western Sahara,10,1,8,1,0,0,0,10.0,80.0,12.5,10,0,0.0,Africa
184,Yemen,1691,483,833,375,10,4,36,28.56,49.26,57.98,1619,72,4.45,Eastern Mediterranean
185,Zambia,4552,140,2815,1597,71,1,465,3.08,61.84,4.97,3326,1226,36.86,Africa
186,Zimbabwe,2704,36,542,2126,192,2,24,1.33,20.04,6.64,1713,991,57.85,Africa


### (2) data frame의 원하는 데이터 불러오기 (`df['column_name']`, `df.column_name`)
- `df['column_name']` : column name에 띄어쓰기와 같은 문자가 있을 때 dic의 key를 불러오는 형태로 사용할 수 있음

In [33]:
covid["Country/Region"]

0             Afghanistan
1                 Albania
2                 Algeria
3                 Andorra
4                  Angola
              ...        
182    West Bank and Gaza
183        Western Sahara
184                 Yemen
185                Zambia
186              Zimbabwe
Name: Country/Region, Length: 187, dtype: object

### `☘️ 꿀팁`
- `data값들의 column, low가 datatype이 대부분 Series인 경우가 많기 때문에 Series의 특성을 적용할 수 있다.`

In [37]:
type(covid['Confirmed'])

covid['Confirmed'][:4]

0    36263
1     4880
2    27973
3      907
Name: Confirmed, dtype: int64

### (3) 조건을 이용하여 data 가져오기 (`covid[조건...]`)

In [40]:
# 신규 확진자가 10000명이 넘는 나라를 찾아보자!
covid["New cases"] > 10000 # True or False로 반환
covid[covid["New cases"] > 10000] 

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
23,Brazil,2442375,87618,1846641,508116,23284,614,33728,3.59,75.61,4.74,2118646,323729,15.28,Americas
37,Colombia,257101,8777,131161,117163,16306,508,11494,3.41,51.02,6.69,204005,53096,26.03,Americas
79,India,1480073,33408,951166,495499,44457,637,33598,2.26,64.26,3.51,1155338,324735,28.11,South-East Asia
132,Peru,389717,18418,272547,98752,13756,575,4697,4.73,69.93,6.76,357681,32036,8.96,Americas
173,US,4290259,148011,1325804,2816444,56336,1076,27941,3.45,30.9,11.16,3834677,455582,11.88,Americas


### `☘️ 꿀팁2 covid['key이름'].unique()`
- `column의 각 데이터들을 겹치지 않게 불러올 수 있음`

In [51]:
covid["WHO Region"].unique()

array(['Eastern Mediterranean', 'Europe', 'Africa', 'Americas',
       'Western Pacific', 'South-East Asia'], dtype=object)

In [53]:
covid[(covid["WHO Region"] == 'South-East Asia') | (covid["WHO Region"] == 'Eastern Mediterranean')]

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.5,69.49,5.04,35526,737,2.07,Eastern Mediterranean
12,Bahrain,39482,141,36110,3231,351,1,421,0.36,91.46,0.39,36936,2546,6.89,Eastern Mediterranean
13,Bangladesh,226225,2965,125683,97577,2772,37,1801,1.31,55.56,2.36,207453,18772,9.05,South-East Asia
19,Bhutan,99,0,86,13,4,0,1,0.0,86.87,0.0,90,9,10.0,South-East Asia
27,Burma,350,6,292,52,0,0,2,1.71,83.43,2.05,341,9,2.64,South-East Asia
48,Djibouti,5059,58,4977,24,9,0,11,1.15,98.38,1.17,5020,39,0.78,Eastern Mediterranean
52,Egypt,92482,4652,34838,52992,420,46,1007,5.03,37.67,13.35,88402,4080,4.62,Eastern Mediterranean
79,India,1480073,33408,951166,495499,44457,637,33598,2.26,64.26,3.51,1155338,324735,28.11,South-East Asia
80,Indonesia,100303,4838,58173,37292,1525,57,1518,4.82,58.0,8.32,88214,12089,13.7,South-East Asia
81,Iran,293606,15912,255144,22550,2434,212,1931,5.42,86.9,6.24,276202,17404,6.3,Eastern Mediterranean


### (4) 인덱스를 이용해서 Low data 가져오기 : `.loc[row, col]`, `.iloc[row, col]`

In [54]:
# 예시 데이터 - 도서관 정보

books_dict = {"Available": [True, True, False], "Location":[102, 215, 323], "Genre":["Programming", "Physics", "Math"]}
# Column : Available, Location, Genre

# pd.DataFrame(dic 변수, index=[])를 통해 인덱스 이름 지정 가능
books_df = pd.DataFrame(books_dict, index=['버그란 무엇인가', '두근두근 물리학', '미분해줘 홈즈'])
books_df

Unnamed: 0,Available,Location,Genre
버그란 무엇인가,True,102,Programming
두근두근 물리학,True,215,Physics
미분해줘 홈즈,False,323,Math


In [66]:
# low의 dtype 또한 Series
type(books_df.loc["버그란 무엇인가"])

# index 이름을 쳐서 가져오기
print(books_df.loc["버그란 무엇인가", 'Location'])
 
# index 숫자를 쳐서 가져오기 
print(books_df.iloc[0,1])
print(books_df.iloc[0:2,2])

102
102
버그란 무엇인가    Programming
두근두근 물리학        Physics
Name: Genre, dtype: object


### (5) 데이터를 가져오는 과정 (`.groupby()`) : `Split` -> `Apply` -> `Combine`

- `Split` : 특정한 기준을 바탕으로 DataFrame  분할
- `Apply` : 통계함수 sum(), median(), mean() 등을 적용하여 DataFrame 압축
- `Combine` : 압축된 결과를 바탕으로 새로운 Series 생성 (group_key : applied_value)

In [67]:
covid.head(5)

Unnamed: 0,Country/Region,Confirmed,Deaths,Recovered,Active,New cases,New deaths,New recovered,Deaths / 100 Cases,Recovered / 100 Cases,Deaths / 100 Recovered,Confirmed last week,1 week change,1 week % increase,WHO Region
0,Afghanistan,36263,1269,25198,9796,106,10,18,3.5,69.49,5.04,35526,737,2.07,Eastern Mediterranean
1,Albania,4880,144,2745,1991,117,6,63,2.95,56.25,5.25,4171,709,17.0,Europe
2,Algeria,27973,1163,18837,7973,616,8,749,4.16,67.34,6.17,23691,4282,18.07,Africa
3,Andorra,907,52,803,52,10,0,0,5.73,88.53,6.48,884,23,2.6,Europe
4,Angola,950,41,242,667,18,1,0,4.32,25.47,16.94,749,201,26.84,Africa


In [76]:
# WHO Region 별 확진자수 확인하기

# `Split`
# 1. Column 확진자 수를 보고싶은데
# 2. WHO Region을 기준으로 보고싶엉 by.groupby
covid_Confirmed_by_Region = covid['Confirmed'].groupby(by=covid["WHO Region"])

# Split만 한 상태이기 때문에 객체 형태로 출력됨
print(covid_Confirmed_by_Region)
print()

# `Apply`
print(covid_Confirmed_by_Region.sum())
print()

# 'Combine' (기존 Apply의 문제점을 해결하는 새로운 Series 생성)
print(covid_Confirmed_by_Region.mean())
print()

<pandas.core.groupby.generic.SeriesGroupBy object at 0x13a76ef70>

WHO Region
Africa                    723207
Americas                 8839286
Eastern Mediterranean    1490744
Europe                   3299523
South-East Asia          1835297
Western Pacific           292428
Name: Confirmed, dtype: int64

WHO Region
Africa                    15066.812500
Americas                 252551.028571
Eastern Mediterranean     67761.090909
Europe                    58920.053571
South-East Asia          183529.700000
Western Pacific           18276.750000
Name: Confirmed, dtype: float64



## 실습
### 1. covid 데이터에서 100 case 대비 사망률(Deaths / 100 cases)이 가장 높은 국가는?

### 2. covid 데이터에서 신규 확진자가 없는 나라 중 WHO Regiondl 'Europe'를 모두 출력하면?