# Week 5: Data Analysis Using NumPy and Pandas 2

## 1.Pandas Basics

Pandas는 numpy 기반으로 개발된 자료구조이다.
R과 비슷한 데이터프레임과 이를 조작하기 위한 메소드를 제공한다.

Pandas를 사용하기 위해서 다음과 같이 라이브러리를 import 한다. numpy도 주로 같이 사용하니 같이 import 한다.

In [1]:
import pandas as pd
import numpy as np

### 1.1 Pandas의 자료구조

Pandas는 Series와 DataFrame 이라는 두개의 자료구조를 제공한다.

#### Series
Series는 요소(객체)를 담을 수 있는 1차원 배열 자료구조.

In [2]:
a = pd.Series([1, 2, 3, 4])
a

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
a.values

array([1, 2, 3, 4], dtype=int64)

In [4]:
a.index

RangeIndex(start=0, stop=4, step=1)

#### DataFrame
DataFrame은 스프레드시트의 표같은 형식의 자료구조로 여러 column으로 구성되어 있다. 각각의 컬럼은 다른 형식의 데이터를 담을 수 있다.

In [5]:
data = {  
    'state':["PA", "NY", "CO", "CA"],  
    'population':[100, 200, 300, 400],  
    'size':[10, 20, 30, 40]
}

In [6]:
b = pd.DataFrame(data)
b

Unnamed: 0,state,population,size
0,PA,100,10
1,NY,200,20
2,CO,300,30
3,CA,400,40


### 1.2 Reading Data

Pandas는 `read_csv()`라는 CSV 파일을 읽어주는 함수를 제공합니다.

(참고) Excel 파일을 읽는 함수도 제공합니다. `ExcelFile(), read_excel()`
```
* df = pd.ExcelFile("dummydata.xlsx")
* df = pd.read_excel(open('your_xls_xlsx_filename','rb'), sheetname='Sheet 1')
```

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
data = pd.read_csv("/content/drive/MyDrive/_DataJournalism_2022/Week5/weather_year.csv")

In [None]:
data
len(data)

columns 명령어는 데이터의 column을 보여준다. 

In [None]:
data.columns

특정 column을 읽어오려면 다음과 같이 사용한다.

In [None]:
data['EDT']

Array를 이용하여 여러개의 column을 불러올 수도 있다.

In [None]:
data[['EDT', 'Max TemperatureF', 'Mean TemperatureF']]

`describe()` 명령어는 기초 통계값을 보여준다. 다만 숫자 데이터에만 적용된다.

In [None]:
data[['EDT', 'Max TemperatureF', 'Mean TemperatureF']].describe()

만약 column 이름에 공백이 없다면, **```data.column_name```** 형태로 사용할 수 있다.

In [None]:
data.EDT # only works when the column name has no space

`head()`는 처음 다섯개의 샘플 데이터를 보여준다. 데이터가 어떻게 생겼는지 파악할 때 큰 도움이 된다.

In [None]:
data.head()

`data.head(num)`는 원하는 수 num 만큼의 데이터를 보여준다.

In [None]:
data[['EDT', 'Max TemperatureF', 'Mean TemperatureF']].head(10)

`tail()` 함수는 `head()`와 반대로 맨 아래 다섯개의 데이터를 보여
준다.

In [None]:
data[['EDT', 'Max TemperatureF', 'Mean TemperatureF']].tail()

다시 columns 를 출력해보자.

In [None]:
data.columns

columns의 이름을 살펴보니 단어 중간이나 앞부분에 공백이 있기도 하고 너무 길어서 데이터 처리에 불편하다. 그래서 다음과 같은 방법으로 columns의 이름을 고쳐보도록 하자. 

In [None]:
data.columns = ["date", "max_temp", "mean_temp", "min_temp", "max_dew",
                "mean_dew", "min_dew", "max_humidity", "mean_humidity",
                "min_humidity", "max_pressure", "mean_pressure",
                "min_pressure", "max_visibilty", "mean_visibility",
                "min_visibility", "max_wind", "mean_wind", "min_wind",
                "precipitation", "cloud_cover", "events", "wind_dir"]

In [None]:
data.head()

column의 이름을 바꿀 때는 원래의 column의 숫자와 동일하게 이름의 array를 만들어줘야 한다. 그렇지 않으면 에러가 발생.

In [None]:
data.min_temp.head()

In [None]:
data.min_temp.std()

Pandas는 자체적으로 matplotlib을 지원한다. 따라서 간단하게 데이터의 그래프를 그릴 수 있다.

Jupyter Notebook에서 그래프를 보이게 하려면 다음과 같은 명령어를 입력한다. (CoLab 에서는 필요 없는 듯)

`%matplotlib inline`

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt  

# 이 코드에서 실제로 plt 는 사용하지 않지만, 후에 matplotlob.pyplot를 이용해 그림을 그린다면 필요

In [None]:
data.min_temp.hist() # min_temp 전체 값의 histogram

In [None]:
data.min_temp.plot() # min_temo 전체 값의 추이 라인그래프

In [None]:
data.std() # 모든 데이터의 표준편차

In [None]:
data.mean() # 모든 데이터의 평균값

### 1.3 Bulk Data Clean Up

이번에는 `apply()`함수를 사용하여 column 내의 데이터를 한꺼번에 변경하는 방법을 사용해보자. 데이터의 클린업 과정에서 매우 빈번하게 사용되는 명령어.

In [None]:
data.date.head()

In [None]:
first_date = data.date.values[0]
type(first_date)

현재 data.date에 담긴 값들은 date 형식의 데이터가 아니라 str 형태이다. 날짜 계산 등을 위해서는 str 로 저장된 데이터의 형식을 datetime 형식으로 변환해야 한다. 

지난 번에 배웠던 명령어로 `strftime()` 라는 게 있었다. 이 함수는 date 형식의 데이터의 포맷을 변경하는 함수였다. str 을 datetime 으로 바꾸기 위해서는 `strptime()`이라는 함수를 사용한다. 사용법은 유사하다.

In [None]:
from datetime import datetime
datetime.strptime(first_date, "%Y-%m-%d")

그런데, 이렇게 데이터를 일일히 하나하나 바꾸어줄 수는 없다. data.date 에 있는 모든 값을 한꺼번에 다 datetime 포맷으로 바꿀 수 있다면 좋을 것 같다.

파이썬은 `lambda` 라는 함수를 제공하고 있는데, 한번 쓰고 버리는 일시적인 함수이다. 예전 시간에 `def ..` 등을 이용하여 함수를 만드는 방법을 소개했었는데, 이렇게 함수를 만들어 두고 계속 사용하는 것이 아니라, 필요한 곳에서 즉시 사용하고 버리는 함수.

`lambda`함수는 `apply()`와 함께 사용할 때 시너지 있다. `apply()` 모든 column에 한꺼번에 `lambda`함수를 적용하게 적용하게 한다. 즉, `lambda`와 `apply()`를 사용해서 데이터의 형을 일괄적으로 바꿀 수 있다.

In [None]:
# (참고) lambda 의 사용법
function = lambda x: x*5
function(5)

In [None]:
def multi5(x):
  x = x*5
  return x

multi5(5)

In [None]:
data.date = data.date.apply(lambda d: datetime.strptime(d, "%Y-%m-%d"))
data.date.head()

현재 우리 데이터의 각각의 row의 index는 `0 ~ len(data)`의 integer가 자동으로 지정되었다. 만약 데이터의 index를 다른 컬럼으로 (예를 들어 date) 지정하고 싶으면 index 명령어를 사용한다.

In [None]:
data.index = data.date
data.head()

이제 날짜를 이용해서 특정 데이터를 검색할 수 있다.

In [None]:
data.loc[datetime(2012, 8, 22)]

불필요한 컬럼을 삭제하기 위해서는 `drop()` 명령어를 사용한다. 위의 데이터에서는 date를 index로 지정하였기 때문에 데이터 테이블 내의 date는 이제 필요없어졌다. (현재 중복되어 있음). 불필요하게 중복된 데이터 컬럼은 다음과 같이 삭제한다. 


In [None]:
data = data.drop(["date"], axis=1)
data.columns

In [None]:
data.head()

axis=1 은 column에 적용됨을 의미한다. 0은 row에 1은 column에 적용된다고 생각하면 된다. 
http://stackoverflow.com/questions/25773245/ambiguity-in-pandas-dataframe-numpy-array-axis-definition

### 1.4 Missing Values (결측값)

데이터에 missing value 가 있다. missing value 를 처리해보
자. missing value를 처리하는 정답은 없다. missing value가 포함된 데이터 포인트가 그렇게 많지 않다면 데이터 포인트를 단순히 삭제를 해도 좋을 것 같다. 그러나 missing data가 많다면 처리 방법을 결정해야 한다. 0 과 같은 값으로 채워 넣는 방법도 있고 평균값을 넣는 경우도 있으며, 최근에는 machine learning을 이용해 값을 추정해서 넣기도 한다. missing value의 처리는 데이터 분석 결과에 큰 영향을 미칠 수 있으므로 데이터의 속성을 잘 파악한 후 결정해야 한다.

`isnull()`이라는 함수는 값이 없을 때 (null일 때) True를 반환한다. 따라서 전체 dataframe의 모든 값을 대상으로 `isnull()` 함수를 적용하면 다음과 같다.

In [None]:
empty = data.apply(lambda col: pd.isnull(col))
empty

중간에 생략된 row가 많긴 하지만 대부분의 column은 missing value가 없는 것으로 보
다. 다만, events column에 True가 많이 보인다. events column 을 좀더 살펴보자.

In [None]:
empty.events.head(10)

empty 데이터프레임은 missing value 가 있는지 없는지만을 파악할 수 있기 때문에 실제 저장된 값은 무엇인지 살펴보도록 하자.

In [None]:
data.events.head(10)

events 에는 그날의 날씨가 Rain, Thunderstorm, Fog 등의 형태로 기록되어 있다. 아마 특이한 사항이 없는 날은 기록하지 않은 것 같다. missing value인 데이터가 전부 얼마나 되는지 살펴보자.

In [None]:
len(empty[empty.events == True])

missing value를 처리하는 한가지 방법은 해당 데이터 포인트를 삭제하는 것이라고 앞서 언급했다. pandas에는 `dropna()`라는 함수가 있어서 이 함수를 사용하면 데이터가 입력되지 않은 row, 즉 위의 데이터에서 events가 NaN인 경우 모두 삭제를 할 수 있다. 그러나, 이렇게 삭제를 하게되면 전체 366개의 데이터 중 162개 밖에 남지 않
는다. 따라서 이렇게 missing value가 많은 경우 삭제하는 것 보다는 다르게 처리하는 편이 좋겠다. 

현재 events는 숫자 데이터가 아닌 문자 데이터를 담고 있다. 따라서 NaN 대신 빈 문자열을 채워 넣어보자. 이때 사용하는 함수는 `fillna()`이다.

In [None]:
data.events = data.events.fillna("")
data.events.head(10)

NaN이 모두 빈 문자열(`''`라고 표현)으로 바뀌었다.

### 1.5 Accessing Rows

이제 데이터 분석을 위한 준비를 거의 마쳤다. 데이터 분석의 첫 단계는 데이터를 훑어보는 것이다. 그러기 위해서는 데이터의 일부를 뽑아보는 것이 좋겠다.

데이터의 row (데이터 포인트) 를 살펴보기 위한 여러 함수가 있는데 파이썬에서 기본적으로 list 의 내용을 살펴보는 방법과 유사하다.

In [None]:
data.iloc[0] # 하나의 데이터 포인트 탐색

In [None]:
data.iloc[3:9] # 인덱스 3-9까지 

In [None]:
ㅁㅁdata.loc[datetime(2012, 3, 15)] # 날짜로 검색

`iterrows()`함수는 데이터프레임의 row를 iterate하게 한다. (for loop를 이용하여 한 row 씩 처리하게 함.)

In [None]:
num_rain = 0
for idx, row in data.iterrows():
    if "Rain" in row["events"]:
        num_rain += 1

"Days with rain: {0}".format(num_rain)

### 1.6 Filtering

Filtering은 데이터를 살펴보고 분석을 할 때 가장 좋은 방법이다. Filtering을 하기 위한 방법들을 살펴보자.

In [None]:
freezing_days = data[data.max_temp <= 32]
freezing_days

In [None]:
freezing_days[freezing_days.min_temp >= 20]

In [None]:
data[(data.max_temp <= 32) & (data.min_temp >= 20)]

필터를 변수 형태로 만들어 놓고 사용하는 것도 물론 가능하다.

In [None]:
# max_temp 가 32보다 작거나 같은 경우의 필터를 생성
temp_max = data.max_temp <= 32
temp_max

In [None]:
data[temp_max]

In [None]:
# max_temp 가 20보다 크거나 같은 경우의 필터를 생성
temp_min = data.min_temp >= 20
temp_min

In [None]:
temp_min & temp_max

In [None]:
temp_min | temp_max

두개의 필터를 이용해서 새로운 필터를 만들어 둘 수도 있다.

In [None]:
temp_both = temp_min & temp_max

숫자가 아닌 경우는 filter를 이런 식으로 만들 수 없다. 다음과 같은 코드는 data.events의 각 row를 iterate하며 Rain이 포함되어 있는지 여부를 판단할 것 같지만 그렇지 않다. 이 코드는 에러를 발생.

In [None]:
data["Rain" in data.events]

이 경우, 다음과 같이 lambda 함수와 apply 함수를 사용해 filter를 만들어야 한다.

In [None]:
data[data.events.apply(lambda e: "Rain" in e)]

### 1.7 Grouping

`apply()`만큼 유용하게 쓸 수 있는 함수 중에 `groupby()`가 있다. 이 함수는 dataframe에서 같은 값을 갖는 데이터 포인트를 찾아서 묶어
준다.

예를 들어 cloud_cover 데이터를 추출하면 다음과 같이 0-8까지의 값이 기록되어 있다. cloud_cover 란 말 그대로 얼마나 하늘이 구름으로 덮여있는지를 말하는 건데, 전혀 덮혀있지 않은 0에서부터 구름으로 가득 낀 하늘의 상태인 8 까지 기록되어 있다. 

만약 구름이 하나도 없을 때와, 잔뜩 덮혀 있을 때의 평균 온도/습도를 비교하고 싶다면 아마도 cloud_cover 의 값으로 데이터를 grouping 해야할 것이다. `groupby()`는 이럴 때 쓸 수 있다.

In [None]:
data.cloud_cover

In [None]:
data.cloud_cover.unique()

In [None]:
for d in data.groupby("cloud_cover"):
    print(d)
    print("===")

# 결과는 tuple 형태로 출력된다. 
# d[0] -> cloud_cover level
# d[1] -> 각 cloud_cover level이 포함된 data row
# 여기서 loop는 각 data row의 iteration을 가져오는게 아니라 group의 iteration을 가져온다.

데이터의 컬럼이 너무 많아 한눈에 보기 어려우니 각 날짜의 평균온도(mean_temp)만 뽑아보겠습니다.

In [None]:
for d in data.groupby("cloud_cover").mean_temp:
    print(d)
    print("===")

출력되는 tuple 값을 이용해서 각 그룹의 평균온도(mean_temp)의 평균을 다음과 같이 구해보자.

In [None]:
cover_temps = {}
for cover, cover_data in data.groupby("cloud_cover"):
    cover_temps[cover] = cover_data.mean_temp.mean()
cover_temps

한개 이상의 컬럼을 이용해서 데이터를 groupby 할 수도 있다. 이 경우, 두개의 컬럼의 값이 tuple 로 먼저 출력되고, 그 다음에 data row 가 출력된다.

In [None]:
for (cover, events), group_data in data.groupby(["cloud_cover", "events"]):
    print("Cover: {}, Events: {}, Count: {}".format(cover, events, len(group_data)))

### 1.8 Adding New Columns

다시 events 컬럼의 데이터를 살펴보자.

In [None]:
data.events.unique()

여러 데이터가 있지만, 기본적으로는 rain, thunderstorm, fog, snow 의 네가지의 조합으로 이루어져 있다. 이 데이터를 바탕으로 특정일에 비가 왔는지, 안개가 끼었는지 등을 확인하고 싶어서 새롭게 컬럼을 추가하고자 한다. rain, thunderstorm, fog, snow의 컬럼을 만들고 True or False를 저장하도록 하자. (One Hot Coding)
* Rain-Thunderstorm => rain:True, thunderstorm:True, fog:False, snow:False
* Fog-Rain-Thunderstorm => rain:False, thunderstorm:True, fog:True, snow:False

In [None]:
for event_kind in ["Rain", "Thunderstorm", "Fog", "Snow"]:
    col_name = event_kind.lower()  # Turn "Rain" into "rain", etc. -> data normalization
    data[col_name] = data.events.apply(lambda e: event_kind in e)
data

In [None]:
data.rain

In [None]:
data.rain.sum()

In [None]:
data[data.rain & data.snow]

In [None]:
def toCel(degree):
    return (degree - 32) / 1.8
    
data["max_tempc"] = data.max_temp.apply(lambda e: toCel(e))
data["min_tempc"] = data.min_temp.apply(lambda e: toCel(e))
data["mean_tempc"] = data.mean_temp.apply(lambda e: toCel(e))
data

### 1.9 Plotting

In [None]:
data.mean_tempc.plot()

In [None]:
data.mean_tempc.tail(10).plot(kind="bar", rot=15)

다음의 그래프는 여러개 데이터의 그래프를 그려준다.

In [None]:
ax = data.max_temp.plot(title="Min and Max Temperatures")
data.min_temp.plot(style="red")
data.mean_temp.plot(style="yellow")
ax.set_ylabel("Temperature (F)")

### 1.10 Export Data

`to_csv()` 함수는 데이터프레임을 CSV형태로 저장한다.

In [None]:
data.to_csv("/content/drive/MyDrive/_DataJournalism_2022/Week5/weather-mod.csv")

## 2.실습

### 2.1 실습 1
* 주어진 employment.csv파일은 header가 없는 파일이다. 불러온 후 column의 header를 추가한다.
* 국가명을 인덱스로 지정한다.
* 불필요한 컬럼이 있으면 삭제한다.
* 상위 5개를 출력한다.

In [None]:
import pandas as pd


### 2.2 실습 2
* 나머지 2개의 파일은 비슷한 구조로 되어 있어 employment.csv와 유사한 방법으로 불러오게 된다. 함수를 만들고 나머지 파일을 불러오자.
* life_expectancy.csv
* gdp_per_capita.csv

In [None]:
def read_gapminder_data(filename, colname):


In [None]:
life_exp = read_gapminder_data("life_expectancy.csv", "life_exp")
life_exp.head()

In [None]:
gdp = read_gapminder_data("gdp_per_capita.csv", "gdp")
gdp.head()

### 2.3 실습 3
* 세개의 데이터프레임을 하나로 합치자.
* 데이터프레임을 합칠 때는 merge, join 등의 개념이 사용된다.
* http://pandas.pydata.org/pandas-docs/stable/merging.html 를 참고하자.
* (힌트) concat 이 사용된다.

소팅을 해보자. 소팅은 다음과 같이 한다.
* data.sort_values([colname1, colname2, ...], ascending=[True, False, ...])

### 2.4 실습 4
* 전체 데이터프레임의 기술통계값을 출력하고 그래프를 그려보자.
* employment와 life_exp의 histogram을 그려보자.

### 2.5 실습 5-1
* employment rate이 가장 높은 나라와 가장 낮은 나라의 이름과 값을 출력하자.
* 구글검색 혹은 레퍼런스를 통해 가장 높은 값과 낮은 값을 가진 인덱스를 출력하는 함수를 찾아 적용해보자.

(검색어 예) pandas dataframe max index

### 2.6 실습 5-2
* gdp 상위 10개 국가의 평균과 하위 10개 국가의 리스트와 값을 구하고 그리고 평균의 차이를 구해보자.
* `sort_values()` 사용

### 2.7 실습 5-3
* gpd 상위 10개 국가의 기대수명과 취업률 평균을 구하고 하위 10개 국가의 기대수명과 취업률 평균과 비교해 보자.

### 2.8 실습 6-1
* 각 국가의 초등학교 수료율을 기록한 두개의 파일을 읽어 하나의 데이터프레임을 만들어 보자.
* 남자의 초등학교 수료율: male_completion_rate.csv
* 여자의 초등학교 수료율: female_completion_rate.csv

### 2.9 실습 6-2
* 초등학교 수료율이 남성보다 여성이 더 높은 나라를 찾아보자.
* 초등학교 수료율이 여성보다 남성이 더 높은 나라를 찾아보자.

### 2.10 실습 6-3
* 남성과 여성 간의 초등학교 수료율 차이가 큰 상위 20개의 나라를 찾아보자. (Top10 vs Botton10)