# Week 5 Visualizing Data with Python

# 1.Visualizing Data with Python

파이썬에는 시각화를 도와주는 다양한 라이브러리가 있다. 본 강의에서는 데이터 시각화를 위해 matplotlib과 seaborn을 사용할 것이다.

## 1.1 Weather Data Visualization

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sb

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Load Data
data = pd.read_csv("/content/drive/MyDrive/_DataJournalism_2022/Week5/weather-mod.csv")

In [None]:
data.index = data.date
data = data.drop(["date"], axis=1)

In [None]:
data.head()

## 1.2 mean_temp와 mean_humidity로 그리는 scatterplot 

In [None]:
fig, axe = plt.subplots()
axe.scatter(data.mean_temp, data.mean_humidity, marker = "o")
axe.set_title("Mean Temperature and Mean Humidity")

## 1.3 cloud_cover와 mean_temp, mean_humidity는 각각 상관관계가 있을까?

In [None]:
sb.regplot(x=data["cloud_cover"], y=data["mean_temp"])

In [None]:
sb.regplot(x=data["cloud_cover"], y=data["mean_humidity"])

In [None]:
sb.regplot(x=data["mean_temp"], y=data["mean_humidity"])

## 1.4 모든 변인들의 상관관계 그래프

In [None]:
sub_data = data[['mean_temp', 'mean_dew', 'mean_humidity', 'min_humidity', 
       'mean_pressure', 'mean_visibility', 'mean_wind', 'precipitation',
       'cloud_cover']]

In [None]:
sb.pairplot(sub_data, kind="reg")
plt.show()

In [None]:
sb.pairplot(sub_data, kind="scatter")
plt.show()

# 2.Gapminder Data Visualization

In [None]:
def read_gapminder_data(filename, colname):
    data = pd.read_csv("/content/drive/MyDrive/_DataJournalism_2022-Class/Week5/gapminder/{}".format(filename), header=None)
    data.columns = ["country", colname]
    data.index = data.country
    data = data.drop(['country'], axis=1)
    return data

In [None]:
employment = read_gapminder_data("employment.csv", "employment")
life_exp = read_gapminder_data("life_expectancy.csv", "life_exp")
gdp = read_gapminder_data("gdp_per_capita.csv", "gdp")

In [None]:
frames = [employment, life_exp, gdp]
gm_data = pd.concat(frames, axis=1)

In [None]:
gm_data.head()

## 2.1 변인들 간의 상관관계

In [None]:
sb.pairplot(gm_data, kind="reg")
plt.show()

## 2.2 Bubble Graph

Bubble Graph는 세개의 변인을 이용한 그래프.

x, y 이외에 z는 점의 크기로 표현된다.

다음의 동영상은 Factfullness 라는 책으로 유명한 통계학자 Hans Rosling의 TED 강의입니다. 이 강의에서 Hans Rosling은 Gapminder라는 도구를 이용하여 데이터를 분석하는 사례를 보여주고 있습니다.

https://www.ted.com/talks/hans_rosling_the_best_stats_you_ve_ever_seen/transcript?language=ko 

본 강의에서는 gapminder와 같은 시각화 결과물을 만들어 볼 예정입니다.

gm_data는 많은 양의 데이터를 담고 있기 때문에 랜돔하게 50개 정도를 선택하여 gm_subset에 저장한다.

이 그래프에서 x 축은 index 인 국가명을 표시하고, y 축은 기대수명(life_exp), 버블의 크기인 z는 gdp를 표현한다.

In [None]:
gm_subset = gm_data.sample(n=50)
x = gm_subset.index
y = gm_subset.life_exp
z = gm_subset.gdp

In [None]:
gm_subset

In [None]:
from matplotlib.pyplot import figure

figure(num=None, figsize=(12, 10), dpi=80, facecolor='w', edgecolor='k')

# Change color with c and alpha. I map the color to the X axis value.
plt.scatter(x, y, s=z/10, alpha=0.5)
 
# # Add titles (main and on axis)
plt.xticks(rotation=90)
plt.xlabel("Country")
plt.ylabel("Life Expectancy")
plt.title("Gapminder - Life Expectancy and GDP")

## 2.3 gdp를 기준으로 sorting 한 그래프

In [None]:
gm_subset_sorted = gm_subset.sort_values(['gdp'], ascending=True)
gm_subset_sorted

In [None]:
x = gm_subset_sorted.index
y = gm_subset_sorted.life_exp
z = gm_subset_sorted.gdp

In [None]:
from matplotlib.pyplot import figure

figure(num=None, figsize=(12, 10), dpi=80, facecolor='w', edgecolor='k')

# Change color with c and alpha. I map the color to the X axis value.
plt.scatter(x, y, s=z/10, alpha=0.5)
 
# Add titles (main and on axis)
plt.xticks(rotation=90)
plt.xlabel("Country")
plt.ylabel("Life Expectancy")
plt.title("Gapminder - Life Expectancy and GDP")

## 2.4 Seaborn을 이용한 그래프

In [None]:
# 삭제했던 "country" 컬럼이 다시 필요.
gm_subset_sorted["country"] = gm_subset_sorted.index
gm_subset_sorted

In [None]:
# Plot miles per gallon against horsepower with other semantics
bubble = sb.relplot(x="country", y="life_exp", hue="country", size="gdp",
            sizes=(40, 1500), alpha=.5, palette="muted",
            height=8, data=gm_subset_sorted)
bubble.set_xticklabels(rotation=90)
