# Як вмирають люди у США? Візуалізація смертності

**Смерть**  це важка тема, однак ця тема важлива для уряду, охорони здоров'я, економіки та медицини. Розуміння того, як люди вмирають може призвести до змін у фінансування досліджень або посилення профілактичних заходів щодо певних сучасних хвороб. 

У США, **Centers of Disease Control and Prevention (CDC)** (центри контролю та профілактики захворювання) збирали  [дані про смертність](https://wonder.cdc.gov/ucd-icd10.html) з 1999 до 2015 року. Дані багаті на демографічну інформацію, включають вік смерті, хворобу, що стала її причиною, стать, расу та географічне місце (місто/штат).

Ці дані допоможуть нам відповісти на багато **питань про смерть**:
- Які основні причини смерті у США?
- Чи частіше помирають чоловіки, чи жінки? Чи залежить це від причини хвороби? Або від віку?
- Які причини смерті стають більше чи менше поширеними з часом?

#### Вивчення візуалізації даних 

В цьому документі, Ви ознайомитесь з **Matplotlib**, одним з найбільш популярних пакетів візуалізації даних у Python.

Бібліотека **Matplotlib** має досить різноманітні інструменти, але ми з вами подивимось основні з них. Якщо ви захочете дізнатись про **Matplotlib** більше, то можете прочитати офіційну документацію за [посиланням](http://matplotlib.org/).

<a id="mpl"></a>
## Імпорт бібліотеки **Matplotlib**

Для початку, давайте встановимо всі необхідні бібліотеки для побудови графіків.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

# Ця команда дозволяє перенести виконання бекенд та фронтенд частини графіків у браузер Notebook.
# На даний момент це не дуже помітно, але на майбутнє рекомендується це використовувати
%matplotlib inline 

import sys

<a id="getdata"></a>
## Отримання даних

Тепер давайте зчитаємо файл `deaths.csv`:

In [2]:
df = pd.read_csv("deaths.csv", encoding='GBK') # дозвіл на зчитування китайських символів
df

FileNotFoundError: [Errno 2] No such file or directory: 'deaths.csv'

Добре! Тепер дані збережено у змінній **`df`**.

<a id="understand"></a>
## Вивчення даних

#### Топ 10 рядків:

In [None]:
df.head(10)

#### The bottom 5 rows:

In [None]:
df.tail(5)

#### Який діапазон значень віку у даних?

In [None]:
df.Age.describe()

#### Які роки представлені у датасеті?

In [None]:
## Напишіть ваш код тут
df.Year.unique()


#### Чи представлені у датасеті обидві статі?

In [None]:
df.Gender.unique()

#### Які основні статистичні характеристики чисельності смертельних випадків?

In [None]:
df.Deaths.describe()

#### Які причини смертельних випадків представлені у датасеті?

In [None]:
causes = pd.DataFrame(df['Cause'].unique(), columns=['Death Cause']) # прибираємо дублікати
causes = causes.sort_values(by='Death Cause')
causes.index = range(0, len(causes)) # відповідно, змінюємо індекси рядків
causes

<a id="year"></a>
## Смертельні випадки: по рокам

#### Давайте ще раз поглянемо на дані:

In [None]:
df.head(3)

#### Скільки загалом смертельних випадків зафіксовано за 2005, 2010 та 2015?

По-перше, давайте згрупуємо дані по роках, потім окремо по стовпчику **Deaths** визначимо сумарно смертельні випадки по роках.

In [None]:
by_year = df.groupby("Year").Deaths.sum()
by_year

Після групування, побудова графіків is easy. Використовуючи **`.plot()`**, слід лише обрати тип графіку: 

In [None]:
by_year.plot(kind="bar")

#### Також можна переписати код створення даного графіку більш зрозуміло візуально:

In [None]:
# Для того, щоб код можна було легше читати, продовжіть писати код на наступному рядку, 
# закінчивши попередній слешем
df.groupby("Year")\
.Deaths\
.sum()\
.plot(kind="bar")

## Розділимо дані по роках

Важко зорієнтуватись, якщо одночасно аналізувати дані по всіх роках. 

Давайте звузимо наше дослідження до **смертельних випадків за 2015 рік**

<a id="gender"></a>
## Смерті: Чоловіки vs Жінки

По якій статі рівень смертності у 2015 була найбільшою?

In [None]:
df2015 = df[df.Year == 2015]

df2015\
.groupby("Gender")\
.Deaths\
.sum()

#### Чи можете ви створити простий графік барів для порівняння загальної кількості смертей по статях?

In [None]:
df2015.groupby("Gender")\
.Deaths\
.sum()\
.plot(kind="bar")

Давайте додамо **кольори** на графік: <font color=red>червоний</font> для **жінок**

Можна додати кольори наступним чином:
> `.plot(kind="bar", ` **`color=["red", "blue"]`**`)`

In [None]:
df2015\
.groupby("Gender")\
.Deaths\
.sum()\
.plot(kind="bar", color=["red", "blue"])
# спробуйте обидві опції. Як вони працюють?
# .plot(kind="bar", color=["green", "red", "blue"])

<a id="age"></a>
## Смертність: за віком

Що змусило людей помирати у 2015?

In [None]:
df2015\
.groupby("Cause")\
.Deaths\
.sum()


Графік вище важко читати - він **занадто маленький**! 

Ми можемо збільшити розмір графіку:
> `.plot(kind="bar",`** figsize=[18, 6]**`)`

In [None]:
## Напишіть ваш код тут
df2015\
.groupby("Cause")\
.Deaths\
.sum()\
.plot(kind="bar", color="yellow", figsize=[9, 4])
# пограйтесь з іншими варіантами, зрозуймійте як це працює
# .plot(kind="bar", color="grey", figsize=[9, 6])
# .plot(kind="bar", color="grey", figsize=[150, 6])

<font color="green"> Які висновки можна зробити, проаналізувавши графік вище? </font>

Висновки:

1. fig-size визначається в дюймах
2. Найвища смертність від Diseases of heart

<a id="ageXgender"></a>
## Смертність: за віком та статю

#### Чи впливає стать на вік смерті?

Для групування даних по двом змінним, просто використовуйте список:
> `.groupby(`**`["Age", "Gender"]`**`)`

In [None]:
df2015\
.groupby(["Age", "Gender"])\
.Deaths\
.sum()

#### Давайте створимо два підграфіка - по жіночій та чоловічій смертності за віком відповідно

Ми можемо створити підграфіки наступним чином:
> ...  
> **`.unstack(1)`**`\`  
> `.plot(kind="bar", ` **` subplots=True`**`)`

In [None]:
df2015\
.groupby(["Age", "Gender"])\
.Deaths\
.sum()\
.unstack(1)\
.plot(kind="bar", color=["red", "blue"], figsize=[18, 10], subplots=True)
# відповідно до номера графіка - 1

<font color="green"> Які висновки можна зробити з графіків вище? </font>

Висновки:

1. Поведінка графіків майже однакова

Ми можемо також поєднати чоловіків та жінок разом для створення загального бару. 

Для створення "застеканих" графіків барів, ми можемо використати:
>`.plot(kind="bar", ` **`stacked=True`**`)`

In [None]:
df2015\
.groupby(["Age", "Gender"])\
.Deaths\
.sum()\
.unstack(1)\
.plot(kind="bar", color=["red", "blue"], figsize=[18, 10], stacked=True)

Однак це не надто інформативно, оскільки так важко порівняти чоловічі та жіночі показники у загальному графіку барів.

<font color="green"> Наведіть приклади, коли такий вид графіку буде корисно використовувати </font>

Приклади (2):

1. наглядність різниці статистики
2.

#### Оскільки `Age` це безперервна змінна (див. часові ряди даних), для порівняння влучно буде використати лінійний графік. 

Ми можемо створити лінійний графік за допомогою:
> `.plot(kind="`**`line`**`")`

In [None]:
df2015\
.groupby(["Age", "Gender"])\
.Deaths\
.sum()\
.unstack(1)\
.plot(kind="line", figsize=[18, 10], subplots=True)

Тепер за допомогою тільки ліній, легко порівняти різницю між статями за віком на **одному лінійному графіку**.

Для того, щоб відобразити багато груп на одному графіку, впевніться, що ви не стекали дані та тримали параметр **subplots** як **False (default)**:

>`...`  
>**`.unstack(1)`**`\`  
>`.plot(kind="line")   #Default: subplots = False`

In [None]:
df2015\
.groupby(["Age", "Gender"])\
.Deaths\
.sum()\
.unstack(1)\
.plot(kind="line", color=["red", "blue"], figsize=[18, 6])
# спробуйте видалити цей рядок та подивитись на результати

Давайте додамо назву графіку та підпис осі у:

> `.plot(kind = "line",` **`title = "Deaths in 2015 by Age and Gender"`**`)`


In [None]:
## Напишіть ваш код тут
df2015\
.groupby(["Age", "Gender"])\
.Deaths\
.sum()\
.unstack(1)\
.plot(kind = "line", title = "Deaths in 2015 by Age and Gender")

<a id="causeX2015"></a>
## Смертність: топ причин смертей у 2015 році

Давайте подивимось на топ причин смертей у 2015 році:

In [None]:
df2015\
.groupby(["Cause"])\
.Deaths\
.sum()\
.plot(kind="bar", color="yellow")

Це також дуже важко читати. Ми повинні сортувати дані та повернути графік (тобто створити горизонтальний графік барів).

1. Ми можемо **сортувати** (**sort**) дані за допомогою:
> **`.sort('Deaths', ascending=True)`**

2. Ми можемо створити **горизонтальний графік барів** (**horizontal bar chart**) за допомогою:
> **`.plot(kind="barh")`**

In [None]:
df2015\
.groupby(["Cause"])\
.agg({'Deaths' : sum})\
.sort_values('Deaths', ascending=True)\
.plot(kind="barh", legend=False, color="black", figsize=[9, 12])

#### Давайте подивимось на ТОП 10 найбільш розповсюджених причин смертності.

Перед побудовою потрібно відсортувати дані наступним чином:
>`.sort('Deaths', ascending=True)`**`[-10:]`**`\`

In [None]:
## Напишіть ваш код тут
df2015\
.groupby(["Cause"])\
.agg({'Deaths' : sum})\
.sort_values('Deaths', ascending=True)[-10:]\
.plot(kind="barh", legend=False, color="black", figsize=[8, 6])

<a id="causeXyear"></a>
## Смертність: ТОП причин смертей за віком

In [None]:
df\
.groupby(["Cause","Year"])\
.agg({'Deaths':sum})\
.sort_values('Deaths', ascending = False)\
.unstack(1)\
.plot(kind="barh", legend=True, figsize=[10, 16])

Візуалізація вище містить дуже багато інформації (можливо забагато). Однак, що Ви помітили? 


**Смертність, спричинена ВІЛ-інфекцією знижувалась кожні 5 років, починаючи з 2005 року!**

<a id="causeXgender"></a>
## Смертність: Причини смертності за статтю

In [None]:
## Напишіть ваш код тут
df\
.groupby(["Cause","Gender"])\
.agg({'Deaths':sum})\
.sort_values('Deaths', ascending = False)\
.unstack(1)\
.plot(kind="barh", color=["red", "blue"], legend=True, figsize=[10, 16])

<a id="causeXage"></a>
## Смертність: Причини смертності за віком

Оскільки в датасеті представлена велика кількість причин смертності, давайте оберемо для візуалізації лище декілька з них:

- "Alzheimer's disease" (хворобо Альцгеймера)
- "Diseases of heart" (хвороби серця)
- "Malignant neoplasms" (злоякісні новоутворення)
- "Accidents (unintentional injuries)" (ДТП (нещасні випадки))

In [None]:
clist = ["Alzheimer's disease", 
         "Diseases of heart", 
         "Malignant neoplasms", 
         "Accidents (unintentional injuries)"]

df2015_clist = df2015[df2015["Cause"].isin(clist)] #isin

df2015_clist\
.groupby(["Age", "Cause"])\
.agg({'Deaths':sum})\
.sort_values('Deaths', ascending=False)\
.unstack(1)\
.plot(kind="line", legend=True, figsize=[10, 6])

<font color="green"> Які висновки можна зробити з графіка вище? </font>

Висновки:

1.

<a id="causeXgenderXage"></a>
## Смертність: причини смертності за статю та віком

Створити таку візуалізацію доволі складно, оскільки тут 2 статі х 3 роки х 51 причина смертності. Практично неможливо відобразити ці дані на одному графіку та проаналізувати їх.

Найкращим виходом буде візуалізувати лише частину даних, або лише найбільш цікаві дані.

In [None]:
clist = df.Cause.unique()
# not enough memory :-(
clist = ["Alzheimer's disease",
         "Diseases of heart",
         "Malignant neoplasms",
         "Accidents (unintentional injuries)"]


for cause in clist:
    df2015_clist = df2015[df2015["Cause"].isin([cause])]
    
    df2015_clist\
    .groupby(["Age", "Gender"])\
    .agg({'Deaths':sum})\
    .unstack([1])\
    .plot(kind="line", legend=True, color=('r', 'b'), figsize=[10, 8], title=str(cause))

<font color="green">Підсумуйте всі ваші висновки і сформулюйте загальний висновок по дослідженим даним:</font>

Висновки по датасету:

1. cool
