# Mathplotlib

## базові діаграми та методи їх побудови

#### Підготовка
- Charts in Colaboratory[https://colab.research.google.com/notebooks/charts.ipynb#scrollTo=JGnotb1n73Yk]
- документація бібліотеки matplotlib[https://matplotlib.org/stable/users/index.html]
- документація бібліотеки seaborn[https://seaborn.pydata.org/]


In [None]:
#pip install matplotlib

In [None]:
%matplotlib inline

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns # використаємо для завантаження датасету


# plt - загальноприйняте позначення для mathplotlib.pyplot

In [None]:
data = sns.load_dataset("titanic")

### Variable Notes
- PassengerId Unique ID of the passenger
- Survived Survived (1) or died (0)
- Pclass Passenger’s class (1st, 2nd, or 3rd)
- Name Passenger’s name
- Sex Passenger’s sex
- Age Passenger’s age
- SibSp Number of siblings/spouses aboard the Titanic
- Parch Number of parents/children aboard the Titanic
- Ticket Ticket number
- Fare Fare paid for ticket
- Cabin Cabin number
- Embarked Where the passenger got on the ship (C — Cherbourg, S — Southampton, Q = Queenstown)

In [None]:
data.head()

In [None]:
# для кожного віку знайти середнє значення вартості квитка

df = data.groupby(
    "age",
    as_index=False,  # as_index=False - не робити індексом стовпець, по якому групуємо
)["fare"].mean()

In [None]:
df

In [None]:
# найпростіший графік
plt.plot(df["age"], df["fare"])

In [None]:
plt.savefig("simple_plot.png")
# збереження графіка з діаграмою в файл

In [None]:
plt.plot(df["age"], df["fare"])
plt.show() # виведення графіка на екран (використовується, якщо не використовуємо Jupyter Notebook)

In [None]:
# зробити групи за віком з кроком в 10 років і розрахувати для кожного віку відсоток виживших 

data["age_group"] = data["age"] // 10 * 10
# // - цілочисельне ділення
# 10 * 10 - крок в 10 років

data.head()

df = data.groupby(
    "age_group",
    as_index=False,
)["survived"].mean()

In [None]:
plt.plot(df["age_group"], df["survived"])
plt.show()  # виведення графіка на екран (використовується, якщо не використовуємо Jupyter Notebook)

In [None]:
plt.plot(df["age_group"], df["survived"]*100.0,
         label="survived, %",  # label - підпис графіка
         color="red",  # колір графіка
         marker=".",  # тип маркера (s,o)
         linestyle="--",  # тип лінії
         linewidth=2,  # товщина лінії
         markersize=10,  # розмір маркера
         markeredgecolor="green",  # колір межі маркера
         )
plt.legend()  # виведення легенди
# Аргументи функції plot можна задавати в будь-якому порядку

# щоб побачити всі аргументи функції plot скористайтеся документацією: 
# https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html

In [None]:
# підхід 2 - ініціюючи фігуру

plt.figure(figsize=(5, 3), dpi=120)  # figsize - розмір фігури

plt.plot(
    df["age_group"],
    df["survived"],
    label="survived",  # label - підпис графіка
    color="red",  # колір графіка
    marker=".",  # тип маркера (s,o)
    linestyle="--",  # тип лінії
    linewidth=2,  # товщина лінії
    markersize=10,  # розмір маркера
    markeredgecolor="green",  # колір межі маркера
)
plt.legend()  # виведення легенди

plt.title("Survived by age group")  # заголовок графіка

plt.xlabel("Age group")  # підпис осі X
plt.ylabel("Survived")  # підпис осі Y

plt.xticks(np.arange(0, 80, 10))  # задаємо мітки на осі X
# np.arange(0, 80, 10) - масив значень від 0 до 80 з кроком 10
plt.yticks(np.arange(0, 1.1, 0.1))  # задаємо мітки на осі Y
# np.arange(0, 1.1, 0.1) - масив значень від 0 до 1 з кроком 0.1

plt.show()  # виведення графіка на екран (використовується, якщо не використовуємо Jupyter Notebook)

# оформлення графіка

# усі наявні методи для оформлення pyplot можна подивитися тут: https://matplotlib.org/stable/api/pyplot_summary.html

In [None]:
plt.plot(df["age_group"], df["survived"], 'ro--', label="survived", markeredgecolor = 'green')
plt.legend()
plt.show()

# використання швидкого форматування

In [None]:
# виведення двох графіків на одному полотні

# зробити групи за віком з кроком в 10 років і розрахувати для кожного віку відсоток виживших в розрізі статі
df = data.groupby(
    ["age_group", "sex"],
    as_index=False,
)["survived"].mean()

# Фільтруємо дані для чоловіків і жінок
df_male = df[df["sex"] == "male"]
df_female = df[df["sex"] == "female"]

In [None]:
plt.plot(
    df_male["age_group"],
    df_male["survived"],
    "bo--",
    label="male",
    markeredgecolor="black",
)

plt.plot(
    df_female["age_group"],
    df_female["survived"],
    "ro--",
    label="female",
    markeredgecolor="black",
)

plt.legend()
plt.show()

In [None]:
plt.plot(
    df_male["age_group"],
    df_male["survived"],
    "bo--",
    label="male",
    markeredgecolor="black",
)

# вивести значення на графіку
for i, v in zip(df_male["age_group"], df_male["survived"]):
    plt.annotate(text=round(v, 2), xy=(i, v), ha="center", va="bottom")


plt.plot(
    df_female["age_group"],
    df_female["survived"],
    "ro--",
    label="female",
    markeredgecolor="black",
)
# вивести значення на графіку
for i, v in zip(df_female["age_group"], df_female["survived"]):
    plt.annotate(text=round(v, 2), xy=(i, v), ha="center", va="bottom") # ha - горизонтальне вирівнювання, va - вертикальне вирівнювання

plt.legend()
plt.show()

In [None]:
# знайти кількісь чоловіків і жінок на кораблі

df = data.groupby('sex' , as_index=False)['survived'].count()   # as_index=False - не робити індексом стовпець, по якому групуємо   

In [None]:
df

In [None]:
data.shape[0]

In [None]:
df["gender_share"] = round(df.survived / data.shape[0], 2)
df

In [None]:
plt.pie(
    df["gender_share"],
);

# кругова діаграма

In [None]:
plt.pie(
    df["gender_share"],
    labels=df['sex'].unique(),  # назви
    autopct="%.1f%%",  # відсотки з округленням до 1 знаків після коми
    pctdistance=0.50,  # відстань від центру до відсотків
    shadow=True,  # тінь
    startangle=90,  # початковий кут
    labeldistance=1.15,  # відстань від центру до назви
);

In [None]:
plt.pie(
    df["gender_share"],
    labels=df["sex"].unique(),  # назви
    autopct="%.1f%%",  # відсотки з округленням до 1 знаків після коми
    pctdistance=0.50,  # відстань від центру до відсотків
    shadow=True,  # тінь
    startangle=90,  # початковий кут
    labeldistance=1.15,  # відстань від центру до назви
)

# draw circle
centre_circle = plt.Circle((0, 0), 0.70, fc="white") # (0, 0) - координати центру кола, 0.70 - радіус кола, fc="white" - колір кола
fig = plt.gcf() # gcf - get current figure

# Adding Circle in Pie chart
fig.gca().add_artist(centre_circle)

In [None]:
# Побудова стовпчатої діаграми (вертикальна)

df = data.groupby("sex", as_index=False)[
    "survived"
].mean()  # as_index=False - не робити індексом стовпець, по якому групуємо


plt.bar(df["sex"], df["survived"])
plt.show()

In [None]:
plt.barh(df["sex"], df["survived"])
plt.show()


# Побудова стовпчатої діаграми (горизонтальна)

In [None]:
df

In [None]:
# діаграма розсіювання

plt.scatter(data["age"], data["fare"])
plt.show()

In [None]:
x = np.random.rand(100)
y = np.random.rand(100)

plt.plot(x, y);


In [None]:
plt.plot(np.sort(x), np.sort(y));

In [None]:
# якщо хочемо побудувати декілька графіків на одному полотні
fig, ax = plt.subplots(
    figsize=(16, 6), nrows=1, ncols=2
)  # figsize - розмір фігури, nrows - кількість рядків, ncols - кількість стовпців

ax[0].plot(
    df_male["age_group"],
    df_male["survived"],
)
ax[0].set_title("Male")
ax[0].set_xlabel("Age group")
ax[0].set_ylabel("Survived")

ax[1].plot(
    df_female["age_group"],
    df_female["survived"],
)
ax[1].set_title("Female")
ax[1].set_xlabel("Age group")
ax[1].set_ylabel("Survived")

plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(6, 3))

ax.plot(np.sort(x), np.sort(y))
ax.set_title("Random plot")
ax.set_xlabel("X")
ax.set_ylabel("Y")
ax.grid()  # сітка

#ax.grid( linewidth=0.5, linestyle="dashed")  # сітка з параметрами (товщина лінії, тип лінії)

In [None]:
# які підводні камені коли різні графіки?

In [None]:
x1 = np.arange(1, 20, 1) # масив значень від 1 до 20 з кроком 1
y1 = x1**2

x2 = np.arange(1, 20, 1) # масив значень від 1 до 20 з кроком 1
y2 = x2**3

fig, ax = plt.subplots(figsize=(6, 3))

ax.plot(x1,y1)
ax.set_title("Random plot")
ax.set_xlabel("X")
ax.set_ylabel("Y")
ax.grid()  # сітка

ax2 = ax#.twinx()
ax2.plot(x2,y2, color = 'orange')



# ax.grid( linewidth=0.5, linestyle="dashed")  # сітка з параметрами (товщина лінії, тип лінії)

##### Більше типів графіків та прикладів можна знайти тут: https://matplotlib.org/stable/gallery/index.html