# Визуализация данных в Python

## Обзор библиотек

1. Matplotlib - базовая графика
2. Seaborn - углубленная базовая графика
3. Plotly - динамические графики

| Matplotlib | Seaborn |
| ----------- | ----------- |
| Используется для базового построения графиков, таких как линейные диаграммы, гистограммы и т. д.    | Используется для визуализации статистики и может выполнять сложные визуализации с меньшим количеством команд.   |
|  Продуктивно работает с массивами данных и фреймами.  | Seaborn значительно более организован и функционален, чем Matplotlib, и рассматривает весь набор данных как единую единицу.   |
| Matplotlib более настраиваемый и хорошо сочетается с Pandas и Numpy для анализа исследуемых данных.   | Seaborn имеет больше встроенных тем и в основном используется для статистического анализа.  |

## Линейные графики

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

Сгенерируем простой набор данных.

In [None]:
y = [1, 2, 3, 3.5, 3.7, 4, 4.1]

Визуализируем с помощью функции **plot**.

In [None]:
plt.plot(y)
plt.show()

Добавим ось ОХ.

In [None]:
x = [2017, 2018, 2019, 2020, 2021, 2022, 2023]

In [None]:
plt.plot(x,y)
plt.show()

Добавляем подписи осей.

In [None]:
plt.plot(x,y)
plt.xlabel('Год')
plt.ylabel('Значения показателя')
plt.show()

Добавляем второй набор данных и отрисовываем оба ряда на одном графике.

In [None]:
#y = [1, 2, 3, 3.5, 3.7, 4, 4.1]
y2 = [6.8, 6.7, 6.5, 5, 5.1, 3.0, 2]
#x = [2017, 2018, 2019, 2020, 2021, 2022, 2023]
plt.plot(x,y)
plt.plot(x,y2)
plt.xlabel('Год')
plt.ylabel('Показатели')
plt.show()

Добавляем легенду.

In [None]:
plt.plot(x,y)
plt.plot(x,y2)
plt.xlabel('Год')
plt.ylabel('Показатели')
plt.title('Динамика показателя')
plt.legend(['y', 'y2'])
plt.show()

Добавляем маркеры для выделения каждого наблюдения.

In [None]:
plt.plot(x,y, marker = 'o')
plt.plot(x,y2, marker = 'x')
plt.xlabel('Год')
plt.ylabel('Показатели')
plt.title('Динамика показателя')
plt.legend(['y', 'y2'])
plt.show()

Построим все то же самое с помощью библиотеки **Seaborn**.

In [None]:
sns.set_style("whitegrid") #darkgrid

plt.plot(x,y, marker = 'o')
plt.plot(x,y2, marker = 'x')
plt.xlabel('Год')
plt.ylabel('Показатели')
plt.title('Динамика показателя')
plt.legend(['y', 'y2'])
plt.show()

## Barplot или столбчатые графики

In [None]:
plt.bar(x,y)
plt.xlabel('Год')
plt.ylabel('Показатели')
plt.title('Динамика показателя')
plt.show()

In [None]:
plt.bar(x,y)
plt.bar(x,y2, bottom = y)
plt.show()

## График-пирог

In [None]:
x_labels = ['2017', '2018', '2019', '2020', '2021', '2022', '2023']
plt.pie(y, labels = x_labels)
plt.show()

## Гистограммы

In [None]:
iris = sns.load_dataset("iris")
plt.hist(iris.sepal_length)
plt.show()

Можем задать количество блоков с помощью параметра **bins**.

In [None]:
plt.hist(iris.sepal_length, bins = 30)
plt.show()

Регулируем прозрачность гистограммы с помощью параметра **alpha**. Можем построить гистограммы для нескольких наборов данных на одном графике.

In [None]:
plt.hist(iris.sepal_length, alpha = 0.4)
plt.hist(iris.petal_length, alpha = 0.4)
plt.show()

Параметр **stacked** для совместной отрисовки данных.

In [None]:
plt.hist([iris.sepal_length,iris.petal_length], stacked = True)
plt.show()

## Точечные графики или scatteplot

In [None]:
ax = sns.scatterplot(x='petal_length', y='sepal_length', data=iris)
plt.show()

In [None]:
ax = sns.scatterplot(x="petal_length", y="sepal_length", data=iris, hue = 'species')
plt.show()

## Тепловые карты

In [None]:
flights = sns.load_dataset("flights").pivot("month", "year", "passengers")
flights

Приведенный выше набор данных *flights_df* показывает нам ежемесячную нагрузку в аэропорту с 1949 по 1960 год. Значения представляют собой количество пассажиров (в тысячах), прошедших через вход аэропорта. 

In [None]:
sns.heatmap(flights)
plt.show()

Чем светлее цвет, тем выше пешеходная заходка в аэропорту. Глядя на график, мы можем сделать вывод, что:

- Самые высокие значения в июле и августе.
- Количество пешеходов растет с каждым годом. 
- Любой месяц в году будет иметь более высокую проходимость по сравнению с предыдущими годами.


In [None]:
sns.heatmap(flights, fmt = 'd', annot = True, cmap = 'Blues')
plt.show()

## Анализ данных на примере датасета Titanic

In [None]:
# Настройки визуализации
sns.set_style(style='white') 
sns.set(rc={
    'figure.figsize':(12,7), 
    'axes.facecolor': 'white',
    'axes.grid': True, 'grid.color': '.9',
    'axes.linewidth': 1.0,
    'grid.linestyle': u'-'},font_scale=1.5)
custom_colors = ["#3498db", "#95a5a6","#34495e", "#2ecc71", "#e74c3c"]
sns.set_palette(custom_colors)

Загрузим данные и посмотрим информацию о них.

In [None]:
import pandas as pd
df = pd.read_csv("titanic.csv")
df.info()

### Анализируем класс (Pclass)

Посмотрим, какие классы есть в данных.

In [None]:
df.Pclass.unique()

Команда **value_counts()** позволяется вывести количество для каждого уникального значения. Запомним ее.

In [None]:
df.Pclass.value_counts()

In [None]:
df.Pclass.value_counts().plot.pie().legend(labels=["Class 3","Class 1","Class 2"], loc='center right', bbox_to_anchor=(2.25, 0.5)).set_title("Распределение пассажиров по классам")

In [None]:
pclass_1_survivor_distribution = round((df[df.Pclass == 1].Survived == 1).value_counts()[1]/len(df[df.Pclass == 1]) * 100, 2)
pclass_2_survivor_distribution = round((df[df.Pclass == 2].Survived == 1).value_counts()[1]/len(df[df.Pclass == 2]) * 100, 2)
pclass_3_survivor_distribution = round((df[df.Pclass == 3].Survived == 1).value_counts()[1]/len(df[df.Pclass == 3]) * 100, 2)
pclass_perc_df = pd.DataFrame(
    { "Выжили":{"Class 1": pclass_1_survivor_distribution,"Class 2": pclass_2_survivor_distribution, "Class 3": pclass_3_survivor_distribution},  
     "Погибли":{"Class 1": 100-pclass_1_survivor_distribution,"Class 2": 100-pclass_2_survivor_distribution, "Class 3": 100-pclass_3_survivor_distribution}})
pclass_perc_df.plot.bar().set_title("Процент выживших по классам")
plt.show()

*Пример анализа по показателю:*

Показатель **Pclass** - класс, соотвествующий билету пассажира. Пассажиры могли выбрать из трех отдельных классов, а именно: класс 1, класс 2 и класс 3. Третий класс имел наибольшее количество пассажиров, затем класс 2 и класс 1. Количество пассажиров в третьем классе было больше, чем количество пассажиров в первом и втором классе вместе взятых. Вероятность выживания пассажира класса 1 была выше, чем пассажира класса 2 и класса 3.

### Анализ показателя пол (Sex)

In [None]:
df.Sex.value_counts(normalize = True)

Построим **barplot** процент женщин и мужчин на Титанике.

In [None]:
(df.Sex.value_counts(normalize = True) * 100).plot.bar()
plt.show()

Посмотрим процент выживших среди мужчин и женщин.

In [None]:
df[df.Sex == 'male'].Survived == 1

In [None]:
(df[df.Sex == 'male'].Survived == 1).value_counts()

In [None]:
round((df[df.Sex == 'male'].Survived == 1).value_counts()[1]/len(df.Sex)*100,2)

In [None]:
male_pr = round((df[df.Sex == 'male'].Survived == 1).value_counts()[1]/len(df.Sex) * 100, 2)
female_pr = round((df[df.Sex == 'female'].Survived == 1).value_counts()[1]/len(df.Sex) * 100, 2)
sex_perc_df = pd.DataFrame(
    { "Процент выживших":{"мужчины": male_pr,"женщины": female_pr},  "Погибшие":{"мужчины": 100-male_pr,"женщины": 100-female_pr}})
sex_perc_df.plot.barh().set_title("Процент выживших в разрезе м/ж")
plt.show()

*Пример анализа:*

Примерно 65% пассажиров составляли мужчины, а остальные 35% — женщины. Тем не менее, процент выживших женщин был выше, чем число выживших мужчин. Более 80% мужчин умерли, в сравнении с примерно 70% женщинами.

### Анализируем возраст (Age)

In [None]:
min(df['Age'])

In [None]:
max(df['Age'])

Зададим интервалы и сгруппируем данные в эти интервалы.

In [None]:
df['Age_Range'] = pd.cut(df.Age, [0, 10, 20, 30, 40, 50, 60,70,80])
sns.countplot(x = "Age_Range", hue = "Survived", data = df, palette=["C1", "C0"]).legend(labels = ["Погибли", "Выжили"])
plt.show()

In [None]:
sns.distplot(df['Age'].dropna(),color='darkgreen',bins=30)
plt.show()

Самому молодому путешественнику на борту было около двух месяцев, а самому старшему — 80 лет. Средний возраст пассажиров на борту был чуть менее 30 лет. Большая часть детей в возрасте до 10 лет выжила. В любой другой возрастной группе число жертв было выше, чем число выживших. Более 140 человек в возрастной группе 20-30 лет погибли в сравнении с примерно 80 выжившими того же возраста.

### Самостоятельно анализируем стоимость тарифа (Fare) (5 баллов)

Схема анализа: 

1) посмотреть с помощью value_counts() какие есть тарифы

2) возможно объединить тарифы в категории (например, Дешевые, Средние, Выше Среднего, Высокие) и создать новую переменную. Подсказка для разделения функция describe

3) визуализировать график и ответить на вопрос: "Как стоимость тарифа влияет на вероятность выживания?"

In [None]:
# решение 



### Самостоятельно анализируем Siblings/Spouses Aboard и Parents/Children Aboard (10 баллов)

SibSp — это число братьев, сестер или супругов на борту у человека.

Parents/Children Aboard - признак содержал количество родителей или детей, с которыми путешествовал каждый пассажир.

Вопросы для анализа:
1. Как влияет наличие семьи на выживаемость? 
2. Какие путешествия чаще: в одиночку или с родственниками?
3. Насколько изменяются шансы на выживание в случае путешествия в одиночку?

In [None]:
# для удобства переименуем колонки
df.columns = ['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Age_Range', 'Fare_Category']
df.head()

In [None]:
# решение

