
## Визуализация данных

### Цель работы

зучение программных средств для визуализации наборов данных.

### Задачи 

 - изучение основных типов графиков библиотеки matplotlib;
 - изучение основных типов графиков библиотеки seaborn;
 - получение навыков анализа данных по визуальным представлениям данных.

### Продолжительность и сроки сдачи

Продолжительность работы: - 4 часа.

Мягкий дедлайн (5 баллов): 17.10.2023

Жесткий дедлайн (2.5 баллов): 31.10.2023

### Теоретические сведения

Перед выполнением лабораторной работы необходимо ознакомиться с базовыми принципами работы со специализированными библиотеками яхыка Python, используя следующие источники: [1]

Перед выполнением лабораторной работы необходимо ознакомиться с базовыми принципами работы с репозитариями  [2, 3]

### Методика и порядок выполнения работы
Перед выполнением индивидуального задания рекомендуется выполнить все пункты учебной задачи.

### Учебная задача
Выполним анализ набора данных «Предсказание ухода клиента».
Данный набор данных используется в качестве учебного набора при изучении методов прогнозирования.
Набор представляет собой данные об активности клиентаов телекоммуникационной компании (количество часов разговоров, видеозвонков, ночные и дневные разговоры и прочие). 

Набор данных подходит для обучения моделей логистической регрессии, моделей классификации (CNN, kNN, Logic tree). 

Набор данных можно получить в репозитории [3].

#### Подключение библиотек

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
%matplotlib inline

#### Получение данных
Необходимо скачать набор данных из репозитория *Kaggle* (необходим только один текстовый файл с данными измерений): [https://www.kaggle.com/datasets/keyush06/telecom-churncsv).


#### Загрузка данных
Рассмотрим основные признаки, представленный в наборе.
Загрузим набор данных с использованием `pandas` и выведем признаки набора данных

In [None]:
data_path = "./datasets/telecom_churn/telecom_churn.csv"
data = pd.read_csv(data_path)
data.head(10)

Набор данных `telecom_churn.csv` содержит большое количество признаков. 

Для детального изучения воспользуемся методом `info()` класса `DataFrame`:

In [None]:
data.info()

Список признаков можно посмотреть с помощью метода `data.columns`



In [None]:
data.columns

<!-- Ваш ответ -->

#### Визуализация количественных признаков

Графики, используемые при анализе данных, делят не по библиотекам, с использованием которых они строятся, а по типам признаков, для анализа которых предназначены графики.

Для представления распределения простого коичественного признака подходит обычная гистограмма, содержащаяся во всех библиотеках.

Для построения гистограммы воспользуемся методом `hist()` класса DataFtrame.

На соамом деле используется метод из библиотеки `matplotlib`. 

In [None]:
data['total day minutes'].hist();

Метод `hist()` можно использовать для построения гистограмм по нескольким признакам. 
При этом неколичественные признаки игнорируются.

In [None]:
data.hist();

Аналогичный тип графика можно получить с использованием `matplotlib`

In [None]:
hist = data['total day minutes'].value_counts()
plt.bar(hist.index, hist);

 Использование `matplotlib` для представления распределения значений признака

In [None]:
plt.bar(data.index, data['total day minutes'])
plt.show()

Один из эффективных типов графиков для анализа количественных признаков – это «ящик с усами» (boxplot). 

In [None]:
sns.boxplot(data['total day minutes'])

Для анализа нескольких признаков графики `boxplot` также эффективны. 

In [None]:
top_data = data[['state','total day minutes']]
top_data = top_data.groupby('state').sum()
top_data = top_data.sort_values('total day minutes', ascending=False)
top_data = top_data[:3].index.values
sns.boxplot(y='state', 
            x='total day minutes', 
            data=data[data.state.isin(top_data)], palette='Set2');

График `boxplot` состоит из коробки, усов и точек. 

Коробка показывает интерквартильный размах распределения, то есть соответственно 25% (первая квартиль, 𝑄1) и 75% (третья квартиль, 𝑄3) перцентили. 
Черта внутри коробки обозначает медиану распределения (можно получить с использованием метода `median()` в `pandas` и `numpy`). 

Усы отображают весь разброс точек кроме выбросов, то есть минимальные и максимальные значения, которые попадают в промежуток
($𝑄1 − 1,5 \cdot 𝐼𝑄𝑅$, $𝑄3 + 1,5 \cdot 𝐼𝑄𝑅$), где $𝐼𝑄𝑅 = 𝑄3 − 𝑄1$ – интерквартильный размах. 

Точками на графике обозначаются выбросы (outliers), то есть те значения, которые не вписываются в промежуток значений, заданный усами графика (рис. 1).

![Структура ящика с усами](./img/boxplot.jpg "Структура ящика с усами")

#### Визуализация категориальных признаков

Типичным категориальным признаком в анализируемом наборе данных является «Штат» (state). 
Определим  "популярные" штаты

In [None]:
hist = data['state'].value_counts()
plt.bar(hist.index, hist);

Под категориальный признак подходит также «Отказ» (churn) (хотя он является логическим). 

In [None]:
data['churn'].value_counts()

Метод `countplot()` из библиотеки `seaborn`, строит гистограммы, но не по сырым данным, а по расчитанному количеству разных значений признака

In [None]:
sns.countplot(x = 'churn', data = data);

гистограмма для всех штатов

In [None]:
sns.countplot(x = 'state', data = data);

Визуализация пяти популярных штатов

In [None]:
sns.countplot(x = data[data['state'].isin(data['state'].value_counts().head(5).index)]['state'], data = data);

#### Визуализация соотношения количественных признаков

Рассмотрим пример демонстрирующий сравнениераспределений показателей, связанных с финансовыми затратами клиентов.
Упрощенно, можно сказать, что это все показатели, содержащие подстроку «charge» в имени показателя.
Отберем необходимые признаки

In [None]:
feats=[f for f in data.columns if 'charge' in f]
feats

После отбора интересующих показателей можно построить диаграммы для сравнения

In [None]:
data[feats].hist(figsize=(5,5));

Часто используют попарное сравнение признаков для обеспечения широкого взгляда на набор данных. 
На диаганальных графиках представлены гистограммы распределения отдельного признака, на внедиаганальных позициях – попарные распределения:

In [None]:
sns.pairplot(data[feats]);

Можно реализовать более сложные графики. 
Например, если требуется добавить к существующим признакам, целевой признак `churn` (количество отказов) и раскрасить разные типы элементов, то можно воспользоваться попарными распределениями, но с отображением подмножеств отказов

In [None]:
sns.pairplot(data[feats+['churn']], hue='churn');

До сих пор использовались возможности библиотеки `seaborn`, а также методы `pandas` (которые производят визуализацию, оращаясь к библиотеке matplotlib). 

Библиотека `matplotlib` наиболее известная и широко применяемая при анализе данных в рамках стека технологий python.

Приведем пример использования графика `scatter` библиотеки `matplotlib`, предназначенного для вывода множества точек

In [None]:
plt.scatter(
    data['total day charge'], 
    data['total intl charge'], 
    color='lightblue', edgecolors='blue'
)

plt.xlabel('Day charge')
plt.ylabel('International charge')
plt.title('Scatter by 2 characteristics');

Далее показан пример более тонкой настройки параметров графика.

In [None]:
# Coloring data
# Color depending on customer care
c = data['churn'].map({False: 'lightblue', True: 'orange'})
edge_c = data['churn'].map({False: 'blue', True: 'red'})

# Setting plot
plt.scatter(
    data['total day charge'], data['total intl charge'],
    color=c, edgecolors=edge_c
)

plt.xlabel('Day charge')
plt.ylabel('International charge')
plt.title('Scatter by 2 characteristics');



Приведенный выше график можно построить различными способами, например, можно добавлять множества точек отдельными подмножествами, указывая параметры визуализации для каждого подмножества

In [None]:
# Coloring of loyal and departed customers,
# Adding a legend

# Departed customers
data_churn = data[data['churn']]
# Remaining customers
data_loyal = data[~data['churn']]

plt.scatter(
    data_churn['total day charge'], 
    data_churn['total intl charge'],
    color='orange',
    edgecolors='red',
    label='Departed'
)

plt.scatter(
    data_loyal['total day charge'], 
    data_loyal['total intl charge'],
    color='lightblue',
    edgecolors='blue',
    label='Remained'
)

plt.xlabel('Day charge')
plt.ylabel('International charge')
plt.title('Scatter by 2 characteristics');

plt.legend();

В реальных задачах машинного обучения при первичном анализе данных необходимо выявить корреляции признаков обучающей выборки. 
В пакете `Pandas` имеется встроенный инструмент для этого – метод `corr()` класса `DataFrame`. 

Покажем фрагмент вывода этой функции.

In [None]:
data.corr(numeric_only=True)

Полученная матрица имеет размер 17 × 17. 

Это незначительный размер (в реальных задачах машинного обучения размеры матриц корреляции имеют порядки $10^6 − 10^{10}$ и более), но даже для матрицы рассматриваемого набора данных проанализировать корреляцию признаков вручную – трудоемкая задача. 

Например, можно использовать скрипты, для выделения больших коэффициентов корреляции. 
Но лучше использовать специальный тип графика – `heatmap`.

In [None]:
sns.heatmap(data.corr(numeric_only=True), cmap=plt.cm.PuBuGn);

Из карты `heatmap` видно, что некоторые признаки коррелируют: например сильная корреляция в парах описывающих количество минут разговоров и начислений: (total day charge, total day minutes), (total night charge, total night minutes), ... 

Из таких пар можно удалить один признак

In [None]:
feats=[f for f in data.columns if 'charge' in f]
feats

In [None]:
data_uncorr = data.drop(feats, axis=1)
data_uncorr.columns

In [None]:
sns.heatmap(data_uncorr.corr(numeric_only=True), cmap=plt.cm.rainbow);

### Важные замечания

Несмотря на кажущуюся простоту и «понятность» данных в результате визуализации, исследователь не должен делать поспешных выводов (например, было бы ошибочно делать вывод по представленным графикам о том, что ирисы Setosa те, у которых petal width менее 0,75).

Следует помнить, что цель первичного исследования данных – получение представления о структуре и природе данных, а не построение модели предсказания, классификации и т.п.

### Индивидуальное задание

1. Подберите набор данных на ресурсах [2, 3] и согласуйте свой выбор с преподавателем и другими студентами группы, так
как работа над одинаковыми наборами данных недопустима..

2. Проведите первичный анализ данных. Особое внимание следует уделить графическому представлению распрееделений признаков, визуализации взаимосвзей, позволяющие судить о наборе данных. Построение графиков желательно произвести по нескольким проекциям. При анализе данных использовать как можно более разнообразные типы графиков.

### Содержание отчета и его форма

Отчет по лабораторной работе должен содержать:

1. Номер и название лабораторной работы; задачи лабораторной работы.

2. Реализация каждого пункта подраздела «Индивидуальное задание» с приведением исходного кода программы, диаграмм и графиков для визуализации данных.

3. Ответы на контрольные вопросы.

4. Листинг программного кода с комментариями, показывающие порядок выполнения лабораторной работы, и результаты, полученные в ходе её выполнения.

### Контрольные вопросы

1. Перечислите функции Python, которые были изучены в рамках данной лабораторной работы и которые используются для визуализации данных.

2. Какая библиотека python предназначена для управления наборами данных: `numpy`, `pandas`, `sklearn`, `opencv`, `matplotlib`?

3. Какая стратегия является нежелательной при обработке пропусков в данных?

   а) замена пропущенных значений в столбце медианным значением по данному столбцу;

    б) удаление строк, содержащих пропуски в данных;  

    в) замена пропущенных значений в столбце средним арифметическим значением по данному столбцу;

    г) замена пропущенных значений в столбце наиболее часто встречающимся значением по данному столбцу;

5. Обоснуйте ответ на следующую проблему предварительной обработки данных: имеется независимая категориальная переменная $y$, которая представляет собой категориальный признак, опеределнный на домене {`C#`, `Java`, `Python`, `R`}. Нужно ли применять к данному целевому признаку `OneHotEncoder`?

6. Какой код лучше использовать при загрузке данных из csv-файла?

   а) `dataset = read_csv('data.csv')`

    б) `dataset = import('data.csv')` 

    в) `dataset = read.csv('data.csv')`

    г) `dataset = import.csv('data.csv')`

    д) `dataset = read_xls('data.csv')`


### Список литературы

1. Дж. Плас: Python для сложных задач. Наука о данных и машинное обучение. Питер.,2018, 576 с.

2. [Репозиторий наборов данных для машинного обучения (Центр машинного обучения и интеллектуальных систем)](https://archive.ics.uci.edu/datasets)

3. [Репозиторий наборов данных для машинного обучения (Kaggle)](https://www.kaggle.com/datasets/)