## Разведывательный анализ данных (EDA) и описание данных
### Введение в библиотеки Pandas и NumPy

**Pandas** — одна из основных библиотек для работы с табличными данными в Python. Она предоставляет удобные структуры данных, такие как **DataFrame**, для эффективной работы с большими объемами данных.

**NumPy** — это библиотека для работы с многомерными массивами и матрицами, которая также полезна при проведении числовых операций.

Пример кода для импорта библиотек и загрузки датасета:

```python
import pandas as pd
import numpy as np

# Загрузка ранее созданного датасета
df = pd.read_csv('https://raw.githubusercontent.com/aikula/uprav/refs/heads/main/customer_purchases.csv')

# Вывод первых 5 строк датасета
df.head()
```

### Пояснение:
1. **`pd.read_csv()`** — эта функция позволяет загружать данные из файла CSV в DataFrame.
2. **`df.head()`** — выводит первые 5 строк для того, чтобы убедиться, что данные загружены корректно.

### Чтение данных из Excel

В дополнение к CSV, библиотека **Pandas** также поддерживает чтение данных из файлов Excel с использованием функции **`pd.read_excel()`**. Для этого вам потребуется установить библиотеку `openpyxl` (для работы с файлами формата .xlsx). Для установки библиотеки можно использовать команду:

```
!pip install openpyxl
```

#### Пример чтения данных из Excel:

```python
import pandas as pd

# URL файла
url = "https://github.com/aikula/m2Analit/blob/main/timeseries.xlsx?raw=true"

# Чтение файла Excel из URL
df2 = pd.read_excel(url)

# Вывод первых нескольких строк данных
df2.head()
```

#### Пояснение:

1. **`pd.read_excel()`** — функция для чтения данных из Excel файла. По умолчанию читается первый лист в файле, но если у вас несколько листов, вы можете указать нужный лист с помощью параметра **`sheet_name`**.

   ```python
   df_excel = pd.read_excel('railway_freight_data.xlsx', sheet_name='Sheet1')
   ```

2. **`df.head()`** — выводит первые 5 строк для быстрой проверки структуры данных.

### Сохранение данных в Excel и CSV

Для сохранения данных из DataFrame в Excel или CSV используется следующие функции:

#### Сохранение в CSV:
```python
# Сохранение DataFrame в файл CSV
df2.to_csv('timeseris.csv', index=False)
```

#### Пояснение:

- **`index=False`** — это параметр, который указывает Pandas не сохранять индексы строк в файле CSV (по умолчанию Pandas добавляет индекс в CSV файл).

## Разведывательный анализ данных (EDA)

### Введение в EDA
**Разведывательный анализ данных (Exploratory Data Analysis, EDA)** — это важный этап подготовки данных для последующего моделирования и принятия решений. EDA помогает лучше понять структуру данных, выявить скрытые закономерности, аномалии, выбросы и подготовить данные для дальнейшего анализа. В этом блоке мы рассмотрим основные принципы EDA и ключевые методы.

---

### Основные понятия разведывательного анализа данных

EDA предполагает следующие ключевые шаги:

1. **Знакомство с данными**:
   - Какую информацию представляют данные?
   - Какие переменные (столбцы) присутствуют в наборе данных?
   - Какого типа эти переменные (числовые, категориальные и т.д.)?

2. **Описательная статистика**:
   - Какова структура данных?
   - Что можно сказать о распределении переменных?
   - Какие ключевые статистические показатели (среднее, медиана, мода, стандартное отклонение и т.д.) можно вычислить?

3. **Оценка качества данных**:
   - Содержат ли данные пропуски?
   - Есть ли в данных выбросы (аномалии)?
   - Корректны ли типы данных для каждого столбца?

4. **Визуализация данных**:
   - Как визуализировать данные для лучшего понимания их структуры?
   - Какие графики подходят для каждого типа данных (гистограммы, диаграммы рассеяния, коробчатые диаграммы и т.д.)?

Теперь рассмотрим каждый из этих шагов на конкретных примерах с кодом.

---

### Применение статистических методов для описания данных

#### Шаг 1: Знакомство с данными

Первым шагом всегда является изучение структуры данных. В этом случае полезно узнать, какие столбцы (переменные) есть в наборе данных, каков их тип и сколько строк (наблюдений) представлено в датасете.

##### Пример:
Мы используем ранее созданный датасет о грузоперевозках по железной дороге.

```python
import pandas as pd

# Загрузка датасета
df = pd.read_csv('customer_purchases.csv')

# Общая информация о данных
df.info()
```

### Пояснение:
1. **`df.info()`** — предоставляет обзор структуры данных:
   - Количество строк и столбцов.
   - Тип данных каждого столбца.
   - Количество ненулевых значений в каждом столбце (это полезно для выявления пропусков).

### Шаг 2: Описательная статистика

Для количественных переменных крайне полезно получить сводку статистических показателей. Это включает в себя среднее значение, медиану, минимальное и максимальное значения, а также распределение значений через квартильные интервалы.

##### Пример получения описательной статистики:

```python
# Описательная статистика для количественных переменных
df.describe()
```

### Пояснение:
1. **`describe()`** выводит стандартные статистические параметры для всех числовых переменных в наборе данных:
   - **count**: количество ненулевых значений.
   - **mean**: среднее значение переменной.
   - **std**: стандартное отклонение.
   - **min**: минимальное значение.
   - **25%, 50%, 75%**: квартильные значения (25-й, 50-й, 75-й процентили), которые показывают распределение значений.
   - **max**: максимальное значение.


### Шаг 3: Визуализация распределения данных

Визуализация данных помогает наглядно увидеть распределение переменных. Например, для числовых данных гистограмма (histogram) позволяет оценить частотное распределение значений.

##### Пример построения гистограммы:

```python
import matplotlib.pyplot as plt
# Построение гистограммы для столбца 'Weight_Tons'
plt.figure(figsize=(8, 5))
plt.hist(df['age'], bins=20, color='blue', edgecolor='black')
plt.title('Распределение по возрасту')
plt.xlabel('Возраст')
plt.ylabel('Частота')
plt.show()
```

### Пояснение:
- **`hist()`** — строит гистограмму, которая показывает, сколько раз данные попадают в определенные интервалы (bins).
- Гистограмма помогает оценить, как распределены данные (нормально ли, есть ли перекосы и т.д.).

##### Интерпретация:
Допустим, гистограмма показала, что большинство грузов весит между 3000 и 7000 тонн, но есть несколько грузов весом более 9000 тонн. Это может указывать на возможные выбросы или специфику структуры данных.

### Pair plots


Примеры графиков:
- https://matplotlib.org/stable/gallery/
- https://seaborn.pydata.org/examples/index.html

```python
import seaborn as sns

# Выбор количественных столбцов
quant_cols = df.select_dtypes(include=['float64', 'int64']).columns

# Построение pairplot для количественных столбцов с KDE и подсветкой точек по виду груза
sns.pairplot(df, kind='scatter', hue='gender')
# Сохранение графика в формате JPG
plt.savefig('pairplot.jpg')
```

# Корреляция

Корреляция – это статистическая мера, отражающая степень взаимосвязи между двумя (или более) переменными. Основные моменты:
- Суть: показывает, насколько изменения одной переменной сопровождаются изменениями другой.
- Коэффициент корреляции (r): принимает значения от –1 до +1.
  - +1 означает, что при увеличении одной переменной другая увеличивается пропорционально (полная прямая связь).
  - –1 указывает на обратную пропорциональную зависимость (полная обратная связь).
  - 0 говорит об отсутствии линейной связи.

**Важно:** корреляция лишь указывает на наличие взаимосвязи, но не доказывает, что одна переменная является причиной изменений другой.


```python
df[quant_cols].corr()
```

Тепловая карта

```python
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# Предположим, что ваш DataFrame называется df и уже загружен

# Выбор количественных столбцов
quant_cols = df.select_dtypes(include=['float64', 'int64']).columns

# Вычисление корреляции
corr_matrix = df[quant_cols].corr()

# Построение тепловой карты корреляции
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Тепловая карта корреляции количественных столбцов')
plt.show()
```

# Основы кластерного анализа

Кластеризация — это метод разделения данных на группы (кластеры) на основе их сходства. В этом блоке мы рассмотрим основные методы кластеризации, а затем применим их на практике с помощью Python.

---

## Основы кластерного анализа

### Теоретические основы кластеризации

Кластеризация — это метод обучения без учителя, который разделяет объекты на группы таким образом, чтобы объекты в одной группе были схожи между собой, а объекты в разных группах — различались.

Основные методы кластеризации:

1. **K-means (К-средних)**:
   - Один из самых популярных методов.
   - Разделяет данные на **k** кластеров, минимизируя расстояние между объектами и их центроидами.
   - Ключевая проблема: необходимо заранее знать количество кластеров.

2. **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)**:
   - Основан на плотности: кластеры определяются как области с высокой плотностью точек.
   - Хорошо справляется с шумом (выбросами) и кластерами любой формы.
   - Требует настройки двух параметров: радиус кластера (`eps`) и минимальное количество точек для кластера (`min_samples`).

3. **Иерархическая кластеризация**:
   - Формирует дерево (дендрограмму), где каждый узел представляет собой кластер.
   - Не требует заранее знать количество кластеров.
   - Можно выбрать, как объединять кластеры (например, по минимальному или максимальному расстоянию между точками).
  
Здесь приведены только наиболее популярные методы.

## Практика кластерного анализа с использованием Python

Теперь рассмотрим применение кластеризации на практике с использованием библиотеки **Scikit-learn**.

### Пример 1: Кластеризация методом K-means

```python
import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn import preprocessing

# Выбор признаков для кластеризации
X = df[['age', 'distance']]
scaler = preprocessing.StandardScaler().fit(X)
X=scaler.fit_transform(X)

# Применение K-means с 3 кластерами
kmeans = KMeans(n_clusters=3, random_state=42)
df['Cluster'] = kmeans.fit_predict(X)

# Визуализация кластеров
plt.scatter(df['age'], df['distance'], c=df['Cluster'], cmap='viridis')
plt.title('Кластеризация методом K-means')
plt.show()
```

### Пояснение:
- **`KMeans(n_clusters=3)`** — задаём 3 кластера.
- **`fit_predict(X)`** — обучает модель и возвращает метки кластеров для каждого наблюдения.
- **`plt.scatter()`** — визуализирует результаты кластеризации по двум признакам (вес и стоимость).

### Пример 3: Иерархическая кластеризация (дендрограмма)

```python
from scipy.cluster.hierarchy import dendrogram, linkage

# Построение дендрограммы
Z = linkage(X, method='ward')

plt.figure(figsize=(10, 7))
dendrogram(Z)
plt.title('Дендрограмма (иерархическая кластеризация)')
plt.xlabel('Наблюдения')
plt.ylabel('Расстояние')
plt.show()
```

### Пояснение:
- **`linkage()`** — вычисляет расстояния между кластерами с использованием метода Варда.
- **`dendrogram()`** — строит дендрограмму, где высота каждого соединения показывает расстояние между кластерами.