# Исследуйте распределение данных о клиентах компании
## Условие задачи

Вы работаете в компании, занимающейся анализом данных, и вам было поручено исследовать распределение данных о клиентах для разработки новой маркетинговой стратегии. Ваша цель — понять основные характеристики и особенности распределения данных, чтобы определить целевую аудиторию и разработать эффективные маркетинговые кампании.

**Алгоритм решения:**

1. Загрузите данные из файла CSV.
2. Проведите предварительный анализ данных, он включает 3 шага.
    1. Изучите структуру данных, проверьте типы переменных.
    2. Оцените пропущенные значения и примите решения о их обработке.
    3. Проверьте аномальные значения и выбросы.
3. Исследуйте распределение данных, используя следующие методы:
    - Постройте гистограмму и оцените форму распределения.
    - Рассчитайте описательные статистики: среднее значение, стандартное отклонение и т.д.
    - Постройте ящик с усами для выявления выбросов и аномальных значений.
    - Проверьте нормальность распределения с помощью статистических тестов.
4. Проанализируйте полученные результаты и сделайте выводы о распределении данных.

**Пример входных данных (data_test.csv):**

[data_test.csv](https://github.com/Eduson-DataScience/EDA-Practice/blob/main/Define_data_taxonomy_in_different_variations%20copy%203/data_test.csv)

## Подсказки

- Проверьте структуру данных и типы переменных с помощью функции **`head()`** и **`dtypes`**.
- Для обнаружения пропущенных значений используйте функцию **`isnull().sum()`**.
- Используйте функцию **`describe()`** для получения описательных статистик данных.
- Для построения гистограммы и ящика с усами используйте библиотеку **`seaborn`**.
- Для проверки нормальности распределения используйте функцию **`shapiro()`** из модуля **`scipy.stats`**.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import shapiro

# Загрузка данных из файла CSV
data = pd.read_csv('data_test.csv')

# Предварительный анализ данных
# Изучение структуры данных
print("Структура данных:")
print(data.head())
print()

# Оценка пропущенных значений
print("Пропущенные значения:")
print(data.isnull().sum())
print()

# Проверка аномальных значений и выбросов
print("Описание данных:")
print(data.describe())
print()

# Исследование распределения данных
# Построение гистограммы
plt.figure(figsize=(8, 6))
sns.histplot(data['variable'], kde=True)
plt.title("Распределение данных")
plt.xlabel("Значение")
plt.ylabel("Частота")
plt.show()

# Построение ящика с усами
plt.figure(figsize=(8, 6))
sns.boxplot(x=data['variable'])
plt.title("Ящик с усами")
plt.xlabel("Переменная")
plt.show()

# Проверка нормальности распределения
stat, p = shapiro(data['variable'])
print("Тест нормальности:")
print(f"Статистика теста: {stat}")
print(f"p-значение: {p}")
print()

**Выводы анализа:**
По результатам анализа распределения переменной "variable" можно сделать следующие выводы:

1. Гистограмма показывает, что распределение данных имеет «хвост».    
2. Описательные статистики:
- среднее значение 21.1,
- стандартное отклонение 9.6.
3. Ящик с усами показывает наличие выбросов в районе 60.    
4. Поскольку p-значение меньше 0.05, мы отвергаем нулевую гипотезу теста Шапиро-Уилка. Это означает, что у нас есть достаточно доказательств, чтобы утверждать, что выборки не получены из нормального распределения.