# Исследуйте распределение данных о клиентах компании
## Условие задачи

Вы работаете в компании, которая занимается анализом данных. Вам было поручено исследовать распределение данных о клиентах для разработки новой маркетинговой стратегии. Ваша цель — понять основные характеристики и особенности распределения данных, чтобы определить целевую аудиторию и разработать эффективные маркетинговые кампании.

**Алгоритм решения:**

1. Загрузите данные из файла CSV.
2. Проведите предварительный анализ данных. Он включает 3 шага.
    1. Изучите структуру данных, проверьте типы переменных.
    2. Оцените пропущенные значения и примите решения о их обработке.
    3. Проверьте аномальные значения и выбросы.
3. Исследуйте распределение данных. Для этого используйте следующие методы:
    - Постройте гистограмму и оцените форму распределения.
    - Рассчитайте описательные статистики: среднее значение, стандартное отклонение и т.д.
    - Постройте ящик с усами для выявления выбросов и аномальных значений.
    - Проверьте нормальность распределения с помощью статистических тестов.
4. Проанализируйте полученные результаты и сделайте выводы о распределении данных.

**Пример входных данных (data_test.csv):**

[data_test.csv](https://github.com/Eduson-DataScience/DataScience/blob/main/EDA-Practice/Explore%20distribution/data_test.csv)

## Подсказки

- Проверьте структуру данных и типы переменных с помощью функций **`head()`** и **`dtypes`**.
- Для обнаружения пропущенных значений используйте функцию **`isnull().sum()`**.
- Используйте функцию **`describe()`** для получения описательных статистик данных.
- Для построения гистограммы и ящика с усами используйте библиотеку **`seaborn`**.
- Для проверки нормальности распределения используйте функцию **`shapiro()`** из модуля **`scipy.stats`**.

In [58]:
import pandas as pd
import seaborn as sns
from scipy.stats import shapiro


In [38]:
data = pd.read_csv('data_test.csv')
data.shape, data.head(), data.dtypes, data.describe()

((49, 1),
    variable
 0        16
 1        15
 2        12
 3         8
 4        17,
 variable    int64
 dtype: object,
         variable
 count  49.000000
 mean   21.061224
 std     9.577335
 min     5.000000
 25%    15.000000
 50%    20.000000
 75%    26.000000
 max    60.000000)

In [40]:
shapiro(data)

ShapiroResult(statistic=0.91677919608243, pvalue=0.0020349954931665527)