**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант № 14

Набор данных: clients

Атрибуты: 'ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome','Dt_Customer', 'NumDealsPurchases'

### 1.Чтение файла (набора данных)

In [4]:
 import pandas as pd
 df = pd.read_csv(r"C:\Users\derya\Downloads\LR1_AD\clients.csv", sep =';' ) # импорт библиотек, чтение файла с помощью pandas

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [5]:
df.head(20) # применение метода 'head'

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Dt_Customer,NumDealsPurchases
0,5524,1957,Graduation,Single,58138.0,0.0,04.09.2012,3.0
1,2174,1954,Graduation,Single,46344.0,1.0,08.03.2014,2.0
2,4141,1965,Graduation,Together,71613.0,0.0,21.08.2013,1.0
3,6182,1984,Graduation,Together,26646.0,1.0,10.02.2014,2.0
4,5324,1981,PhD,Married,58293.0,1.0,19.01.2014,5.0
5,7446,1967,Master,Together,62513.0,0.0,09.09.2013,2.0
6,965,1971,Graduation,Divorced,55635.0,0.0,13.11.2012,4.0
7,6177,1985,PhD,Married,33454.0,1.0,08.05.2013,2.0
8,4855,1974,PhD,Together,30351.0,1.0,06.06.2013,1.0
9,5899,1950,PhD,Together,5648.0,1.0,13.03.2014,1.0


2.2 Оценка данных с помощью метода info.

In [6]:
df.info() # выполнение метода 'info'

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 796 entries, 0 to 795
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   ID                 796 non-null    int64  
 1   Year_Birth         796 non-null    int64  
 2   Education          796 non-null    object 
 3   Marital_Status     796 non-null    object 
 4   Income             784 non-null    float64
 5   Kidhome            795 non-null    float64
 6   Dt_Customer        795 non-null    object 
 7   NumDealsPurchases  795 non-null    float64
dtypes: float64(3), int64(2), object(3)
memory usage: 49.9+ KB


2.3 Оценка данных с помощью метода describe.

In [7]:
df.describe() # оценка числовых столбцов с помощью 'describe'

Unnamed: 0,ID,Year_Birth,Income,Kidhome,NumDealsPurchases
count,796.0,796.0,784.0,795.0,795.0
mean,5630.133166,1968.356784,53130.07398,0.438994,2.314465
std,3273.039715,12.022132,21818.56876,0.547252,1.94165
min,0.0,1899.0,2447.0,0.0,0.0
25%,2853.0,1959.0,36141.75,0.0,1.0
50%,5563.0,1969.5,52372.5,0.0,2.0
75%,8584.25,1977.0,69293.25,1.0,3.0
max,11191.0,1995.0,162397.0,2.0,15.0


---

## **Вывод**
**столбец ID** - это уникальный идентификатор записи. Этот столбец используется для идентификации записей, и *статистики (например, среднее или стандартное отклонение) обычно не несут практической ценности*
- mean — среднее значение ID, что не имеет практического смысла, так как ID обычно номинальный идентификатор
- std — стандартное отклонение, показывающее разброс значений ID

**столбец Year_Birth** - это год рождения клиента
- mean — средний год рождения, что указывает на средний возраст клиента - около 57 лет (2025 - 1968 ≈ 57)
- std — стандартное отклонение, показывающее разброс годов рождения
  
**столбец Income** - это доход клиента в условных единицах
- count — количество записей с данными о доходе (меньше, чем в других столбцах - это значит, что есть пропущенные значения)
- std — стандартное отклонение, показывающее значительный разброс доходов
  
**столбец Kidhome** - это количество детей в семье клиента
- mean - в среднем на одного клиента приходится 0.44 ребенка
- std - стандартное отклонение, показывающее, что большинство семей имеют 0 или 1 ребенка
  
**столбец NumDealsPurchases** - это количество совершенных покупок:
- count - количество записей с данными о покупках
- mean - в среднем клиенты совершают около 2.3 покупок
- std - стандартное отклонение, показывающее умеренный разброс
- min - некоторые клиенты не совершали покупок
  
 ---

 2.4 Оценка названий столбцов

In [8]:
df.columns # Вывод на экран названий столбцов с помощью df.columns

Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome',
       'Dt_Customer', 'NumDealsPurchases'],
      dtype='object')

In [9]:
df.columns = df.columns.str.lower()
df = df.rename(columns={'kidhome': 'num_kids','dt_customer': 'registration_date', 'numdealspurchases': 'num_deals_purchases'}) # Переименование столбцов по необходимости

In [10]:
df.columns

Index(['id', 'year_birth', 'education', 'marital_status', 'income', 'num_kids',
       'registration_date', 'num_deals_purchases'],
      dtype='object')

---
## **Пояснение**

Все столбцы используют стиль *CamelCase*, который не соответствует рекомендациям PEP 8 (*snake_case* предпочтительнее в Python). Это может затруднить читаемость и единообразие кода. В соответствии с этим выводом столбцы были переименованы, некоторые аббревиатуры (*Kidhome*, *Dt_Customer*) были заменены на более лаканичные и описательные названия 

---

### 3. Проверка пропусков

In [11]:
 print(df.isna().sum()) # подсчет количества пропусков

id                      0
year_birth              0
education               0
marital_status          0
income                 12
num_kids                1
registration_date       1
num_deals_purchases     1
dtype: int64


In [12]:
 df = df.dropna(subset=[ 'income', 'num_kids', 'registration_date', 'num_deals_purchases']) # Удаление строк, в которых в указанных столбцах есть NaN

In [13]:
 print(df.isna().sum()) # Проверка на отсутствие пропусков

id                     0
year_birth             0
education              0
marital_status         0
income                 0
num_kids               0
registration_date      0
num_deals_purchases    0
dtype: int64


### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [14]:
 df[df.duplicated()] # получение дубликатов с помощью логической индексации
 print(df.duplicated().sum()) # подсчет количества дубликатов

4


In [15]:
 df = df.drop_duplicates().reset_index() # удаление дубликатов  и обновление индексации

In [16]:
df[df.duplicated()]
print(df.duplicated().sum()) # Проверка на отсутствие дубликатов

0


#### Проверка неявных дубликатов

In [17]:
print(df['marital_status'].value_counts())

marital_status
Married     301
Together    192
Single      168
Divorced     85
Widow        29
Alone         3
MARRIED       1
SINGL         1
Name: count, dtype: int64


In [18]:
 df['marital_status'] = df['marital_status'].replace('MARRIED', 'Married').replace('SINGL', 'Single').replace('Alone', 'Single')

In [19]:
print(df['marital_status'].value_counts())

marital_status
Married     302
Together    192
Single      172
Divorced     85
Widow        29
Name: count, dtype: int64


---
## **Пояснение**

Для проверки был выбран только столбец *marital_status*, поскольку только он может иметь несколько вариаций на одно слово (Married - married - Maried). Остальные столбцы несут ту информацию, которая имеет право на дублирование (например, у клиентов могут совпадать доходы и количество детей)

---

### 5. Провека типов данных

In [20]:
df['registration_date'] = pd.to_datetime(
 df['registration_date'], format='%d.%m.%Y'
 ) #  Преобразование столбцов registration_date из формата object к формату даты
df['num_kids'] = df['num_kids'].astype(int) # Преобразование столбцов из формата float в формат int
df['num_deals_purchases'] = df['num_deals_purchases'].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 780 entries, 0 to 779
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   index                780 non-null    int64         
 1   id                   780 non-null    int64         
 2   year_birth           780 non-null    int64         
 3   education            780 non-null    object        
 4   marital_status       780 non-null    object        
 5   income               780 non-null    float64       
 6   num_kids             780 non-null    int64         
 7   registration_date    780 non-null    datetime64[ns]
 8   num_deals_purchases  780 non-null    int64         
dtypes: datetime64[ns](1), float64(1), int64(5), object(2)
memory usage: 55.0+ KB


### 6. Группировка данных

#### Задание 1

*`Группировка - тип образования по каждому семейному статусу (marital_status).`*

In [21]:
grouped = df.groupby('education')['marital_status'].value_counts()
print (grouped)

education   marital_status
Basic       Married             9
            Together            4
            Divorced            1
            Single              1
Graduation  Married           168
            Single             98
            Together           96
            Divorced           49
            Widow              21
Master      Married            57
            Together           41
            Single             32
            Divorced           12
            Widow               4
PhD         Married            68
            Together           51
            Single             41
            Divorced           23
            Widow               4
Name: count, dtype: int64


---
## **Вывод**

 Интерпритация - из результата данной сортировки можно увидеть, что больше всего женатых и одиноких клиентов имеют высшее образование. Наименьшее же количество отношений имеют клиенты с базовым образованием

---

#### Задание 2

*`Группировка - семейный статус (marital_status) по количеству детей. Создать датафрейм. Переименовать столбец с количеством в “сount”. Отсортировать по убыванию столбца “count”`*

In [22]:
grouped = df.groupby('marital_status')['num_kids'].value_counts().reset_index(name='count')
grouped = grouped.sort_values(by='count', ascending=False)
print (grouped.to_string(index=False))

marital_status  num_kids  count
       Married         0    166
       Married         1    125
      Together         0    123
        Single         0     97
        Single         1     72
      Together         1     66
      Divorced         0     52
      Divorced         1     31
         Widow         0     24
       Married         2     11
         Widow         1      5
        Single         2      3
      Together         2      3
      Divorced         2      2


---
## **Вывод**

Интерпритация - из результата данной сортировки можно увидеть, что больше всего женатых клиентов имеют не более одного ребенка. Наибольшее количество детей имеет наименьшая группа клиентов - находящихся в отношениях или разведенных

---

#### Задание 3

*`Сводная таблица (pivot_table) - средний доход семьи по семейному
положению. Отсортировать по убыванию. Округлить до двух знаков`*

In [72]:
pivot_table = df.pivot_table(
    values='income',   
    index='marital_status', 
    aggfunc='mean').round(2).sort_values(by='income', ascending=False)
print(pivot_table)

                  income
marital_status          
Widow           55452.45
Divorced        54568.16
Together        54502.84
Married         52898.34
Single          50934.03


---
## **Вывод**

Интерпритация - из результата данной сортировки можно увидеть, что наибольший средний доход имеют овдовевшие клиенты, наименьший - одинокие

---

#### Задание 4

*`Сводная таблица (pivot_table) - среднее количество покупок по уровню
образованию - строки и году рождения - столбцы. Отсортировать по возрастанию
education. Округлить до двух знаков.`*

In [73]:
pivot_table = df.pivot_table(
    values='num_deals_purchases',
    index='education',
    columns='year_birth',
    aggfunc='mean').round(2).sort_index(ascending=True)
print(pivot_table)

year_birth  1899  1941  1943  1944  1945  1946  1947  1948  1949  1950  ...  \
education                                                               ...   
Basic        NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN  ...   
Graduation   NaN   NaN   NaN   1.0   NaN  1.67   1.0  1.00   1.0  2.00  ...   
Master       NaN   NaN   1.0   1.0   1.0  1.00   1.0  1.00   2.2  5.00  ...   
PhD          1.0   0.0   1.5   1.0   1.5  2.00   1.0  2.43   2.5  1.67  ...   

year_birth  1986  1987  1988  1989  1990  1991  1992  1993  1994  1995  
education                                                               
Basic       2.00  2.00   NaN  1.00   1.0   NaN   NaN   NaN   NaN   NaN  
Graduation  1.29  1.67  1.92  1.88   1.0   1.0   1.0   1.0   1.0   1.0  
Master      2.50  1.00  1.00  2.00   NaN   NaN   1.0   NaN   NaN   NaN  
PhD         1.50   NaN  1.00  1.00   NaN   1.0   NaN   NaN   NaN   NaN  

[4 rows x 55 columns]


---
## **Вывод**

Интерпритация - из результата данной сортировки можно увидеть, что данные о среднем количестве покупок клиентов с базовым образованием отсутствует, вне зависимости от года рождения. Наибольшее среднее количество покупок совершили клиенты с образованием PhD 1949 года рождения

---

### Вывод


***`В ходе лабораторной работы был проанализирован набор данных о клиентах - маркетинговый анализ поведения потребителей. Были использованы следующие методы предобработки:исправление пути к файлу (обработка unicodeescape с помощью raw-строк), проверка статистик, переименование столбцов в snake_case (через нижний регистр), поиск неявных дубликатов в текстовых столбцах с помощью unique() и value_counts(), исправление replace(), преобразование типов, преобразование дат, удаление NaN.`***

***`Выводы из группировок и сводных таблиц:`***

***`Группировка education по marital_status: статус "married" преобладает во всех уровнях образования (basic, graduation, master, PhD), с наибольшим количеством в graduation и PhD; статус "divorced" чаще в graduation; статусы "alone" и "widow" редки, в основном в graduation и PhD.
Группировка marital_status по num_kids: клиенты со статусом "married" имеют детей (0–2, с преобладанием 1); одинокие клиенты чаще без детей, реже с двумя; разведенные и овдовевшие — в основном 0–1 детей; сортировка по count показывает клиентов со статусом "married" с наибольшим общим объемом.
Pivot table средний income по marital_status: разведенные клиенты имеет наивысший доход (~55453), за ним разведенные (~54568) и в отношениях (~54503); сортировка descending подчеркивает корреляцию статуса с доходом.
Pivot table среднее num_deals_purchases по education (строки) и year_birth (столбцы): Для клиентов с базовым образованием 1970–1980-х годов рождения среднее число покупок составляет 2.5–3.0; для клиентов с образованием "master" - 4.0–5.0 в тех же годах; PhD - 1.0 в 1990-х; NaN в пустых комбинациях указывают на неравномерность распределения, с фокусом на старшие поколения, из чего следует вывод, что высшее образование коррелирует с большим доходом и покупками, но семейный статус влияет на детей и активность.`***
