**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №14

Набор данных: clients.csv

Атрибуты:
1. уникальный идентификатор клиента
2. год рождения клиента
3. уровень образования клиента
4. семейное положение клиента
5. годовой доход семьи
6. количество детей
7. дата регистрации клиента в компании
8. количество покупок

### 1.Чтение файла (набора данных)

In [1]:
# импорт библиотек, чтение файла с помощью pandas
import pandas as pd
df = pd.read_csv("clients.csv", sep=';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [2]:
# применить метод head
df.head(20)

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Dt_Customer,NumDealsPurchases
0,5524,1957,Graduation,Single,58138.0,0.0,04.09.2012,3.0
1,2174,1954,Graduation,Single,46344.0,1.0,08.03.2014,2.0
2,4141,1965,Graduation,Together,71613.0,0.0,21.08.2013,1.0
3,6182,1984,Graduation,Together,26646.0,1.0,10.02.2014,2.0
4,5324,1981,PhD,Married,58293.0,1.0,19.01.2014,5.0
5,7446,1967,Master,Together,62513.0,0.0,09.09.2013,2.0
6,965,1971,Graduation,Divorced,55635.0,0.0,13.11.2012,4.0
7,6177,1985,PhD,Married,33454.0,1.0,08.05.2013,2.0
8,4855,1974,PhD,Together,30351.0,1.0,06.06.2013,1.0
9,5899,1950,PhD,Together,5648.0,1.0,13.03.2014,1.0


2.2 Оценка данных с помощью метода info.

In [3]:
# выполнит метод info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 796 entries, 0 to 795
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   ID                 796 non-null    int64  
 1   Year_Birth         796 non-null    int64  
 2   Education          796 non-null    object 
 3   Marital_Status     796 non-null    object 
 4   Income             784 non-null    float64
 5   Kidhome            795 non-null    float64
 6   Dt_Customer        795 non-null    object 
 7   NumDealsPurchases  795 non-null    float64
dtypes: float64(3), int64(2), object(3)
memory usage: 49.9+ KB


2.3 Оценка данных с помощью метода describe.

In [4]:
# оцените числовые столбцы с помощью describe
df.describe()

Unnamed: 0,ID,Year_Birth,Income,Kidhome,NumDealsPurchases
count,796.0,796.0,784.0,795.0,795.0
mean,5630.133166,1968.356784,53130.07398,0.438994,2.314465
std,3273.039715,12.022132,21818.56876,0.547252,1.94165
min,0.0,1899.0,2447.0,0.0,0.0
25%,2853.0,1959.0,36141.75,0.0,1.0
50%,5563.0,1969.5,52372.5,0.0,2.0
75%,8584.25,1977.0,69293.25,1.0,3.0
max,11191.0,1995.0,162397.0,2.0,15.0



---

Данные выводятся с матрице, в которой к каждому столбцу применяются числовые функции, позволяющие более детально анализировать прочитанные данные.


 ---


 2.4 Оценка названий столбцов

In [5]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
df.columns

Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome',
       'Dt_Customer', 'NumDealsPurchases'],
      dtype='object')

In [6]:
# переименование при необходимости
df = df.rename(columns={'Year_Birth': 'YearBirth', 'Marital_Status': 'MaritalStatus', 'Kidhome': 'KidAmount', 'Dt_Customer': 'RegistrDate'})
df.columns

Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income',
       'KidAmount', 'RegistrDate', 'NumDealsPurchases'],
      dtype='object')

### 3. Проверка пропусков

In [7]:
# Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
print(df.isna().sum())

df = df.dropna(subset=["Income"])
df["KidAmount"] = df["KidAmount"].fillna(0)
df["RegistrDate"] = df["RegistrDate"].fillna(0)
df["NumDealsPurchases"] = df["NumDealsPurchases"].fillna(0)

print(df.isna().sum())


ID                    0
Year_Birth            0
Education             0
Marital_Status        0
Income               12
KidAmount             1
RegistrDate           1
NumDealsPurchases     1
dtype: int64
ID                   0
Year_Birth           0
Education            0
Marital_Status       0
Income               0
KidAmount            0
RegistrDate          0
NumDealsPurchases    0
dtype: int64



---

В случае отсутствия значения заработка строка удаляется полностью, так как без этого значения остальные данные не имеют смысла. Столбцы KidAmount и RegistrDate не так важны для анализа, потому в случае отсутствия значения пустая ячейка заполняется нулём.


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [8]:
print(df[df.duplicated()])
print(df.duplicated().sum())

       ID  Year_Birth   Education Marital_Status   Income  KidAmount  \
792  2853        1980  Graduation         Single  51766.0        1.0   
793  2853        1980  Graduation         Single  51766.0        1.0   
794  2853        1980  Graduation         Single  51766.0        1.0   
795  2853        1980  Graduation         Single  51766.0        1.0   

    RegistrDate  NumDealsPurchases  
792  11.03.2014                2.0  
793  11.03.2014                2.0  
794  11.03.2014                2.0  
795  11.03.2014                2.0  
4


In [9]:
# удалите дубликаты, если они есть
df = df.drop_duplicates().reset_index(drop=True)
print(df[df.duplicated()])
print(df.duplicated().sum())

Empty DataFrame
Columns: [ID, Year_Birth, Education, Marital_Status, Income, KidAmount, RegistrDate, NumDealsPurchases]
Index: []
0


#### Проверка неявных дубликатов

In [10]:
print(df["Education"].unique())
print(df["MaritalStatus"].unique())

['Graduation' 'PhD' 'Master' 'Basic']
['Single' 'Together' 'Married' 'Divorced' 'SINGL' 'MARRIED' 'Widow'
 'Alone']


In [11]:
df["MaritalStatus"] = df["MaritalStatus"].replace("MARRIED", "Married").replace("SINGL", "Single")
print(df["MaritalStatus"].unique())

['Single' 'Together' 'Married' 'Divorced' 'Widow' 'Alone']


---

Явные дубликаты, такие как повторяющиеся строки были полностью удалены, так как они являются перегрузом данных и не несут пользы. Неявные дубликаты, такие как неверное написание названий столбцов, были заменены на корректные варианты.


 ---

### 5. Провека типов данных

In [15]:
# Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
df["KidAmount"] = df["KidAmount"].astype("int64")
df["NumDealsPurchases"] = df["NumDealsPurchases"].astype("int64")
df["RegistrDate"] = pd.to_datetime(df["RegistrDate"], format="%d.%m.%Y")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 780 entries, 0 to 779
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ID                 780 non-null    int64         
 1   Year_Birth         780 non-null    int64         
 2   Education          780 non-null    object        
 3   Marital_Status     780 non-null    object        
 4   Income             780 non-null    float64       
 5   KidAmount          780 non-null    int64         
 6   RegistrDate        780 non-null    datetime64[ns]
 7   NumDealsPurchases  780 non-null    int64         
dtypes: datetime64[ns](1), float64(1), int64(4), object(2)
memory usage: 48.9+ KB


---

Столбец даты по умолчанию определяется как Object, а потому был приведёт к типу даты. Столбцы KidAmount и NumDealsPurchases отвечают за количественные значения, которые не могут быть дробными, поэтому тип float64 был заменён на тип int64.


 ---

### 6. Группировка данных

#### Задание 1

*` Группировка - тип образования по каждому семейному статусу
(marital_status).`*

In [45]:
# выполните группировку согласно варианту
df.groupby(["Education", "MaritalStatus"]).size()

Education   Marital_Status
Basic       Divorced            1
            Married             9
            Single              1
            Together            4
Graduation  Alone               1
            Divorced           49
            Married           168
            Single             97
            Together           96
            Widow              21
Master      Alone               1
            Divorced           12
            Married            57
            Single             31
            Together           41
            Widow               4
PhD         Alone               1
            Divorced           23
            Married            68
            Single             40
            Together           51
            Widow               4
dtype: int64

Результатом является сгруппированный объект, содержащий в себе подсчёт людей с разными семейными положениями, разделённые по категориям образования.

#### Задание 2

*`Группировка - семейный статус (marital_status) по количеству детей.
Создать датафрейм. Переименовать столбец с количеством в “сount”.
Отсортировать по убыванию столбца “count”.`*

In [51]:
# выполните группировку согласно варианту
df_grouped = df.groupby("MaritalStatus")["KidAmount"].count().reset_index(name="Count")
df_grouped.sort_values(by="Count", ascending=False)

Unnamed: 0,Marital_Status,Count
2,Married,302
4,Together,192
3,Single,169
1,Divorced,85
5,Widow,29
0,Alone,3


Результатом является объект DataFrame, полученный после группировки исходной таблицы, который содержит подсчёт людей с разным семейным положением, отсортированный в обратном порядке.

#### Задание 3

*`Сводная таблица (pivot_table) - средний доход семьи по семейному
положению. Отсортировать по убыванию. Округлить до двух знаков.`*

In [56]:
# выполните сводную таблицу согласно варианту
income_pivot = df.pivot_table(index="MaritalStatus", values="Income", aggfunc="mean")
income_pivot.sort_values(by="Income", ascending=False).round(2)

Unnamed: 0_level_0,Income
Marital_Status,Unnamed: 1_level_1
Widow,55452.45
Divorced,54568.16
Together,54502.84
Married,52898.34
Single,51060.87
Alone,43789.0


Результатом является отсортированная в обратном порядке сводная таблица, содержащая среднестатистический заработок людей с разным семейным положением.

#### Задание 4

*`Сводная таблица (pivot_table) - среднее количество покупок по уровню
образованию - строки и году рождения - столбцы. Отсортировать по возрастанию
education. Округлить до двух знаков.`*

In [63]:
# выполните сводную таблицу согласно варианту
deals_pivot = df.pivot_table(index="Education", columns="YearBirth", values="NumDealsPurchases", aggfunc="mean", fill_value=0)
deals_pivot.sort_index().round(2)

Year_Birth,1899,1941,1943,1944,1945,1946,1947,1948,1949,1950,...,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995
Education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Basic,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,2.0,2.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0
Graduation,0.0,0.0,0.0,1.0,0.0,1.67,1.0,1.0,1.0,2.0,...,1.29,1.67,1.92,1.88,1.0,1.0,1.0,1.0,1.0,1.0
Master,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,2.2,5.0,...,2.5,1.0,1.0,2.0,0.0,0.0,1.0,0.0,0.0,0.0
PhD,1.0,0.0,1.5,1.0,1.5,2.0,1.0,2.43,2.5,1.67,...,1.5,0.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0


Результом является сводная таблица, отражающая среднее количество покупок людей, разделённых по образованию и году рождения. Отсутствующие значения были обозначены нулём, а уровни образования отсортированны в порядке возрастания.

### Вывод


В ходе выполнения работы освоены навыки работы в Jupyter notebook, являющейся удобной интерактивной средой для анализа данных. Она позволяет запускать фрагменты кода по частям и сразу же видеть результат, а также использовать Markdown-разметку. Была изучена работа с библиотекой pandas, которая позволяет обрабатывать, анализировать и организовывать файлы (в случае лабораторной работы - файл .csv). Были затронуты оценка данных по тем или иным параметрам, группировка таблиц и организация сводных таблиц в Python.


### Дополнительное задание

**`Подробная формулировка задания`**

In [None]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***