# Лабораторная работа №1
## "Предварительный анализ данных"

### Подготовка данных

В данной лабораторной работе необходимо загрузить и обработать датасет, а также выполнить задания по варианту с помощью библиотеки `pandas` в `Python`. Для начала была импортирована данная библиотека с помощью функции `import`, затем был загружен датасет `clients.csv`

In [293]:
import pandas as pd

df = pd.read_csv('clients.csv',sep=';')

Были выведены первые 20 строк с помощью функции `df.head(20)`

In [294]:
print(df.head(20))

      ID  Year_Birth   Education Marital_Status   Income  Kidhome Dt_Customer  \
0   5524        1957  Graduation         Single  58138.0      0.0  04.09.2012   
1   2174        1954  Graduation         Single  46344.0      1.0  08.03.2014   
2   4141        1965  Graduation       Together  71613.0      0.0  21.08.2013   
3   6182        1984  Graduation       Together  26646.0      1.0  10.02.2014   
4   5324        1981         PhD        Married  58293.0      1.0  19.01.2014   
5   7446        1967      Master       Together  62513.0      0.0  09.09.2013   
6    965        1971  Graduation       Divorced  55635.0      0.0  13.11.2012   
7   6177        1985         PhD        Married  33454.0      1.0  08.05.2013   
8   4855        1974         PhD       Together  30351.0      1.0  06.06.2013   
9   5899        1950         PhD       Together   5648.0      1.0  13.03.2014   
10  1994        1983  Graduation        MARRIED      NaN      NaN         NaN   
11   387        1976       B

Предметной областью по варианту является журнал клиентов с такой информацией о них:
+ уникальный идентификатор
+ год рождения
+ уровень образования (базовый, выпускник, магистр, доктор наук)
+ семейное положение (холостой, в отношениях, женатый, разведён, вдовый)
+ семейная прибыль
+ количество детей
+ дата регистрации в компании
+ количество покупок

Все эти характеристики отображены в столбцах данного датасета. Чтобы показать все столбцы, используется функция `columns`

In [295]:
print(df.columns)

Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome',
       'Dt_Customer', 'NumDealsPurchases'],
      dtype='object')


Когда все столбцы были выведены, есть необходимость заменить названия столбцов, так как некоторые не отображают контекст (к примеру, `Kidhome`) или имеют в названии ошибку (в `NumDealsPurchases` слова deals и purchases имеют схожий смысл, а также написание не похоже на остальные столбцы)

In [296]:
df = df.rename(columns= {'Kidhome':'Children'})
df = df.rename(columns= {'NumDealsPurchases':'Purchases'})
df = df.rename(columns= {'Year_Birth': 'Birth_Year'})
df = df.rename(columns= {'Dt_Customer': 'Reg_Date'})

print(df.columns)

Index(['ID', 'Birth_Year', 'Education', 'Marital_Status', 'Income', 'Children',
       'Reg_Date', 'Purchases'],
      dtype='object')


Для отображения информации о датасете используется функция `df.info()`

In [297]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 796 entries, 0 to 795
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ID              796 non-null    int64  
 1   Birth_Year      796 non-null    int64  
 2   Education       796 non-null    object 
 3   Marital_Status  796 non-null    object 
 4   Income          784 non-null    float64
 5   Children        795 non-null    float64
 6   Reg_Date        795 non-null    object 
 7   Purchases       795 non-null    float64
dtypes: float64(3), int64(2), object(3)
memory usage: 49.9+ KB


Всего записей в этом датасете 796, однако в столбцах Income, Children, Reg_Date и Purchases наблюдаются меньше записей, так как там есть значения `NaN`. Чтобы вывести все записи, имеющие хотя бы одно нулевое значение, используется функция `.isnull()`. Функция `.any(axis=1)` указывает на поиск ненулевых значений именно по строкам.

In [298]:
df_nan = df[df.isnull().any(axis=1)]
print(df_nan)

       ID  Birth_Year   Education Marital_Status  Income  Children  \
10   1994        1983  Graduation        MARRIED     NaN       NaN   
26   5255        1986  Graduation         Single     NaN       1.0   
41   7281        1959         PhD         Single     NaN       0.0   
45   7244        1951  Graduation         Single     NaN       2.0   
55   8557        1982  Graduation         Single     NaN       1.0   
83   8996        1957         PhD        Married     NaN       2.0   
84   9235        1957  Graduation         Single     NaN       1.0   
85   5798        1973      Master       Together     NaN       0.0   
116  8268        1961         PhD        Married     NaN       0.0   
121  1295        1963  Graduation        Married     NaN       0.0   
286  2437        1989  Graduation        Married     NaN       0.0   
293  2863        1970  Graduation         Single     NaN       1.0   

       Reg_Date  Purchases  
10          NaN        NaN  
26   20.02.2013        0.0  
41

Было принято решение удалить все записи, содержащие в себе хотя бы одно значение `NaN`, так как в дальнейшем отсутствие данных повлияло бы на значение среднего дохода семьи. За удаление строк с нулевыми значениями отвечает функция `.dropna()`. После этого была проведена проверка нулевых значений в столбцах с помощью функции `.isna()`, `.sum()` показывает сумму таких значений. Везде написано 0

In [299]:
df = df.dropna()
print(df.isna().sum())

ID                0
Birth_Year        0
Education         0
Marital_Status    0
Income            0
Children          0
Reg_Date          0
Purchases         0
dtype: int64


Также вывод функции `.info()` показал типы данных в столбцах. Столбцы `Children` и `Purchases` имеют тип `float`, однако значения в данных столбцах могут быть только дискретными, поэтому необходимо задать данным столбцам тип данных `int` с помощью функции `.astype()`

In [300]:
df['Children'] = df['Children'].astype(int)
df['Purchases'] = df['Purchases'].astype(int)

Также столбец `Reg_Date` имеет тип данных `object`, но так как это столбец с датой, то данному столбцу необходимо присвоить тип данных `datetime` для правильного отображения с помощью функции `pd.to_datetime()` и задать формат дд.мм.гг.

In [301]:
df['Reg_Date'] = pd.to_datetime(df['Reg_Date'], format='%d.%m.%Y')

 Теперь можно вывести информацию о датасете с изменёнными типами данных.

In [302]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 784 entries, 0 to 795
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   ID              784 non-null    int64         
 1   Birth_Year      784 non-null    int64         
 2   Education       784 non-null    object        
 3   Marital_Status  784 non-null    object        
 4   Income          784 non-null    float64       
 5   Children        784 non-null    int64         
 6   Reg_Date        784 non-null    datetime64[ns]
 7   Purchases       784 non-null    int64         
dtypes: datetime64[ns](1), float64(1), int64(4), object(2)
memory usage: 55.1+ KB


Метод `.describe()` используется для получения статистического обзора данных. Он предоставляет такие статистические показатели, как среднее значение, стандартное отклонение, минимальное и максимальное значения, а также квартильные значения (25%, 50%, и 75%).
Столбец `Reg_Date` тоже содержит числовые значения, но в виде даты, поэтому он был исключён из вывода, так как использовать его было бы некорректно.

In [303]:
description = df.drop(columns='Reg_Date').describe()
print(description)

                 ID   Birth_Year        Income    Children   Purchases
count    784.000000   784.000000     784.00000  784.000000  784.000000
mean    5628.014031  1968.343112   53130.07398    0.434949    2.307398
std     3279.536751    12.013759   21818.56876    0.542783    1.914827
min        0.000000  1899.000000    2447.00000    0.000000    0.000000
25%     2853.000000  1959.000000   36141.75000    0.000000    1.000000
50%     5558.500000  1969.500000   52372.50000    0.000000    2.000000
75%     8594.250000  1977.000000   69293.25000    1.000000    3.000000
max    11191.000000  1995.000000  162397.00000    2.000000   15.000000


Далее необходимо проверить датасет на явные и неявные дубликаты. Для начала были проверены столбцы `Marital_Status` и `Education` на наличие записей с одинаковыми значениями, но разные по написанию (регистр или синоним) с помощью функции `.unique()`

In [304]:
print(df['Marital_Status'].unique())
print(df['Education'].unique())

['Single' 'Together' 'Married' 'Divorced' 'SINGL' 'MARRIED' 'Widow'
 'Alone']
['Graduation' 'PhD' 'Master' 'Basic']


В столбце `Education` нет каких-либо дублирующихся значений, однако в столбце `Marital_Status` есть значения `SINGL` и `Alone`, которые дублируют `Single`, и `MARRIED`, дублирующий `Married`. Приведение записей с такими значениями в нормальный вид можно сделать с помощью функции `.replace()`

In [305]:
dubles = ['SINGL','Alone']
df['Marital_Status'] = df['Marital_Status'].replace(dubles,'Single')
df['Marital_Status'] = df['Marital_Status'].replace('MARRIED','Married')
print(df['Marital_Status'].unique())

['Single' 'Together' 'Married' 'Divorced' 'Widow']


С помощью функции `.duplicated()` можно проверить, какие записи полностью повторяют уже существующую запись, но таким образом он выведет весь датасет со значениями True/False, поэтому для упрощения был добавлен метод `.sum()`

In [306]:
print(df.duplicated().sum())

4


Всего получилось 4 дубликатов, которые необходимо удалить с помощью функции `.drop_duplicates()`

In [307]:
df = df.drop_duplicates()

В результате датасет был обработан и приведён в подходящий для анализа вид. Столбцы были переименованы и у некоторых из них были изменены типы данных. Датасет был очищен от дубликатов и от записей с неизвестными значениями.

### Задание 1
_Группировка - тип образования по каждому семейному статусу (marital_status)._

Группировка данных происходит с помощью метода `.groupby()`. Необходимо было сгруппировать данные по столбцам `Education` и `Marital_Status`, и вывести количество записей, соответствующих определённому семейному положению на всех уровнях образования, выведя только столбец `ID` с методом `.count()`

In [308]:
un = df.groupby(['Education','Marital_Status'])
group = un['ID'].count()
print(group)

Education   Marital_Status
Basic       Divorced            1
            Married             9
            Single              1
            Together            4
Graduation  Divorced           49
            Married           168
            Single             98
            Together           96
            Widow              21
Master      Divorced           12
            Married            57
            Single             32
            Together           41
            Widow               4
PhD         Divorced           23
            Married            68
            Single             41
            Together           51
            Widow               4
Name: ID, dtype: int64


Получилась таблица, сгруппированная по уровню образования, которая показывает количество клиентов с разным семейным положением на все уровнях образования

### Задание 2
_Группировка - тип образования по каждому семейному статусу (marital_status). Создать датафрейм. Переименовать столбец с количеством в “сount”. Отсортировать по убыванию столбца “count”._


Так как группировка точно такая же, то можно работать с таблицей из прошлого задания. Но теперь необходимо из этой таблицы создать датафрейм с помощью метода `pd.DataFrame()`. Самой таблице была присвоена переменная `group`, на основе которой был создан датафрейм. После этого столбец `ID` был переименован в столбец `Count` 

In [309]:
gr_df = pd.DataFrame(group)
gr_df = gr_df.rename(columns={'ID':'Count'}) 

Далее значения столбца `Count` были отсортированы по убыванию, используя метод `sort_values`. Стоит обратить внимание на то, что внутри метода пишется всегда атрибут `ascending`, даже если надо отсортировать по убыванию. Атрибут `ascending` принимает значения `True/False`

In [310]:
gr_df.sort_values(by='Count', ascending= False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Count
Education,Marital_Status,Unnamed: 2_level_1
Graduation,Married,168
Graduation,Single,98
Graduation,Together,96
PhD,Married,68
Master,Married,57
PhD,Together,51
Graduation,Divorced,49
PhD,Single,41
Master,Together,41
Master,Single,32


В результате получилась отсортирована таблица по количеству записей с определённым семейным положением на различных уровнях образования

### Задание 3
_Сводная таблица (pivot_table) - средний доход семьи по семейному положению. Отсортировать по убыванию. Округлить до двух знаков._


Метод `.pivot_table()` используется для создания сводных таблиц, которые позволяют агрегировать данные и представлять их в удобном формате. Основные атрибуты метода:
+ `values`: Столбец или столбцы для агрегирования
+ `index`: Столбец или столбцы, которые будут использоваться в качестве индексов строк
+ `columns`: Столбец или столбцы, которые будут использоваться в качестве заголовков столбцов
+ `aggfunc`: Функция или список функций для агрегации

В данном задании необходимо создать сводную таблицу среднего дохода только по семейному положению, поэтому из списка используются только атрибуты `values`, `index` и `aggfunc`. За значения берётся доход, за индексы - семейное положение и функция усреднения.
Также значения были отсортированы по убыванию и округлены до 2 знаков с помощью метода `.round(2)`

In [311]:
pivot = df.pivot_table(values='Income', index='Marital_Status', aggfunc='mean')
print(pivot.sort_values(by='Income',ascending= False).round(2))

                  Income
Marital_Status          
Widow           55452.45
Divorced        54568.16
Together        54502.84
Married         52898.34
Single          50934.03


Получившаяся таблица показывает среднее значение дохода семьи по семейному положению.

### Задание 4
_Сводная таблица (pivot_table) - средний доход семьи по семейному положению - строки и уровню образованию - столбцы. Отсортировать по возрастанию marital_status. Округлить до двух знаков._


В данном задании необходимо сделать такую же сводную таблицу, но с использованием атрибута `columns`, в качестве которого используется столбец `Education`. Значения были отсортированы по возрастанию индексов `Marital_Status` и округлены до 2 знаков.

In [312]:
pivot_sq = df.pivot_table(values='Income', index='Marital_Status',columns='Education', aggfunc='mean')
print(pivot_sq.sort_values(by= 'Marital_Status', ascending= True).round(2))

Education          Basic  Graduation    Master       PhD
Marital_Status                                          
Divorced         9548.00    57420.98  49405.83  53141.22
Married         22018.22    51078.81  55391.37  59391.00
Single          21063.00    50325.66  50831.16  53197.05
Together        22437.50    52922.06  51009.98  62801.33
Widow                NaN    55146.81  47164.00  65345.50


Данная таблица отображает средние значения дохода семьи по разным уровням образования и семейному положению клиентов. Также в данной таблице можно заметить значение NaN. Это обусловлено тем, что в датасете не было заявлено записей вдовцов с базовым образованием.

### Вывод

В данной лабораторной работе была проделана работа по обработке датасета, исключив ненужные записи и заменив некоторые значения, а также анализу данных с помощью группировки и создания сводной таблицы. Были освоены основные методы библиотеки `pandas` и варианты их использования:
1. Для вывода информации о датасете были использованы методы `.info()`, `.describe()`
2. Для вывода информации об определённых аспектах датасета были использованы методы `df.column`, `.isna()`, `.isnull()`, `.unique()`, `.duplicated()`
3. Для замены данных в датасете были использованы методы `.rename()` - для столбцов или значений внутри столбцов, `.astype()` и `pd.to_datetime` - для изменения типа данных какого-либо столбца

Также были использованы методы `.groupby()` для группировки значений, `sort_values()` для их сортировки, `.pivot_table()` для создания сводной таблицы и `pd.DataFrame()` для создания датафрейма из таблицы.
