<h1>Цель работы:</h1>
Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Результат выполнения работы:

Импортирована библиотека pandas и загружен датасет с использованием параметра sep, поскольку в CSV-файле в качестве разделителя был использован символ ';'.

In [12]:
import pandas as pd
df = pd.read_csv('visits.csv',sep = ';')


Вывод первых 20 строк с помощью метода head.

In [15]:
df.head(20)

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
0,"9,81449E+11",United States,iPhone,organic,01.05.2019 2:36,01.05.2019 2:45
1,"2,78966E+11",United States,iPhone,organic,01.05.2019 4:46,01.05.2019 4:47
2,"5,90706E+11",United States,Mac,organic,01.05.2019 14:09,01.05.2019 15:32
3,"3,26434E+11",United States,Android,TipTop,01.05.2019 0:29,01.05.2019 0:54
4,"3,49774E+11",United States,Mac,organic,01.05.2019 3:33,01.05.2019 3:57
5,43958116050,United States,Android,organic,01.05.2019 9:03,01.05.2019 10:08
6,"1,85365E+11",United States,iPhone,organic,01.05.2019 9:37,01.05.2019 10:00
7,"1,00971E+11",United States,Mac,TipTop,01.05.2019 4:39,01.05.2019 4:57
8,"3,70456E+11",United States,iPhone,organic,01.05.2019 14:44,01.05.2019 15:41
9,"1,41838E+11",United States,Mac,FaceBoom,01.05.2019 6:20,01.05.2019 6:54


Выполнен обзор данных, описаны столбцы и предметная область. Таблица содержит следующие столбцы:

* user_id — уникальный идентификатор пользователя
* region — страна пользователя
* device — устройство пользователя
* channel — идентификатор рекламного источника, откуда пришёл
* session_start — дата и время начала сессии,
* session_end — дата и время окончания сессии.
    
Предметная область данных связана с анализом клиентской базы.

С помощью метода info была выполнена оценка данных: проверено наличие пропусков, определено общее количество строк и определены типы данных в столбцах.

In [21]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        957 non-null    object
 1   Region         956 non-null    object
 2   Device         955 non-null    object
 3   Channel        957 non-null    object
 4   Session_Start  955 non-null    object
 5   SESSION_End    955 non-null    object
dtypes: object(6)
memory usage: 45.0+ KB


Из полученных данных видно, что в таблице присутствуют поля с нулевыми значениями: один элемент в поле Region и по два элемента в полях Device, Session_Start и Session_End. Использован строковый тип данных. Общее количество элементов — 957.

Применён метод describe для оценки числовых столбцов.

In [25]:
print(df.describe())
print(df['User_Id'].describe())

            User_Id         Region  Device  Channel     Session_Start  \
count           957            956     955      957               955   
unique          865              2       6        4               820   
top     1,79085E+11  United States  iPhone  organic  02.05.2019 20:16   
freq              4            955     421      612                 4   

             SESSION_End  
count                955  
unique               836  
top     02.05.2019 22:48  
freq                   3  
count             957
unique            865
top       1,79085E+11
freq                4
Name: User_Id, dtype: object


Исходя из полученных данных о числовом столбце, можно сделать сводку: количество уникальных пользователей составляет 865, количество ненулевых значений — 957, а также определён наибольший ID пользователя.

Были выведены на экран названия столбцов с помощью df.columns.

In [29]:
df.columns

Index(['User_Id', 'Region', 'Device', 'Channel', 'Session_Start',
       'SESSION_End'],
      dtype='object')

Из полученной информации сделан вывод о необходимости приведения всех названий столбцов к нижнему регистру.

In [32]:
df.columns = df.columns.str.strip().str.lower()
df.columns

Index(['user_id', 'region', 'device', 'channel', 'session_start',
       'session_end'],
      dtype='object')

Были устранены пропуски.

Сначала были найдены пропуски в данных.

In [35]:
print(df.isna().sum())

user_id          0
region           1
device           2
channel          0
session_start    2
session_end      2
dtype: int64


В результате проверки данных было обнаружено, что в наборе присутствует 7 пропущенных значений. Это количество считается незначительным по сравнению с общим объёмом данных, что означает, что такие пропуски не окажут значительного влияния на результаты анализа. Учитывая это, строки с пропущенными значениями могут быть удалены без риска ухудшения качества анализа или искажения выводов.

Код для удаления пропусков.

In [38]:
df = df.dropna(subset=['region', 'device', 'session_start', 'session_end'])
print(df.isna().sum())

user_id          0
region           0
device           0
channel          0
session_start    0
session_end      0
dtype: int64


Проведена работа по удалению дубликатов. Ниже представлен код для удаления явных дубликатов.

Сначала были найдены дубликаты в наборе данных.

In [41]:
print(df.duplicated().sum())

2


Из полученной информации можно сделать вывод, что количество дубликатов составляет 2. Это незначительное количество по сравнению с общим объёмом данных, поэтому их можно удалить без опасений.

Код удаления явных дубликатов представлен ниже.

In [48]:
df = df.drop_duplicates()
print(df.duplicated().sum())

0


Нахождение неявных дубликатов. Столбцы user_id, session_start и session_end не проверяются на дубликаты, так как повторение значений в них является нормальным и ожидаемым, и не оказывает значительного влияния на результаты анализа данных.

In [53]:
print(df['region'].unique())
print(df['device'].unique())
print(df['channel'].unique())

['United States' 'USA']
['iPhone' 'Mac' 'Android' 'PC' 'MAC' 'IPHONE']
['organic' 'TipTop' 'FaceBoom' 'MediaTornado']


В столбцах region и device были обнаружены и исправлены неявные дубликаты. Ниже представлен код для их исправления.

In [56]:
print(df['region'].unique())
print("\n")
print(df['region'].value_counts())
print("\n")
df['region'] = df['region'].replace('USA', 'United States')
print(df['region'].value_counts())
print("\n")
print(df['device'].unique())
print("\n")
print(df['device'].value_counts())
print("\n")
df['device'] = df['device'].replace({'MAC': 'Mac', 'IPHONE': 'iPhone'})
print(df['device'].value_counts())

['United States' 'USA']


region
United States    951
USA                1
Name: count, dtype: int64


region
United States    952
Name: count, dtype: int64


['iPhone' 'Mac' 'Android' 'PC' 'MAC' 'IPHONE']


device
iPhone     420
Mac        241
Android    185
PC         103
IPHONE       2
MAC          1
Name: count, dtype: int64


device
iPhone     422
Mac        242
Android    185
PC         103
Name: count, dtype: int64


Проверены типы данных столбцов таблицы.

In [59]:
print(df.dtypes)

user_id          object
region           object
device           object
channel          object
session_start    object
session_end      object
dtype: object


Из полученной информации видно, что все столбцы имеют тип object, что является ошибкой. Необходимо изменить типы данных для соответствия действительности: user_id следует привести к типу int64, а session_start и session_end — к типу datetime.

In [62]:
df['user_id'] = df['user_id'].str.replace(',', '')
df['user_id'] = pd.to_numeric(df['user_id'], errors='raise')
df['user_id'] = df['user_id'].astype('int64')
df['session_start'] = pd.to_datetime(df['session_start'], format='%d.%m.%Y %H:%M')
df['session_end'] = pd.to_datetime(df['session_end'], format='%d.%m.%Y %H:%M')
print("\n")
print(df.dtypes)



user_id                   int64
region                   object
device                   object
channel                  object
session_start    datetime64[ns]
session_end      datetime64[ns]
dtype: object


Осуществлена группировка и созданы сводные таблицы в соответствии с заданием.

Задание 1: Группировка - region и количество устройств (device).

In [65]:
print(df.groupby(['region','device'])['device'].count())

region         device 
United States  Android    185
               Mac        242
               PC         103
               iPhone     422
Name: device, dtype: int64


Наибольшее количество устройств в Соединённых Штатах представлено iPhone, что свидетельствует о его популярности среди пользователей. Также активно используются Android (185), Mac (242) и PC (103), что указывает на разнообразие устройств. Наименьшая доля PC может свидетельствовать о смещении предпочтений в сторону мобильных устройств. Эти данные могут быть полезны для дальнейшего анализа потребительских предпочтений и адаптации маркетинговых стратегий.

Задание 2: Группировка - region и количество устройств (device). Создать датафрейм. Переименовать столбец с количеством в “сountˮ. Отсортировать по убыванию столбца “countˮ.

In [70]:
group = df.groupby(['region','device'])['device'].count().reset_index(name='count').sort_values(by='count', ascending = False)
print(group)

          region   device  count
3  United States   iPhone    422
1  United States      Mac    242
0  United States  Android    185
2  United States       PC    103


На основе представленной таблицы можно сделать вывод, что в Соединённых Штатах наибольшее количество пользователей используют iPhone (422), что указывает на его популярность. Устройства Mac занимают второе место (242), что свидетельствует о значительном интересе к продукции Apple. Android находится на третьем месте с 185 устройствами, что демонстрирует разнообразие платформ. Наименьшее количество пользователей (103) использует ПК, что может указывать на смещение предпочтений в сторону мобильных устройств. Эти данные подчеркивают необходимость адаптации маркетинговых стратегий в соответствии с потребительскими предпочтениями.

Задание 3: Сводная таблица (pivot_table) - количество пользователей для каждого канала (channel). Отсортировать по убыванию количества.

In [77]:
pivot_table =  df.pivot_table(index='channel', values='user_id', aggfunc='count').sort_values(by='user_id', ascending=False)
print(pivot_table)

              user_id
channel              
organic           608
FaceBoom          149
TipTop            142
MediaTornado       53



На основе представленной таблицы можно сделать вывод, что наибольшее количество пользователей пришло через канал organic (608), что указывает на его высокую эффективность в привлечении клиентов. FaceBoom занимает второе место с 149 пользователями, что свидетельствует о его значимости. Канал TipTop следует за ним с 142 пользователями, показывая схожие результаты. В то же время MediaTornado привлёк всего 53 пользователя, что говорит о его низкой эффективности. Эти данные подчеркивают необходимость сосредоточения усилий на эффективных каналах и анализа менее результативных для повышения их эффективности.

Задание 4: Сводная таблица (pivot_table) - уникальное количество пользователей для каждого устройства (device) - столбцы и региона- строки. Отсортировать по возрастанию столбца region.

In [83]:
pivot_table2 = df.pivot_table(values='user_id',  index='region',  columns='device',  aggfunc='nunique').sort_index(ascending=True)
print(pivot_table2)

device         Android  Mac  PC  iPhone
region                                 
United States      169  223  90     384


На основе представленной таблицы можно сделать вывод, что в Соединённых Штатах наибольшее количество пользователей использует iPhone (384), что указывает на его популярность. Устройства Mac занимают второе место с 223 пользователями, что также свидетельствует о значительном интересе к этой платформе. Android имеет 169 пользователей, тогда как PC занимает наименьшую долю с 90 пользователями. Эти данные указывают на смещение предпочтений в сторону мобильных устройств и демонстрируют разнообразие используемых платформ, что может быть полезно для анализа потребительских предпочтений и адаптации маркетинговых стратегий.

# Вывод¶

В ходе выполнения лабораторной работы были приобретены важные практические навыки работы с библиотекой pandas, что позволило проводить всесторонний анализ и обработку данных. Основной фокус был сделан на анализе данных, включающем этапы предварительной обработки, такие как очистка данных от пропусков и неявных дубликатов, а также приведение типов данных в соответствии с требованиями задачи.

Были освоены ключевые техники группировки и агрегации данных, что является основой при работе с большими и структурированными наборами данных. Создание сводных таблиц дало возможность провести анализ по различным признакам (например, устройствам и каналам), что позволяет делать более детализированные выводы о поведении пользователей и специфике их взаимодействия с системой.

В контексте предметной области анализа данных, эти навыки играют важную роль при работе с реальными датасетами, где данные часто бывают неидеальными, и их корректная обработка имеет критическое значение для получения качественных и точных выводов. Сформированные навыки анализа позволяют масштабировать данные и применять их к решению практических задач.

Таким образом, выполнение всех заданий и работа с предложенным датасетом закрепили знания в области анализа данных и показали важность правильной обработки информации для принятия обоснованных решений на основе данных.