# Изменение типов данных

Данные бывают разных типов, не всегда подходящих для анализа. В этой теме вы узнаете, как изменять типы данных для удобства расчётов.

Задачи сегодняшнего занятия:

•	Переводить строку в форматы даты и времени;

•	Превращать строковые значения в числовые методами **to_numeric()** и **astype()**;

•	Соединять таблицы методом **merge()**;

•	Создавать сводные таблицы методом **pivot_table()**.


Задача: SEO-оптимизаторы поставили задачу "Определить, какие товарные категории и подкатегории на сайте представлены в поисковиках хуже всего". В ответ на просьбу направить таблицы с источниками трафика, товарными категориями и подкатегориями, разработчики прислали экселевский файл.

Ранее мы встречались только с форматом **.csv** и методом **read_csv()**. Для прочтения файлов **Excel** есть особый метод **read_excel()**. Он похож на **read_csv()**, но в отличие от него, **read_excel()** нужно два аргумента: строка с именем самого файла или пути к нему, и имя листа **sheet_name**.

**import pandas as pd**

**df = pd.read_excel('/datasets/Экселевский файл.xlsx', sheet_name='Самый первый лист')**

Можно вызвать **read_excel()** и без второго аргумента. Тогда будет взят первый по счёту лист.
Вооружившись методом **read_excel()**, прочитаем файл с таблицами от разработчиков.


## Задача

1. Методом **read_excel()** прочтите первый лист **'traffic_data'**, сохраните его в переменной **data**. Выведите на экран первые 5 строк листа методом **head()**. Прочитайте названия столбцов:

•	**subcategory_id** — идентификатор товарной подкатегории, или её зашифрованное название;

•	**source** — источник трафика. В нашем случае источников два: прямой заход на сайт в таблице обозначен как direct, переход из поисковых систем — **organic**;

•	**visits** — количество визитов на страницу подкатегории за отчётный период.



In [50]:
import pandas as pd
file1 = 'https://github.com/Escobar15/dataanalysiscourse/raw/refs/heads/main/data/seo_data.xlsx'
data = pd.read_excel(io=file1, sheet_name='traffic_data', engine='openpyxl')
data.head(5)


Unnamed: 0,subcategory_id,source,visits
0,cf2e61c7af,direct,501165.668858
1,0cd903d1cc,direct,126342.359505
2,ef35bc88a7,direct,95626.321402
3,6ff9f4014c,direct,75680.653002
4,72bc238e4d,direct,64435.934651


Пока в первых 5 строчках таблицы виден только один источник трафика direct. Проверьте, какие источники есть в столбце source. Выведите на экран список уникальных значений этого столбца.


In [51]:
print(data['source'].unique())

['direct' 'organic']


Методом **read_excel()** прочтите второй лист **'subcategory_ids'** и сохраните его в переменной **subcategory_dict**. Выведите на экран его первые 5 строк методом **head()**.
Обратите внимание на названия столбцов: к знакомым нам идентификаторам подкатегорий **(subcategory_id)** добавились идентификаторы категорий **(category_id)** и названия подкатегорий **(subcategory_name)**.
Всё это похоже на словарь, где идентификаторам подкатегорий из цифр и латинских букв соответствуют понятные нам названия. Поэтому датафрейм называется **subcategory_dict**.


In [52]:
subcategory_dict = pd.read_excel(io=file1, sheet_name='subcategory_ids', engine='openpyxl')
subcategory_dict.head(5)

Unnamed: 0,subcategory_id,subcategory_name,category_id
0,cf2e61c7af,Мобильные телефоны,09f279a643
1,0cd903d1cc,Ноутбуки,3509869a61
2,ef35bc88a7,Телевизоры,09f279a643
3,6ff9f4014c,Планшеты,3509869a61
4,72bc238e4d,Наушники и Bluetooth-гарнитуры,09f279a643


Наконец, методом **read_excel()** прочтём третий лист **category_ids** и сохраним его в переменной **category_dict**. Выведите на экран первые 5 строк листа методом **head()**.

In [53]:
category_dict = pd.read_excel(io=file1, sheet_name='category_ids', engine='openpyxl')
category_dict.head(5)


Unnamed: 0,category_id,category_name
0,09f279a643,Электроника
1,3509869a61,Компьютерная техника
2,65922fa39c,Авто
3,6074ad29ac,"Одежда, обувь и аксессуары"
4,10a493e03b,Товары для здоровья


# Перевод строковых значений в числа

Читая данные, Pandas автоматически переводит их в подходящий формат. У него порой не получается, тогда приходится изменять тип данных вручную.

Рассмотрим файл со списком транзакций (платежей за одну покупку). Для каждой категории (буква в столбце **'category'**) посчитаем сумму продаж (значения в столбце **'amount'**).

In [54]:
file2 = 'https://github.com/Escobar15/dataanalysiscourse/raw/refs/heads/main/data/ids.xlsx'
transactions = pd.read_excel(file2)
transactions.head()


Unnamed: 0,id,category,amount
0,600748331392,C,17515.36
1,600748331404,B,10117.56
2,600748331412,B,18489.26
3,600748331430,B,6620.22
4,600748331447,C,7559.9


Пока всё распознано корректно. В столбце **'id'** стоят идентификаторы транзакций, в столбце **category** — категории проданных товаров, в **amount** — стоимость каждого товара. Методом **info()** установим, как Pandas определил типы столбцов.

In [55]:
transactions.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49 entries, 0 to 48
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        49 non-null     object
 1   category  49 non-null     object
 2   amount    49 non-null     object
dtypes: object(3)
memory usage: 1.3+ KB


А вот и подозрительное поведение: столбцы **'id'** и **'amount'** распознаны как строки — тип **object**. Это значит, что в столбцах есть нечисловые значения или пропуски, а они помешают нашим расчётам.

К примеру, попробуем вычислить сумму продаж:

In [56]:
print(transactions['amount'].sum())

TypeError: unsupported operand type(s) for +: 'float' and 'str'

Сумма не считается из-за наличия строковых значений в столбце **'amount'**.
Собрать все строки да сделать их числами! Для этого есть стандартный метод Pandas — **to_numeric()**. Он превращает значения столбца в числовой тип **float64** (вещественное число).


In [None]:
transactions['amount'] = pd.to_numeric(transactions['amount'])


У метода **to_numeric()** есть параметр **errors**. От значений, принимаемых **errors**, зависят действия **to_numeric** при встрече с некорректным значением:

•	**'errors='raise'** — дефолтное поведение: при встрече с некорректным значением выдаётся ошибка, операция перевода в числа прерывается;

•	**errors='coerce'** — некорректные значения принудительно заменяются на NaN;

•	**errors='ignore'** — некорректные значения игнорируются, но остаются.


In [None]:
transactions['amount'] = pd.to_numeric(transactions['amount'], errors='coerce')

Методом **to_numeric()** мы не только превратим строки в числовой тип там, где это возможно, но и выясним, на каких значениях метод не работает.
Особенность метода **to_numeric()** в том, что при переводе все числа будут иметь тип данных **float**. Это подходит далеко не всем значениям. Поэтому в нужный тип значения переводят методом **astype()**. Например, аргумент **('int')** метода **astype()** означает, что значение нужно перевести в целое число:
![image.png](attachment:image.png)



## Задача   
1. Переведите значения столбца **'id'** (таблицы **ids**) из строк в числа методом **to_numeric()**.



In [None]:
transactions['id'] = pd.to_numeric(transactions['id'])

2. Попробуйте ещё раз перевести значения столбца **'id'** из строк в числа методом **to_numeric()**, но уже со значением **'coerce'** параметра **errors**. Это заменит вызывающий ошибку Null на NaN.
Полученную таблицу выведите на экран методом **tail()**: так как ошибка возникает на последней строке, 5 значений с конца будет достаточно.

In [None]:
transactions['id'] = pd.to_numeric(transactions['id'], errors='coerce')

3. Вызовите метод **info()** после преобразований ещё раз. Проверьте, повлияла ли работа **pd.to_numeric(transactions['id'], errors='coerce')** на тип значений в столбце **id**.

In [None]:
transactions.info()

4. Методом **to_numeric()** превратите значения столбца **amount** в числа, заменив некорректные значения на NaN. Проверьте результаты преобразований методом **info()**.

In [None]:
transactions['amount'] = pd.to_numeric(transactions['amount'], errors='coerce')
transactions.info()

5. Посчитайте общую стоимость проданных товаров — сумму значений столбца **amount** в датафрейме **transactions**. Результат выведите на экран.

In [None]:
sold_summ = transactions['amount'].sum()
print(sold_summ)

6.
Рассчитайте сумму продаж для каждой категории. Для этого сгруппируйте датафрейм **transactions** по столбцу **category** и примените метод **sum()** к столбцу **amount**. Выведите результат на экран.

In [None]:
sold_summ_by_category = transactions.groupby('category')['amount'].sum()
print(sold_summ_by_category)

7. Вернитесь к таблице с трафиком  (датасет data). При попытке сгруппировать датафрейм 'data' по источнику трафика и посчитать сумму визитов, вместо ожидаемого результата получили странное склеивание идентификаторов подкатегорий. Но теперь  вы сможете найти сумму визитов.

Переведите значения столбца **visits** датафрейма data в числовой тип методом **to_numeric()**.

In [57]:
data['visits'] = pd.to_numeric(data['visits'])

ValueError: Unable to parse string ""2369468"" at position 964

8. Узнайте, что не так со строкой 964. Вызовите знакомый из вводного курса метод **loc**.
Он позволяет обращаться к датафрейму по значению индекса, в нашем случае как раз по номеру строки.


In [62]:
print(data.loc[964])

subcategory_id        total
source               direct
visits            "2369468"
Name: 964, dtype: object


9. Вычислите, сколько всего строк в датафрейме и выведите на экран в формате:

Количество строк:

Затем выведите на экран строки, которые имеют значение **'total'** в столбце **'subcategory_id'**. Изучите полученные результаты: сколько строк портят весь датасет?

In [None]:
#Youre code is here

10. Оставьте в датафрейме только строки, удовлетворяющие условию **data['subcategory_id'] != 'total'**. Проверьте результат: выведите на экран датафрейм с условием **data['subcategory_id'] == 'total'**.

In [None]:
#Youre code is here

11. Измените тип данных в столбце **['visits']** на **integer**. Проверьте полученный результат, вызвав метод **info()**.

In [None]:
#Youre code is here

In [None]:
12. Сгруппируйте данные по источникам и вычислите количество визитов для каждого источника. Выведите результат на экран.


# Метод merge()

Вы получили первые выводы: на органический трафик приходится в два раза больше визитов пользователей. Однако исследование на этом не закончено — нужно изучить трафик для каждой категории товаров.

Данные хранят в Excel-таблице из нескольких листов. Как смотреть на категории, подкатегории и трафик в одном месте? Идея — склеить таблицы!

Объединим несколько таблиц в одну методом **merge()**.

Метод **merge()** применяют к таблице, к которой присоединяют другую. У метода следующие аргументы:

•	**right** — имя **DataFrame** или **Series**, присоединяемого к исходной таблице ("правая таблица")

•	**on** — название общего списка в двух соединяемых таблицах: по нему происходит слияние ("ключи")

•	**how** — тип объединения (outer, inner, left, right)
Объединим таблицы **data** и **subcategory_dict** со следующими условиями:

•	**data** — таблица, к которой будем присоединять другую таблицу

•	**subcategory_dict** — таблица, которую присоединяем к data

•	**'subcategory_id'** — общий столбец в двух таблицах, по нему будем объединять

•	**how='left'** — id таблицы **data** включены в итоговую таблицу **data_subcategory**


In [None]:
data_subcategory = data.merge(subcategory_dict, on='subcategory_id', how='left')
print(data_subcategory.head(10))


## Задача:

1. Объедините таблицы **data_subcategory** и **category_dict**. Результат сохраните в переменной **data_final** и выведите на экран первые 10 строк новой таблицы.

In [None]:
#Youre code is here

# Сводные таблицы

Сводная таблица — ваш помощник для обобщения данных и их наглядного представления.
Перед вами таблица со статистикой продаж товаров в интернет-магазине. Известны название товара, дата продажи, количество, цена и стоимость доставки.
![image.png](attachment:image.png)

По сводным таблицам можно точно сказать, сколько товара было продано в определённый день. Умение строить сводные таблицы позволяет быстро анализировать данные и сразу подготовить отчёты.

Например, по данной сводной таблице можно легко ответить  на вопрос: «Сколько товара продал интернет-магазин 4 июня 2019 года?».

![image.png](attachment:image.png)

В Pandas для подготовки сводных таблиц вызывают метод **pivot_table()**.

Аргументы метода:

•	**index** — столбец или столбцы, по которым группируют данные (название товара)

•	**columns** — столбец, по значениям которого происходит группировка (даты)

•	**values** — значения, по которым мы хотим увидеть сводную таблицу (количество проданного товара)

•	**aggfunc** — функция, применяемая к значениям (сумма товаров)

Построим сводную таблицу для задачи по SEO-оптимизации.
Сделаем по таблице **data_final** из предыдущего задания сводную таблицу методом **pivot_table()**:

**data_pivot = data_final.pivot_table(index=['category_name', 'subcategory_name'], columns='source',
                                    values='visits', aggfunc='sum')**


In [None]:
#Скопируйте сюда код


Теперь вы видите название категории и её подкатегории со значениями объёма трафика по каждой.

Как видно, основная категория включает в себя подкатегорию и это представлено в структуре датафрейма: категория отображена иерархически главной над подкатегорией. Такие датафреймы содержат в себе мультииндекс. Часто при работе с такими датафреймами мультииндекс убирают, чтобы категория была отображена на каждой строчке датафрейма:

**data_pivot_with_reset_index = data_pivot.reset_index()
print(data_pivot_with_reset_index.head(10)) **



In [None]:
#Скопируйте сюда код

В таблице выше суммы визитов **visits** по каждому из источников **source (direct и organic)** представлены в отдельных столбцах. Такой вид таблицы называется «широкий». Он удобен, когда нужно сравнить значения столбцов. Хорошо заметно, например, что в подкатегории «Автомобильные инверторы» количество визитов из источников **direct** и **organic** практически одинаково, а в подкатегории «Автомагнитолы» из источника **organic** пришло почти в два раза больше посетителей, чем из **direct**.

Для группировки данных также подходит изученная вами ранее комбинация методов **groupby()** и **agg()** , но с ними таблица будет выглядеть иначе.

Метод **groupby()** принимает один аргумент — столбец (или список столбцов), по которым группируют данные. В метод **agg()** передают словарь. Его ключ — это названия столбцов, а значение — функции, которые будут к этим столбцам применены (например, **sum или count**). Такие функции называются агрегирующие.
Решим ту же задачу по SEO-оптимизации методами **groupby() и agg()**:


**data_grouped = data_final.groupby(['category_name','subcategory_name','source']).agg({'visits':'sum'})**

**print(data_grouped.head(10))**


In [None]:
#Скопируйте сюда код

Сгруппировав данные методами **groupby()** и **agg()** вместо **pivot_table()**, мы получили точно такие же данные, но в несколько другом виде. Он называется «длинный». Методы **groupby()** и **agg()** удобны, когда нужно применить функцию к столбцу со сгруппированными визитами **visits** или создать новый столбец на его основе:

**data_grouped['daily_visits'] = data_grouped['visits'] / 30
print(data_grouped.head(10))**


In [None]:
#Скопируйте сюда код

## Задачи:

1. Самостоятельно создайте сводную таблицу для набора **data_final**. Результат сохраните в переменной **data_pivot** и выведите первых 10 значений на экран.

2. Создайте в таблице **data_pivot** новый столбец **'ratio'** и сохраните в нём значение отношения органического трафика **'organic'** к прямому **'direct'**. Выведите первые 10 строк таблицы на экран.

3. Отсортируйте таблицу по столбцу **'ratio'** в порядке убывания. Выведите первые 10 строк. Отсортированную таблицу сохранять не нужно.

4. Отсортируйте таблицу по столбцу **'ratio'** в порядке убывания и выведите последние 10 записей, где прямой трафик больше 1000. Выражение напишите в скобках функции **print()**, чтобы результат напечатался на экран.



In [None]:
#Youre code is here