# Python Pandas Demo

### Описание данных

В датасете `datazon_sales_new.csv` содержатся данные о продажах мобильных телефонов в онлайн-магазине Datazon

Описание колонок в датасете `datazon_sales_new.csv`:

- `date` — дата продажи
- `article_id` — идентификатор товара
- `country_code` — код страны
- `sold_units` — количество проданных товаров

### Задание 1

Выполните представленные ниже действия, а также вспомогательные действия, которые вы посчитаете нужными для выполнения заданий

С помощью библиотеки `pandas` (импортирована под алиасом `pd`), прочитайте данные из csv-файла `datazon_sales_new.csv` и запишите датафрейм в переменную `sales_df`

In [None]:
import pandas as pd

# свой код напишите ниже
# sales_df = # напишите код для чтения данных из файла, используя библиотеку pandas
sales_df = pd.read_csv('datazon_sales_new.csv', delimiter=',')

In [None]:
sales_df

### Задание 2

В колонке `sold_units` для некоторых строк содержится значение `'unknown'`. Произведите замену этого значения на 0 и запишите результат в ту же колонку

#### Что делать?

    1. В pandas есть два вида структур данных: Series и DataFrame.
    2. DataFrame — двухмерная структура, состоящая из колонок и строк. У колонок есть имена, а у строк — индексы.
    3. В руководстве по pandas основной акцент будет сделан на DataFrames. Причина проста: с большей частью аналитических методов логичнее работать в двухмерной структуре.sales_df

##### Вывод определенных колонок из dataframe

    sales_df[['date', 'sold_units']]
    
    date	article_id	country_code	sold_units
    
    
##### Фильтрация определенных значений в dataframe
    sales_df[sales_df.sold_units == 'unknown']

In [None]:
sales_df[['date', 'sold_units']]

получить объекты Series вместе DataFrames. Это можно сделать с помощью одного из способов:

    sales_df.sold_units
    sales_df['sold_units']

In [None]:
sales_df.sold_units

In [None]:
sales_df['sold_units']

In [None]:
# выведем те записи, в которых надо заменить ''unknown'' на 0
sales_df[(sales_df.sold_units == 'unknown') & (sales_df.country_code == 'USA')]

##### Замена
Функция <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html">replace</a>
$-$ replace a string or substring in a column of a dataframe in python pandas with an alternative string

Функция <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html">loc</a> $-$ получить доступ к значениям данных, помещенным в конкретную строку или столбец, на основе значения индекса, переданного функции.



In [None]:
# напишите код
sales_df['sold_units'] = sales_df['sold_units'].replace('unknown', 0)
sales_df[sales_df.sold_units == 0]

In [None]:
sales_df.loc[sales_df['sold_units'] == 'unknown', 'sold_units'] = 0
sales_df[sales_df.sold_units == 0]

In [None]:
# Replace function in python to replace a substring with another 

# sales_df['sold_units'] = map(lambda x: x.replace("unknown","0"), sales_df['sold_units'])
# sales_df['sold_units']

### Задание 3

Создайте датафрейм `total_sales_by_country`, в котором для каждой страны будет посчитана сумма продаж за всё время наблюдений. Колонку с суммой продаж назовите `total_sold_units`

Обратите внимание, что в переменной `total_sales_by_country` должна хранится структура данных типа `pandas.core.frame.DataFrame`, а индексы датафрейма должны быть целыми числами

Пример данных, которые должны хранится в `total_sales_by_country`:

In [None]:
# Это пример ожидаемых данных
pd.DataFrame({'country_code': ['AUS', 'BEL'], 'total_sold_units': [590, 286]})

In [None]:
sales_df.head()

In [None]:
# напишите код

# перевести string в integer
sales_df['sold_units'] = sales_df['sold_units'].astype(int)

# groupby 
# as_index=False позволит вернуть именно dataframe
df2 = sales_df.groupby('country_code', as_index=False)['sold_units'].sum()
df2

##### Аггрегирование

https://habr.com/ru/post/501214/

In [None]:
df1 = sales_df.groupby('country_code', as_index=False).agg({'sold_units': 'sum'})
df1

##### Переназвать

    df.rename(columns = d, inplace = False)
    Where d is a dictionary, and the keys are the columns you want to change. The values are the new names for these columns.
    The code inplace = False means the result would be stored in a *new* DataFrame instead of the original one.


In [None]:
df1 = df1.rename(columns = {'sold_units':'total_sold_units'}, inplace = False)
df1

### Задание 4

Создайте датафрейм `sales_2020_by_country`, в котором для каждой страны будет посчитана сумма продаж за 2020 год. Колонку с суммой продаж назовите `sold_units_2020`

Обратите внимание, что в переменной `sales_2020_by_country` должна хранится структура данных типа `pandas.core.frame.DataFrame`, а индексы датафрейма должны быть целыми числами

Пример данных, которые должны хранится в `sales_2020_by_country`:

In [None]:
# Это пример ожидаемых данных
pd.DataFrame({'country_code': ['AUS', 'BEL'], 'sold_units_2020': [269, 112]})

Если вдруг надо строке конвертировать в дату:

In [None]:
sales_df['date'] =  pd.to_datetime(sales_df['date'], infer_datetime_format=True)
sales_df

Индексирование в Pandas:
https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

In [None]:
# напишите код

# сортировка по дате
df4 = sales_df[(sales_df['date'] >= '2020-01-01') & (sales_df['date'] <= '2020-12-31')]

# группируем по стране
df4 = df4.groupby('country_code', as_index=False)['sold_units'].sum()

# переименовываем столбец
df4 = df4.rename(columns = {'sold_units':'sales_2020_by_country'}, inplace = False)
df4

### Задание 5

Объедините данные из датафреймов `total_sales_by_country` и `sales_2020_by_country` и запишите объединенный датафрейм в переменную `merged_sales` 

Пример данных, которые должны хранится в `merged_sales`:

In [None]:
# Это пример ожидаемых данных
pd.DataFrame({'country_code': ['AUS', 'BEL'], 'total_sold_units': [590, 286], 'sold_units_2020': [269, 112]})

##### Merge

Здесь необходимо сделать <a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#database-style-dataframe-or-named-series-joining-merging">merge</a>

    left: A DataFrame or named Series object.

    right: Another DataFrame or named Series object.

    on: Column or index level names to join on. Must be found in both the left and right DataFrame and/or Series objects. If not passed and left_index and right_index are False, the intersection of the columns in the DataFrames and/or Series will be inferred to be the join keys.

    left_on: Columns or index levels from the left DataFrame or Series to use as keys. Can either be column names, index level names, or arrays with length equal to the length of the DataFrame or Series.

    right_on: Columns or index levels from the right DataFrame or Series to use as keys. Can either be column names, index level names, or arrays with length equal to the length of the DataFrame or Series.

##### Ещё более подробно о Merge, join, concatenate and compare

<a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merge-join-concatenate-and-compare">Полезная ссылка на документацию</a>


In [None]:
# напишите код

# merge df2 и df4 по country_code

merged_sales = pd.merge(df2, df4, left_on='country_code', right_on='country_code')
merged_sales

### Задание 6

Посчитайте в датафрейме `merged_sales` колонку `share_2020_in_total_sales`, в которой будет отображен процент продаж в 2020 году относительно общей величины продаж для каждой страны 

Пример данных, которые должны хранится в `merged_sales`:

In [None]:
# Это пример ожидаемых данных
pd.DataFrame({'country_code': ['AUS', 'BEL'], 'total_sold_units': [590, 286], 'sold_units_2020': [269, 112],
              'share_2020_in_total_sales': [0.455932, 0.391608]})


##### Как делать?

Применить <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html#pandas-dataframe-apply">apply</a>


<strong>func:</strong>function<br>

    Function to apply to each column or row.

<strong>axis:</strong>{0 or ‘index’, 1 or ‘columns’}, default 0<br>
Axis along which the function is applied:

    0 or ‘index’: apply function to each column.

    1 or ‘columns’: apply function to each row.

In [None]:
# напишите код

merged_sales['share_2020_in_total_sales'] = merged_sales.apply(lambda row: row.sales_2020_by_country / row.sold_units, axis=1)
merged_sales

можно проще:

In [None]:
merged_sales['share_2020_in_total_sales'] = merged_sales['sales_2020_by_country']/ merged_sales['sold_units']
merged_sales