In [85]:
import pandas as pd
import numpy as np

### Структуры данных: серии и датафреймы
### Создаем датафреймы и загружаем в них данные
### Исследуем загруженные данные
### Получаем данные из датафреймов
### Считаем производные метрики
### Объединяем несколько датафреймов
### Решаем задачу

In [86]:
# load file 
data = pd.read_csv(filepath_or_buffer = "../../source/transactions.csv", 
                           sep =',',
                           nrows=1000000)
# Экселевские таблицы
# pd.read_excel('file.xlsx', sheet_name='Sheet1')
# назначить колонку индексом,
# pd.read_csv('file.csv', index_col='id')

# Структуры данных: серии и датафреймы
Серии — одномерные массивы данных. Они очень похожи на списки, но отличаются по поведению — например, операции применяются к списку целиком, а в сериях — поэлементно.

То есть, если список умножить на 2, получите тот же список, повторенный 2 раза.

In [87]:
vector = [1, 2, 3]
vector * 2

[1, 2, 3, 1, 2, 3]

In [88]:
series = pd.Series([1, 2, 3])
series * 2

0    2
1    4
2    6
dtype: int64

первый столбик вывода. Это индекс, в котором хранятся адреса каждого элемента серии. Каждый элемент потом можно получать, обратившись по нужному адресу.

In [89]:
series = pd.Series(['foo', 'bar'])
series[0]

'foo'

 отличие серий от списков — в качестве индексов можно использовать произвольные значения, это делает данные нагляднее. Представим, что мы анализируем помесячные продажи. Используем в качестве индексов названия месяцев, значениями будет выручка

In [90]:
months = ['jan', 'feb', 'mar', 'apr']
sales = [100, 200, 300, 400]
data = pd.Series(data=sales, index=months)
data

jan    100
feb    200
mar    300
apr    400
dtype: int64

In [91]:
data['feb']

200

серии — одномерный массив данных, в них удобно хранить измерения по одному. На практике удобнее группировать данные вместе. Например, если мы анализируем помесячные продажи, полезно видеть не только выручку, но и количество проданных товаров, количество новых клиентов и средний чек. Для этого отлично подходят датафреймы

Датафреймы — это таблицы.
Технически, колонки датафреймов — это серии. Поскольку в колонках обычно описывают одни и те же объекты, то все колонки делят один и тот же индекс:

In [92]:
months = ['jan', 'feb', 'mar', 'apr']
sales = {
         'revenue':     [100, 200, 300, 400],
         'items_sold':  [23, 43, 55, 65],
         'new_clients': [10, 20, 30, 40]
         }
sales_df = pd.DataFrame(data=sales, index=months)
sales_df

Unnamed: 0,revenue,items_sold,new_clients
jan,100,23,10
feb,200,43,20
mar,300,55,30
apr,400,65,40


### Создаем датафреймы и загружаем данные
не знаем, что собой представляют данные, и не можем задать структуру заранее. Тогда удобно создать пустой датафрейм и позже наполнить его данными.

In [93]:
df = pd.DataFrame()

данные уже есть, но хранятся в переменной из стандартного Python, например, в словаре. Чтобы получить датафрейм, эту переменную передаем в ту же команду

In [94]:
df = pd.DataFrame(data=sales, index=months)

In [95]:
goods_sold = [
                {'computers': 10, 'cars': 1, 'soft': 3},
                {'computers': 4, 'soft': 5, 'bicycles': 1},
                {'computers': 6, 'cars': 2, 'soft': 3}
    ]
pd.DataFrame(goods_sold)

Unnamed: 0,computers,cars,soft,bicycles
0,10,1.0,3,
1,4,,5,1.0
2,6,2.0,3,


### Исследуем загруженные данные

orders = pd.read_csv('orders.csv', index_col='id')

.shape показывает, сколько в датафрейме строк и колонок. Он возвращает пару значений (n_rows, n_columns). 
orders.shape

.columns узнаем названия колонок  
.dtypes узнаем типы данных, находящихся в каждой колонке  
.index посмотрим, как называются строки  
.describe() узнать разброс значений, среднюю стоимость и медиану  
     orders.describe() 
     
.head()   из начала датафрейма  
.sample() случайных записей  

### Получаем данные из датафреймов

In [96]:
id = [100006, 100090, 100293, 100328]
sales = {
         'order_date':     ['2014-09-07', '2014-07-08', '2014-03-14', '2014-01-28'],
         'ship_mode':  ['Standard', 'First', 'Standard', 'Standard'],
         'customer_id': ['DK-13375', 'EB-13705', 'NF-18475', 'JC-15340'],
         'sales': [377.970, 699.192, 91.056, 3.928]
         }
orders = pd.DataFrame(data=sales, index=id)
orders

Unnamed: 0,order_date,ship_mode,customer_id,sales
100006,2014-09-07,Standard,DK-13375,377.97
100090,2014-07-08,First,EB-13705,699.192
100293,2014-03-14,Standard,NF-18475,91.056
100328,2014-01-28,Standard,JC-15340,3.928


In [97]:
orders['sales']
# результат команды — новый датафрейм с таким же индексом.

100006    377.970
100090    699.192
100293     91.056
100328      3.928
Name: sales, dtype: float64

orders[['customer_id', 'sales']]

строка. Их можно фильтровать по индексу и по порядку. Например, мы хотим вывести только заказы 100006, 100090 

In [98]:
show_these_orders = [100006, 100090]
orders.loc[show_these_orders]

Unnamed: 0,order_date,ship_mode,customer_id,sales
100006,2014-09-07,Standard,DK-13375,377.97
100090,2014-07-08,First,EB-13705,699.192


остать просто заказы с 1 по 3 по порядку, вне зависимости от их номеров в таблицемы. Тогда используют команду .iloc[]

In [99]:
show_these_orders = [1, 2, 3]
orders.iloc[show_these_orders]

Unnamed: 0,order_date,ship_mode,customer_id,sales
100090,2014-07-08,First,EB-13705,699.192
100293,2014-03-14,Standard,NF-18475,91.056
100328,2014-01-28,Standard,JC-15340,3.928


In [100]:
# фильтровать датафреймы по колонкам и столбцам одновременно
columns = ['customer_id', 'sales']
rows = [100293, 100328]
orders.loc[rows][columns]

Unnamed: 0,customer_id,sales
100293,NF-18475,91.056
100328,JC-15340,3.928


### Если — то. Условные операторы

нужно узнать, откуда приходят самые большие заказы. Начнем с того, что достанем все покупки стоимостью более 100

In [101]:
filter_large = orders['sales'] > 100
orders.loc[filter_large]

Unnamed: 0,order_date,ship_mode,customer_id,sales
100006,2014-09-07,Standard,DK-13375,377.97
100090,2014-07-08,First,EB-13705,699.192


операция orders['sales'] > 100 идет по каждому элементу серии и, если условие выполняется, возвращает True. Если не выполняется — False. Получившуюся серию сохраняем в переменную filter_large  
Вторая команда фильтрует строки датафрейма с помощью серии. Если элемент filter_large равен True, заказ отобразится, если False — нет. Результат — датафрейм с заказами, стоимостью более 100

сколько дорогих заказов было доставлено первым классом

In [102]:
filter_large = orders['sales'] > 100
filter_first_class = orders['ship_mode'] == 'First'
orders.loc[filter_large & filter_first_class]

Unnamed: 0,order_date,ship_mode,customer_id,sales
100090,2014-07-08,First,EB-13705,699.192


In [103]:
### Язык запросов

Еще один способ решить предыдущую задачу — использовать язык запросов. Все условия пишем одной строкой 'sales > 1000 & ship_mode == 'First' и передаем ее в метод .query().

In [104]:
orders.query('sales > 100 & ship_mode == "First"')

Unnamed: 0,order_date,ship_mode,customer_id,sales
100090,2014-07-08,First,EB-13705,699.192


значения для фильтров можно сохранить в переменной, а в запросе сослаться на нее с помощью символа @: sales > @sales_filter

In [109]:
sales_filter = 100
ship_mode_filter = 'First'
orders.query('sales > @sales_filter & ship_mode > @ship_mode_filter')

Unnamed: 0,order_date,ship_mode,customer_id,sales
100006,2014-09-07,Standard,DK-13375,377.97


### Считаем производные метрики

Задача: посчитаем, сколько денег магазин заработал с помощью каждого класса доставки.  
просуммируем выручку со всех заказов.

In [110]:
orders['sales'].sum()

1172.1460000000002

Добавим класс доставки. Перед суммированием сгруппируем данные с помощью метода .groupby():

In [111]:
orders.groupby('ship_mode')['sales'].sum()

ship_mode
First       699.192
Standard    472.954
Name: sales, dtype: float64

In [112]:
# округлял значения до сотых
pd.options.display.float_format = '{:,.1f}'.format
orders.groupby('ship_mode')['sales'].sum()

ship_mode
First      699.2
Standard   473.0
Name: sales, dtype: float64

In [113]:
# Добавим разбивку по датам заказа
orders.groupby(['ship_mode', 'order_date'])['sales'].sum()

ship_mode  order_date
First      2014-07-08   699.2
Standard   2014-01-28     3.9
           2014-03-14    91.1
           2014-09-07   378.0
Name: sales, dtype: float64

выручка прыгает ото дня ко дню: иногда 10 долларов, а иногда 378. Интересно, это меняется количество заказов или средний чек? Добавим к выборке количество заказов. Для этого вместо .sum() используем метод .agg(), в который передадим список с названиями нужных функций.

In [114]:
orders.groupby(['ship_mode', 'order_date'])['sales'].agg(['sum', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,count
ship_mode,order_date,Unnamed: 2_level_1,Unnamed: 3_level_1
First,2014-07-08,699.2,1
Standard,2014-01-28,3.9,1
Standard,2014-03-14,91.1,1
Standard,2014-09-07,378.0,1


прыгает средний чек. Интересно, а какой был самый удачный день? Чтобы узнать, отсортируем получившийся датафрейм: выведем 2 самых денежных дней по выручке:

In [115]:
orders.groupby(['ship_mode', 'order_date'])['sales'].agg(['sum']).sort_values(by='sum', ascending=False).head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum
ship_mode,order_date,Unnamed: 2_level_1
First,2014-07-08,699.2
Standard,2014-09-07,378.0


In [118]:
# Команда разбить её на несколько строк 
orders \
    .groupby(['ship_mode', 'order_date'])['sales'] \
    .agg(['sum']) \
    .sort_values(by='sum', ascending=False) \
    .head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum
ship_mode,order_date,Unnamed: 2_level_1
First,2014-07-08,699.2
Standard,2014-09-07,378.0
Standard,2014-03-14,91.1


### Объединяем несколько датафреймов

In [None]:
мы смотрели только на таблицу с заказами  
у нас есть еще данные о клиентах интернет-магазина  
Загрузим их в переменную customers 

In [122]:
id = ['DK-13375', 'EB-13705', 'NF-18475', 'JC-15340']
sales = {
         'name':     ['Claire Gute', 'Darrin Van Huff', 'Sean Donnell', 'Brosina Hoffman'],
         'segment':  ['Consumer', 'Corporate', 'Consumer', 'Consumer'],
         'state': ['Kentucky', 'California', 'Florida', 'California'],
         'city': ['Henderson', 'Los Angeles', 'Fort Lauderdale', 'Los Angeles']
         }
customers  = pd.DataFrame(data=sales, index=id)
customers 

Unnamed: 0,name,segment,state,city
DK-13375,Claire Gute,Consumer,Kentucky,Henderson
EB-13705,Darrin Van Huff,Corporate,California,Los Angeles
NF-18475,Sean Donnell,Consumer,Florida,Fort Lauderdale
JC-15340,Brosina Hoffman,Consumer,California,Los Angeles


знаем тип клиента, место его проживания, его имя и имя контактного лица. У каждого клиента есть уникальный номер id. Этот же номер лежит в колонке customer_id таблицы orders. Значит можем найти, какие заказы сделал каждый клиент. Например, посмотрим, заказы пользователя DK-13375:

In [123]:
cust_filter = 'DK-13375'
orders.query('customer_id == @cust_filter')

Unnamed: 0,order_date,ship_mode,customer_id,sales
100006,2014-09-07,Standard,DK-13375,378.0


узнать, что за клиенты, которые сделали 2014-07-08 заказы со стандартной доставкой.  
Для этого объединим таблицы с клиентами и заказами. Датафреймы объединяют с помощью методов .concat(), .merge() и .join(). Все они делают одно и то же, но отличаются синтаксисом — на практике достаточно уметь пользоваться одним из них.

In [124]:
new_df = pd.merge(orders, customers, how='inner', left_on='customer_id', right_index=True)
new_df.columns

Index(['order_date', 'ship_mode', 'customer_id', 'sales', 'name', 'segment',
       'state', 'city'],
      dtype='object')

В .merge() я сначала указал названия датафреймов, которые хочу объединить. Затем уточнил, как именно их объединить и какие колонки использовать в качестве ключа.

Ключ — это колонка, связывающая оба датафрейма. В нашем случае — номер клиента. В таблице с заказами он в колонке customer_id, а таблице с клиентами — в индексе. Поэтому в команде мы пишем: left_on='customer_id', right_index=True.

### Решаем задачу

Найдем 2 городa, принесших самую большую выручку в 2014 году.

In [132]:
orders_2014 = orders.query("order_date >= '2014-01-01' & order_date <= '2014-12-31'")
orders_2014.head(2)

Unnamed: 0,order_date,ship_mode,customer_id,sales
100006,2014-09-07,Standard,DK-13375,378.0
100090,2014-07-08,First,EB-13705,699.2


In [134]:
# Город — это атрибут пользователей, а не заказов. Добавим информацию о пользователях:
with_customers_2014 = pd.merge(customers, orders_2014, how='inner', left_index=True, right_on='customer_id')

Cруппируем получившийся датафрейм по городам и посчитаем выручку:

In [135]:
grouped_2014 = with_customers_2014.groupby('city')['sales'].sum()

In [136]:
grouped_2014.head()

city
Fort Lauderdale    91.1
Henderson         378.0
Los Angeles       703.1
Name: sales, dtype: float64

In [139]:
# Отсортируем по убыванию продаж и оставим топ-2
top2 = grouped_2014.sort_values(ascending=False).head(2)
print(top2)

city
Los Angeles   703.1
Henderson     378.0
Name: sales, dtype: float64
