Документация по использованию всех функций и методов библиотеки: http://pandas.pydata.org/pandas-docs/stable/index.html

https://drive.google.com/file/d/1fVNxGG5B-xALetpXcWKay5K1Dbyqj9ix/view?usp=sharing

In [1]:
#подключение модуля
import pandas as pd

## Основные объекты Pandas

### Series

это проиндексированный одномерный массив значений. Он похож на простой словарь типа dict, где имя элемента будет соответствовать индексу, а значение – значению записи.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html?highlight=series#pandas.Series

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

data – список, словарь или скалярное значение, на базе которого будет построен Series;

index – список меток, который будет использоваться для доступа к элементам Series. Длина списка должна быть равна длине data;

dtype – объект numpy.dtype, определяющий тип данных;

copy – создает копию массива данных, если параметр равен True в ином случае ничего не делает.

В большинстве случаев, при создании Series, используют только первые два параметра. Рассмотрим различные варианты как это можно сделать.

Самый простой способ создать Series – это передать в качестве единственного параметра в конструктор класса список Python.

In [2]:
s1 = pd.Series([1, 2, 3, 4, 5])

In [8]:
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [7]:
#Можно ли так сделать?
s1[-1]

KeyError: -1

In [9]:
s2 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])

In [11]:
s2['a']

1

In [24]:
s = pd.Series(data = [1,2,3,4,5], index = 'one two three four five'.split())

In [13]:
s

one      1
two      2
three    3
four     4
five     5
dtype: int64

In [15]:
#index
s['two']

2

Еще один способ создать структуру Series – это использовать словарь для одновременного задания меток и значений.

In [18]:
dictionary = {"student_1": "Иван", "student_2": "Мария", "student_3": "Арсений"}
dictionary["student_1"]

'Иван'

In [19]:
s_4 = pd.Series(dictionary)

In [21]:
s_4["student_1"]

'Иван'

Создание Series с использованием константы
Рассмотрим еще один способ создания структуры. На этот раз значения в ячейках структуры будут одинаковыми.


In [31]:
a = 7
s_5 = pd.Series(a,['a', 'b', 'c',])
s_5

a    7
b    7
c    7
dtype: int64

## Доступ к элементам
* по индексу
* по срезу
* по условному выражение
s5[s5 <= 3]

In [27]:
s6 = pd.Series([1, 2, 3, 4, 2], ['a', 'b', 'c', 'd', 'e'])

In [33]:
s6*3

a     3
b     6
c     9
d    12
e     6
dtype: int64

Со структурами Series можно работать как с векторами: складывать, умножать вектор на число

### DataFrame
 это проиндексированный многомерный массив значений, соответственно каждый столбец DataFrame, является структурой Series

Конструктор класса DataFrame выглядит так:

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

data – массив ndarray, словарь (dict) или другой DataFrame;

index – список меток для записей (имена строк таблицы);

columns – список меток для полей (имена столбцов таблицы);

dtype – объект numpy.dtype, определяющий тип данных;

copy – создает копию массива данных, если параметр равен True в ином случае ничего не делает.

Структуру DataFrame можно создать на базе:

* словаря (dict) в качестве элементов которого должны выступать: одномерные ndarray, списки, другие словари, структуры Series;
* структуры Series;

Рассмотрим на практике различные подходы к созданию DataFrame’ов.

In [26]:
#Из серий

In [38]:
d_1 = {"price":pd.Series([1, 2, 3], index=['v1', 'v2', 'v3']),
    "count": pd.Series([10, 12, 7], index=['v1', 'v2', 'v'])}

In [39]:
d_1

{'price': v1    1
 v2    2
 v3    3
 dtype: int64,
 'count': v1    10
 v2    12
 v      7
 dtype: int64}

In [40]:
df_1 = pd.DataFrame(d_1)

In [41]:
df_1

Unnamed: 0,price,count
v,,7.0
v1,1.0,10.0
v2,2.0,12.0
v3,3.0,


In [43]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, v to v3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   price   3 non-null      float64
 1   count   3 non-null      float64
dtypes: float64(2)
memory usage: 96.0+ bytes


In [27]:
#Из словаря

In [47]:
#Способ_1
d3 = [{"price": 3, "count":8, "value": 5}, {"price": 4, "count": 11}]
df3 = pd.DataFrame(d3)
df3

Unnamed: 0,price,count,value
0,3,8,5.0
1,4,11,


In [52]:
#Способ_2
df = pd.DataFrame({'login': 'Ivanov Petrov Sidorov'.split(), 
                   'password': ['25jg4', '54jk56', '6jhu78f']}, 
                  index = ['s_1', 's_2', 's_3'])

In [53]:
#Выведем датафрейм на экран
df

Unnamed: 0,login,password
s_1,Ivanov,25jg4
s_2,Petrov,54jk56
s_3,Sidorov,6jhu78f


In [60]:
df.login
df['login'][:]



s_1     Ivanov
s_2     Petrov
s_3    Sidorov
Name: login, dtype: object

In [4]:
# Извлекаем весь столбец по индексу []
#Способ 1


In [5]:
#Способ 2 через .


In [6]:
# Извлекаем отдельный элемент, способ 1 (используем значения индексов и названия столбцов)


In [67]:
df.loc['s_1']

login       Ivanov
password     25jg4
Name: s_1, dtype: object

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html?highlight=loc#pandas.DataFrame.loc

In [62]:
#Операция: выбор строки по метке. loc
df.loc['s_1']

login       Ivanov
password     25jg4
Name: s_1, dtype: object

In [74]:
df.loc['s_1']

login       Ivanov
password     25jg4
Name: s_1, dtype: object

In [35]:
#Операция: выбор строки по индексу. iloc


In [None]:
#Поговорим немного о массивах

In [73]:
# Объединяем два способа
df.iloc[0]

login       Ivanov
password     25jg4
Name: s_1, dtype: object

In [75]:
d = {"price":[1, 2, 3],
    "count": [10, 20, 30]}
df = pd.DataFrame(d, index=['a', 'b', 'c'])
df

Unnamed: 0,price,count
a,1,10
b,2,20
c,3,30


In [76]:
#Операция: выбор строк, отвечающих условию.
df[df['count'] >= 20]

Unnamed: 0,price,count
b,2,20
c,3,30


## Загружаем датасет и смотрим, что в нем есть

In [77]:
df = pd.read_csv('data.csv')

In [85]:
#Способы просмотра содержимого head tail sample []
df[100:200]

Unnamed: 0,order_date,order_id,customer,grand_total
100,12/12/11,CA-2011-107573,Philip Brown,23
101,7/2/11,CA-2011-107594,Eric Hoffmann,80
102,2/15/11,CA-2011-107706,Shui Tom,16
103,2/8/11,CA-2011-107755,Cyma Kinney,115
104,10/28/11,CA-2011-107769,Bill Tyler,258
...,...,...,...,...
195,9/26/11,CA-2011-115133,Dianna Arnett,53
196,2/1/11,CA-2011-115161,Liz Carlisle,291
197,8/25/11,CA-2011-115259,Ryan Crowe,199
198,11/18/11,CA-2011-115336,Ann Blume,14


In [86]:
# Получаем общую информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5009 entries, 0 to 5008
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   order_date   5009 non-null   object
 1   order_id     5009 non-null   object
 2   customer     5009 non-null   object
 3   grand_total  5009 non-null   int64 
dtypes: int64(1), object(3)
memory usage: 156.7+ KB


In [87]:
# Получаем основные статистические данные о количественных показателях
#Будьте осторожны с этим методом при работе с большими датасетами! describe()
df.describe()

Unnamed: 0,grand_total
count,5009.0
mean,458.626672
std,954.729307
min,1.0
25%,38.0
50%,152.0
75%,512.0
max,23661.0


In [88]:
# Поворачиваем таблицу T
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
grand_total,5009.0,458.626672,954.729307,1.0,38.0,152.0,512.0,23661.0


In [89]:
#Преобразуем дату
df['order_date'] = pd.to_datetime(df['order_date'])

In [90]:
#Выведем таблицу
df

Unnamed: 0,order_date,order_id,customer,grand_total
0,2011-09-07,CA-2011-100006,Dennis Kane,378
1,2011-07-08,CA-2011-100090,Ed Braxton,699
2,2011-03-14,CA-2011-100293,Neil Franz�sisch,91
3,2011-01-29,CA-2011-100328,Jasper Cacioppo,4
4,2011-04-08,CA-2011-100363,Jim Mitchum,21
...,...,...,...,...
5004,2014-11-04,US-2014-168802,Jack O'Briant,18
5005,2014-07-24,US-2014-169320,Lena Hernandez,171
5006,2014-09-08,US-2014-169488,Allen Armold,57
5007,2014-08-29,US-2014-169502,Matthew Grinstein,113


In [108]:
df[df['customer'] == 'Adam Hart']

Unnamed: 0,order_date,order_id,customer,grand_total
703,2011-11-16,CA-2011-160066,Adam Hart,5
1606,2012-12-21,CA-2012-161795,Adam Hart,3
2371,2013-06-27,CA-2013-144015,Adam Hart,262
2429,2013-12-18,CA-2013-147109,Adam Hart,217
2473,2013-09-16,CA-2013-149797,Adam Hart,842
3045,2014-09-26,CA-2014-112004,Adam Hart,199
3175,2014-04-16,CA-2014-118857,Adam Hart,196
3315,2014-10-24,CA-2014-125451,Adam Hart,1170
3719,2014-05-20,CA-2014-145702,Adam Hart,342
4101,2014-11-27,CA-2014-165029,Adam Hart,13


In [91]:
#Найдем максимальное значение по дате
df["order_date"].max()

Timestamp('2014-12-31 00:00:00')

In [92]:
import datetime as dt
NOW = dt.datetime(2014,12,31)
NOW

datetime.datetime(2014, 12, 31, 0, 0)

https://zen.yandex.ru/media/id/5a43516dad0f225975a9353c/chem-polezen-rfmanaliz--i-kak-ispolzovat-dannye-analiza--5d5c085aa98a2a00aef89144?utm_source=serp

## groupby()

In [94]:
rfmTable = df.groupby('customer')
rfmTable

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000020DDC507F08>

In [95]:
rfmTable = df.groupby('customer').agg({'order_date': lambda x: (NOW - x.max()).days, # Recency
                                        'order_id': lambda x: len(x),      # Frequency
                                        'grand_total': lambda x: x.sum()}) # Monetary Value



In [101]:
rfmTable

Unnamed: 0_level_0,recency,frequency,monetary_value
customer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aaron Bergman,415,3,887
Aaron Hawkins,12,7,1744
Aaron Smayling,88,7,3050
Adam Bellavance,54,8,7756
Adam Hart,34,10,3249
...,...,...,...
Xylona Preis,43,11,2375
Yana Sorensen,9,8,6721
Yoseph Carroll,4,5,5455
Zuschuss Carroll,54,13,8027


In [97]:
rfmTable.info()

<class 'pandas.core.frame.DataFrame'>
Index: 793 entries, Aaron Bergman to Zuschuss Donatelli
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   order_date   793 non-null    int64
 1   order_id     793 non-null    int64
 2   grand_total  793 non-null    int64
dtypes: int64(3)
memory usage: 24.8+ KB


In [100]:
rfmTable['order_date'] = rfmTable['order_date'].astype(int)
rfmTable.rename(columns={'order_date': 'recency', 
                         'order_id': 'frequency', 
                         'grand_total': 'monetary_value'}, inplace=True)

In [16]:
#Что получилось?


In [None]:
rfmTable.info()

In [113]:

rfmTable[rfmTable.index == 'Adam Hart'] 

Unnamed: 0_level_0,recency,frequency,monetary_value
customer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adam Hart,34,10,3249


In [109]:
#Можно получить конкретное значение
rfmTable.loc["Adam Hart"]


recency             34
frequency           10
monetary_value    3249
Name: Adam Hart, dtype: int64

## Слияние таблиц

In [110]:
rfm = df.merge(rfmTable, on = 'customer')


In [111]:
rfm

Unnamed: 0,order_date,order_id,customer,grand_total,recency,frequency,monetary_value
0,2011-09-07,CA-2011-100006,Dennis Kane,378,19,8,3317
1,2012-12-06,CA-2012-131884,Dennis Kane,594,19,8,3317
2,2012-12-12,CA-2012-145065,Dennis Kane,32,19,8,3317
3,2014-07-28,CA-2014-133046,Dennis Kane,298,19,8,3317
4,2014-12-12,CA-2014-165099,Dennis Kane,1,19,8,3317
...,...,...,...,...,...,...,...
5004,2014-03-07,CA-2014-168193,Roland Murray,98,299,1,98
5005,2012-04-02,US-2012-122140,Michael Oakman,130,180,2,154
5006,2014-07-04,US-2014-166233,Michael Oakman,24,180,2,154
5007,2012-07-19,US-2012-160150,Thais Sissman,2,357,2,5


## pivot_table()

In [114]:
# Считаем среднее значение потраченной суммы по сегментам
rfm.pivot_table(values = 'monetary_value', index = 'frequency', aggfunc = 'mean')

Unnamed: 0_level_0,monetary_value
frequency,Unnamed: 1_level_1
1,430.583333
2,780.088235
3,1366.226415
4,1819.197917
5,2517.626866
6,2784.897196
7,3426.465517
8,3605.219512
9,3462.957746
10,4374.717949


In [115]:
rfm.pivot_table(values = 'monetary_value', index = 'frequency', aggfunc = ["min", 'mean', "max"])

Unnamed: 0_level_0,min,mean,max
Unnamed: 0_level_1,monetary_value,monetary_value,monetary_value
frequency,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,5,430.583333,1058
2,5,780.088235,5254
3,49,1366.226415,9350
4,72,1819.197917,14595
5,201,2517.626866,25042
6,269,2784.897196,15117
7,432,3426.465517,10605
8,684,3605.219512,11166
9,775,3462.957746,14143
10,1255,4374.717949,14474


In [116]:
# Считаем минимальную, среднюю и максимальную сумму покупки в зависимости от группы по R
rfm.groupby(by = 'frequency')['monetary_value'].agg(['min', 'mean', 'max'])

Unnamed: 0_level_0,min,mean,max
frequency,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,5,430.583333,1058
2,5,780.088235,5254
3,49,1366.226415,9350
4,72,1819.197917,14595
5,201,2517.626866,25042
6,269,2784.897196,15117
7,432,3426.465517,10605
8,684,3605.219512,11166
9,775,3462.957746,14143
10,1255,4374.717949,14474


## Определение RFM Quartiles

In [118]:

quantiles = rfmTable.quantile(q=[0.25,0.5,0.75])
quantiles

Unnamed: 0,recency,frequency,monetary_value
0.25,30.0,5.0,1145.0
0.5,75.0,6.0,2257.0
0.75,183.0,8.0,3784.0


## Creating the RFM segmentation table

In [120]:
# Arguments (x = value, p = recency, monetary_value, frequency, k = quartiles dict)
def RClass(x,p,d):
    if x <= d[p][0.25]:
        return 1
    elif x <= d[p][0.50]:
        return 2
    elif x <= d[p][0.75]: 
        return 3
    else:
        return 4
    
# Arguments (x = value, p = recency, monetary_value, frequency, k = quartiles dict)
def FMClass(x,p,d):
    if x <= d[p][0.25]:
        return 4
    elif x <= d[p][0.50]:
        return 3
    elif x <= d[p][0.75]: 
        return 2
    else:
        return 1

    

In [122]:
rfm['R_Quartile'] = rfm['recency'].apply(RClass, args=('recency',quantiles,))
rfm['F_Quartile'] = rfm['frequency'].apply(FMClass, args=('frequency',quantiles,))
rfm['M_Quartile'] = rfm['monetary_value'].apply(FMClass, args=('monetary_value',quantiles,))

In [132]:
rfm

Unnamed: 0,order_date,order_id,customer,grand_total,recency,frequency,monetary_value,R_Quartile,F_Quartile,M_Quartile,RFMClass
0,2011-09-07,CA-2011-100006,Dennis Kane,378,19,8,3317,1,2,2,122
1,2012-12-06,CA-2012-131884,Dennis Kane,594,19,8,3317,1,2,2,122
2,2012-12-12,CA-2012-145065,Dennis Kane,32,19,8,3317,1,2,2,122
3,2014-07-28,CA-2014-133046,Dennis Kane,298,19,8,3317,1,2,2,122
4,2014-12-12,CA-2014-165099,Dennis Kane,1,19,8,3317,1,2,2,122
...,...,...,...,...,...,...,...,...,...,...,...
5004,2014-03-07,CA-2014-168193,Roland Murray,98,299,1,98,4,4,4,444
5005,2012-04-02,US-2012-122140,Michael Oakman,130,180,2,154,3,4,4,344
5006,2014-07-04,US-2014-166233,Michael Oakman,24,180,2,154,3,4,4,344
5007,2012-07-19,US-2012-160150,Thais Sissman,2,357,2,5,4,4,4,444


In [131]:

rfm['RFMClass'] = rfm.R_Quartile.map(str) \
                            + rfm.F_Quartile.map(str) \
                            + rfm.M_Quartile.map(str)

In [129]:
rfm[rfm['R_Quartile']==1]


Unnamed: 0,order_date,order_id,customer,grand_total,recency,frequency,monetary_value,R_Quartile,F_Quartile,M_Quartile
0,2011-09-07,CA-2011-100006,Dennis Kane,378,19,8,3317,1,2,2
1,2012-12-06,CA-2012-131884,Dennis Kane,594,19,8,3317,1,2,2
2,2012-12-12,CA-2012-145065,Dennis Kane,32,19,8,3317,1,2,2
3,2014-07-28,CA-2014-133046,Dennis Kane,298,19,8,3317,1,2,2
4,2014-12-12,CA-2014-165099,Dennis Kane,1,19,8,3317,1,2,2
...,...,...,...,...,...,...,...,...,...,...
4990,2011-07-19,US-2011-150434,Christine Abelman,455,13,4,1422,1,4,3
4991,2013-01-03,US-2013-116365,Christine Abelman,377,13,4,1422,1,4,3
4992,2014-12-10,US-2014-145366,Christine Abelman,95,13,4,1422,1,4,3
5002,2014-12-04,CA-2014-148691,Chuck Sachs,239,27,2,551,1,4,4


In [130]:
rfm[(rfm['R_Quartile'] == 1) &
 (rfm['F_Quartile'] == 1) &
 (rfm['M_Quartile'] == 1)]



Unnamed: 0,order_date,order_id,customer,grand_total,recency,frequency,monetary_value,R_Quartile,F_Quartile,M_Quartile
115,2011-08-27,CA-2011-101266,Michael Moore,13,7,11,3794,1,1,1
116,2011-09-26,CA-2011-115049,Michael Moore,154,7,11,3794,1,1,1
117,2011-01-14,CA-2011-118192,Michael Moore,41,7,11,3794,1,1,1
118,2013-04-23,CA-2013-101329,Michael Moore,35,7,11,3794,1,1,1
119,2013-12-04,CA-2013-122063,Michael Moore,612,7,11,3794,1,1,1
...,...,...,...,...,...,...,...,...,...,...
4974,2014-03-11,CA-2014-144638,Mick Hernandez,92,5,9,5503,1,1,1
4975,2014-05-26,CA-2014-161088,Mick Hernandez,30,5,9,5503,1,1,1
4976,2013-08-24,US-2013-160528,Mick Hernandez,1416,5,9,5503,1,1,1
4977,2014-05-01,US-2014-108315,Mick Hernandez,226,5,9,5503,1,1,1


In [134]:
rfm.query('(R_Quartile ==1 ) & (F_Quartile ==1) & (M_Quartile ==1)')


Unnamed: 0,order_date,order_id,customer,grand_total,recency,frequency,monetary_value,R_Quartile,F_Quartile,M_Quartile,RFMClass
115,2011-08-27,CA-2011-101266,Michael Moore,13,7,11,3794,1,1,1,111
116,2011-09-26,CA-2011-115049,Michael Moore,154,7,11,3794,1,1,1,111
117,2011-01-14,CA-2011-118192,Michael Moore,41,7,11,3794,1,1,1,111
118,2013-04-23,CA-2013-101329,Michael Moore,35,7,11,3794,1,1,1,111
119,2013-12-04,CA-2013-122063,Michael Moore,612,7,11,3794,1,1,1,111
...,...,...,...,...,...,...,...,...,...,...,...
4974,2014-03-11,CA-2014-144638,Mick Hernandez,92,5,9,5503,1,1,1,111
4975,2014-05-26,CA-2014-161088,Mick Hernandez,30,5,9,5503,1,1,1,111
4976,2013-08-24,US-2013-160528,Mick Hernandez,1416,5,9,5503,1,1,1,111
4977,2014-05-01,US-2014-108315,Mick Hernandez,226,5,9,5503,1,1,1,111


In [None]:
rfm

In [None]:
rfm.info()

In [133]:
rfm.pivot_table(values = 'monetary_value', index = 'RFMClass', aggfunc = 'mean')

Unnamed: 0_level_0,monetary_value
RFMClass,Unnamed: 1_level_1
111,6004.556270
112,2905.570755
113,1713.644068
114,1057.000000
121,5371.371795
...,...
434,717.250000
441,8174.723404
442,2722.640449
443,1631.398551


In [None]:
rfm.groupby(by = 'RFMClass')['monetary_value'].mean()

## Самостоятельно
можно поработать, например, со следующим датасетом
https://raw.githubusercontent.com/plotly/datasets/master/2016-weather-data-seattle.csv