<a href="https://colab.research.google.com/github/cientistanomade/data_science/blob/main/Analise_de_Indicadores_de_Performance.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# O que são KPIs

Os KPIs são indicadores de desempenho que possuem valores quantitativos que acompanham processos-chave das ações de uma empresa. Seus valores influenciam fortemente no sucesso de uma ação.

Dentre os principais KPIs utilizados destaco os seguintes:

1. Retorno sobre investimento, basicamente o ROI calcula qual foi a assertividade do investimento, e pode ser aplicado em diversas situações. Sua fórmula é dada por:
**ROI = (Ganhos após o investimento – Investimento inicial) / Investimento inicial**

2. Ticket médio, ele calcula em média, quanto cada cliente gasta com o seu negócio em determinado período de tempo. Sua fórmula é dada por:
**Ticket médio = Faturamento / Número de clientes em determinado período**

3. Custo de aquisição por cliente (CAC), demonstra quanto a sua empresa precisa gastar para conseguir um novo cliente. Sua fórmula pode ser calculada como:

**Custo de aquisição por cliente = Gastos para aquisição de clientes / Número de novos clientes no período.**

4. Índice de rotatividade, serve para medir o grau de saída (ou turnover) de colaboradores do seu negócio. Para esse cálculo, usa-se a fórmula:

**Índice de rotatividade = [(Número de demissões + número de admissões) / 2] / Número total de funcionários**


![projeto3.gif](http://acob.com/imagenes/kpi.gif)


# Como definir KPIs

Cada empresa pode definir seus próprios indicadores e a definição vai depender do que a empresa gostaria de medir e analisar ao longo de um determinado tempo.

Alguns indicadores podem ser relevantes para algumas áreas, mas podem não ter relevância para outras.

Saber exatamente o que a empresa precisa vai fazer com que não aconteça nenhum tipo de perda de tempo e desperdício em investimentos na hora de definir KPIs.


## Definindo o Problema
A empresa *XYZ* comercializa produtos importados dos mais variados tipos para diversos países ao redor do mundo.

A equipe de ciência de dados recebeu a tarefa de analisar, interpretar e calcular 8 indicadores chave de performance com base nos dados fornecidos pelo time de engenharia de dados.

Os indicadores foram definidos pela área de planejamento estratégico, e como resultado final o gestor da área de *Marketing* precisa acompanhar a evolução das vendas e a efetividade das campanhas ao longo do tempo.

Os oitos indicados que farão parte do processo de análise são:
1. Faturamento Mensal;
3. Taxa Percentual de Crescimento Mensal
4. Clientes Ativos Por mês no Brasil
5. Total de itens comprados por mês no Brasil;
5. Diferença de faturamento ao longo do tempo entre clientes novos e antigos;
6. Taxa de novos clientes;
7. Taxa mensal de retenção de clientes.



## Hipóteses Iniciais

A partir do conjunto de dados fornecido, iremos explorar os dados, entender o seu comportamento e calcular os indicadores com base nas formulás específicas e gerar gráficos para que o gestor da área de *Marketing* tenha uma noção de como a empresa está conduzindo os seus negócios.

![analise-de-indicadores.png](https://blog.bismart.com/hs-fs/hubfs/KPI%20ejemplos%20rendimiento%20empresarial%20indicadores%20de%20rendimiento.png?width=900&name=KPI%20ejemplos%20rendimiento%20empresarial%20indicadores%20de%20rendimiento.png)

### Inciando o Desenvolvimento do Projeto

**dataset**: https://drive.google.com/file/d/1oHXd54crd0GgAM6hYZ-k0ekUpo12PCeq/view?usp=sharing

In [144]:
# Imports
import numpy as np
import pandas as pd

import seaborn as sns
import matplotlib
import plotly
import matplotlib.pyplot as plt
import plotly.offline as pyoff
import plotly.graph_objs as go

from datetime import datetime, timedelta

In [145]:
# Carregando os dados
data = pd.read_csv('/content/drive/MyDrive/ColabNotebooks/dataSource/projeto3/dataset.csv',header = 0, encoding = 'unicode_escape')

In [146]:
print("Dimensões do DataFrame")
print("Linhas: \t{}".format(data.shape[0]))
print("Colunas: \t{}\n".format(data.shape[1]))

print("Tipos de Dados")
display(data.dtypes)

Dimensões do DataFrame
Linhas: 	541800
Colunas: 	8

Tipos de Dados


NumeroFatura      object
CodigoProduto     object
NomeProduto       object
Quantidade         int64
DataVenda         object
ValorUnitario    float64
IdCliente        float64
Pais              object
dtype: object

# Análise Exploratória

In [147]:
# Visualizando os dados
data.sample(7)

Unnamed: 0,NumeroFatura,CodigoProduto,NomeProduto,Quantidade,DataVenda,ValorUnitario,IdCliente,Pais
525619,580633,22469,HEART OF WICKER SMALL,1,12/5/2011 12:28,1.65,17579.0,Brasil
394806,570885,22728,ALARM CLOCK BAKELIKE PINK,4,10/13/2011 10:20,3.75,14211.0,Brasil
233839,557493,21935,SUKI SHOULDER BAG,1,6/20/2011 15:18,4.13,,Brasil
316811,564756,22384,LUNCH BAG PINK POLKADOT,1,8/30/2011 10:33,4.13,,Brasil
80957,543097,84987,SET OF 36 TEATIME PAPER DOILIES,1,2/3/2011 11:41,2.92,,Brasil
45009,540247,22723,SET OF 6 HERB TINS SKETCHBOOK,2,1/5/2011 15:56,3.95,15464.0,Brasil
314285,564630,23331,DECORATIVE WICKER HEART SMALL,48,8/26/2011 11:53,0.63,13644.0,Brasil


**Nota**: Cada linha (observação) representa um item de um pedido. Observe que a coluna NumeroFatura se repete indicando que é um mesmo pedido com itens diferentes. Para cada item temos o produto, a quantidade, o valor unitário, o cliente e o país.

In [148]:
# Número de valores únicos
data.nunique()

NumeroFatura     25892
CodigoProduto     4070
NomeProduto       4223
Quantidade         722
DataVenda        23253
ValorUnitario     1630
IdCliente         4372
Pais                37
dtype: int64

In [149]:
# Valores ausentes
data.isnull().sum()

NumeroFatura          0
CodigoProduto         0
NomeProduto        1454
Quantidade            0
DataVenda             0
ValorUnitario         0
IdCliente        135075
Pais                  0
dtype: int64

In [150]:
# Porcentagem de valores nulos
(data.isnull().sum() / data.shape[0]).sort_values(ascending = False)

IdCliente        0.249308
NomeProduto      0.002684
NumeroFatura     0.000000
CodigoProduto    0.000000
Quantidade       0.000000
DataVenda        0.000000
ValorUnitario    0.000000
Pais             0.000000
dtype: float64

In [151]:
# Resumo estatístico nas variáveis numéricas
data.describe()

Unnamed: 0,Quantidade,ValorUnitario,IdCliente
count,541800.0,541800.0,406725.0
mean,9.551739,4.611581,15287.754038
std,218.103033,96.769576,1713.475925
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13954.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


In [152]:
# Resumo estatístico nas variáveis categóricas
data.describe(include='O')

Unnamed: 0,NumeroFatura,CodigoProduto,NomeProduto,DataVenda,Pais
count,541800,541800,540346,541800,541800
unique,25892,4070,4223,23253,37
top,573585,85123A,WHITE HANGING HEART T-LIGHT HOLDER,10/31/2011 14:41,Brasil
freq,1114,2313,2369,1114,495385


In [153]:
# Range de datas do período que ocorreram as vendas 
print('Data Mínima:', data['DataVenda'].min())
print('Data Máxima:', data['DataVenda'].max())

Data Mínima: 1/10/2011 10:04
Data Máxima: 9/9/2011 9:52


Observe que devido ao tipo de dado da coluna com o resultado será incorreto

In [154]:
# Convertendo a variável DataVenda para o tipo data
data.DataVenda = pd.to_datetime(data.DataVenda)

In [155]:
# Tipos de dados
data.dtypes

NumeroFatura             object
CodigoProduto            object
NomeProduto              object
Quantidade                int64
DataVenda        datetime64[ns]
ValorUnitario           float64
IdCliente               float64
Pais                     object
dtype: object

In [156]:
# Range de datas do período que ocorreram as vendas 
print('Data Mínima:', data['DataVenda'].min())
print('Data Máxima:', data['DataVenda'].max())

Data Mínima: 2010-12-01 08:26:00
Data Máxima: 2011-12-09 12:50:00


In [157]:
# Países para os quais ocorreram vendas
data['Pais'].unique()

array(['Brasil', 'Uruguai', 'Australia', 'Holanda', 'Alemanha', 'Noruega',
       'Irlanda', 'Espanha', 'Poland', 'Portugal', 'Italy', 'Belgium',
       'Lithuania', 'Japan', 'Iceland', 'Channel Islands', 'Dinamarca',
       'Cyprus', 'Sweden', 'Austria', 'Israel', 'Finland', 'Bahrain',
       'Greece', 'Hong Kong', 'Cingapura', 'Iraque', 'Equador',
       'Saudi Arabia', 'Czech Republic', 'Canada', 'China', 'Inglaterra',
       'USA', 'Chile', 'Malta', 'Paraguai'], dtype=object)

# Indicador 1 - Faturamento Mensal

Faturamento = Quantidade * Valor_Unitario

In [158]:
# Extraindo o ano e mês da fatura
data['AnoMes'] = data['DataVenda'].map(lambda x: 100 * x.year + x.month)

In [159]:
# Visualizando os dados
data.sample(4)

Unnamed: 0,NumeroFatura,CodigoProduto,NomeProduto,Quantidade,DataVenda,ValorUnitario,IdCliente,Pais,AnoMes
3927,536739,22666,RECIPE BOX PANTRY YELLOW DESIGN,6,2010-12-02 13:08:00,2.95,14180.0,Brasil,201012
134999,547876,22891,TEA FOR ONE POLKADOT,3,2011-03-27 15:41:00,4.25,16638.0,Brasil,201103
524226,580539,22389,PAPERWEIGHT SAVE THE PLANET,12,2011-12-05 08:39:00,0.39,18180.0,Brasil,201112
292812,562560,22535,MAGIC DRAWING SLATE BUNNIES,4,2011-08-05 17:12:00,0.42,14156.0,Irlanda,201108


In [160]:
# Calculando o faturamento e incluindo no dataset
data["Faturamento"] = data["Quantidade"] * data["ValorUnitario"]

In [161]:
# Visualizando os dados
data.sample(3)

Unnamed: 0,NumeroFatura,CodigoProduto,NomeProduto,Quantidade,DataVenda,ValorUnitario,IdCliente,Pais,AnoMes,Faturamento
476837,577034,84012,MAGIC SHEEP WOOL GROWING FROM PAPER,12,2011-11-17 13:16:00,0.85,12847.0,Brasil,201111,10.2
386241,570229,23200,JUMBO BAG PEARS,1,2011-10-09 13:30:00,2.08,15756.0,Brasil,201110,2.08
142289,548566,22492,MINI PAINT SET VINTAGE,36,2011-04-01 10:27:00,0.65,17288.0,Brasil,201104,23.4


In [162]:
# Tipo de dado da variável AnoMes
data['AnoMes'].dtypes

dtype('int64')

In [163]:
# Agrupando o faturamento por ano/mês
faturamento = data.groupby(['AnoMes']).agg({'Faturamento': sum}).reset_index()
faturamento

Unnamed: 0,AnoMes,Faturamento
0,201012,748957.02
1,201101,560000.26
2,201102,498062.65
3,201103,683267.08
4,201104,493207.121
5,201105,723333.51
6,201106,691123.12
7,201107,681300.111
8,201108,682680.51
9,201109,1019687.622


In [164]:
# Definindo os dados no plot
plot_data = [go.Scatter(x = faturamento['AnoMes'], 
                        y = faturamento['Faturamento'],)]
# Layout do plot
plot_layout = go.Layout(xaxis = {"type": "category"}, 
                        title = 'Faturamento Mensal',
                        plot_bgcolor = '#ADD8E6')
# Plot da figura
fig = go.Figure(data = plot_data, layout = plot_layout)
pyoff.iplot(fig)

# Indicador 2 - Taxa Percentual de Crescimento Mensal

Taxa Percentual de Crescimento Mensal = Faturamento Mensal / Faturamento Mensal Anterior * 100

In [165]:
# Usamos a função pct_change() para calcular a variação percentual mensal
faturamento['CrescimentoMensal'] = faturamento['Faturamento'].pct_change()

Usamos a função pct_change() para calcular a variação percentual mensal

In [166]:
# Visualizando os dados
faturamento.sample(4)

Unnamed: 0,AnoMes,Faturamento,CrescimentoMensal
9,201109,1019687.622,0.493653
6,201106,691123.12,-0.04453
2,201102,498062.65,-0.110603
12,201112,431245.0,-0.704982


In [167]:
plot_data = [go.Scatter(x = faturamento.query("AnoMes < 201112")['AnoMes'],
                        y = faturamento.query("AnoMes < 201112")['CrescimentoMensal'],)]

plot_layout = go.Layout(xaxis = {"type": "category"}, 
                        title = 'Taxa Percentual de Crescimento Mensal',
                        plot_bgcolor = '#E6E6FA')

fig = go.Figure(data = plot_data, layout = plot_layout)
pyoff.iplot(fig) 

# Indicador 3 - Clientes Ativos Por Mês em um País (Brasil)

Clientes ativos são aqueles que fizeram pelo menos uma compra em cada mês.

In [168]:
# Criando um dataframe somente com dados referente ao país Brasil
dados_brasil = data.query("Pais=='Brasil'").reset_index(drop = True)

In [169]:
# Os usuários ativos são aqueles que fizeram pelo menos uma compra
ativos_mes_brasil = dados_brasil.groupby('AnoMes')['IdCliente'].nunique().reset_index()

In [170]:
# Visualizando os dados
ativos_mes_brasil

Unnamed: 0,AnoMes,IdCliente
0,201012,871
1,201101,684
2,201102,714
3,201103,923
4,201104,817
5,201105,985
6,201106,943
7,201107,899
8,201108,867
9,201109,1177


In [171]:
plot_data = [go.Bar(x = ativos_mes_brasil['AnoMes'], 
                    y = ativos_mes_brasil['IdCliente'],)]

plot_layout = go.Layout(xaxis = {"type": "category"}, 
                        title = 'Clientes Ativos Por Mês no Brasil',
                        plot_bgcolor = '#F5F5F5')

fig = go.Figure(data = plot_data, layout = plot_layout)
pyoff.iplot(fig)

# Indicador 4 - Total de Itens Comprados Por Mês no Brasil

Total de itens comprados por mês.

In [172]:
# Agrupando os dados para calcular o total de itens comprados por mês no Brasil
itens_mes_brasil = dados_brasil.groupby('AnoMes')['Quantidade'].sum().reset_index()

In [173]:
# Visualizando os dados
itens_mes_brasil.sample(6)

Unnamed: 0,AnoMes,Quantidade
6,201106,258522
4,201104,257666
0,201012,298101
7,201107,324129
8,201108,319804
1,201101,237381


### **Visualização do Indicador 4**

In [174]:
plot_data = [go.Bar(x = itens_mes_brasil['AnoMes'], 
                    y = itens_mes_brasil['Quantidade'],)]

plot_layout = go.Layout(xaxis = {"type": "category"}, 
                        title = 'Total de Itens Comprados Por Mês no Brasil',
                        plot_bgcolor = '#E8F1F2')

fig = go.Figure(data = plot_data, layout = plot_layout)
pyoff.iplot(fig)

# Indicador 5 - Faturamento Médio Mensal no Brasil

Faturamento médio por mês em um país.

In [175]:
# Calculando o faturamento médio
faturamento_medio_brasil = dados_brasil.groupby('AnoMes')['Faturamento'].mean().reset_index()

In [176]:
# Visualizando os dados
faturamento_medio_brasil.sample(7)

Unnamed: 0,AnoMes,Faturamento
11,201111,16.312383
9,201109,18.931723
5,201105,17.713823
1,201101,13.61468
7,201107,15.723497
12,201112,16.223363
6,201106,16.714748


### **Visualização do Indicador 5**

In [177]:
plot_data = [go.Bar(x = faturamento_medio_brasil['AnoMes'], 
                    y = faturamento_medio_brasil['Faturamento'],)]

plot_layout = go.Layout(xaxis = {"type": "category"}, 
                        title = 'Faturamento Médio Mensal no Brasil',
                        plot_bgcolor = '#13293D')

fig = go.Figure(data = plot_data, layout = plot_layout)
pyoff.iplot(fig)

# Indicador 6 - Diferença de Faturamento ao Longo do Tempo Entre Clientes Novos e Antigos

Para calcular esse indicador precisaremos de um pouco mais de criatividade. O que é um cliente novo ou antigo?

Vamos considerar cliente novo aquele com baixo volume de compras e cliente antigo aquele com alto volume de compras.

In [178]:
# Encontrando a data de menor volume de compras de cada cliente
compra_minima = data.groupby('IdCliente')["DataVenda"].min().reset_index()

In [179]:
# Ajustando os nomes das colunas
compra_minima.columns = ['IdCliente', 'Data_Menor_Compra']

In [180]:
# Extraindo o mês em que ocorreu o menor volume de compras de cada cliente
compra_minima['Mes_Menor_Compra_Mensal'] = compra_minima['Data_Menor_Compra'].map(lambda x: 100 * x.year + x.month)


In [181]:
# Visualizando os dados
compra_minima.head()

Unnamed: 0,IdCliente,Data_Menor_Compra,Mes_Menor_Compra_Mensal
0,12346.0,2011-01-18 10:01:00,201101
1,12347.0,2010-12-07 14:57:00,201012
2,12348.0,2010-12-16 19:09:00,201012
3,12349.0,2011-11-21 09:51:00,201111
4,12350.0,2011-02-02 16:01:00,201102


In [182]:
# Merge entre o dataset original e o dataset de volume de compras
dados_compras = pd.merge(data, compra_minima, on = "IdCliente")
dados_compras.head()

Unnamed: 0,NumeroFatura,CodigoProduto,NomeProduto,Quantidade,DataVenda,ValorUnitario,IdCliente,Pais,AnoMes,Faturamento,Data_Menor_Compra,Mes_Menor_Compra_Mensal
0,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,2010-12-01 08:26:00,4.25,17850.0,Brasil,201012,25.5,2010-12-01 08:26:00,201012
1,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,Brasil,201012,15.3,2010-12-01 08:26:00,201012
2,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,Brasil,201012,20.34,2010-12-01 08:26:00,201012
3,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,Brasil,201012,22.0,2010-12-01 08:26:00,201012
4,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,Brasil,201012,20.34,2010-12-01 08:26:00,201012


In [183]:
# Criar uma nova coluna de tipo de usuário e preenchendo como Novo
dados_compras['TipoUsuario'] = 'Novo'

In [184]:
# Contagem de valores da coluna TipoUsuario
dados_compras['TipoUsuario'].value_counts()

Novo    406725
Name: TipoUsuario, dtype: int64

In [185]:
# Visualizando os dados
dados_compras.head()

Unnamed: 0,NumeroFatura,CodigoProduto,NomeProduto,Quantidade,DataVenda,ValorUnitario,IdCliente,Pais,AnoMes,Faturamento,Data_Menor_Compra,Mes_Menor_Compra_Mensal,TipoUsuario
0,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,2010-12-01 08:26:00,4.25,17850.0,Brasil,201012,25.5,2010-12-01 08:26:00,201012,Novo
1,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,Brasil,201012,15.3,2010-12-01 08:26:00,201012,Novo
2,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,Brasil,201012,20.34,2010-12-01 08:26:00,201012,Novo
3,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,Brasil,201012,22.0,2010-12-01 08:26:00,201012,Novo
4,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,Brasil,201012,20.34,2010-12-01 08:26:00,201012,Novo


In [186]:
dados_compras.loc[dados_compras['AnoMes'] > dados_compras['Mes_Menor_Compra_Mensal'], 'TipoUsuario'] = 'Antigo'

**Nota**: Um cliente antigo é aquele cujo volume de compras no mês é maior que o volume mínimo, se for verdadeiro, mudamos a coluna TipoUsuario para "Antigo" e se não, mantemos como "Novo".

In [187]:
# Contagem de valores da coluna TipoUsuario
dados_compras['TipoUsuario'].value_counts()

Antigo    287549
Novo      119176
Name: TipoUsuario, dtype: int64

In [188]:
# Calculando o faturamento por tipo de usuário por mês
df_faturamento_user_mes = dados_compras.groupby(['AnoMes', 'TipoUsuario'])['Faturamento'].sum().reset_index()

In [189]:
# Removendo o mês 12 de 2011 pois não temos dados suficientes
df_faturamento_user_mes = df_faturamento_user_mes.query("AnoMes != 201012 and AnoMes != 201112")

In [190]:
# Visualizando os dados
df_faturamento_user_mes

Unnamed: 0,AnoMes,TipoUsuario,Faturamento
1,201101,Antigo,271616.52
2,201101,Novo,203457.86
3,201102,Antigo,287024.77
4,201102,Novo,149521.38
5,201103,Antigo,390034.53
6,201103,Novo,189930.08
7,201104,Antigo,306283.6
8,201104,Novo,119764.251
9,201105,Antigo,532392.34
10,201105,Novo,115858.74


In [191]:
plot_data = [go.Scatter(x = df_faturamento_user_mes.query("TipoUsuario == 'Antigo'")['AnoMes'],
                        y = df_faturamento_user_mes.query("TipoUsuario == 'Antigo'")['Faturamento'],
                        name = 'Cliente Antigo'),
             go.Scatter(x = df_faturamento_user_mes.query("TipoUsuario == 'Novo'")['AnoMes'],
                        y = df_faturamento_user_mes.query("TipoUsuario == 'Novo'")['Faturamento'],
                        name = 'Cliente Novo')]

plot_layout = go.Layout(xaxis = {"type": "category"}, 
                        title = 'Diferença de Faturamento ao Longo do Tempo Entre Clientes Novos e Antigos',
                        plot_bgcolor = '#FFFAF0')

fig = go.Figure(data = plot_data, layout = plot_layout)
pyoff.iplot(fig)

# Indicador 7 - Taxa de Novos Clientes

Como definimos clientes novos e antigos no indicador 6, agora podemos usar os dados e calcular a proporção de novos clientes ao longo do tempo.

In [192]:
# Calculando a taxa de novos clientes
df_taxa_novos_clientes = dados_compras.query("TipoUsuario == 'Novo'").groupby(['AnoMes'])['IdCliente'].nunique() / dados_compras.query("TipoUsuario == 'Antigo'").groupby(['AnoMes'])['IdCliente'].nunique() 


In [193]:
# Ajustando índice e removemos valores ausentes
df_taxa_novos_clientes = df_taxa_novos_clientes.reset_index()
df_taxa_novos_clientes = df_taxa_novos_clientes.dropna()

In [194]:
# Visualizando os dados
df_taxa_novos_clientes

Unnamed: 0,AnoMes,IdCliente
1,201101,1.162983
2,201102,0.909091
3,201103,0.758621
4,201104,0.498333
5,201105,0.34875
6,201106,0.28799
7,201107,0.238155
8,201108,0.205412
9,201109,0.296813
10,201110,0.328052


In [195]:

plot_data = [go.Bar(x = df_taxa_novos_clientes.query("AnoMes > 201101 and AnoMes < 201112")['AnoMes'],
                    y = df_taxa_novos_clientes.query("AnoMes > 201101 and AnoMes < 201112")['IdCliente'],)]

plot_layout = go.Layout(xaxis = {"type": "category"}, 
                        title = 'Taxa de Novos Clientes')

fig = go.Figure(data = plot_data, layout = plot_layout)
pyoff.iplot(fig)

# Indicador 8 - Taxa Mensal de Retenção de Clientes 

Taxa Mensal de Retenção de Clientes  = Clientes do Mês Anterior / Total de Clientes Ativos

In [196]:
# Agrupando os dados por cliente e mês e somamos o faturamento
dados_compras_clientes = dados_compras.groupby(['IdCliente', 'AnoMes'])['Faturamento'].sum().reset_index()

In [197]:
# Visualizando os dados
dados_compras_clientes.head()

Unnamed: 0,IdCliente,AnoMes,Faturamento
0,12346.0,201101,0.0
1,12347.0,201012,711.79
2,12347.0,201101,475.39
3,12347.0,201104,636.25
4,12347.0,201106,382.52


In [198]:
# Definindo a retenção com uma tabela cruzada
df_ret = pd.crosstab(dados_compras_clientes['IdCliente'], dados_compras_clientes['AnoMes']).reset_index()

In [199]:
# Visualizando dados Dados
df_ret.head()

AnoMes,IdCliente,201012,201101,201102,201103,201104,201105,201106,201107,201108,201109,201110,201111,201112
0,12346.0,0,1,0,0,0,0,0,0,0,0,0,0,0
1,12347.0,1,1,0,0,1,0,1,0,1,0,1,0,1
2,12348.0,1,1,0,0,1,0,0,0,0,1,0,0,0
3,12349.0,0,0,0,0,0,0,0,0,0,0,0,1,0
4,12350.0,0,0,1,0,0,0,0,0,0,0,0,0,0


In [200]:
# Extraindo os meses
meses = df_ret.columns[2:]
meses

Index([201101, 201102, 201103, 201104, 201105, 201106, 201107, 201108, 201109,
       201110, 201111, 201112],
      dtype='object', name='AnoMes')

In [201]:
lista_ret = []

# Calculando a retenção ao longo dos meses
for i in range(len(meses)-1):
    dados_retencao = {}
    mes_corrente = meses[i+1]
    mes_anterior = meses[i]
    dados_retencao['AnoMes'] = int(mes_corrente)
    dados_retencao['TotalUser'] = df_ret[mes_corrente].sum()
    dados_retencao['TotalRetido'] = df_ret[(df_ret[mes_corrente] > 0) & (df_ret[mes_anterior] > 0)][mes_corrente].sum()
    lista_ret.append(dados_retencao)
    
lista_ret

[{'AnoMes': 201102, 'TotalRetido': 299, 'TotalUser': 798},
 {'AnoMes': 201103, 'TotalRetido': 345, 'TotalUser': 1020},
 {'AnoMes': 201104, 'TotalRetido': 346, 'TotalUser': 899},
 {'AnoMes': 201105, 'TotalRetido': 399, 'TotalUser': 1079},
 {'AnoMes': 201106, 'TotalRetido': 464, 'TotalUser': 1051},
 {'AnoMes': 201107, 'TotalRetido': 415, 'TotalUser': 993},
 {'AnoMes': 201108, 'TotalRetido': 433, 'TotalUser': 980},
 {'AnoMes': 201109, 'TotalRetido': 465, 'TotalUser': 1302},
 {'AnoMes': 201110, 'TotalRetido': 552, 'TotalUser': 1425},
 {'AnoMes': 201111, 'TotalRetido': 690, 'TotalUser': 1711},
 {'AnoMes': 201112, 'TotalRetido': 440, 'TotalUser': 683}]

In [202]:
# Visualizando os dados
df_ret_final = pd.DataFrame(lista_ret)
df_ret_final.head()

Unnamed: 0,AnoMes,TotalUser,TotalRetido
0,201102,798,299
1,201103,1020,345
2,201104,899,346
3,201105,1079,399
4,201106,1051,464


In [203]:
# Calculando o indicador
df_ret_final['TaxaRetencao'] = df_ret_final['TotalRetido'] / df_ret_final['TotalUser']
df_ret_final

Unnamed: 0,AnoMes,TotalUser,TotalRetido,TaxaRetencao
0,201102,798,299,0.374687
1,201103,1020,345,0.338235
2,201104,899,346,0.384872
3,201105,1079,399,0.369787
4,201106,1051,464,0.441484
5,201107,993,415,0.417925
6,201108,980,433,0.441837
7,201109,1302,465,0.357143
8,201110,1425,552,0.387368
9,201111,1711,690,0.403273


In [204]:
plot_data = [go.Scatter(x = df_ret_final.query("AnoMes < 201112")['AnoMes'],
                        y = df_ret_final.query("AnoMes < 201112")['TaxaRetencao'],
                        name = "taxa")]

plot_layout = go.Layout(xaxis = {"type": "category"}, 
                        title = 'Taxa Mensal de Retenção de Clientes',
                        plot_bgcolor = '#C0C0C0')

fig = go.Figure(data = plot_data, layout = plot_layout)
pyoff.iplot(fig)

# Fim