# Descrição do problema

O Globoplay é uma plataforma digital de streaming de vídeos sob demanada criada e desenvolvida pela globo.com. A plataforma
disponibiliza os principais trechos dos programas exbidos pela Globo. As versões completas dos programas,
chamadas de íntegras, são disponibilizadas somente para assinantes pagos.

Um dos desafios para o time de produto do Globoplay é, além de aumentar a base de assinantes pagos, a retenção dos atuais.
Entender o por que os clientes abandonam o Globoplay é vital para conquistar um crescimento sustentável, fato que faz com que o
Churn(índice de cancelamento de clientes) seja uma das métricas mais observadas para avaliar o sucesso do produto.

Estamos disponibilizando para essa análise uma amostra de 1GB do dataset, com os dados anonimizados. É muito a importante a não divulgação do mesmo. O schema do dado será informado abaixo.

O dataset foi compartilhado com você por email, caso não tenha recebido entre em contato.

## O que é o Churn ?

É uma métrica que indica o número de clientes que cancelam num determinado período. Para calcular o churn, você precisa somar
o número de clientes que cancelou o produto/serviço no período analisado.

A taxa de Churn geralmente é calculada num determinado período, seja anual ou mensal. O seu cálculo é feito da seguinte forma: se 1 de
cada 20 clientes cancelam seu produto no período, isso representa que a taxa de Churn para o produto será de 5%. A fórmula do Churn Rate é definida como:
Churn Rate = total de clientes cancelados / número total de clientes ativos do último mês.

Você, como um data scientist do time do Globoplay, tem a missão de descobrir o que levam os usuários a cancelar a assinatura paga e também desenvolver uma solução
usando modelos de machine learning para fazer a previsão de usuários que estão prestes a cancelar. Este modelo é de vital importância para o planejamento de possíveis ações para a retenção
desses usuários.

## Dataset

### Arquivo weekly-infos-before.csv

Contém informações do usuário semana a semana. Cada linha é uma coleção de 
informações sobre o usuário naquela semana.

- **user** : id anonimizado do usuário
- **week** : semana de consumo
- **total_sessions** : número de sessões
- **total_mediaids** : número de mídia de vídeo assistidas
- **total_days** : número de dias em que veio ao produto
- **total_played** : tempo total em minutos
- **max_played_time** : tempo máximo que passou em uma mídia
- **age_without_access** : dias que não vem ao produto (anterior ao consumo atual)
- **sexo** : sexo do usuário
- **idade** : idade do usuário
- **cidade** : cidade de cadastro do usuário
- **android_app_time** : tempo total em minutos no app android
- **ios_app_time** : tempo total em minutos no app ios
- **tv_app_time** : tempo total em minutos em tv conectada
- **mobile_web_time** : tempo total em minutos na web no celular
- **desktop_web_time** : tempo total em minutos na web no desktop
- **time_spent_on_news** : tempo total em minutos em vídeos da categoria de notícias
- **time_spent_on_humor** : tempo total em minutos em vídeos da categoria de humor
- **time_spent_on_series** : tempo total em minutos em vídeos da categoria de séries
- **time_spent_on_novelas** : tempo total em minutos em vídeos da categoria de novelas
- **time_spent_on_special** : tempo total em minutos em vídeos da categoria de especiais
- **time_spent_on_sports** : tempo total em minutos em vídeos da categoria de esporte
- **time_spent_on_realities** : tempo total em minutos em vídeos da categoria de reality show
- **time_spent_on_disclosure** : tempo total em minutos em vídeos da categoria de disclosures
- **time_spent_on_archived** : tempo total em minutos em vídeos que não estão na grade da televisão
- **time_spent_on_grade** : tempo total em minutos em vídeos da grade da televisão
- **time_spent_on_subscribed_content** : tempo total em minutos em vídeos fechados para assinantes
- **time_spent_on_free_content** : tempo total em minutos em vídeos abertos
- **video_info_excerpt_time** : tempo total em minutos em vídeos no formato de trecho
- **video_info_extra_time** : tempo total em minutos em vídeos no formato de extras
- **video_info_episode_time** : tempo total em minutos em vídeos no formato de íntregra
- **video_info_time_spent_0_5** : tempo total em minutos em vídeos com tamanho de 0 a 5 minutos
- **video_info_time_spent_5_15** : tempo total em minutos em vídeos com tamanho de 5 a 15 minutos
- **video_info_time_spent_15_30** : tempo total em minutos em vídeos com tamanho de 15 a 30 minutos
- **video_info_time_spent_30_60** : tempo total em minutos em vídeos com tamanho de 30 a 60 minutos
- **video_info_time_spent_60mais** : tempo total em minutos em vídeos com tamanho de 60 minutos ou mais
- **total_dependents** : número de dependentes que a assinatura tem registrado
- **total_active_dependents** : número de dependentes que fizeram consumo na semana
- **tipo_de_cobranca** : método de pagamento da assinatura
- **total_cancels** : número de vezes que o usuário cancelou a conta de assinante
- **month_subs** : mês de assinatura do usuário
- **assinatura_age** : idade da assinatura em dias

### Arquivo user-status-after.csv

Contém a informação se o usuário cancelou ou manteve-se assinante.

- **user** : id anonimizado do usuário
- **status** : manteve-se assinante ou cancelou no mês seguinte após a ultima semana de consumo

## Desta forma, temos as seguintes questões:

1- Faça uma análise do dataset e identifique o motivo de as pessoas cancelarem sua assinatura.

2- Crie um modelo de machine learning para a detecção de Churn.

## O que iremos avaliar?

### Sobre a análise

- Vamos verificar a legibilidade do relatório, é importante ter descrições sobre o processo de análise;
- Vamos validar estatísticamente as análises feitas;
- Gráficos serão vistos com bons olhos.

### Criação do modelo

- Vamos verificar a legibilidade do código;
- Você deve informar as métricas de precisão e recall;
- Você deve incluir no seu relatório um arquivo contendo duas colunas: *user* e *status*;
- Descreva a decisão do modelo aplicado e como chegou a ela.

É importante a reprodutibilidade da análise e do modelo, para isto pedimos que informe como executar e as bibliotecas necessárias.


# Inicialização

In [None]:
#Biblioteca necessárias -- descomente as linhas abaixo para instala-las
# !pip install --upgrade pandas
# !pip install --upgrade numpy
# !pip install --upgrade gcsfs
# !pip install --upgrade sklearn
# !pip install --upgrade missingno
# !pip install --upgrade dask
# !pip install --upgrade toolz
# !pip install --upgrade plotly
# !pip install --upgrade Pillow
# !pip install --upgrade xgboost
# !pip install --upgrade yellowbrick
# !pip install --upgrade statsmodels
# !pip install --upgrade imblearn

In [None]:
import numpy as np
import pandas as pd 
import os
import seaborn as sns
import missingno as msno
import gc
#import gcsfs
from PIL import  Image
import itertools
import warnings
warnings.filterwarnings("ignore")
import io
import plotly.offline as py#visualization
py.init_notebook_mode(connected=True)#visualization
import plotly.graph_objs as go#visualization
import plotly.tools as tls#visualization
import plotly.figure_factory as ff#visualization
from matplotlib.gridspec import GridSpec
from sklearn.preprocessing import LabelEncoder

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

from IPython.display import set_matplotlib_formats
set_matplotlib_formats('pdf', 'png')
pd.options.display.float_format = '{:.2f}'.format
rc={'savefig.dpi': 75, 'figure.autolayout': False, 'figure.figsize': [15, 7], 'axes.labelsize': 14,\
   'axes.titlesize': 14, 'font.size': 14, 'lines.linewidth': 2.0, 'lines.markersize': 8, 'legend.fontsize': 14,\
   'xtick.labelsize': 12, 'ytick.labelsize': 12}

sns.set(style='dark',rc=rc)
default_color = '#56B4E9'
colormap = plt.cm.cool

# Análise dos dados

## Carregamento dos arquivos

In [None]:
# fs = gcsfs.GCSFileSystem(project='My First Project')
# with fs.open('spark-madson/user-status-after.csv') as f:
#     data_user = pd.read_csv(f)

In [None]:
path = "../input/"

In [None]:
data_user = pd.read_csv(path+"user-status-after.csv")

In [None]:
data_week = pd.read_csv(path+"weekly-infos-before.csv", low_memory=False)

## Visão geral dos dados

In [None]:
data_user.info()

In [None]:
data_user.head()

In [None]:
print ("\nMissing values :  ", data_user.isnull().sum().values.sum())
print ("\nUnique values :  \n",data_user.nunique())

In [None]:
def add_percentbar(ax,df):
    for p in ax.patches:
        height = p.get_height()
        ax.text(p.get_x()+p.get_width()/2.,
                height + 1,
                '{:1.2f}%'.format(height*100/float(len(df))),
                ha="center")

In [None]:
ax = sns.countplot(x="status",data=data_user)
add_percentbar(ax,data_user)


O conjunto de dados user-status-after contém 561158 user-ids (user) com a classificação binária como cancelou (churn) e assinante (sem churn). Além disso, a maioria usuários não estão na categoria de churn (cancelou) - cerca de 97% e cerca de 3% estão contando com churn.
Assim, de acordo com o grupo de treinamento, a maioria dos usuários estão optando pela manutenção da assinatura. Esta informação pode ser uma boa notícia ou uma má notícia (um conjunto de treino muito tendencioso), temos que ver mais tarde, predizendo e avaliando para a precisão e recall.

In [None]:
data_week.info()

In [None]:
data_week.head()

In [None]:
print ("\nMissing values :  ", data_week.isnull().sum().values.sum())
print ("\nUnique values :  \n",data_week.nunique())

O conjunto de dados weekly-infos-before possui 3906649 linhas e 45 colunas. Ele também possui a mesma quantidade de usuários únicos (561158) que o conjunto de dados user-status-after. O conjunto referente as informações semanais do usuário contém um total 2063634 valores missing entre as diferentes colunas. Agumas informações que chamam atenção são: a feature "sexo" ter 3 tipos de valores; "estado" ter 29 valores diferente enquanto o Brasil possui apenas 26 estados e um distrito federal;  "idade" ter 113 valores diferente, indicando que dever ter usuários registrados com idade igual ou superior a 113 anos.

Em seguida, mesclarei o conjunto de user-status-after com o conjunto de dados weekly-infos-before para explorar mais os conjuntos de dados de treinamento.

In [None]:
#criar coluna id com valor numerico para substituir coluna user
data_user['id'] = np.arange(len(data_user))

In [None]:
#juntar os 2 dataset
baseline = data_user.join(data_week.set_index('user'), on= 'user',how='left')

In [None]:
#remover coluna "user"
baseline.drop('user',axis=1,inplace=True)

In [None]:
baseline.head()

Ao observar as primeiras 5 linhas do novo conjunto de dados, podemos observar que alguns valores se repetem durante as diferentes semanas. Desse modo uma analise mais detalhada dos valores que se repetem será feita mais a frente.

In [None]:
print ("Linhas   : " ,baseline.shape[0])
print ("Colunas  : " ,baseline.shape[1])

### Colunas por tipo de dados

In [None]:
def get_meta(df):
    data = []
    for col in df.columns:
        # Defining the role
        if col == 'status':
            role = 'target'
        elif col == 'id':
            role = 'id'
        else:
            role = 'input'

        # Defining the level
        level=None
        if len(df[col].unique()) == 2 or col == 'status':
            level = 'binary'
        elif df[col].dtype == np.object:
            level = 'nominal'
        elif df[col].dtype == np.float64:
            level = 'interval'
        elif df[col].dtype == np.int64:
            level = 'ordinal'


        # Defining the data type 
        dtype = df[col].dtype

        # Creating a Dict that contains all the metadata for the variable
        col_dict = {
            'varname': col,
            'role'   : role,
            'level'  : level,
            'dtype'  : dtype
        }
        data.append(col_dict)
    meta = pd.DataFrame(data, columns=['varname', 'role', 'level', 'dtype'])
    meta.set_index('varname', inplace=True)
    return meta

In [None]:
meta = get_meta(baseline)
meta

In [None]:
print("Contagem de variaveis através dos tipos de dados")
meta_counts = meta.groupby(['role', 'level']).agg({'dtype': lambda x: x.count()}).reset_index()
meta_counts

In [None]:
fig,ax = plt.subplots()
fig.set_size_inches(20,5)
sns.barplot(data=meta_counts[(meta_counts.role != 'target') & (meta_counts.role != 'id') ],x="level",y="dtype",ax=ax,color=default_color)
ax.set(xlabel='Tipo de variável', ylabel='Count',title="Contagem de variaveis através dos tipos de dados")

In [None]:
#separar colunas por tipo de dados
col_ordinal   = meta[(meta.level == 'ordinal' ) & (meta.role != 'id') ].index
col_nominal   = meta[(meta.level == 'nominal') ].index
col_interval = meta[(meta.level == 'interval') ].index

As colunas foram categorizadas conforme o seu respectivo tipo de dados: interval para valores continuos (float); ordinal para valores inteiros; nominal para valores string. Como podemos observar, a maior parte das variáveis são do tipo  interval, seguida por ordinal e nominal respectivamente.

### Colunas com Missing

In [None]:
missing_col = baseline.columns[baseline.isna().any()].tolist()
print("Colunas com valores Missing:")
print(missing_col)
print("")
print("Total de colunas com Missing: ",len(missing_col))

### Colunas que se repetem em um mesmo id (user)

In [None]:
#Usuários que utilizaram o serviço em mais de uma semana
df_tmp = baseline.groupby('id').size().reset_index(name='count')
id_repetido =  df_tmp[df_tmp['count'] > 1]

In [None]:
id_repetido.head()

In [None]:
print("Exemplo de usuário que utilizou o produto por mais de uma semana")
pd.set_option('display.max_columns', 50)
baseline[baseline.id == 2]

In [None]:
#colunas sem id ou status
col_without_idORstatus = [c for c in baseline.columns if c != "id" and c !="status"]

In [None]:
ag = {}
for c in col_without_idORstatus:
    ag[c] = 'nunique'

In [None]:
print("Quantidade de valores diferentes das colunas agrupado por usuário")
df_tmp = baseline.groupby('id').agg(ag).reset_index()
df_tmp[df_tmp >1].count()

As colunas age_without_access, total_dependents, total_active_dependents, total_played_for_dependents, total_cancels, month_subs, assinatura_age, sexo, idade, cidade e estado mantem os mesmo valores em todas semanas. A coluna tipo_de_cobranca muda apenas para 6 usuários.

In [None]:
#Usuaris que mudaram a forma de pagamento
cobranca_diff = df_tmp[df_tmp.tipo_de_cobranca >1].tipo_de_cobranca.index

In [None]:
#status dos usuários que mudaram o tipo de pagamento
baseline.loc[cobranca_diff].status.unique()

Todos os usuários que mudaram a forma de pagamento continuaram como assinantes. Desse modo, irei considerar tipo_de_cobranca como uma das que se repetem, e agrega-lo pela primeira ocorrência.

In [None]:
#colunas que os valores se repetem
col_valor_rep = ["age_without_access","total_dependents", "total_active_dependents", 
                 "total_played_for_dependents", "total_cancels", "month_subs",
                 "assinatura_age", "sexo", "idade", "cidade" , "estado", "tipo_de_cobranca"]

In [None]:
#colunas que os valores variam
col_valor_diff = np.setdiff1d(np.array([col_without_idORstatus]),np.array(col_valor_rep))

In [None]:
#calunas que variam
col_valor_diff

## Manipulação dos dados

### Dataset agregado

Irei criar um novo dataset que agregue as informações semanais por usuário. A princípio as colunas que variam terão os valores somados.

In [None]:
#Dicionário de agregação
def create_agg_dict(colunas):
    agg = {}
    for c in colunas: # Week será agregado pelo total de semanas que
        if c == "week":
            agg[c] = "count"
        elif c in col_valor_rep or c =="status": 
            agg[c] = "first" # colunas que os volores se repetem serão agregadas pela primeira ocorrência
        else:
            agg[c] = "sum" # demais colunas serão agregadas pelo somatório
            
    return agg

In [None]:
#colunas sem o id dos usuários
col_without_id = [c for c in baseline.columns if c != "id"]

In [None]:
print("Dicionário de agregação")
aggregation = create_agg_dict(col_without_id)
aggregation


In [None]:
#dataset agregado
agregado = baseline.groupby('id')[col_without_id].agg(aggregation).reset_index()

In [None]:
agregado.info()

In [None]:
pd.set_option('display.max_columns', 50)
agregado.head()


Foi criado o novo dadaset que agrega as informações dos usuários conforme especificado no dicionário de agregação contruido acima. O novo dataset pussui 561158 entradas,assim preservando a quantidade de usuários iniciais.

### Missing

#### Missing em todo dataset

Será feita uma análise da entradas com valores missing(faltando) no dataset agregado

O gráfico de barra abaixo apresenta a quantidade não missing nas colunas indetificadas com missing anteriormente. Com a agregação dos dados, a maioria das colunas deixaram de ter valores missing. Podemos destacar, sexo, idade, cidade e estado como as colunas com maior quantidade de missing.

In [None]:
msno.bar(agregado[missing_col],figsize=(20,8),color=default_color,fontsize=18,labels=True)

In [None]:
msno.heatmap(agregado[missing_col])

In [None]:
msno.dendrogram(agregado[missing_col],figsize=(20,8))

In [None]:
sorted_data = msno.nullity_sort(agregado[missing_col], sort='descending') # or sort='ascending'
msno.matrix(sorted_data,figsize=(20,8),fontsize=14)

A partir dos gráficos mapa de calor, dendograma, e a matriz de nulidade acima podemos observar um forte correlação das entradas com missing entre as diferentes colunas. Indicando que os missing se concentram em um conjunto de entradas.

#### Missing por churn

Em seguida será feita a mesma análise dos missing, mas olhando separadamente os usuários que cancelaram ou não.

In [None]:
#separar usuarios por status(churn)
churn = agregado[agregado.status == "cancelou"]
no_churn = agregado[agregado.status == "assinante"]

In [None]:
print("Matriz de nulidade dos Missing com churn")
sorted_data = msno.nullity_sort(churn[missing_col], sort='descending') # or sort='ascending'
ax = msno.matrix(sorted_data,figsize=(15,6),fontsize=14)


In [None]:
print("Matriz de nulidade Missing sem churn")
sorted_data = msno.nullity_sort(no_churn[missing_col], sort='descending') # or sort='ascending'
msno.matrix(sorted_data,figsize=(15,6),fontsize=14)

In [None]:
print("Mapa de calor dos missing com churn")
msno.heatmap(churn[missing_col])

In [None]:
print("Mapa de calor dos missing sem churn")
msno.heatmap(churn[missing_col])

Tal como no dateset agregado completo, os slices por churn também demonstraram a alta correlação das entradas idependente se ocorreu o churn. Desse modo, optei pela eliminação das entradas com missing.

In [None]:
#novo dataset agregado sem missing
agregado_sem_missing = agregado.dropna()

### Colunas do tipo nominal

In [None]:
print("Contagem das entradas das colunas nominal")
#colunas nominal
for c in col_nominal:
    if c in ["cidade","estado"]:
        display(agregado_sem_missing.groupby(c)[c].count().nlargest(5))
    else:
        display(agregado_sem_missing.groupby(c)[c].count())
        

Como observado acima, a maioria dos usuários são do sexo feminino e há apenas 2 usuários com sexo N. A maiorias dos usuários estão no estado de São Paulo ou no Rio de Janeiro e consequentemente as cidades que concentram mais usuários são suas respectivas capitais. Em relação a forma de pagamento, o tipo de cobrança se concentram entre cartão de credito e debito automático.

#### Sexo

In [None]:
agregado_sem_missing[agregado_sem_missing.sexo == 'N']['status']

Todas entradas com sexo "N" pertencem a classe majoritaria assinante. Então estas esntrada serão removidas

In [None]:
# remover linhas com sexo N
agregado_sem_missing = agregado_sem_missing[agregado_sem_missing.sexo != 'N'].reset_index()

#### Tipo de cobranca

In [None]:
grupo_cobranca = agregado_sem_missing.groupby('tipo_de_cobranca')['tipo_de_cobranca'].count().sort_values( ascending=False)
ax = grupo_cobranca.plot(kind='bar',figsize=(15,6))

No gráfico acima, podemos vizualilzar que os principais tipos de cobrança são cartão de credito e debito automático

### Colunas do tipo ordinal

In [None]:
#colunas do tipo ordinal
col_ordinal

#### total_days

In [None]:
#total_days
display(agregado_sem_missing.total_days.describe())
agregado_sem_missing.total_days.plot(kind="box")


A coluna total_days apresenta outliers para quantidade dias acima de 80. 50% das entradas são abaixo de 13 dias. Em seguida será criada uma nova coluna que agrupa as entradas de total_days nos seguintes grupos: menor que 5 dias; entre 5 e 15 dias, entre 16 e 30; entre 30 e 80; maior que 80.

In [None]:
def total_days_grupo(data):
    
    if (data["total_days"] < 5) :
        return "total_days_0-4"
    elif (data["total_days"] >= 5) & (data["total_days"] <= 15 ):
        return "total_days_5-15"
    elif (data["total_days"] > 15) & (data["total_days"] <= 30) :
        return "total_days_16-30"
    elif (data["total_days"] > 30) & (data["total_days"] <= 80) :
        return "total_days_31-80"
    elif data["total_days"] > 80 :
        return "total_days_gt_80"
    
agregado_sem_missing["total_days_grupo"] = agregado_sem_missing.apply(lambda agregado_sem_missing:total_days_grupo(agregado_sem_missing),axis = 1)

#### age_without_access

In [None]:
#age_without_access
display(agregado_sem_missing.age_without_access.describe())
agregado_sem_missing.age_without_access.plot(kind="box")

Cerca de 75% das entradas de age_withou_access possuem valores negativos. Em seguida criarei uma nova coluna que agrupa diferentes intervalos.

In [None]:
def age_without_access_grupo(data):
    
    if (data["age_without_access"] < -200) :
        return "age_without_access_lt_-200"
    elif (data["age_without_access"] >= -200) & (data["age_without_access"] <= -100 ):
        return "age_without_access_-200_-100"
    elif (data["age_without_access"] > -100) & (data["age_without_access"] <0) :
        return "age_without_access_-100_-1"
    elif (data["age_without_access"] >= 0) & (data["age_without_access"] <= 20) :
        return "age_without_access_0-20"
    elif data["age_without_access"] > 20 :
        return "age_without_access_gt_20"
    
agregado_sem_missing["age_without_access_grupo"] = agregado_sem_missing.apply(lambda agregado_sem_missing:age_without_access_grupo(agregado_sem_missing),axis = 1)

In [None]:
agregado_sem_missing.age_without_access.plot(kind="hist")

No histograma acima podemos observar que as entradas de age_withou_access se divitem em 2 partes uma com valores positivos e outra com valores negativos

#### week

In [None]:
#week
agregado_sem_missing.week.plot(kind="box")

A coluna week apresenta um outlier com valor 30

#### total sessions

In [None]:
#total_sessions
display(agregado_sem_missing.total_sessions.describe())
agregado_sem_missing.total_sessions.plot(kind="box")

A coluna total sessions apresenta um grande volume de outliers sendo um com valor máximo de 23307.00, enquanto a maioria das entradas tem valor abaixo de 60.

In [None]:
def total_sessions_grupo(data):
    
    if (data["total_sessions"] <= 5) :
        return "total_sessions_0-5"
    elif (data["total_sessions"] > 5) & (data["total_sessions"] <= 20 ):
        return "total_sessions_6-20"
    elif (data["total_sessions"] > 15) & (data["total_sessions"] <= 60) :
        return "total_sessions_16-60"
    elif data["total_sessions"] > 60 :
        return "total_sessions_gt_80"

    
agregado_sem_missing["total_sessions_grupo"] = agregado_sem_missing.apply(lambda agregado_sem_missing:total_sessions_grupo(agregado_sem_missing),axis = 1)

#### total_dependents

In [None]:
#total_dependents
display(agregado_sem_missing.total_dependents.describe())
agregado_sem_missing.total_dependents.plot(kind='hist')

In [None]:
agregado_sem_missing[agregado_sem_missing.total_dependents >= 1].groupby(['status'])['status'].count()

In [None]:
agregado_sem_missing[agregado_sem_missing.total_dependents < 1].groupby(['status'])['status'].count()

A maiorias das assinaturas não possui dependentes.Para os usuários que possuem dependentes a tendência é bem forte para não ocorrer churn. 

#### total_active_dependents

In [None]:
#total_active_dependents
display(agregado_sem_missing.total_active_dependents.describe())
agregado_sem_missing.total_active_dependents.plot(kind="hist")

In [None]:
agregado_sem_missing[agregado_sem_missing.total_active_dependents >= 1].groupby(['status'])['status'].count()

In [None]:
agregado_sem_missing[agregado_sem_missing.total_active_dependents < 1].groupby(['status'])['status'].count()

##### total_cancels

In [None]:
#total_cancels
display(agregado_sem_missing.total_cancels.describe())
agregado_sem_missing.total_cancels.plot(kind='box')

In [None]:
agregado_sem_missing.total_cancels.plot(kind='hist')

In [None]:
agregado_sem_missing[agregado_sem_missing.total_cancels > 0].groupby(['status'])['status'].count()

In [None]:
agregado_sem_missing[agregado_sem_missing.total_cancels == 0].groupby(['status'])['status'].count()

A grande maioria dos assinantes não cancelaram a assinatura anteriormente. E dos poucos que cancelaram, foi feito até cerca de 10 vezes. Valores acima são outliers.

#### month_subs

In [None]:
#month_subs
agregado_sem_missing.month_subs.plot(kind="box")


### Colunas do tipo interval

In [None]:
#converter entradas para valores inteiros
for c in col_interval:
    agregado_sem_missing[c] = agregado_sem_missing[c].astype(int)
    

#### idade

In [None]:
agregado_sem_missing['idade'].plot(kind='box')

In [None]:
agregado_sem_missing['idade'].plot(kind='hist',bins=100)

A coluna idade apresentam outliers em idades maiores que 90 anos. A maiorias dos assinantes estão distribuidos entre 30 e 60 anos

#### assinatura age

In [None]:
agregado_sem_missing.assinatura_age.plot(kind='box')

In [None]:
agregado_sem_missing.assinatura_age.describe()

In [None]:
agregado_sem_missing[agregado_sem_missing.assinatura_age < 0].assinatura_age.count()

#### colunas referentes a utilização do produto

Para melhorar a visulização, as colunas serão divididas nas seguintes classificações: plataforma de acesso, conteudo assistido, formato do video, disponibilização do video, tamanho do video, tempo total de consumo. Posteriormente, para cada coluna, serão criadas novas colunas que agrupem intervalos de entradas.

In [None]:
col_plataforma = ['android_app_time','ios_app_time', 'tv_app_time', 'mobile_web_time', 'desktop_web_time']
col_conteudo = ['time_spent_on_news', 'time_spent_on_humor', 'time_spent_on_series','time_spent_on_novelas', 'time_spent_on_special','time_spent_on_varieties', 'time_spent_on_sports','time_spent_on_realities']
col_acesso = ['time_spent_on_archived', 'time_spent_on_subscribed_content','time_spent_on_free_content', 'time_spent_on_grade']
col_formato = ['video_info_excerpt_time', 'video_info_extra_time','video_info_episode_time']
col_tamanho = ['video_info_time_spent_0_5','video_info_time_spent_5_15', 'video_info_time_spent_15_30','video_info_time_spent_30_60', 'video_info_time_spent_60mais']
col_tempo_total =  ["total_played_for_dependents",'total_played', 'max_played_time']

In [None]:
agregado_sem_missing[col_plataforma].describe()

In [None]:
agregado_sem_missing[agregado_sem_missing[col_plataforma] >= 1][col_plataforma].describe()

In [None]:
agregado_sem_missing[agregado_sem_missing[col_conteudo] >= 1][col_conteudo].describe()

In [None]:
agregado_sem_missing[agregado_sem_missing[col_tamanho] >= 1][col_tamanho].describe()

In [None]:
agregado_sem_missing[agregado_sem_missing[col_formato] >= 1][col_formato].describe()

In [None]:
agregado_sem_missing[agregado_sem_missing[col_tempo_total] >= 1][col_tempo_total].describe()

In [None]:
## Novas colunas que agrupam intervalos
def idade_grupo(data):
    
    if (data["idade"] < 18) :
        return "idade_0-17"
    elif (data["idade"] >= 18) & (data["idade"] <= 30 ):
        return "idade_18-30"
    elif (data["idade"] > 30) & (data["idade"] <= 50) :
        return "idade_31-50"
    elif (data["idade"] > 50) & (data["idade"] <= 80) :
        return "idade_51-80"
    elif data["idade"] > 80 :
        return "idade_gt_80"
    
agregado_sem_missing["idade_grupo"] = agregado_sem_missing.apply(lambda agregado_sem_missing:idade_grupo(agregado_sem_missing),axis = 1)

def assinatura_age_grupo(data):
    
    if data["assinatura_age"] < 0 :
        return "age_lt-0"
    elif (data["assinatura_age"] >= 0) & (data["assinatura_age"] <= 100 ):
        return "age_0-100"
    elif (data["assinatura_age"] > 100) & (data["assinatura_age"] <= 500) :
        return "age_101-500"
    elif (data["assinatura_age"] > 500) & (data["assinatura_age"] <= 1000) :
        return "age_501-1000"
    elif (data["assinatura_age"] > 1000) & (data["assinatura_age"] <= 5000) :
        return "age_1001-5000"
    elif data["assinatura_age"] > 5000 :
        return "age_gt_5000"
    
agregado_sem_missing["assinatura_age_grupo"] = agregado_sem_missing.apply(lambda agregado_sem_missing:assinatura_age_grupo(agregado_sem_missing), axis = 1)

# def tempo_grupo(data,c):
    
#     if data[c] < 1 :
#         return "tempo_lt-1"
#     elif (data[c] >= 1) & (data[c] <= 120 ):
#         return "tempo_0-120"
#     elif (data[c] > 120) & (data[c] <= 1000) :
#         return "tempo_121-1000"
#     elif (data[c] > 1000) & (data[c] <= 7200) :
#         return "tempo_1001-7200"
#     elif data[c] > 7200 :
#         return "tempo_gt_7200"
# col_produto = col_acesso + col_tamanho + col_conteudo + col_formato + col_tempo_total +col_plataforma+col_tempo_total
# for c in col_produto :
#     agregado_sem_missing["{}_grupo".format(c)] = agregado_sem_missing.apply(lambda agregado_sem_missing:tempo_grupo(agregado_sem_missing,c), axis = 1)

In [None]:
agregado_sem_missing.sample(5)

## Análise exploratória dos dados

In [None]:
churn = agregado_sem_missing[agregado_sem_missing.status == "cancelou"]
no_churn = agregado_sem_missing[agregado_sem_missing.status == "assinante"]

In [None]:
gc.collect()
# def plot_pie(column) :
    
#     trace1 = go.Pie(values  = churn[column].value_counts().values.tolist(),
#                     labels  = churn[column].value_counts().keys().tolist(),
#                     hoverinfo = "label+percent+name",
#                     domain  = dict(x = [0,.48]),
#                     name    = "Cancelou",
#                     marker  = dict(line = dict(width = 2,
#                                                color = "rgb(243,243,243)")
#                                   ),
#                     hole    = .6
#                    )
#     trace2 = go.Pie(values  = no_churn[column].value_counts().values.tolist(),
#                     labels  = no_churn[column].value_counts().keys().tolist(),
#                     hoverinfo = "label+percent+name",
#                     marker  = dict(line = dict(width = 2,
#                                                color = "rgb(243,243,243)")
#                                   ),
#                     domain  = dict(x = [.52,1]),
#                     hole    = .6,
#                     name    = "Assinante" 
#                    )


#     layout = go.Layout(dict(title = "Distribuição do status por " +column ,
#                             plot_bgcolor  = "rgb(243,243,243)",
#                             paper_bgcolor = "rgb(243,243,243)",
#                             annotations = [dict(text = "Cancelou",
#                                                 font = dict(size = 13),
#                                                 showarrow = False,
#                                                 x = .15, y = .5),
#                                            dict(text = "Assinante",
#                                                 font = dict(size = 13),
#                                                 showarrow = False,
#                                                 x = .88,y = .5
#                                                )
#                                           ]
#                            )
#                       )
#     data = [trace1,trace2]
#     fig  = go.Figure(data = data,layout = layout)
#     py.iplot(fig)

In [None]:
def histogram(column) :
    trace1 = go.Histogram(x  = churn[column],
                          histnorm= "percent",
                          name = "Cancelou",
                          marker = dict(line = dict(width = .5,
                                                    color = "black"
                                                    )
                                        ),
                         opacity = .9 
                         ) 
    
    trace2 = go.Histogram(x  = no_churn[column],
                          histnorm = "percent",
                          name = "Assinante",
                          marker = dict(line = dict(width = .5,
                                              color = "black"
                                             )
                                 ),
                          opacity = .9
                         )
    
    data = [trace1,trace2]
    layout = go.Layout(dict(title ="Distribuição do status por " +column,
                            plot_bgcolor  = "rgb(243,243,243)",
                            paper_bgcolor = "rgb(243,243,243)",
                            xaxis = dict(gridcolor = 'rgb(255, 255, 255)',
                                             title = column,
                                             zerolinewidth=1,
                                             ticklen=5,
                                             gridwidth=2
                                            ),
                            yaxis = dict(gridcolor = 'rgb(255, 255, 255)',
                                             title = "percent",
                                             zerolinewidth=1,
                                             ticklen=5,
                                             gridwidth=2
                                            ),
                           )
                      )
    fig  = go.Figure(data=data,layout=layout)
    
    py.iplot(fig)

### Distribuição das features por status

#### Sexo

In [None]:
plt.figure(2, figsize=(20,15))
the_grid = GridSpec(2, 2)
sexo_churn = churn.groupby('sexo')['sexo'].count().reset_index(name='count')
sexo_no_churn = no_churn.groupby('sexo')['sexo'].count().reset_index(name='count')
plt.subplot(the_grid[0, 1],  title='cancelou')
sns.barplot(x='sexo',y='count', data=sexo_churn, palette='Spectral')
plt.subplot(the_grid[0, 0], title='assinante')
sns.barplot(x='sexo',y='count', data=sexo_no_churn, palette='Spectral')

plt.suptitle('Status dos usuarios por sexo', fontsize=16)


In [None]:
histogram('sexo')

Para ambos valores de status a maioria dos assinates são mulheres. Além disso, percentual de churn ou não churn são praticamente iguais para a variavel sexo, idicando que essa variável não é boa para separar as duas classes.

#### Estados

In [None]:
grupo_estado = agregado_sem_missing.groupby('estado')['estado'].count().sort_values( ascending=False)
ax = grupo_estado.plot(kind='bar',figsize=(15,6))

In [None]:
print("porcentagem de usuários nas top 3 estados: {:.2f}%".format((grupo_estado.nlargest(3).sum()*100 )/float(grupo_estado.sum()) ) )

In [None]:
plt.figure(2, figsize=(20,17))
the_grid = GridSpec(2, 2)
estado_churn = churn.groupby('estado')['estado'].count().sort_values( ascending=False)
estado_no_churn = no_churn.groupby('estado')['estado'].count().sort_values( ascending=False)
plt.subplot(the_grid[1, 0],  title='cancelou')
estado_churn.plot.barh()
plt.subplot(the_grid[0, 0], title='assinante')
estado_no_churn.plot.barh()

plt.suptitle('Status dos usuarios por estado', fontsize=16)

A distibuição dos assinantes por estado praticamente se mantem para cada status, especialmente nos 3 estados com mais usuários que somam cerca de 60% das assinaturas. Logo, é difícil determinar o churn pelo estado.

In [None]:
gc.collect()

#### Cidades

In [None]:
grupo_cidades = agregado_sem_missing.groupby('cidade')['cidade'].count().sort_values( ascending=False)
ax = grupo_cidades.nlargest(50).plot.barh(figsize=(15,15))


In [None]:
print("porcentagem de usuários nas top 10 cidades: {:.2f}%".format((grupo_cidades.nlargest(10).sum()*100 )/float(grupo_cidades.sum()) ) )

In [None]:
plt.figure(2, figsize=(20,15))
the_grid = GridSpec(2, 2)
cidade_churn = churn.groupby('cidade')['cidade'].count().sort_values( ascending=False)
cidade_no_churn = no_churn.groupby('cidade')['cidade'].count().sort_values( ascending=False)
plt.subplot(the_grid[0, 1],  title='cancelou')
cidade_churn.nlargest(15).plot.barh()
plt.subplot(the_grid[0, 0], title='assinante')
cidade_no_churn.nlargest(15).plot.barh()

plt.suptitle('Status dos usuarios por cidade', fontsize=16)

Tal como ocorre para a coluna estados, na coluna cidade, a distibuição dos assinantes praticamente se mantem para cada status.

### idade

In [None]:
#idade
histogram('idade_grupo')

In [None]:
histogram("idade")

No gráficos acima, podemos observar que os usuários entre 18 a 37 foram os que mais cancelarm em relação aos que continuaram assinantes. Logo, a taxa de churn é maior entre os usuários nessa faixa etaria.

#### tipo de cobrança

In [None]:
histogram('tipo_de_cobranca')

Como podemos observar acima, o churn é maior entre os assinantes que optaram por debito automático e boleto web como forma de pagamento.

### month_subs

In [None]:
histogram("month_subs")

A taxa de churn é maior nas assinaturas que ocorreram Fevereiro, alem disso o churn é maio, mas em proporção menor, nos meses de Janeiro, Março e Dezembro.

#### week

In [None]:
histogram('week')

O churn é maior nos usuários que consumiram o serviço até 6 semanas. Além disso, A taxa de churn diminui a medida que a quantidade semanas cresce.

### assinatura_age

In [None]:
histogram("assinatura_age")

O gráfico acima mostra que o percentual de churn é maior para os usuários com tempo de assinatuta mais recente, por volta de um mês de assinatura. Logo, é mais provavel que ocorra o cancelamento no primeiro mês.

### total_dependents

In [None]:
histogram("total_dependents")

o percentual de usuários sem dependentes que cancelaram é um pouco maior do que mantiveram a assinatura. Por outro lado, os usuarios com dependentes tendem a manter a assinatura.

### total_cancels

In [None]:
histogram('total_cancels')

Obviamente, que nunca cancelaram continuam assinantes. Já o percentual de churn de usuários que cancelaram 1 umas vez é bem superior ao de assinantes. No gráfico, também podemos observar um tendencia de churn para usuarios que cancelaram mais vezes.

### total_days

In [None]:
histogram("total_days")

Podemos observar, que a medida que total de dias que os usuários consumiram o serviço aumentam a quantidade de churn diminui. Demonstrando uma relação entre cancelamento e frequência de utilização do serviço.

## Pré-processamento

In [None]:
col_originais = [c for c in agregado_sem_missing.columns if "grupo" not in c ]

In [None]:
#novo dataset que será utililzado pelos modelos de Machine Learning
data = agregado_sem_missing[col_originais]
data.drop(['index'],axis=1,inplace=True)
data.head()

In [None]:
col_nominal

In [None]:
### codificar features com valores não numericos em valores numericos
le = LabelEncoder()
data['sexo'] = le.fit_transform(data['sexo'])

In [None]:
le = LabelEncoder()
data['status'] = le.fit_transform(data['status'])

In [None]:
for c in col_nominal[1:]:
    data[c] = le.fit_transform(data[c])

In [None]:
## codificar age_age_without_access
def age_without_access_encode(data):
    
    if (data["age_without_access"] < 0) :
        return 0
    elif (data["age_without_access"] >= 0) & (data["age_without_access"] <= 20) :
        return 1
    elif data["age_without_access"] > 20 :
        return 2
    
data["age_without_access"] = data.apply(lambda data:age_without_access_encode(data),axis = 1)

In [None]:
get_meta(data)

### importância das features

Será realizada uma classificação das features para obter um bom modelo de predição

In [None]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_estimators=150, max_depth=8, min_samples_leaf=4, max_features=0.2, n_jobs=-1, random_state=25)
rf.fit(data.drop(['status'],axis=1), data.status)
features = data.drop(['status'],axis=1).columns.values
print("----- Training Done -----")

In [None]:
def get_feature_importance_df(feature_importances, 
                              column_names, 
                              top_n=25):
    """Get feature importance data frame.
 
    Parameters
    ----------
    feature_importances : numpy ndarray
        Feature importances computed by an ensemble 
            model like random forest or boosting
    column_names : array-like
        Names of the columns in the same order as feature 
            importances
    top_n : integer
        Number of top features
 
    Returns
    -------
    df : a Pandas data frame
 
    """
     
    imp_dict = dict(zip(column_names, 
                        feature_importances))
    top_features = sorted(imp_dict, 
                          key=imp_dict.get, 
                          reverse=True)[0:top_n]
    top_importances = [imp_dict[feature] for feature 
                          in top_features]
    df = pd.DataFrame(data={'feature': top_features, 
                            'importance': top_importances})
    return df

In [None]:
feature_importance = get_feature_importance_df(rf.feature_importances_, features)


In [None]:
feature_importance

In [None]:
features_importantes = feature_importance.feature.iloc[:9].tolist()

In [None]:
features_importantes

### Modelo Baseline

Será construido um modelo de baseline com os algoritmos Random forest, Logistic Regression e XGBosst. As principais metricas de desempenho avalidas serão:

recall, que é frequência em que o classificador encontra os exemplos de uma classe.

precisão, que avalia daqueles que o modelo classificou como corretos, quantos efetivamente eram.

F1 score, que é a métrica combina precisão e recall

AUC (Area Under the Curve), que representa o grau separação entre as classes. Ou seja o quanto o modelo consegue destinguir as diferentes classes

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score,classification_report
from sklearn.metrics import roc_auc_score,roc_curve,scorer
from sklearn.metrics import f1_score
import statsmodels.api as sm
from sklearn.metrics import precision_score,recall_score
from yellowbrick.classifier import DiscriminationThreshold
from xgboost import XGBClassifier


In [None]:
#dividir conjunto de treinamento e teste
train,test = train_test_split(data,test_size = .25 ,random_state = 25)
##separar variaveis dependentes e independentes

train_X = train.drop(['status'],axis=1)
train_Y = train['status']
test_X  = test.drop(['status'],axis=1)
test_Y  = test['status']


In [None]:
#função de predição
 
def churn_prediction(model,training_x,testing_x, training_y,testing_y) :
    #model
    model.fit(training_x,training_y)
    predictions   = model.predict(testing_x)
    probabilities = model.predict_proba(testing_x)

    print (model)
    print ("\n Classification report : \n",classification_report(testing_y,predictions))
    print ("Accuracy   Score : ",accuracy_score(testing_y,predictions))
    #confusion matrix
    cm = confusion_matrix(testing_y,predictions)
    display( pd.crosstab(testing_y ,predictions, rownames=['True label'], margins=True,colnames=['Predict label']) )
    #roc_auc_score
    model_roc_auc = roc_auc_score(testing_y,predictions)
    print ("Area under curve : ",model_roc_auc,"\n")
       


#### LogisticRegression

In [None]:
logr_params = {}
logr_params['C'] = 1.0
logr_params['class_weight'] = None
logr_params['dual'] = False
logr_params['fit_intercept'] = True
logr_params['intercept_scaling'] = 1
logr_params['max_iter'] =100
logr_params['multi_class'] ='ovr'
logr_params['n_jobs'] =1
logr_params['penalty'] ='l2'
logr_params['random_state']=None
logr_params['solver']='liblinear'
logr_params['tol']=0.0001
logr_params['verbose'] =0
logr_params['warm_start'] = False

logr  = LogisticRegression(**logr_params)

churn_prediction(logr,train_X,test_X,train_Y,test_Y)

O modelo LogisticRegression apresentou um pessimo desempenho. Como pode ser observado pelo valor da AUC. Ele basicamente classicou todas as entradas como assinante, logo obteve bom desempenho para essa classe. 

#### Random Forest

In [None]:
rf_params = {}
rf_params['n_estimators'] = 200
rf_params['max_depth'] = 6
rf_params['min_samples_split'] = 70
rf_params['min_samples_leaf'] = 30
rf_model = RandomForestClassifier(**rf_params)
churn_prediction(rf_model,train_X,test_X,train_Y,test_Y)

O modelo Random Forest também apresentou um resultado ruim.

#### XGBoost

In [None]:
xgb_params = {}
xgb_params['learning_rate'] = 0.02
xgb_params['n_estimators'] = 1000
xgb_params['max_depth'] = 4
xgb_params['subsample'] = 0.9
xgb_params['colsample_bytree'] = 0.9
xgb_model = XGBClassifier(**xgb_params)
churn_prediction(xgb_model,train_X,test_X,train_Y,test_Y)

O modelo XGBoost obteve o melhor resultado entres os 3 modelos avaliados. Sua AUC é de 0.74, indicando ser um modelo razoável.

### SMOTE

O desempanho fraco da avaliação anterior estar relacionado ao desbalanceamento das classes. Desse modo será utilizado o método de super amostragem SMOTE, que cria observações sintéticas da classe minoritária (nesse caso, cancelou), para contornar o desbalanceamento das classes.

SMOTE executa os seguintes passos:

* Busca os k-nearest-neighbors das observações da classe minoritária (isto é, buscando observações similares)
* Escolhe aleatoriamente um dos k-nearest-neighbors e o utiliza para criar novas observações modificadas aleatoriamente.

In [None]:
from imblearn.over_sampling import SMOTE

cols    = [i for i in data.columns if i != 'status']

smote_X = data[cols]
smote_Y = data['status']

#separar em conjunto de treino e teste
smote_train_X,smote_test_X,smote_train_Y,smote_test_Y = train_test_split(smote_X,smote_Y,
                                                                        test_size = .25 ,
                                                                        random_state = 25)

#super amostragem usando smote
os = SMOTE(random_state = 0)
os_smote_X,os_smote_Y = os.fit_sample(smote_train_X,smote_train_Y)
os_smote_X = pd.DataFrame(data = os_smote_X,columns=cols)
os_smote_Y = pd.DataFrame(data = os_smote_Y,columns=['status'])
###

#### LogisticRegression

In [None]:
churn_prediction(logr,os_smote_X,test_X,os_smote_Y,test_Y)

Com a utlização do SMOTE o modelo LogisticRegression obteve uma leve melhora em comparação ao resultado anterior. Mas sua generalização ainda falha.

#### Random Forest

In [None]:
churn_prediction(rf_model,os_smote_X,test_X,os_smote_Y,test_Y)

Com o SMOTE o desempenho do Random Forest também melhorou. Sua AUC agora é 0.88, indicando que esse é um bom modelo para separar as classes. Além disso, obteve um bom recall de 0.86. Porém sua precisão foi baixa, o que influenciou no f1-score. 

#### XGBoost

In [None]:
churn_prediction(xgb_model,os_smote_X,test_X,os_smote_Y,test_Y)

O XGBoost com SMOTE também apresentou uma boa AUC de 0.85. Seu F1 score e precisão é maior do que o Random Forest, mas seu recall é 0.76, menor que o 0.87 do Random forest.

Uma vez que o objetivo é detectar o churn, um falso negativo, ou seja, um usuário que foi classificado como assinante mas cancelou, é mais critico do que um falso positivo (foi classificado como cancelou, mas continou como assinante). Logo o recall é mais importante que a precisão. AUC também é de suma importância pois ela consegue indicar a separação dos usuários que cancelaram do que ainda são assinantes.

Dessa forma o modelo final desse relatório é o Random Forest. Para uma melhor análise seria interesante avaliar outros modelos como KNN e SVM por exemplo. Além realizar o tunning dos parametros dos modelos.

In [None]:
base = test_X.join(data_user.set_index('id'), on= 'id',how='left')

In [None]:
# sub = pd.DataFrame()
# sub['user'] = base['user']
# sub['status'] = predictions
sub.to_csv('predictons.csv', index=False)

In [None]:
sub

In [None]:
#rf_model.fit(os_smote_X,os_smote_Y)
predictions   = rf_model.predict(test_X)