# <center>**Projeto Final da disciplina Estatística I**

<center><img src="retain.jpg">


### **Descrição**

Este notebook apresenta uma análise de dados feita a partir de um dataset de Análise de Churn.

### **Identificação da equipe**

**Grupo 3:** Cícero Vicente, Jorge Dantas, Mohara Nascimento, Nathália Martins, Pedro Henrique

**Programa:** Santander Coders 2023

### **Dataset**

O conjunto de dados utilizado neste projeto foi retirado diretamente do Kaggle. Cuja fonte é a seguinte:

- Análise de Churn (Escrever algo a mais): https://www.kaggle.com/datasets/blastchar/telco-customer-churn


### **Orientações para o projeto**

- __Preparação dos Dados e Verificação de Consistência__: Neste tópico deve ser feita a verificação da consistência dos dados e caso necessário efetuar eventuais modificações na base de dados. Alguns dos procedimentos que podemos fazer aqui são: Remoção e/ou tratamento de valores faltantes, remoção de duplicatas, ajustes dos tipos de variáveis, análise de _outliers_ entre outras;

- __Análise Exploratória dos Dados__: Para fazermos a modelagem, precisamos conhecer muito bem os dados que estamos trabalhando. Por isso, nesta parte do projeto vocês desenvolveram an´laises e gráficos a respeito dos dados que estão utilizando. Tente tirar ao máximo informações sobre as variáveis em si e suas relações com as demais;

- **Modelagem dos dados**: Nessa parte, deve ser definido o tipo de problema (classificação/regressão). Vocês precisam **treinar pelo menos três (3) modelos** (pode ser testado mais que três modelos distintos) e de acordo com alguma métrica de avaliação (escolhida pelo grupo), decidir qual será o melhor modelo a ser utilizado!;

- __Otimização do Modelo__: A partir do modelo escolhido no tópico anterior, vamos tentar aprimorar e garantir um melhor desempenho no modelo, seja fazendo validação cruzada, otimização de parâmetros com _GridSearchCV_ ou _RandomizedSearchCV_ e até mesmo testar diferentes _thresholds_ (ao invés de utilizar a função _predict_ do modelo, utilize a função _predict_proba_ do modelo e a partir das probabilidades determinar qual vai ser o limiar onde será considerado um caso positivo ou negativo);

- __Conclusões sobre o Projeto__: Para finalizar, descreva as suas conclusões sobre o desenvolvimento do modelo e os resultados obtidos.



### **Sumário**

1. [Dados iniciais](#1-dados-iniciais)

    1.1 [Descricao do problema](#11-descricao-do-problema)

    1.2 [Importacao de bibliotecas](#12-importacao-de-bibliotecas)

    1.3 [Carregamento do dataset](#13-carregamento-do-dataset)

    1.4 [Visao geral do dataset](#14-visao-geral-do-dataset)

    1.5 [Preparacao dos Dados e Verificacao de Consistencia](#15-preparacao-dos-dados-e-verificacao-de-consistencia)

2. [Analise exploratorios dos dados](#2-analise-exploratorios-dos-dados)
3. [Tratamento dos dados](#3-tratamento-dos-dados)
4. [Modelagem](#4-modelagem)
5. [Otimizacao de modelos](#5-otimizacao-de-modelos)
6. [Conclusoes](#6-conclusoes)

### **[1. Dados iniciais](#1.-Dados-iniciais)**

#### **[1.1 Descricao do problema](#1.1-Descricao-do-problema)**

*Explicar o problema a ser resolvido(churn). Indicando o problema de negócio (por quê esse dado é interessante?)*

#### **[1.2 Importacao de bibliotecas](#1.2-Importacao-de-bibliotecas)**

In [139]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#from plotnine import *
from scipy.stats import norm, linregress
from matplotlib.widgets import Button
%matplotlib inline
#import ipywidgets as widgets
from IPython.display import clear_output

Importações adicionais para quem for usar o Google Colab:

In [140]:
#Para quem for abrir no Google Colab descomentar as linhas abaixo:

#from google.colab import drive
#drive.mount('/content/drive')
#database = 'Dataset.csv'
#dados = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Machine Learning I - Projeto Final/' + database)

#### **[1.3 Carregamento do dataset](#1.3-Carregamento-do-dataset)**

In [141]:
#Carregamento do DataSet
df_churn = pd.read_csv('Dataset.csv', sep=',')

#### **[1.4 Visao geral do dataset](#1.4-Visao-geral-do-dataset)**

In [142]:
#Mostra as 5 primeiras linhas do DataFrame
df_churn.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [143]:
#Mostra as 5 primeiras linhas do DataFrame, de maneira transposta, para facilitar a visualização dos dados
df_churn.head().T

Unnamed: 0,0,1,2,3,4
customerID,7590-VHVEG,5575-GNVDE,3668-QPYBK,7795-CFOCW,9237-HQITU
gender,Female,Male,Male,Male,Female
SeniorCitizen,0,0,0,0,0
Partner,Yes,No,No,No,No
Dependents,No,No,No,No,No
tenure,1,34,2,45,2
PhoneService,No,Yes,Yes,No,Yes
MultipleLines,No phone service,No,No,No phone service,No
InternetService,DSL,DSL,DSL,DSL,Fiber optic
OnlineSecurity,No,Yes,Yes,Yes,No


In [144]:
#Mostra as 5 últimas linhas do DataFrame, de maneira transposta, para facilitar a visualização dos dados
df_churn.tail().T

Unnamed: 0,7038,7039,7040,7041,7042
customerID,6840-RESVB,2234-XADUH,4801-JZAZL,8361-LTMKD,3186-AJIEK
gender,Male,Female,Female,Male,Male
SeniorCitizen,0,0,0,1,0
Partner,Yes,Yes,Yes,Yes,No
Dependents,Yes,Yes,Yes,No,No
tenure,24,72,11,4,66
PhoneService,Yes,Yes,No,Yes,Yes
MultipleLines,Yes,Yes,No phone service,Yes,No
InternetService,DSL,Fiber optic,DSL,Fiber optic,Fiber optic
OnlineSecurity,Yes,No,Yes,No,Yes


In [145]:
#Detalha as informações gerais e os tipos de dados do DataFrame
df_churn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


In [146]:
#Verifica a existência de nulos
df_churn.isnull().sum()

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

#### **[1.5 Preparacao dos Dados e Verificacao de Consistencia](#1.5-Preparacao-dos-Dados-e-Verificacao-de-Consistencia)**


A partir da visualização geral do DataFrame pôde-se observar que o tipo de dado da coluna 'TotalCharges' está equivocado, sendo definido como object quando deveria ser float, uma vez que tem valores numéricos e decimais. Desta forma, o primeiro tratamento a ser feito será o de modificar o tipo dessa coluna, conforme código apresentado a seguir.

In [147]:
#Muda a coluna TotalCharges de object para float
df_churn['TotalCharges'] = df_churn['TotalCharges'].replace(' ', 0).astype(float)

Uma coisa importante a se destacar é que os espaços '  ' precisaram ser trocados por 0 para que o pandas entendesse a conversam. Sem esse replace o código apresentava erro.

In [148]:
#Verifica se a coluna realmente mudou de tipo e se agora é float
df_churn['TotalCharges'].dtype

dtype('float64')

Outro tratamento interessante a se fazer é o de modificar os valores de gender para strings com menos caracteres, de forma que onde tem Female passe a ser F e onde tem Male passe a ser M.

In [149]:
#Mostra os valores únicos da coluna 'gender'
df_churn['gender'].unique()

array(['Female', 'Male'], dtype=object)

In [150]:
#Muda os valores Female e Male para F e M, respectivamente
df_churn['gender'].replace('Female', 'F', inplace=True)
df_churn['gender'].replace('Male', 'M', inplace=True)

df_churn['gender'].unique()

array(['F', 'M'], dtype=object)

Seguindo a mesma lógica, mudaremos os valores de No para N e de Yes para Y.

In [151]:
#Muda os valores Female e Male para F e M, respectivamente
df_churn.replace('Yes', 'Y', inplace=True)
df_churn.replace('No', 'N', inplace=True)

df_churn.head().T

Unnamed: 0,0,1,2,3,4
customerID,7590-VHVEG,5575-GNVDE,3668-QPYBK,7795-CFOCW,9237-HQITU
gender,F,M,M,M,F
SeniorCitizen,0,0,0,0,0
Partner,Y,N,N,N,N
Dependents,N,N,N,N,N
tenure,1,34,2,45,2
PhoneService,N,Y,Y,N,Y
MultipleLines,No phone service,N,N,No phone service,N
InternetService,DSL,DSL,DSL,DSL,Fiber optic
OnlineSecurity,N,Y,Y,Y,N


### **[2. Analise exploratorios dos dados](#2.-Analise-exploratorios-dos-dados)**

- Estatística descritiva
- Informações gerais dos dados
- Primeira hipóteses

### **[3. Tratamento dos dados](#3.-Tratamento-dos-dados)**

- Explicar os motivos dos tratamentos de dados
- Criar funções reutilizáveis e limpas
- Demonstrar os efeitos positivos (ou possíveis melhorias) dessas transformações
- Feature engineering

### **[4. Modelagem](#4.-Modelagem)**

- Selecionar modelos a serem utilizados
- Explicar potenciais benefícios
- Mostrar principais métricas
- Conclusões iniciais

### **[5. Otimizacao de modelos](#5.-Otimizacao-de-modelos)**

- Optimização dos hiperparâmetros, pelo menos um (1) modelo
- Demonstrar de forma clara quais os resultados obtidos

### **[6. Conclusoes](#6.-Conclusoes)**

- Explicar os principais achados (comparação de métricas e modelos)
- Próximos passos
- Potenciais ganhos para o negócio