# Previsão de Churn

### Análise dos Dados (Limpeza, Transformação e Previssão)

#### Bibliotecas utilizadas:

In [1]:
# Manipulação de Dados
import pandas as pd
import numpy as np

# Visualização dos dados
import matplotlib.pyplot as plt
import seaborn as sns

# Ignore Warning(Avisos)
import warnings

warnings.filterwarnings("ignore")

pd.set_option('display.max_columns', 100)

#### Carregando os dados

In [None]:
data = pd.read_csv('../Data/Telco-Customer-Churn.csv', sep=',')

# Amostra dos dados
data.head()

#### Colunas
- customerID - Identificação do cliente
- gender - Sexo do cliente
- SeniorCitizen - Indicador se é um(a) idosa(a)	
- Partner - Indicador se tem um parceiro(a)
- Dependents - Indicador se possui dependentes
- tenure - Quantos meses o cliente esta na empresa
- PhoneService - Indicador se possui serviço de telefonia
- MultipleLines - Indicador se possui múltiplas linhas telfônicas
- InternetService - Indicador se possui serviços de internet
- OnlineSecurity - Indicador se possui serviços de segurança online
- OnlineBackup - Indicador se possui serviços de backup online
- DeviceProtection - Indicador se possui serviços de equipamentos
- TechSupport - Indicador se possui serviços de suporte técnico
- StreamingTV - Indicador se posui serviços de streaming de TV
- StreamingMovies - Indicador se possui serviços de streaming de filmes
- Contract - Tipo de contrato
- PaperlessBilling - Indicador se a cobrança é via papel ou não
- PaymentMethod - Indicador do tipo de pagamento
- MonthlyCharges - Valor mensal dos serviços
- TotalCharges - Valor total dos serviços desde o inicio
- Churn - Indicador se saiu da empresa ou não

#### Cópia do DataFrame original

In [None]:

data_copy = data.copy()


#### Informações do DataSet

In [None]:
data_copy.shape

In [None]:
data_copy.columns

In [None]:
data_copy.info()

#### Transformações no DataSet

In [None]:
# Coluna Churn - Alterando para 0 | 1
data_copy['Churn'].value_counts()

coluna_churn = {'Yes':1, 'No':0}
data_copy['Churn'].replace(coluna_churn, inplace=True)

In [None]:
# Colocando a coluna 'customerID' como indice
data_copy.set_index('customerID', inplace=True)

In [None]:
# Verificando a coluna 'TotalCharges'
# Vamos criar um filtro para verificar se há como dado espaço(s) em branco
filter_vazio = data_copy[data_copy['TotalCharges'] == ' ']

print(len(filter_vazio))

> Como podemos verificar temos 11 dados como vazio na coluna 'TotalCharges'

- Temos que transformá-la em '*float*'

In [None]:
# Fazendo o replace do dado vazio
data_copy['TotalCharges'] = data_copy['TotalCharges'].replace("\s+", "", regex=True)

# Transformando para float e os dado que estava vazio vai ficar como 'Nan'
data_copy['TotalCharges'] = pd.to_numeric(data_copy['TotalCharges'], errors='coerce')

# Verificando como ficou o tipo da coluna
data_copy.info()

### Analisando os dados

In [None]:
data_copy.describe()

> Podemos verificar que:

- Coluna 'tenure'(Quantos meses o cliente esta na empresa) - A média em que o cliente esta na empresa em 32.37 meses 

In [None]:
# Mundando o padrão de quartis para decis
data_copy.describe(percentiles=np.linspace(0, 1, 11))

> Podemos verificar que:

- Coluna 'tenure'(Quantos meses o cliente esta na empresa) - 40% da base de clientes tem 20 meses que estão na empresa.

In [None]:
print(f'3Meses -> Qtd. Clientes: {len(data_copy[data_copy["tenure"] <= 3])} - Porcentagem: {round(100 * len(data_copy[data_copy["tenure"] <= 3]) / data_copy.shape[0], 2)}')

print(f'6Meses -> Qtd. Clientes: {len(data_copy[data_copy["tenure"] <= 6])} - Porcentagem: {round(100 * len(data_copy[data_copy["tenure"] <= 6]) / data_copy.shape[0], 2)}')

print(f'(<=)12Meses -> Qtd. Clientes: {len(data_copy[data_copy["tenure"] <= 12])} - Porcentagem: {round(100 * len(data_copy[data_copy["tenure"] <= 12]) / data_copy.shape[0], 2)}')


In [None]:
custom_params = {"axes.spines.right": False, "axes.spines.top": False}
sns.set_theme(style="ticks", rc=custom_params, palette="Set2")

> Verificando a coluna 'tenure'

In [None]:
plt.tight_layout()
sns.histplot(data=data_copy, x='tenure')
plt.show()

In [None]:
fig, axes = plt.subplots(5, 2, figsize=(10, 16))
# linha 1
sns.countplot(x='gender', data=data_copy, ax=axes[0,0])
sns.countplot(x='gender', hue='Churn', data=data_copy, ax=axes[0,1])
axes[0,0].set_title('Qtd. de Clientes por Sexo')
axes[0,1].set_title('Qtd. de Clientes por Sexo x Churn')

# linha 2
sns.countplot(x='SeniorCitizen', data=data_copy, ax=axes[1,0])
sns.countplot(x='SeniorCitizen', hue='Churn', data=data_copy, ax=axes[1,1])
axes[1,0].set_title('Qtd. de Clientes Idosas')
axes[1,1].set_title('Qtd. de Clientes Idosas x Churn')

# linha 3
sns.countplot(x='Partner', data=data_copy, ax=axes[2,0])
sns.countplot(x='Partner', hue='Churn', data=data_copy, ax=axes[2,1])
axes[2,0].set_title('Qtd. de Clientes com Parceiro(a)')
axes[2,1].set_title('Qtd. de Clientes com Parceiro(a) x Churn')

# linha 4
sns.countplot(x='Dependents', data=data_copy, ax=axes[3,0])
sns.countplot(x='Dependents', hue='Churn', data=data_copy, ax=axes[3,1])
axes[3,0].set_title('Qtd. de Clientes com Depententes')
axes[3,1].set_title('Qtd. de Clientes com Depententes x Churn')

# Linha 5
sns.countplot(x='PhoneService', data=data_copy, ax=axes[4,0])
sns.countplot(x='PhoneService', hue='Churn', data=data_copy, ax=axes[4,1])
axes[4,0].set_title('Qtd. de Clientes com Serviço de Telefonia')
axes[4,1].set_title('Qtd. de Clientes com Serviço de Telefonia x Churn')

plt.subplots_adjust(left=0.2, 
                    bottom=0.1,  
                    right=0.9,  
                    top=0.9,  
                    wspace=0.5,  
                    hspace=0.8) 

plt.show()

In [None]:
# Colocando a coluna 'customerID' como indice
data_copy.set_index('customerID', inplace=True)

In [None]:
# Coluna Churn
data_copy['Churn'].value_counts()

coluna_churn = {'Yes':1, 'No':0}
data_copy['Churn'].replace(coluna_churn, inplace=True)

data_copy['Churn'].value_counts()

In [None]:
columns = data_copy.columns
colunas_binarias = []

for col in columns:
    if data_copy[col].value_counts().shape[0] == 2:
        colunas_binarias.append(col)

colunas_binarias

In [None]:
print(data_copy[['gender','Churn']].groupby(['gender']).mean())
print(data_copy[['SeniorCitizen','Churn']].groupby(['SeniorCitizen']).mean())
print(data_copy[['Partner','Churn']].groupby(['Partner']).mean())
print(data_copy[['Dependents','Churn']].groupby(['Dependents']).mean())
print(data_copy[['PhoneService','Churn']].groupby(['PhoneService']).mean())
print(data_copy[['PaperlessBilling','Churn']].groupby(['PaperlessBilling']).mean())