# Challenge Alura - Reduzir a taxa de evasão dos clientes (Churn Rate)
## Analisar os clientes para identificar um padrão que determine aqueles que possuem maior chance de deixar de consumir o serviço, ou deixar de ser cliente da empresa

## Para iniciar os estudos, inicia-se a importação das bibliotecas básicas para tal e o dataset a ser analisado, entendendo que o primeiro passo é entender os dados a serem utilizados.

### Importando bibliotecas

Para iniciar uma análise exploratória é necessário transformar e visualizar os dados.

Foram selecionadas duas bibliotecas muito comuns e de bom desempenho para isto, o pandas e numpy.

Posteriormente serão importadas outras bibliotecas, principalmente quando forem geradas visualizações gráficas, mas isso pode aguardar.

In [1]:
import pandas as pd
import numpy as np

### Importando o dataset e tendo a primeira visualização
Como a base dados a ser estudada está em formato json, optei por utilizar o pd.read_json() para fazer a leitura, principalmente porque apresenta os dados em formato tabular, facilitando as primeiras impressões e possibilitando nortear os próximos passos.

In [2]:
df = pd.read_json('https://raw.githubusercontent.com/sthemonica/alura-voz/main/Dados/Telco-Customer-Churn.json')
display(df.head(2))

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


Os dados importados geraram uma tabela, porém, a mesma apresenta colunas ainda em formato json, dificultando o entendimento e impossibilitando análises estatísticas básicas de maneira simples.

Sendo assim, será necessário iniciar a transformação dos dados.

#### Transformando os dados de json para dataframe pandas.
Todas as colunas a partir da Churn estavam em formato json ainda, dificultando a visualização completa bem como cálculos e análises a serem realizados.

Foi efetuada a conversão dos dados, primeiramente, criando dataframes separados para cada coluna a ser tratada (customer, phone, internet e account), utilizando a função pd.json_normalize().

Na coluna account foi necessário uma atenção maior, já que havia uma cadeia de json (Charges), situação que foi tratada pela função pd.json_normalize().

In [3]:
# Separando valores que estão em formato json, e retornando para o dataframe
customer = pd.json_normalize(df.customer)
phone = pd.json_normalize(df.phone)
internet = pd.json_normalize(df.internet)
account = pd.json_normalize(df.account)
df_base = pd.concat([df.customerID, df.Churn, customer, phone, internet, account], axis = 1)

### Fazendo a tradução dos cabeçalhos

In [None]:
# Traduzindo nomes das colunas manualmente
df_base.columns = ['clienteID', 
                   'Churn', 
                   'genero_cliente', 
                   'mais_que_65_anos', 
                   'possui_parceiro_a', 
                  'possui_dependentes', 
                  'meses_contrato',
                  'servico_telefonico',
                  'multiplas_linhas',
                  'servico_internet',
                  'assinatura_seguranca',
                  'assinatura_backup',
                  'assinatura_protecao_dispositivo',
                  'assinatura_suporte',
                  'assinatura_TV',
                  'assinatura_streaming',
                  'contrato',
                  'fatura_digital',
                  'forma_pagamento',
                  'total_servicos_mes',
                  'total_gasto']

# Traduzindo valores de dentro da tabela
# df_base.replace(['Yes', 'No', 'Female', 'Male'], [1, 0, 1, 0], inplace=True)

# Excluindo linhas com dados vazios na coluna Churn
df_base.drop(df_base[df_base.Churn == ''].index, inplace = True)
df_base.reset_index()

# Substituindo valores vazios por 0 na coluna total_gasto
df_base.total_gasto .replace(' ', 0, inplace = True)

# Convertendo coluna total_gasto para float
df_base.total_gasto = df_base.total_gasto.apply(pd.to_numeric)

# Criando coluna gastos_diarios, quando meses_contrato < 0, usar coluna total_servicos_mes,
# quando meses_contrato > 0 considera total_gasto
df_base['gastos_diarios'] = [df_base.total_gasto[i] / (df_base.meses_contrato[i] * 30) 
                             if df_base.meses_contrato[i] > 0 
                             else df_base.total_servicos_mes[i] / 30 
                             for i in df_base.index]

df_base.head(2)

# Semana 2

### Validação de algumas colunas

In [None]:
df_base.columns

In [None]:
df_base.assinatura_protecao_dispositivo.unique()

In [None]:
df_base[df_base.multiplas_linhas == 'No phone service'].shape[0]

In [None]:
pd.crosstab(df_base.Churn, df_base.servico_internet)

In [None]:
df_base.groupby('servico_internet').count()

In [None]:
df_base.groupby('assinatura_seguranca').count()

In [None]:
df_base.groupby('assinatura_backup').count()

In [None]:
df_base.groupby('assinatura_protecao_dispositivo').count()

### Análise da variável target - Churn

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df_base.Churn.value_counts()

#### Avaliando por gênero

In [None]:
df_genero = pd.crosstab(df_base.Churn, df_base.genero_cliente)
df_genero

In [None]:
df_base.groupby('genero_cliente')['Churn'].count()

In [None]:
df_genero = pd.crosstab(df_base.Churn, df_base.genero_cliente)

fig, ax = plt.subplots(figsize=(10, 8))

grafico = ax.bar(x = 'Churn', height=df_base.Churn, data = df_base)

for barra in grafico:
  # Pegando a altura(valor) e largura de cada barra
    altura = barra.get_height()
    largura = barra.get_width()

    '''
      Posição x(xpos) e y(ypos) de cada barra. Aqui temos três casos de y pos:
      1º - colocando o rótulo acima da barra
      2º - colocando o rótulo no meio da barra
      3º - colocando o rótulo na base da barra
      Para selecionar o desejado, é só descomentar o ypos que quer fazer uso.
    '''
    xpos = barra.get_x() + largura/2
    ypos = 1.01 * altura
    # ypos = barra.get_y() + altura/2
    # ypos = barra.get_y()

    # Adicionando o rótulo nas barras (x= coordenada x, y = coordenada y, s = texto desejado)
    ax.text(x = xpos, y = ypos, s = altura, ha='center', va='bottom', fontsize=14)

In [None]:
fig, ax = plt.subplots(figsize=(10, 8))

# grafico = df_genero.plot(kind = 'bar')
grafico = ax.bar(x = df_genero.columns, height=df_genero.loc['Yes'], data = df_genero)

for barra in grafico:
  # Pegando a altura(valor) e largura de cada barra
    altura = barra.get_height()
    largura = barra.get_width()

    '''
      Posição x(xpos) e y(ypos) de cada barra. Aqui temos três casos de y pos:
      1º - colocando o rótulo acima da barra
      2º - colocando o rótulo no meio da barra
      3º - colocando o rótulo na base da barra
      Para selecionar o desejado, é só descomentar o ypos que quer fazer uso.
    '''
    xpos = barra.get_x() + largura/2
    ypos = 1.01 * altura
    # ypos = barra.get_y() + altura/2
    # ypos = barra.get_y()

    # Adicionando o rótulo nas barras (x= coordenada x, y = coordenada y, s = texto desejado)
    ax.text(x = xpos, y = ypos, s = altura, ha='center', va='bottom', fontsize=14)

#### Se acima de 65 anos

In [None]:
df_analise = pd.crosstab(df_base.Churn, df_base.mais_que_65_anos.astype(str))

fig, ax = plt.subplots(figsize=(10, 8))

grafico = ax.bar(x = df_analise.columns, height=df_analise.loc['Yes'], data = df_analise.loc['Yes'])

for barra in grafico:
  # Pegando a altura(valor) e largura de cada barra
    altura = barra.get_height()
    largura = barra.get_width()

    '''
      Posição x(xpos) e y(ypos) de cada barra. Aqui temos três casos de y pos:
      1º - colocando o rótulo acima da barra
      2º - colocando o rótulo no meio da barra
      3º - colocando o rótulo na base da barra
      Para selecionar o desejado, é só descomentar o ypos que quer fazer uso.
    '''
    xpos = barra.get_x() + largura/2
    ypos = 1.01 * altura
    # ypos = barra.get_y() + altura/2
    # ypos = barra.get_y()

    # Adicionando o rótulo nas barras (x= coordenada x, y = coordenada y, s = texto desejado)
    ax.text(x = xpos, y = ypos, s = altura, ha='center', va='bottom', fontsize=14)