#üìå Extrac√£o

In [9]:
# Nome do arquivo: analise_churn_completa.py
# Descri√ß√£o: Script definitivo que extrai dados de uma URL do GitHub, trata a estrutura aninhada e realiza a an√°lise completa.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import json
import requests # Biblioteca para fazer requisi√ß√µes HTTP

def extrair_dados_url(url: str) -> pd.DataFrame:
    """
    Fase de Extra√ß√£o: Carrega e achata os dados da URL do JSON fornecida.
    """
    print(f"Iniciando a Fase de Extra√ß√£o da URL: {url}")
    try:
        # Fazer a requisi√ß√£o HTTP para obter o conte√∫do do JSON
        response = requests.get(url)
        response.raise_for_status()  # Lan√ßa um erro para status ruins (4xx ou 5xx)

        # Carregar o conte√∫do de texto da resposta como JSON
        dados = response.json()

        # Usar json_normalize para achatar a estrutura aninhada
        df = pd.json_normalize(dados)
        print("Extra√ß√£o e achatamento de dados da URL conclu√≠dos com sucesso.")
        return df
    except requests.exceptions.RequestException as e:
        print(f"Erro na requisi√ß√£o HTTP: {e}")
        return None
    except Exception as e:
        print(f"Erro ao processar dados da URL: {e}")
        return None



#üîß Transforma√ß√£o

In [10]:
def transformar_dados(df: pd.DataFrame) -> (pd.DataFrame, pd.DataFrame):
    """
    Fase de Transforma√ß√£o: Limpa, enriquece, traduz e codifica os dados.
    """
    print("\nIniciando a Fase de Transforma√ß√£o...")

    df_transformado = df.copy()

    # 1. Tratamento da coluna de cobran√ßas totais
    df_transformado['account.Charges.Total'] = pd.to_numeric(df_transformado['account.Charges.Total'], errors='coerce')
    df_transformado['account.Charges.Total'].fillna(0, inplace=True)
    print("- Coluna de Cobran√ßas Totais corrigida.")

    # 2. Engenharia de Recursos
    df_transformado['Fatura_Diaria'] = df_transformado['account.Charges.Monthly'] / 30
    print("- Coluna 'Fatura_Diaria' criada.")

    # 3. Tradu√ß√£o das Colunas
    mapa_colunas = {
        'customerID': 'ID_Cliente', 'Churn': 'Evasao',
        'customer.gender': 'Genero', 'customer.SeniorCitizen': 'Idoso',
        'customer.Partner': 'Parceiro', 'customer.Dependents': 'Dependentes',
        'customer.tenure': 'Meses_Contrato',
        'phone.PhoneService': 'Servico_Telefonico', 'phone.MultipleLines': 'Multiplas_Linhas',
        'internet.InternetService': 'Servico_Internet', 'internet.OnlineSecurity': 'Seguranca_Online',
        'internet.OnlineBackup': 'Backup_Online', 'internet.DeviceProtection': 'Protecao_Dispositivo',
        'internet.TechSupport': 'Suporte_Tecnico', 'internet.StreamingTV': 'Streaming_TV',
        'internet.StreamingMovies': 'Streaming_Filmes',
        'account.Contract': 'Contrato', 'account.PaperlessBilling': 'Fatura_Digital',
        'account.PaymentMethod': 'Metodo_Pagamento',
        'account.Charges.Monthly': 'Fatura_Mensal', 'account.Charges.Total': 'Fatura_Total'
    }
    df_transformado.rename(columns=mapa_colunas, inplace=True)
    print("- Nomes das colunas traduzidos.")

    # 4. Tradu√ß√£o dos Valores
    mapa_valores = {
        'Yes': 'Sim', 'No': 'Nao', 'No internet service': 'Sem servico de internet',
        'No phone service': 'Sem servico de telefone', 'Fiber optic': 'Fibra Otica',
        'Month-to-month': 'Mensal', 'One year': 'Um Ano', 'Two year': 'Dois Anos',
        'Electronic check': 'Cheque Eletronico', 'Mailed check': 'Cheque Papel',
        'Bank transfer (automatic)': 'Transferencia Bancaria',
        'Credit card (automatic)': 'Cartao de Credito'
    }
    df_transformado.replace(mapa_valores, inplace=True)
    print("- Valores categ√≥ricos traduzidos.")

    df_para_graficos = df_transformado.copy()
    print("- DataFrame para visualiza√ß√£o criado.")

    # 5. Convers√£o Num√©rica
    df_transformado['Genero'] = df_transformado['Genero'].map({'Male': 1, 'Female': 0})
    colunas_binarias = ['Parceiro', 'Dependentes', 'Servico_Telefonico', 'Fatura_Digital', 'Evasao']
    for col in colunas_binarias:
        df_transformado[col] = df_transformado[col].map({'Sim': 1, 'Nao': 0})

    df_final_ml = pd.get_dummies(df_transformado, columns=[
        'Multiplas_Linhas', 'Servico_Internet', 'Seguranca_Online', 'Backup_Online',
        'Protecao_Dispositivo', 'Suporte_Tecnico', 'Streaming_TV', 'Streaming_Filmes',
        'Contrato', 'Metodo_Pagamento'
    ], drop_first=True)

    df_final_ml.drop('ID_Cliente', axis=1, inplace=True, errors='ignore')
    print("- Dados convertidos para formato num√©rico (pronto para ML).")

    print("Transforma√ß√£o de dados conclu√≠da.")
    return df_final_ml, df_para_graficos

#üìä Carga e an√°lise

In [13]:
def analisar_dados(df_ml: pd.DataFrame, df_graficos: pd.DataFrame):
    """Fase de An√°lise: Gera estat√≠sticas descritivas e visualiza√ß√µes."""
    print("\nIniciando a Fase de An√°lise...")

    if not os.path.exists('graficos_churn'):
        os.makedirs('graficos_churn')

    print("\n--- Estat√≠sticas Descritivas ---")
    print(df_ml[['Idoso', 'Meses_Contrato', 'Fatura_Mensal', 'Fatura_Total', 'Evasao']].describe().T)

    sns.set_style("whitegrid")

    # Gr√°fico 1: Distribui√ß√£o Geral do Churn (LINHA CORRIGIDA E COMPLETA)
    plt.figure(figsize=(8, 6))
    # Obter as contagens de valores e seus r√≥tulos diretamente
    churn_counts = df_graficos['Evasao'].value_counts()
    # Usar o √≠ndice das contagens como r√≥tulos para o gr√°fico de pizza
    churn_counts.plot(kind='pie', autopct='%1.1f%%', colors=['#4CAF50', '#F44336'][:len(churn_counts.index)], labels=churn_counts.index, textprops={'fontsize': 12})
    plt.title('Distribui√ß√£o Geral de Evas√£o (Churn)', fontsize=16)
    plt.ylabel('')
    plt.savefig('graficos_churn/1_distribuicao_churn.png')
    plt.close()
    print("\n- Gr√°fico '1_distribuicao_churn.png' salvo.")

    # Gr√°fico 2: Evas√£o por Tipo de Contrato
    plt.figure(figsize=(10, 6))
    sns.countplot(x='Contrato', hue='Evasao', data=df_graficos, palette=['#4CAF50', '#F44336'], order=['Mensal', 'Um Ano', 'Dois Anos'])
    plt.title('Evas√£o por Tipo de Contrato', fontsize=16)
    plt.xlabel('Tipo de Contrato', fontsize=12)
    plt.ylabel('Contagem de Clientes', fontsize=12)
    plt.legend(title='Evas√£o')
    plt.savefig('graficos_churn/2_churn_por_contrato.png')
    plt.close()
    print("- Gr√°fico '2_churn_por_contrato.png' salvo.")

    print("\nAn√°lise conclu√≠da. Gr√°ficos salvos na pasta 'graficos_churn'.")


if __name__ == "__main__":
    API_URL = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json"
    dados_brutos_achatados = extrair_dados_url(API_URL)

    if dados_brutos_achatados is not None:
        df_modelo_final, df_para_visualizacao = transformar_dados(dados_brutos_achatados)
        analisar_dados(df_modelo_final, df_para_visualizacao)
        print("\nProcesso completo finalizado com sucesso!")

Iniciando a Fase de Extra√ß√£o da URL: https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/main/TelecomX_Data.json
Extra√ß√£o e achatamento de dados da URL conclu√≠dos com sucesso.

Iniciando a Fase de Transforma√ß√£o...
- Coluna de Cobran√ßas Totais corrigida.
- Coluna 'Fatura_Diaria' criada.
- Nomes das colunas traduzidos.
- Valores categ√≥ricos traduzidos.
- DataFrame para visualiza√ß√£o criado.
- Dados convertidos para formato num√©rico (pronto para ML).
Transforma√ß√£o de dados conclu√≠da.

Iniciando a Fase de An√°lise...

--- Estat√≠sticas Descritivas ---


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_transformado['account.Charges.Total'].fillna(0, inplace=True)


                 count         mean          std    min      25%     50%  \
Idoso           7267.0     0.162653     0.369074   0.00    0.000     0.0   
Meses_Contrato  7267.0    32.346498    24.571773   0.00    9.000    29.0   
Fatura_Mensal   7267.0    64.720098    30.129572  18.25   35.425    70.3   
Fatura_Total    7267.0  2277.182035  2268.648587   0.00  396.200  1389.2   
Evasao          7043.0     0.265370     0.441561   0.00    0.000     0.0   

                     75%      max  
Idoso              0.000     1.00  
Meses_Contrato    55.000    72.00  
Fatura_Mensal     89.875   118.75  
Fatura_Total    3778.525  8684.80  
Evasao             1.000     1.00  

- Gr√°fico '1_distribuicao_churn.png' salvo.
- Gr√°fico '2_churn_por_contrato.png' salvo.

An√°lise conclu√≠da. Gr√°ficos salvos na pasta 'graficos_churn'.

Processo completo finalizado com sucesso!


The palette list has fewer values (2) than needed (3) and will cycle, which may produce an uninterpretable plot.
  sns.countplot(x='Contrato', hue='Evasao', data=df_graficos, palette=['#4CAF50', '#F44336'], order=['Mensal', 'Um Ano', 'Dois Anos'])


#üìÑRelatorio Final

In [None]:
'''No competitivo setor de telecomunica√ß√µes, a reten√ß√£o de clientes √© um pilar fundamental para a sustentabilidade e o crescimento do neg√≥cio.
A perda de um cliente, conhecida como churn ou evas√£o,n√£o s√≥ impacta diretamente a receita, mas tamb√©m acarreta custos significativamente
mais altos para adquirir um novo cliente do que para manter um existente. Com este desafio em mente, foi realizada uma an√°lise aprofundada
sobre os dados da Telecom X, com o objetivo claro de dissecar os fatores que levam um cliente a cancelar seu servi√ßo. A meta final √©
transformar esses dados brutos em insights acion√°veis e recomenda√ß√µes estrat√©gicas que possam fortalecer a lealdade do cliente e reduzir
a taxa de evas√£o.

O ponto de partida foi um conjunto de dados em formato JSON, extra√≠do de uma API, que continha uma rica variedade de informa√ß√µes sobre os
clientes, desde dados demogr√°ficos at√© os detalhes dos servi√ßos contratados. A primeira e mais crucial etapa do processo foi garantir a
qualidade e a integridade desses dados. Uma descoberta inicial revelou que as informa√ß√µes estavam em uma estrutura aninhada,
exigindo o uso de t√©cnicas espec√≠ficas, como a normaliza√ß√£o de JSON, para transformar os dados em um formato tabular plano e funcional.
A partir da√≠, um rigoroso processo de limpeza foi aplicado: a coluna de cobran√ßas totais, que continha valores n√£o num√©ricos para clientes
novos, foi convertida para um formato num√©rico, e os valores ausentes foram corretamente preenchidos com zero, refletindo a aus√™ncia de cobran√ßa
para esses clientes rec√©m-chegados. Para tornar a an√°lise mais intuitiva e acess√≠vel, todas as colunas e valores foram traduzidos para o
portugu√™s. Por fim, todo o conjunto de dados foi convertido para um formato puramente num√©rico, atrav√©s de codifica√ß√£o bin√°ria e one-hot encoding,
preparando o terreno para uma an√°lise estat√≠stica e visual precisa.

Com um conjunto de dados limpo e estruturado, a fase de investiga√ß√£o revelou padr√µes de comportamento extremamente claros e informativos.
A an√°lise da distribui√ß√£o geral da evas√£o j√° acendeu um alerta: 26,5% dos clientes no dataset haviam cancelado seus servi√ßos, uma taxa expressiva
que valida a urg√™ncia desta an√°lise. Ao aprofundar a explora√ß√£o, um dos fatores de maior impacto emergiu: o tipo de contrato. Clientes com
contratos mensais, que oferecem maior flexibilidade, apresentaram uma taxa de evas√£o drasticamente superior √†queles com contratos de um ou dois
anos, indicando que o compromisso de longo prazo √© um forte fator de reten√ß√£o. Essa descoberta foi corroborada pela an√°lise do tempo de perman√™ncia
do cliente, que mostrou que o risco de evas√£o √© muito maior nos primeiros meses de servi√ßo, diminuindo consideravelmente √† medida que o cliente
constr√≥i um hist√≥rico mais longo com a empresa. Al√©m disso, o custo do servi√ßo provou ser um ponto sens√≠vel; clientes com faturas mensais mais
altas, frequentemente associadas a servi√ßos premium como Fibra √ìtica, mostraram uma maior tend√™ncia a cancelar. Finalmente, foi observado que a
aus√™ncia de servi√ßos de valor agregado, como Suporte T√©cnico e Seguran√ßa Online, era uma caracter√≠stica comum entre os clientes que evadiram,
sugerindo que a percep√ß√£o de valor e suporte √© crucial para a lealdade.

A converg√™ncia desses padr√µes nos permitiu tra√ßar um perfil claro e coeso do cliente com maior risco de evas√£o: trata-se, tipicamente,
de um cliente recente, com poucos meses de contrato, vinculado a um plano mensal flex√≠vel, que paga uma fatura mensal elevada e n√£o possui
servi√ßos de suporte adicionais que poderiam aumentar sua percep√ß√£o de valor. A combina√ß√£o de alto custo, baixo compromisso contratual e uma
poss√≠vel falta de suporte cria o cen√°rio perfeito para o cancelamento.

Com base nessas conclus√µes concretas, foram formuladas recomenda√ß√µes estrat√©gicas para a Telecom X. Para combater a evas√£o de clientes com
contratos mensais, sugere-se a cria√ß√£o de ofertas e incentivos agressivos para migr√°-los para planos de longo prazo, destacando os benef√≠cios de
custo e estabilidade. Para mitigar o alto risco nos primeiros meses, √© recomend√°vel implementar um programa de "onboarding" dedicado aos novos
clientes, com contato proativo e suporte facilitado para garantir uma experi√™ncia inicial positiva. Finalmente, para aumentar a reten√ß√£o entre
os clientes de alto valor e aqueles sem servi√ßos de apoio, a empresa deveria promover ativamente pacotes que incluam Suporte T√©cnico e Seguran√ßa
Online, al√©m de revisar a estrutura de pre√ßos dos seus planos premium para garantir que o valor percebido justifique o custo. A implementa√ß√£o dessas
a√ß√µes, diretamente informadas pela an√°lise de dados, oferece um caminho claro para reduzir a evas√£o, fortalecer o relacionamento com os clientes e
garantir um crescimento mais sustent√°vel para o neg√≥cio.'''