<a href="https://colab.research.google.com/github/gabrielhenriquess/TelecomX/blob/main/Analise_TelecomX.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìä An√°lise de Evas√£o churn de Clientes - TelecomX


#üìå Extrac√£o

In [38]:

import pandas as pd
import numpy as np
import requests
import json
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.io as pio

# Configura√ß√£o de tema padr√£o para os gr√°ficos
pio.templates.default = "plotly_white"


In [39]:

# URL dos dados JSON
fonte_dados = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json'

# Requisi√ß√£o HTTP para pegar os dados
resposta = requests.get(fonte_dados)
resposta.raise_for_status()  # Verificar poss√≠veis erros de requisi√ß√£o

# Convertendo o JSON em dicion√°rio Python
dados_cliente = json.loads(resposta.text)

# Normaliza√ß√£o das colunas aninhadas
df_clientes = pd.json_normalize(dados_cliente, sep='_')

# Vis√£o geral do dataframe
df_clientes.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer_gender            7267 non-null   object 
 3   customer_SeniorCitizen     7267 non-null   int64  
 4   customer_Partner           7267 non-null   object 
 5   customer_Dependents        7267 non-null   object 
 6   customer_tenure            7267 non-null   int64  
 7   phone_PhoneService         7267 non-null   object 
 8   phone_MultipleLines        7267 non-null   object 
 9   internet_InternetService   7267 non-null   object 
 10  internet_OnlineSecurity    7267 non-null   object 
 11  internet_OnlineBackup      7267 non-null   object 
 12  internet_DeviceProtection  7267 non-null   object 
 13  internet_TechSupport       7267 non-null   objec

In [40]:

# Checagem de valores √∫nicos por coluna
for atributo in df_clientes.columns:
    print(f"Coluna: {atributo} - Quantidade de valores √∫nicos: {df_clientes[atributo].nunique()}")
    if df_clientes[atributo].nunique() < 50:
        print(df_clientes[atributo].unique())
        print('-' * 40)


Coluna: customerID - Quantidade de valores √∫nicos: 7267
Coluna: Churn - Quantidade de valores √∫nicos: 3
['No' 'Yes' '']
----------------------------------------
Coluna: customer_gender - Quantidade de valores √∫nicos: 2
['Female' 'Male']
----------------------------------------
Coluna: customer_SeniorCitizen - Quantidade de valores √∫nicos: 2
[0 1]
----------------------------------------
Coluna: customer_Partner - Quantidade de valores √∫nicos: 2
['Yes' 'No']
----------------------------------------
Coluna: customer_Dependents - Quantidade de valores √∫nicos: 2
['Yes' 'No']
----------------------------------------
Coluna: customer_tenure - Quantidade de valores √∫nicos: 73
Coluna: phone_PhoneService - Quantidade de valores √∫nicos: 2
['Yes' 'No']
----------------------------------------
Coluna: phone_MultipleLines - Quantidade de valores √∫nicos: 3
['No' 'Yes' 'No phone service']
----------------------------------------
Coluna: internet_InternetService - Quantidade de valores √∫nico

In [41]:

# Verificando linhas duplicadas
total_duplicados = df_clientes.duplicated().sum()
print(f"Total de duplicados: {total_duplicados}")

# Analisando nulos
print(df_clientes.isnull().sum())

# Verificando campos vazios (strings em branco)
vazios = df_clientes.apply(lambda x: x.astype(str).str.strip() == '').sum()
print(vazios[vazios > 0])


Total de duplicados: 0
customerID                   0
Churn                        0
customer_gender              0
customer_SeniorCitizen       0
customer_Partner             0
customer_Dependents          0
customer_tenure              0
phone_PhoneService           0
phone_MultipleLines          0
internet_InternetService     0
internet_OnlineSecurity      0
internet_OnlineBackup        0
internet_DeviceProtection    0
internet_TechSupport         0
internet_StreamingTV         0
internet_StreamingMovies     0
account_Contract             0
account_PaperlessBilling     0
account_PaymentMethod        0
account_Charges_Monthly      0
account_Charges_Total        0
dtype: int64
Churn                    224
account_Charges_Total     11
dtype: int64


#üîß Transforma√ß√£o

In [42]:

# Substituindo valores vazios na coluna de cobran√ßas totais
df_clientes['account_Charges_Total'] = df_clientes['account_Charges_Total'].replace(' ', 0).astype(np.float64)

# Convertendo colunas textuais para min√∫sculo
colunas_texto = df_clientes.select_dtypes(include='object').columns.drop('customerID')
for coluna in colunas_texto:
    df_clientes[coluna] = df_clientes[coluna].str.lower()

# Eliminando registros com evasao em branco
df_clientes = df_clientes[df_clientes['Churn'].str.strip() != '']
print(f"Total de registros ap√≥s limpeza: {len(df_clientes)}")


Total de registros ap√≥s limpeza: 7043


In [43]:

# Novo nome das colunas
mapeamento_colunas = {
    'customerID': 'id_cliente',
    'Churn': 'evasao',
    'customer_gender': 'sexo',
    'customer_SeniorCitizen': 'categoria_idoso',
    'customer_Partner': 'tem_parceiro',
    'customer_Dependents': 'tem_dependentes',
    'customer_tenure': 'tempo_contrato',
    'phone_PhoneService': 'telefone_ativo',
    'phone_MultipleLines': 'multiplas_linhas',
    'internet_InternetService': 'tipo_internet',
    'internet_OnlineSecurity': 'seguranca_online',
    'internet_OnlineBackup': 'backup_nuvem',
    'internet_DeviceProtection': 'protecao_aparelho',
    'internet_TechSupport': 'suporte_online',
    'internet_StreamingTV': 'tv_stream',
    'internet_StreamingMovies': 'filmes_stream',
    'account_Contract': 'modelo_contrato',
    'account_PaperlessBilling': 'fatura_online',
    'account_PaymentMethod': 'pagamento',
    'account_Charges_Monthly': 'mensalidade',
    'account_Charges_Total': 'total_gasto'
}

df_clientes = df_clientes.rename(columns=mapeamento_colunas)


In [44]:

# Dicion√°rio de tradu√ß√£o de valores
traducao_valores = {
    'female': 'mulher',
    'male': 'homem',
    'yes': 'sim',
    'no': 'nao',
    'fiber optic': 'fibra',
    'no phone service': 'sem_telefone',
    'no internet service': 'sem_internet',
    'one year': 'anual',
    'month-to-month': 'mensal',
    'two year': 'bienal',
    'mailed check': 'cheque_correio',
    'electronic check': 'cheque_online',
    'credit card (automatic)': 'cartao_auto',
    'bank transfer (automatic)': 'transferencia_auto'
}

# Aplicando tradu√ß√£o em todas as colunas de texto
for col in df_clientes.columns:
    if df_clientes[col].dtype == 'object':
        df_clientes[col] = df_clientes[col].replace(traducao_valores)


In [45]:

# Nova coluna: valor di√°rio
df_clientes['media_diaria'] = ((df_clientes['total_gasto'] / df_clientes['tempo_contrato']) / 30).round(2)
df_clientes['mensalidade'] = df_clientes['mensalidade'].round(2)

# Reposicionando a coluna
colunas = df_clientes.columns.tolist()
colunas.insert(19, colunas.pop(colunas.index('media_diaria')))
df_clientes = df_clientes[colunas]

# Ajustando coluna de idoso
df_clientes['categoria_idoso'] = df_clientes['categoria_idoso'].map({1: 'sim', 0: 'nao'})


#üìä An√°lise Descritiva + Gr√°ficos + Explica√ß√µes

###1Ô∏è‚É£ An√°lise Descritiva Geral (M√©dia, Mediana, Desvio Padr√£o, etc)

In [46]:
# An√°lise Descritiva com os nomes de colunas reais
estatisticas = df_clientes[['tempo_contrato', 'mensalidade', 'total_gasto', 'media_diaria']].describe()
print(estatisticas)

# Gr√°fico Boxplot para as vari√°veis num√©ricas
fig = px.box(df_clientes, y=['tempo_contrato', 'mensalidade', 'total_gasto', 'media_diaria'],
             points='all', title='üìä Distribui√ß√£o das Vari√°veis Num√©ricas')
fig.show()


       tempo_contrato  mensalidade  total_gasto  media_diaria
count     7043.000000  7043.000000  7043.000000   7032.000000
mean        32.371149    64.761692  2279.734304      2.159879
std         24.559481    30.090047  2266.794470      1.006217
min          0.000000    18.250000     0.000000      0.460000
25%          9.000000    35.500000   398.550000      1.207500
50%         29.000000    70.350000  1394.550000      2.350000
75%         55.000000    89.850000  3786.600000      3.010000
max         72.000000   118.750000  8684.800000      4.050000


‚úÖ Explica√ß√£o:
Esse boxplot mostra como est√£o distribu√≠dos os valores das principais vari√°veis financeiras e de tempo.
D√° pra ver outliers (valores muito altos) e tamb√©m a mediana de cada vari√°vel.
Exemplo: A cobranca_total tem muitos clientes gastando pouco, mas alguns com gasto muito alto.

###2Ô∏è‚É£ Distribui√ß√£o da Evas√£o (Churn)



In [47]:
# Gr√°fico de Pizza - Distribui√ß√£o da Evas√£o
fig = px.pie(df_clientes, names='evasao',
             color='evasao',
             color_discrete_map={'sim': 'red', 'nao': 'green'},
             title='üìå Distribui√ß√£o da Evas√£o (Clientes que ficaram vs sa√≠ram)')
fig.show()

# Contagem simples de propor√ß√£o
print(df_clientes['evasao'].value_counts(normalize=True) * 100)


evasao
nao    73.463013
sim    26.536987
Name: proportion, dtype: float64


‚úÖ Explica√ß√£o:
Visualiza√ß√£o percentual de quantos clientes sa√≠ram (churn) e quantos permaneceram.

###3Ô∏è‚É£ Contagem de Evas√£o por Vari√°veis Categ√≥ricas (G√™nero, Tipo de Contrato, M√©todo de Pagamento)

In [48]:
# Evas√£o por Sexo
fig = px.histogram(df_clientes, x='sexo', color='evasao',
                   barmode='group', barnorm='percent',
                   title='üéØ Evas√£o por Sexo')
fig.show()

# Evas√£o por Tipo de Contrato
fig = px.histogram(df_clientes, x='modelo_contrato', color='evasao',
                   barmode='group', barnorm='percent',
                   title='üéØ Evas√£o por Tipo de Contrato')
fig.show()

# Evas√£o por M√©todo de Pagamento
fig = px.histogram(df_clientes, x='pagamento', color='evasao',
                   barmode='group', barnorm='percent',
                   title='üéØ Evas√£o por M√©todo de Pagamento')
fig.show()


‚úÖ Explica√ß√£o:
Mostra o percentual de clientes que cancelaram em cada grupo de g√™nero, contrato e forma de pagamento.

###4Ô∏è‚É£ Evas√£o por Vari√°veis Num√©ricas (Tempo de Contrato x Total Gasto)

In [49]:
# Scatter Plot: Tempo de Contrato vs Total Gasto
fig = px.scatter(df_clientes, x='tempo_contrato', y='total_gasto', color='evasao',
                 title='üìà Tempo de Contrato vs Total Gasto x Evas√£o')
fig.show()

# Histograma: Tempo de Contrato por Evas√£o
fig = px.histogram(df_clientes, x='tempo_contrato', color='evasao',
                   barmode='group', barnorm='percent',
                   title='üìä Distribui√ß√£o de Evas√£o por Tempo de Contrato')
fig.show()


‚úÖ Explica√ß√£o:
Mostra se os clientes com menos tempo de contrato ou com gasto baixo/alto t√™m mais chance de cancelar.

#üìÑ Relat√≥rio Final - An√°lise de Evas√£o de Clientes (Churn) - TelecomX


##üíÅ Introdu√ß√£o
####O objetivo deste trabalho foi realizar uma an√°lise detalhada sobre o problema de evas√£o de clientes (Churn) na empresa TelecomX. A evas√£o de clientes representa um grande desafio para empresas de telecomunica√ß√µes, pois perder clientes impacta diretamente na receita e na sustentabilidade do neg√≥cio.

####Por meio desta an√°lise, buscamos entender os fatores que levam os clientes a cancelar os servi√ßos, identificar padr√µes de comportamento e sugerir estrat√©gias para reduzir a evas√£o.

## üßπ Limpeza e Tratamento de Dados
####Antes de partir para a an√°lise, foi necess√°rio realizar uma etapa de limpeza e prepara√ß√£o dos dados, que incluiu:

####Importa√ß√£o dos dados diretamente de um arquivo JSON hospedado no GitHub.

####Normaliza√ß√£o das colunas, uma vez que os dados estavam aninhados em diferentes categorias como "customer", "phone", "internet" e "account".

####Tratamento de valores nulos e vazios, substituindo campos em branco e convertendo colunas num√©ricas para o tipo correto.

####Padroniza√ß√£o dos textos, transformando todas as strings para letras min√∫sculas.

####Renomea√ß√£o das colunas para o portugu√™s, tornando o entendimento mais f√°cil.

####Tradu√ß√£o dos valores das vari√°veis categ√≥ricas, como ‚Äúyes‚Äù para ‚Äúsim‚Äù e ‚Äúno‚Äù para ‚Äún√£o‚Äù.

####Cria√ß√£o de novas m√©tricas, como a coluna media_diaria, que representa a m√©dia di√°ria de gasto por cliente.



##üìå An√°lise Explorat√≥ria de Dados (EDA)
####Durante a etapa de an√°lise explorat√≥ria, realizamos as seguintes investiga√ß√µes:

##üìå An√°lise Descritiva das Vari√°veis Num√©ricas:
####Avaliamos m√©tricas como m√©dia, mediana, desvio padr√£o, valor m√≠nimo e m√°ximo.

####Visualizamos a distribui√ß√£o das vari√°veis tempo_contrato, mensalidade, total_gasto e media_diaria com um Boxplot.

####Identificamos que o gasto total e a mensalidade apresentavam alta variabilidade, com presen√ßa de outliers.

##üìå Distribui√ß√£o da Evas√£o (Churn):
####Criamos um gr√°fico de pizza para visualizar a propor√ß√£o de clientes que sa√≠ram (churn) e os que permaneceram.

####Observamos que cerca de 26% dos clientes cancelaram os servi√ßos, enquanto 74% permaneceram ativos.

##üìå Evas√£o por Vari√°veis Categ√≥ricas:
####Analisamos a evas√£o por g√™nero, tipo de contrato e m√©todo de pagamento:

####Contratos mensais apresentaram a maior taxa de evas√£o.

####O m√©todo de pagamento por cheque eletr√¥nico teve a maior taxa de cancelamento.

####N√£o houve grande diferen√ßa entre g√™neros, mas a an√°lise de tipo de contrato e pagamento trouxe insights relevantes.

##üìå Evas√£o por Vari√°veis Num√©ricas:
####Exploramos a rela√ß√£o entre tempo de contrato e gasto total.

####Clientes com poucos meses de contrato apresentaram maior propens√£o ao cancelamento.

####Tamb√©m vimos que clientes com gastos mais baixos e com curta dura√ß√£o de contrato s√£o os mais propensos √† evas√£o.

##‚úÖ Conclus√µes e Insights
###Ap√≥s a an√°lise, destacamos os principais pontos:

####Clientes com contratos mensais t√™m maior risco de evas√£o, mostrando a import√¢ncia de estrat√©gias de fideliza√ß√£o.

####Formas de pagamento como cheque eletr√¥nico est√£o altamente associadas √† evas√£o, o que indica uma oportunidade para incentivar outros m√©todos de pagamento.

####Clientes com baixo tempo de contrato e baixo gasto acumulado t√™m maior propens√£o a cancelar.

####Oferecer benef√≠cios nos primeiros meses pode reduzir o churn inicial.

##üîç Recomenda√ß√µes
###Com base nas an√°lises realizadas, sugerimos as seguintes a√ß√µes:

####Criar campanhas de incentivo para migrar clientes de contratos mensais para contratos anuais ou bienais.

####Rever a experi√™ncia dos clientes que utilizam cheque eletr√¥nico, buscando entender os motivos da alta evas√£o nesse grupo.

####Investir em um programa de onboarding que melhore a experi√™ncia dos clientes nos primeiros meses.

####Oferecer descontos ou benef√≠cios para clientes em risco (ex.: com menos de 6 meses de contrato e baixo gasto mensal).

#### Monitorar continuamente as vari√°veis de risco, utilizando dashboards com os mesmos indicadores analisados neste projeto.