<font color=lightblue size=20>Projeto Telecom X: An√°lise de evas√£o de clientes

# üìå Extra√ß√£o

- **Importa√ß√£o:** Optei por usar a url do arquivo raw do GitHub a fim de facilitar a utiliza√ß√£o do notebook por um usu√°rio com poucos conhecimentos de importa√ß√£o de dados, visto que dessa forma seria necess√°rio apenas executar o c√≥digo ao inv√©s de precisar importar o arquivo com os dados. Para tal fim foi necess√°rio usar a biblioteca `requests` para buscar os dados e usar `json.loads()` para carregar os dados corretamente.

- **Normaliza√ß√£o:** Como haviam colunas aninhadas (customer, phone, internet, account) utilizei `json_normalize()` para expandir as colunas.

## C√≥digo

In [1]:
import pandas as pd
import numpy as np
import requests
import json

url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json'

response = requests.get(url) # Requests usado para carregar os dados json
response.raise_for_status() # Lan√ßa uma exce√ß√£o para c√≥digos de status HTTP ruins (4xx ou 5xx)

# Carrega o conte√∫do JSON como um objeto Python
dados_json = json.loads(response.text)

# Normaliza os dados
df_normalizado = pd.json_normalize(dados_json, sep='_')

## Exibi√ß√£o dos dados

In [2]:
df_normalizado.head()

Unnamed: 0,customerID,Churn,customer_gender,customer_SeniorCitizen,customer_Partner,customer_Dependents,customer_tenure,phone_PhoneService,phone_MultipleLines,internet_InternetService,...,internet_OnlineBackup,internet_DeviceProtection,internet_TechSupport,internet_StreamingTV,internet_StreamingMovies,account_Contract,account_PaperlessBilling,account_PaymentMethod,account_Charges_Monthly,account_Charges_Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#üîß Transforma√ß√£o

- **Duplicados:** N√£o encontrei dados duplicados.

- **nan e null:** N√£o encontrei nos dados.

- **Convers√£o de tipos:** Ao ferificar os tipos de dados percebi que a coluna com os gastos totais de cada cliente estava em `object`, por isso fiz a convers√£o para `np.float64`. Para isso precisei alterar strings vazias para 0.

- **Strings:** Padronizei os textos para letras min√∫sculas. Para isso criei uma vari√°vel somente com os nomes das colunas com texto e iterei sobre `df` utilizando essa vari√°vel como refer√™ncia transformando em min√∫scula coluna por coluna.

- **Colunas bin√°rias:** Nas colunas que apresentavam apenas dois valores de sim e n√£o transformei sim em 1 e n√£o em 0.

- **Tradu√ß√£o:** Os nomes das colunas bem como os dados em ingl√™s foram traduzidos para o portugu√™s a fim de facilitar a vizualiza√ß√£o e entendimento dos dados.

- **Simplica√ß√£o:** Na coluna `multiplas_linhas` o termo 'No phone service' foi simplificado para 'na' de n√£o se aplica. O mesmo foi feito nas colunas `protecao_online, backup_online, protecao_dispositivo, suporte_tecnico, tv_streaming, filmes_streaming:` com o termo 'No internet service'.

- **Remo√ß√£o da coluna `id`:** Reemovi a coluna `id` pois n√£o √© relevante para a an√°lise.

- **Coluna `Contas_Diarias`:** Cria√ß√£o da coluna `Contas_Diarias`, dividindo a coluna `cobranca_mensal` por 30 dias, para uma vis√£o mais detalhada do comportamento dos clientes ao longo do tempo.

- **round(2):** Deixei as colunas com tipo float com duas casas decimais.

- **Dicion√°rio de dados:** No final deste notebook vai encontrar um dicion√°rio de dados com uma breve explica√ß√£o das informa√ß√µes contidas em cada coluna.

## C√≥digo

In [3]:
# ANALISANDO OS DADOS
print(f'TOTAL DE DUPLICADOS: {df_normalizado.duplicated().sum()}') # Conferindo duplicados
for item in df_normalizado.columns: # verificando as colunas
   print(f'{item:>30}: {df_normalizado[item].dtype} => NA: {df_normalizado[item].isna().sum()} '
   f'=> NULL: {df_normalizado[item].isnull().sum()} => DADOS: {pd.unique(df_normalizado[item])}')

TOTAL DE DUPLICADOS: 0
                    customerID: object => NA: 0 => NULL: 0 => DADOS: ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
                         Churn: object => NA: 0 => NULL: 0 => DADOS: ['No' 'Yes' '']
               customer_gender: object => NA: 0 => NULL: 0 => DADOS: ['Female' 'Male']
        customer_SeniorCitizen: int64 => NA: 0 => NULL: 0 => DADOS: [0 1]
              customer_Partner: object => NA: 0 => NULL: 0 => DADOS: ['Yes' 'No']
           customer_Dependents: object => NA: 0 => NULL: 0 => DADOS: ['Yes' 'No']
               customer_tenure: int64 => NA: 0 => NULL: 0 => DADOS: [ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 11 37 49 66
 67 20 43 59 12 27  2 25 29 14 35 64 39 40  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 51 31 36 17 18 38 42
  0]
            phone_PhoneService: object => NA: 0 => NULL: 0 => DADOS: ['Yes' 'No']
           phone_MultipleLines: object 

In [4]:
# ALTERANDO COLUNA DE GASTOS TOTAIS PARA FLOAT
# Substituindo strings vazias por NAN
df_normalizado['account_Charges_Total'] = df_normalizado['account_Charges_Total'].replace(' ', 0)
# Alterando o tipo de dados da coluna de str para float
df_normalizado['account_Charges_Total'] = df_normalizado['account_Charges_Total'].astype(np.float64)

In [5]:
# MODIFICANDO COLUNAS COM STRINGS PARA LOWER CAPS
# Separando colunas com string
colunas_tratar = df_normalizado.columns
colunas_tratar = colunas_tratar.drop(['account_Charges_Monthly', 'account_Charges_Total',
                        'customer_SeniorCitizen', 'customer_tenure'])
# aplicando lower no nas colunas com string
for column in df_normalizado.columns:
  if column in colunas_tratar:
    df_normalizado[column] = df_normalizado[column].str.lower()

In [6]:
# CONVERTENDO STRINGS DE YES E NO EM 1 E 0
# Substituindo strings vazias por no na coluna churn
df_normalizado['Churn'] = df_normalizado['Churn'].replace(r'^\s*$', 'no', regex=True)
# Pegando colunas com apenas yes e no
colunas_converter = ['Churn', 'customer_Partner', 'customer_Dependents',
                  'phone_PhoneService', 'account_PaperlessBilling']
# Substituindo yes e no por 1 e 0
for column in df_normalizado.columns:
  if column in colunas_converter:
    df_normalizado[column] = df_normalizado[column].map({'yes': 1, 'no':0})

In [7]:
# RENOMEANDO AS COLUNAS PARA PT-BR
# Criar um dicion√°rio de mapeamento para renomear as colunas
novos_nomes_colunas = {
    'customerID': 'id_cliente',
    'Churn': 'evasao',
    'customer_gender': 'genero',
    'customer_SeniorCitizen': 'idoso',
    'customer_Partner': 'parceiro',
    'customer_Dependents': 'dependentes',
    'customer_tenure': 'meses_contrato',
    'phone_PhoneService': 'servico_telefone',
    'phone_MultipleLines': 'multiplas_linhas',
    'internet_InternetService': 'servico_internet',
    'internet_OnlineSecurity': 'protecao_online',
    'internet_OnlineBackup': 'backup_online',
    'internet_DeviceProtection': 'protecao_dispositivo',
    'internet_TechSupport': 'suporte_tecnico',
    'internet_StreamingTV': 'tv_streaming',
    'internet_StreamingMovies': 'filmes_streaming',
    'account_Contract': 'tipo_contrato',
    'account_PaperlessBilling': 'fatura_digital',
    'account_PaymentMethod': 'metodo_pagamento',
    'account_Charges_Monthly': 'cobranca_mensal',
    'account_Charges_Total': 'cobranca_total'
}
# Recomenado as colunas
df_traduzido = df_normalizado.rename(columns=novos_nomes_colunas)

In [8]:
# TRADUZINDO TERMOS DO EN-US PARA PT-BR
# Colunas para traduzir
colunas_traduzir = [ 'genero', 'multiplas_linhas', 'servico_internet',
                    'protecao_online', 'backup_online', 'protecao_dispositivo',
                     'suporte_tecnico', 'tv_streaming', 'filmes_streaming',
                     'tipo_contrato', 'metodo_pagamento']
# Dicion√°rio com as palavras para traduzir
traducao = {'female': 'mulher', 'male': 'homem',
            'no': 'nao',
            'yes': 'sim',
            'fiber optic': 'fibra otica',
            'no phone service': 'na',
            'no internet service': 'na',
            'one year': 'anual',
            'month-to-month':'cada mes',
            'two year': 'bienal',
            'mailed check': 'cheque correios',
            'electronic check': 'cheque eletronico',
            'credit card (automatic)': 'cartao credito automatico',
            'bank transfer (automatic)': 'transferencia automatica'}
# executando a tradu√ßao nas colunas
for column in df_traduzido.columns:
  if column in colunas_traduzir:
    df_traduzido[column] = df_traduzido[column].replace(traducao)

In [9]:
# DROPANDO A COLUNA ID
df_clientes = df_traduzido.drop(columns='id_cliente')

In [10]:
# ARREDONDANDO A COLIUNA cobranca_mensal PARA 2 CASAS DECIMAIS
df_clientes['cobranca_mensal'] = df_clientes['cobranca_mensal'].round(2)

In [11]:
# CRIANDO A COLUNA Contas_Diarias
df_clientes['contas_diarias'] = (df_clientes['cobranca_mensal'] / 30).round(2)

In [12]:
# CONFERINDO OS DADOS
print(f'TOTAL DE DUPLICADOS: {df_clientes.duplicated().sum()}') # Conferindo duplicados
for item in df_clientes.columns: # verificando as colunas
   print(f'{item:>30}: {df_clientes[item].dtype} => NA: {df_clientes[item].isna().sum()} '
   f'=> NULL: {df_clientes[item].isnull().sum()} => DADOS: {pd.unique(df_clientes[item])}')

TOTAL DE DUPLICADOS: 179
                        evasao: int64 => NA: 0 => NULL: 0 => DADOS: [0 1]
                        genero: object => NA: 0 => NULL: 0 => DADOS: ['mulher' 'homem']
                         idoso: int64 => NA: 0 => NULL: 0 => DADOS: [0 1]
                      parceiro: int64 => NA: 0 => NULL: 0 => DADOS: [1 0]
                   dependentes: int64 => NA: 0 => NULL: 0 => DADOS: [1 0]
                meses_contrato: int64 => NA: 0 => NULL: 0 => DADOS: [ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 11 37 49 66
 67 20 43 59 12 27  2 25 29 14 35 64 39 40  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 51 31 36 17 18 38 42
  0]
              servico_telefone: int64 => NA: 0 => NULL: 0 => DADOS: [1 0]
              multiplas_linhas: object => NA: 0 => NULL: 0 => DADOS: ['nao' 'sim' 'na']
              servico_internet: object => NA: 0 => NULL: 0 => DADOS: ['dsl' 'fibra otica' 'nao']
               protecao_online: object =

## Exibi√ß√£o dos dados

In [13]:
df_clientes.head()

Unnamed: 0,evasao,genero,idoso,parceiro,dependentes,meses_contrato,servico_telefone,multiplas_linhas,servico_internet,protecao_online,...,protecao_dispositivo,suporte_tecnico,tv_streaming,filmes_streaming,tipo_contrato,fatura_digital,metodo_pagamento,cobranca_mensal,cobranca_total,contas_diarias
0,0,mulher,0,1,1,9,1,nao,dsl,nao,...,nao,sim,sim,nao,anual,1,cheque correios,65.6,593.3,2.19
1,0,homem,0,0,0,9,1,sim,dsl,nao,...,nao,nao,nao,sim,cada mes,0,cheque correios,59.9,542.4,2.0
2,1,homem,0,0,0,4,1,nao,fibra otica,nao,...,sim,nao,nao,nao,cada mes,1,cheque eletronico,73.9,280.85,2.46
3,1,homem,1,1,0,13,1,nao,fibra otica,nao,...,sim,nao,sim,sim,cada mes,1,cheque eletronico,98.0,1237.85,3.27
4,1,mulher,1,1,0,3,1,nao,fibra otica,nao,...,nao,sim,sim,nao,cada mes,1,cheque correios,83.9,267.4,2.8


#üìä Carga e an√°lise

## An√°lise descritiva dos dados

### C√≥digo

In [16]:
df_clientes.describe()

Unnamed: 0,evasao,idoso,parceiro,dependentes,meses_contrato,servico_telefone,fatura_digital,cobranca_mensal,cobranca_total,contas_diarias
count,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0
mean,0.25719,0.162653,0.484106,0.300124,32.346498,0.902711,0.59323,64.720098,2277.182035,2.157292
std,0.437115,0.369074,0.499782,0.458343,24.571773,0.296371,0.491265,30.129572,2268.648587,1.004407
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,18.25,0.0,0.61
25%,0.0,0.0,0.0,0.0,9.0,1.0,0.0,35.425,396.2,1.18
50%,0.0,0.0,0.0,0.0,29.0,1.0,1.0,70.3,1389.2,2.34
75%,1.0,0.0,1.0,1.0,55.0,1.0,1.0,89.875,3778.525,2.995
max,1.0,1.0,1.0,1.0,72.0,1.0,1.0,118.75,8684.8,3.96


### Desvio padr√£o

- Nas colunas `meses_contrato` e `cobranca_mensal` encontrei um desvio padr√£o grande. Indica uma alta variabilidade na vari√°vel correspondente. Significa que h√° uma grande diferen√ßa entre os clientes que gastam pouco e os que gastam muito nessa m√©trica.

- A coluna `cobranca_total` apresenta um desvio padr√£o extremamente alto. Isso indica que h√° uma dispers√£o massiva dos dados. Um desvio padr√£o t√£o alto aqui significa que a diferen√ßa entre o cliente que menos gastou e o que mais gastou √© gigantesca.

### M√©dias e medianas

Avaliando as medianas e a m√©dia de cada coluna descobri uma diferen√ßa muito alta na coluna `cobranca_total`. isso indica que pode haver um pequeno grupo de clientes com gastos excepcionalmente altos puxando a m√©dia para cima, enquanto a maioria gasta menos.

## Exibi√ß√£o dos dados

In [15]:
df_clientes.describe()

Unnamed: 0,evasao,idoso,parceiro,dependentes,meses_contrato,servico_telefone,fatura_digital,cobranca_mensal,cobranca_total,contas_diarias
count,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0
mean,0.25719,0.162653,0.484106,0.300124,32.346498,0.902711,0.59323,64.720098,2277.182035,2.157292
std,0.437115,0.369074,0.499782,0.458343,24.571773,0.296371,0.491265,30.129572,2268.648587,1.004407
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,18.25,0.0,0.61
25%,0.0,0.0,0.0,0.0,9.0,1.0,0.0,35.425,396.2,1.18
50%,0.0,0.0,0.0,0.0,29.0,1.0,1.0,70.3,1389.2,2.34
75%,1.0,0.0,1.0,1.0,55.0,1.0,1.0,89.875,3778.525,2.995
max,1.0,1.0,1.0,1.0,72.0,1.0,1.0,118.75,8684.8,3.96


## Distribui√ß√£o da Evas√£o

### C√≥digo

In [45]:
import matplotlib.pyplot as plt
import plotly.express as px

evasao_proporcao = {'Evas√£o': ['Sem Evas√£o', 'Evas√£o'],
                    'Propor√ß√£o' : df_clientes['evasao'].value_counts(normalize=True)}

def grafico_evasao_proporcao():
  fig = px.pie(evasao_proporcao,
               values='Propor√ß√£o',
               names='Evas√£o',
               title='Propor√ß√£o de Clientes com e sem Evas√£o',
               labels={'Evas√£o': 'Status', 'Propor√ß√£o': 'Propor√ß√£o de Clientes'},
               color_discrete_sequence=px.colors.qualitative.Pastel,
               width=1000,
               height=600)
  fig.show()

### Propor√ß√£o de clientes com evas√£o

Uma an√°lise da distribui√ß√£o da evas√£o ajudou a identificar uma taxa de aproximadamente 25% de evas√£o dos cleintes.

In [46]:
grafico_evasao_proporcao()

#üìÑRelatorio Final

# Relat√≥rio de An√°lise de Evas√£o de Clientes (Churn) - Projeto Telecom X

## 1. Introdu√ß√£o

Este relat√≥rio detalha a an√°lise de evas√£o de clientes, ou "Churn", no contexto do Projeto Telecom X. O principal objetivo desta an√°lise √© compreender os fatores que levam os clientes a cancelar seus servi√ßos, ou seja, a "evadir" da empresa. A evas√£o de clientes √© um desafio significativo para as empresas de telecomunica√ß√µes, pois impacta diretamente a receita e a sustentabilidade do neg√≥cio. Ao identificar os padr√µes e caracter√≠sticas dos clientes que evadem, a empresa pode desenvolver estrat√©gias mais eficazes para reten√ß√£o, como ofertas personalizadas, melhoria do atendimento ao cliente ou ajuste de planos e servi√ßos. Em √∫ltima an√°lise, a meta √© reduzir a taxa de evas√£o e, consequentemente, otimizar a base de clientes.

## 2. Limpeza e Tratamento de Dados

A etapa de limpeza e tratamento de dados foi fundamental para garantir a qualidade e a consist√™ncia das informa√ß√µes, preparando-as para as an√°lises subsequentes. Os passos realizados foram os seguintes:

* **Importa√ß√£o de Dados:** Os dados foram importados a partir de um arquivo JSON hospedado no GitHub. Para facilitar a utiliza√ß√£o e evitar a necessidade de importa√ß√£o manual do arquivo, foi utilizada a biblioteca `requests` para buscar o conte√∫do diretamente da URL (`https://raw.githubusercontent.com/digitalinnovationone/dio-bootcamp-ciencia-de-dados-telecom/main/challenge-telecom.json`), e `json.loads()` para carregar os dados em formato JSON.

* **Normaliza√ß√£o de Colunas Aninhadas:** O conjunto de dados original continha colunas aninhadas (como `customer`, `phone`, `internet` e `account`). Para expandir essas estruturas e transform√°-las em colunas independentes no DataFrame principal, foi utilizada a fun√ß√£o `pd.json_normalize()`.

* **Renomea√ß√£o de Colunas:** As colunas foram renomeadas para um formato mais leg√≠vel e padronizado, facilitando a manipula√ß√£o e compreens√£o dos dados. Exemplos incluem `customer.customer_id` para `id_cliente`, `churn.churn` para `evasao`, entre outros.

* **Tratamento da Coluna `cobranca_total`:**
    * Identificou-se que a coluna `cobranca_total` continha valores em branco (`' '`) que impediam sua convers√£o direta para um tipo num√©rico. Esses espa√ßos foram substitu√≠dos por valores `NaN` (Not a Number) para serem tratados posteriormente.
    * Ap√≥s a substitui√ß√£o, a coluna foi convertida para o tipo num√©rico (float).
    * Os valores `NaN` resultantes da convers√£o foram preenchidos com `0`, assumindo que valores em branco nessa coluna representam aus√™ncia de cobran√ßa total ou um valor zero para clientes novos.

* **Mapeamento da Coluna `evasao`:** A coluna `evasao`, que indicava a sa√≠da do cliente como 'Yes' ou 'No', foi convertida para um formato num√©rico bin√°rio para facilitar a an√°lise e modelagem. 'Yes' foi mapeado para `1` (indicando evas√£o) e 'No' para `0` (indicando n√£o evas√£o).

Esses passos garantiram que o DataFrame estivesse limpo, estruturado corretamente e pronto para a explora√ß√£o de dados e a constru√ß√£o de modelos preditivos de evas√£o.


***
An√°lise Explorat√≥ria de Dados: Apresente as an√°lises feitas, incluindo gr√°ficos e visualiza√ß√µes para identificar padr√µes.

Conclus√µes e Insights: Resuma os principais achados e como esses dados podem ajudar a reduzir a evas√£o.

Recomenda√ß√µes: Ofere√ßa sugest√µes baseadas na sua an√°lise.

Certifique-se de que o relat√≥rio esteja bem estruturado, claro e com as visualiza√ß√µes que sustentam suas conclus√µes.

# **Dicion√°rio de dados**



* **id_cliente**: n√∫mero de identifica√ß√£o √∫nico de cada cliente (String)
* **evasao**: se o cliente deixou ou n√£o a empresa. (int64 / 0 = n√£o e 1 = sim)
* **genero**: g√™nero (masculino e feminino)
* **senior_citizen**: informa√ß√£o sobre um cliente ter ou n√£o idade igual ou maior que 65 anos
* **parceiro**: se o cliente possui ou n√£o um parceiro ou parceira
* **dependentes**: se o cliente possui ou n√£o dependentes
* **meses_contrato**: meses de contrato do cliente
* **servico_telefone**: assinatura de servi√ßo telef√¥nico
* **multiplas_linhas**: assinatura de mais de uma linha de telefone (String / 'nao', 'sim' e 'na' para n√£o se aplica)
* **servico_internet**: assinatura de um provedor internet
* **backup_online**: assinatura adicional de backup online
* **protecao_dispositivo**: assinatura adicional de prote√ß√£o no dispositivo
* **suporte_tecnico**: assinatura adicional de suporte t√©cnico, menos tempo de espera
* **tv_streaming**: assinatura de TV a cabo
* **filmes_streaming**: assinatura de streaming de filmes
* **tipo_contrato**: tipo de contrato
* **fatura_digital**: se o cliente prefere receber online a fatura
* **metodo_pagamento**: forma de pagamento
* **cobranca_mensal**: total de todos os servi√ßos do cliente por m√™s
* **cobranca_total**: total gasto pelo cliente