# "Churn de Clientes" na Telecom X

O "Churn de Clientes" da Telecom X, tem como objetivo principal entender os fatores que contribuem para o alto √≠ndice de cancelamentos de clientes (churn). O objetivo aqui √© coletar, tratar e analisar os dados usando o Python e suas bibliotecas.

Os insights gerados a partir desta an√°lise ser√£o cruciais para que a equipe de Data Science possa desenvolver modelos preditivos e estrat√©gias eficazes para reduzir a evas√£o de clientes.
___

# üîç **An√°lise da Estrutura dos Dados**
Os dados s√£o organizados em um formato hier√°rquico (dicion√°rio dentro de dicion√°rio), contendo as seguintes informa√ß√µes:

1. **Identifica√ß√£o do Cliente**  
   - `'customerID'`: Identificador √∫nico do cliente.  
   - `'Churn'`: Indica se o cliente cancelou o servi√ßo (`Yes` ou `No`).  

2. **Informa√ß√µes do Cliente** (`'customer'`)  
   - `'gender'`: G√™nero do cliente (`Male` ou `Female`).  
   - `'SeniorCitizen'`: Indica se o cliente √© idoso (0 = N√£o, 1 = Sim).  
   - `'Partner'`: Se o cliente tem um parceiro(a).  
   - `'Dependents'`: Se o cliente tem dependentes.  
   - `'tenure'`: Tempo de perman√™ncia como cliente (em meses).  

3. **Servi√ßos de Telefonia** (`'phone'`)  
   - `'PhoneService'`: Indica se o cliente possui servi√ßo de telefone (`Yes` ou `No`).  
   - `'MultipleLines'`: Se possui m√∫ltiplas linhas telef√¥nicas.  

4. **Servi√ßos de Internet** (`'internet'`)  
   - Tipo de servi√ßo de internet contratado (`DSL`, `Fiber optic`, `No`).  
   - Servi√ßos adicionais (`OnlineSecurity`, `OnlineBackup`, `DeviceProtection`, `TechSupport`, `StreamingTV`, `StreamingMovies`).  

5. **Informa√ß√µes da Conta** (`'account'`)  
   - `'Contract'`: Tipo de contrato (`Month-to-month`, `One year`, `Two year`).  
   - `'PaperlessBilling'`: Se o cliente recebe faturas eletr√¥nicas.  
   - `'PaymentMethod'`: M√©todo de pagamento (`Bank transfer`, `Credit card`, `Electronic check`, `Mailed check`).  
   - `'Charges'`:  
     - `'Monthly'`: Valor mensal cobrado.  
     - `'Total'`: Valor total pago pelo cliente.  



#üìå Extrac√£o

In [None]:
import requests
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/WBruni/analise-churn-telecom-x/refs/heads/main/TelecomX_Data.json'
response = requests.get(url)
data = response.json()
df = pd.DataFrame(data)
df.head()

In [None]:
df = pd.json_normalize(data)
df.head()

# üîß Transforma√ß√£o

In [None]:
df.info()

## üîç Verifica√ß√£o

In [None]:
for col in df.columns:
  print(f'{col}: {df[col].unique()}')
  if df[col].nunique() < 50:
    print(df[col].unique())
    print('-' * 50)

### 2. Valores Duplicados

In [None]:
print('N√∫mero de Valores Duplicados', df.duplicated().sum())

### 3. Valores Nulos

In [None]:
print('N√∫mero de Valores Nulos \n', df.isnull().sum())

### 4. Valores Vazios ou em Branco

In [None]:
df.apply(lambda x: x.astype(str).str.strip() == '').sum()

### 5. Lidando com Valores Vazios

In [None]:
df = df[df['Churn'].astype(str).str.strip() != '']
df = df[df['account.Charges.Total'].astype(str).str.strip() != '']

print(f'N√∫mero de linhas ap√≥s remo√ß√£o de valores vazios: {len(df)}')

# Verifique novamente os valores vazios para confirmar
print('\nVerifica√ß√£o de valores vazios/em branco ap√≥s a remo√ß√£o:')
display(df.apply(lambda x: x.astype(str).str.strip() == '').sum().to_frame(name='Qtd Valores Vazios'))

### 6. Convers√£o de `account.Charges.Total` para `float`

In [None]:
df['account.Charges.Total'] = pd.to_numeric(df['account.Charges.Total'])


print('Tipo de dado da coluna account.Charges.Total ap√≥s convers√£o:')
df.info()

# üîß Padroniza√ß√£o dos Dados

## (+) Coluna 'Contas Di√°rias'

In [None]:
df['contas_diarias'] = df['account.Charges.Monthly'] / 30.44     # 30.44 dias (m√©dia de dias no m√™s)
df.head()

## Padroniza√ß√£o Colunas

In [None]:
colunas = {                                                                # Dicion√°rio com os novos nomes das colunas.
    'customerID': 'id',
    'customer.gender': 'genero',
    'customer.SeniorCitizen': 'tem +60',
    'customer.Partner': 'possui_parceiro',
    'customer.Dependents': 'possui_dependentes',
    'customer.tenure': 'tempo_contrato',
    'phone.PhoneService': 'servico_telefone',
    'phone.MultipleLines': 'multiplas_linhas',
    'internet.InternetService': 'tipo_internet',
    'internet.OnlineSecurity': 'seguranca_online',
    'internet.OnlineBackup': 'backup_online',
    'internet.DeviceProtection': 'protecao_dispositivo',
    'internet.TechSupport': 'suporte_tecnico',
    'internet.StreamingTV': 'streaming_tv',
    'internet.StreamingMovies': 'streaming_filmes',
    'account.Contract': 'tipo_contrato',
    'account.PaperlessBilling': 'fatura_digital',
    'account.PaymentMethod': 'metodo_pagamento',
    'account.Charges.Monthly': 'valor_mensal',
    'account.Charges.Total': 'total_cobrado'
}

df = df.rename(columns= colunas)
df.head()

## Padroniza√ß√£o Linhas

In [None]:
df['Churn'] = df['Churn'].replace({'No': 'N√£o', 'Yes': 'Sim'})
df['genero'] = df['genero'].replace({'Female': 'Feminino', 'Male': 'Masculino'})

map_gen = {
    0: 'N√£o',
    1: 'Sim'
}

df['tem +60'] = df['tem +60'].map(map_gen)
df['possui_parceiro'] = df['possui_parceiro'].replace({'Yes': 'Sim', 'No': 'N√£o'})
df['possui_dependentes'] = df['possui_dependentes'].replace({'Yes': 'Sim', 'No': 'N√£o'})
df['servico_telefone'] = df['servico_telefone'].replace({'Yes': 'Sim', 'No': 'N√£o'})
df['multiplas_linhas'] = df['multiplas_linhas'].replace({'No': 'N√£o', 'Yes': 'Sim', 'No phone service': 'Sem servi√ßo de telefone'})
df['tipo_internet'] = df['tipo_internet'].replace({'Fiber optic': 'Fibra optica', 'No': 'N√£o'})
df.head()

In [None]:
columns_to_translate = ['seguranca_online', 'backup_online', 'protecao_dispositivo', 'suporte_tecnico',
                        'streaming_tv', 'streaming_filmes']
mapping = {'No': 'N√£o', 'Yes': 'Sim', 'No internet service': 'Sem Servi√ßo de Internet'}
for col in columns_to_translate:
    df[col] = df[col].replace(mapping)

In [None]:
df['tipo_contrato'] = df['tipo_contrato'].replace({'One year': 'Anual', 'Month-to-month': 'Mensal', 'Two year': 'Bienal'})

In [None]:
df['fatura_digital'] = df['fatura_digital'].replace({'Yes': 'Sim', 'No': 'N√£o'})

In [None]:
df['metodo_pagamento'] = df['metodo_pagamento'].replace({
    'Mailed check': 'Cheque Enviado',
    'Electronic check': 'Cheque eletr√¥nico',
    'Credit card (automatic)': 'Cart√£o de cr√©dito (autom√°tico)',
    'Bank transfer (automatic)': 'Transfer√™ncia banc√°ria (autom√°tica)'
})

In [None]:
df.head()

# üìä Carga e an√°lise

## 1. An√°lise Descritiva

In [None]:
df.describe()

## 2. Distribui√ß√£o de Evas√£o

In [None]:
import plotly.express as px

In [None]:
# @title
# Calculate counts and percentages for 'Churn'
churn_counts = df['Churn'].value_counts()
churn_percentages = (df['Churn'].value_counts(normalize=True) * 100).round(1)

# Create the histogram figure
fig = px.histogram(df, x='Churn', color='Churn')

# Update each trace with the correct count and percentage
for trace in fig.data:
    category = trace.x[0] # Get the category from the trace (e.g., 'N√£o' or 'Sim')
    count = churn_counts.get(category, 0)
    percentage = churn_percentages.get(category, 0.0)
    trace.text = [f"{count} ({percentage:.1f}%)"] # Set text for this trace
    trace.textposition = 'outside' # Position the text outside the bar
    trace.textfont = dict(color='black') # Set text color to black for better visibility

fig.update_layout(hoverlabel=dict(font_color="white"),
                  width=1000,
                  height=600,
                  title='Distribui√ß√£o de Churn (Perman√™ncia vs. Sa√≠da)',
                  title_font_size=20,
                  title_x=0.5,
                  xaxis_title='Churn',
                  xaxis=dict(title_font=dict(size=16)),
                  yaxis=dict(title_font=dict(size=16))
)

fig.show()

#### Observa√ß√£o:

*   **N√£o Churn**: Aproximadamente **73.4%** dos clientes permanecem com a Telecom X.
*   **Churn**: Cerca de **26.6%** dos clientes cancelam o servi√ßo, indicando uma taxa de evas√£o significativa que precisa de aten√ß√£o.

## 3. Contagem de Evas√£o por Vari√°veis Categ√≥ricas

In [None]:
df.columns

### An√°lise Demogr√°fica

In [None]:
# @title
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# 1. Ajuste de Espa√ßamento Interno (vertical_spacing e horizontal_spacing)
# Quanto menor o valor (ex: 0.05), maior o gr√°fico fica dentro da √°rea dispon√≠vel.
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=("G√™nero", "Tem +60 Anos", "Possui Parceiro", "Possui Dependentes"),
    vertical_spacing=0.08,   # Reduzi para os gr√°ficos ficarem mais altos
    horizontal_spacing=0.06  # Reduzi para os gr√°ficos ficarem mais largos
)

cores_map = {'N√£o': '#636EFA', 'Sim': '#EF553B'}
colunas = ['genero', 'tem +60', 'possui_parceiro', 'possui_dependentes']
posicoes = [(1, 1), (1, 2), (2, 1), (2, 2)]

for col, pos in zip(colunas, posicoes):
    counts = df.groupby([col, 'Churn']).size().reset_index(name='counts')
    counts = counts.sort_values('Churn')

    for status in counts['Churn'].unique():
        data_subset = counts[counts['Churn'] == status]
        fig.add_trace(
            go.Bar(
                name=f"{status}",
                x=data_subset[col],
                y=data_subset['counts'],
                marker_color=cores_map.get(status),
                text=data_subset['counts'],
                textposition='auto',
                texttemplate='%{text}',
                hovertemplate='Status: %{x}<br>Qtd: %{y}'
            ),
            row=pos[0], col=pos[1]
        )

# 2. Ajuste das Margens Externas (margin)
# Definir as margens (l, r, t, b) como valores baixos remove os espa√ßos em branco in√∫teis.
fig.update_layout(
    hoverlabel=dict(font_color="white"),
    height=600,
    width=1000,
    title_text="An√°lise Demogr√°fica: Impacto do Churn",
    title_font_size=20,
    title_x=0.5,
    showlegend=True,
    barmode='group',
    margin=dict(l=20, r=20, t=80, b=20), # l=left, r=right, t=top, b=bottom
    legend_title_text="Churn"
)

# Limpeza de legenda repetida
names = set()
fig.for_each_trace(
    lambda trace: trace.update(showlegend=False) if (trace.name in names) else names.add(trace.name)
)
fig.update_traces(textfont_color='white')

fig.show()

#### Observa√ß√£o:

*   **G√™nero**: N√£o h√° uma diferen√ßa not√°vel na taxa de churn entre clientes **Femininos** e **Masculinos**. A propor√ß√£o de churn √© similar para ambos os g√™neros.

*   **Clientes com + 60**: Apesar de representarem uma parcela menor da base de clientes, os clientes **+60** exibem uma **taxa de churn significativamente mais alta** em compara√ß√£o com os **Clientes com - 60.** Este grupo merece aten√ß√£o especial para estrat√©gias de reten√ß√£o.

*   **Possui Parceiro**: Clientes que **n√£o possuem parceiro** apresentam uma taxa de churn consideravelmente maior em compara√ß√£o com aqueles que **possuem parceiro**. Isso sugere que a presen√ßa de um parceiro pode indicar maior estabilidade e lealdade ao servi√ßo.

*   **Possui Dependentes**: Clientes que **n√£o possuem dependentes** apresentam uma taxa de churn mais alta em compara√ß√£o com aqueles que **possuem dependentes**. Isso √© consistente com a observa√ß√£o sobre parceiros, sugerindo que la√ßos familiares podem contribuir para uma maior lealdade ao servi√ßo.

### An√°lise Servi√ßos Infraestrutura

In [None]:
# @title
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# 1. Configurar as vari√°veis de Infraestrutura
colunas_infra = ['servico_telefone', 'multiplas_linhas', 'tipo_internet']

# 2. Criar a estrutura (2 linhas, 2 colunas)
# Usamos 'specs' para fazer o gr√°fico de baixo ocupar as duas colunas (colspan=2)
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=("Servi√ßo de Telefone", "M√∫ltiplas Linhas", "Tipo de Internet"),
    specs=[[{}, {}],           # Primeira linha: dois gr√°ficos normais
           [{"colspan": 2}, None]], # Segunda linha: um gr√°fico que ocupa 2 espa√ßos e um espa√ßo vazio (None)
    vertical_spacing=0.1,
    horizontal_spacing=0.06
)

cores_map = {'N√£o': '#636EFA', 'Sim': '#EF553B'}

# 3. Adicionar os gr√°ficos manualmente para garantir as posi√ß√µes
# Gr√°fico 1 (Posi√ß√£o 1,1)
for status in df['Churn'].unique():
    subset = df[df['Churn'] == status].groupby('servico_telefone').size().reset_index(name='counts')
    fig.add_trace(go.Bar(
        name=f"{status}", x=subset['servico_telefone'], y=subset['counts'],
        marker_color=cores_map.get(status), text=subset['counts'], textposition='auto',
        hovertemplate='Status: %{x}<br>Qtd: %{y}'
    ), row=1, col=1)

# Gr√°fico 2 (Posi√ß√£o 1,2)
for status in df['Churn'].unique():
    subset = df[df['Churn'] == status].groupby('multiplas_linhas').size().reset_index(name='counts')
    fig.add_trace(go.Bar(
        name=f"{status}", x=subset['multiplas_linhas'], y=subset['counts'],
        marker_color=cores_map.get(status), text=subset['counts'], textposition='auto',
        hovertemplate='Status: %{x}<br>Qtd: %{y}'
    ), row=1, col=2)

# Gr√°fico 3 (Posi√ß√£o 2,1 - mas com colspan=2 ele se expande)
for status in df['Churn'].unique():
    subset = df[df['Churn'] == status].groupby('tipo_internet').size().reset_index(name='counts')
    fig.add_trace(go.Bar(
        name=f"{status}", x=subset['tipo_internet'], y=subset['counts'],
        marker_color=cores_map.get(status), text=subset['counts'], textposition='auto',
        hovertemplate='Status: %{x}<br>Qtd: %{y}'
    ), row=2, col=1)

# 4. Ajustar o layout para maximizar o tamanho e manter o padr√£o Plotly
fig.update_layout(
    height=600,
    width=1000,
    title_text="An√°lise de Servi√ßos de Infraestrutura: Impacto do Churn",
    title_font_size=20,
    title_x=0.5,
    showlegend=True,
    barmode='group',
    margin=dict(l=30, r=30, t=100, b=40),
    legend_title_text="Churn"
)

# Limpeza da legenda repetida
names = set()
fig.for_each_trace(
    lambda trace: trace.update(showlegend=False) if (trace.name in names) else names.add(trace.name)
)

fig.show()

#### Observa√ß√£o:

*   **Servi√ßo de Telefone**: N√£o parece haver uma diferen√ßa significativa na taxa de churn entre clientes que possuem e n√£o possuem o servi√ßo de telefone. A propor√ß√£o de churn √© relativamente similar em ambos os grupos.

*   **M√∫ltiplas Linhas**: Clientes com m√∫ltiplas linhas (Sim) e sem m√∫ltiplas linhas (N√£o) apresentam taxas de churn similares. Clientes 'Sem servi√ßo de telefone' naturalmente possuem uma taxa de churn diferente, mas √© importante focar na compara√ß√£o entre 'Sim' e 'N√£o' para aqueles com o servi√ßo.

*   **Tipo de Internet**: Clientes com servi√ßo de **Fibra √ìptica** tendem a ter uma taxa de churn mais alta em compara√ß√£o com clientes que utilizam **DSL**. Clientes sem servi√ßo de internet ('N√£o') geralmente t√™m uma taxa de churn menor, o que pode indicar que esses clientes est√£o mais focados em outros servi√ßos oferecidos ou t√™m menos op√ß√µes de provedores de internet.

### An√°lise Servi√ßos Agregados

In [None]:
# @title
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# 1. Vari√°veis
servicos = [
    'seguranca_online', 'backup_online', 'protecao_dispositivo',
    'suporte_tecnico', 'streaming_tv', 'streaming_filmes'
]

fig = make_subplots(
    rows=3, cols=2,
    subplot_titles=("Seguran√ßa Online", "Backup Online", "Prote√ß√£o de Dispositivo",
                    "Suporte T√©cnico", "Streaming TV", "Streaming Filmes"),
    vertical_spacing=0.08,
    horizontal_spacing=0.06
)

cores_map = {'N√£o': '#636EFA', 'Sim': '#EF553B'}

# 2. Loop com limpeza profunda de strings
for i, col in enumerate(servicos):
    row = (i // 2) + 1
    col_pos = (i % 2) + 1

    # Criamos a c√≥pia e limpamos TUDO: espa√ßos extras e for√ßamos a troca
    df_temp = df.copy()

    # Converte para string e remove espa√ßos no in√≠cio/fim
    df_temp[col] = df_temp[col].astype(str).str.strip()

    # Mapeamento direto (ajuste o lado esquerdo se o seu texto for diferente)
    # Aqui cobrimos as vers√µes mais comuns do dataset da IBM/Kaggle
    mapeamento = {
        'Sem Servi√ßo de Internet': 'S/ Internet',

    }

    df_temp[col] = df_temp[col].replace(mapeamento)

    # Se ainda assim sobrar algo longo que contenha "internet", encurtamos via lambda
    df_temp[col] = df_temp[col].apply(lambda x: 'S/ Internet' if 'internet' in x.lower() else x)

    counts = df_temp.groupby([col, 'Churn']).size().reset_index(name='counts')
    counts = counts.sort_values('Churn')

    for status in counts['Churn'].unique():
        data_subset = counts[counts['Churn'] == status]

        fig.add_trace(
            go.Bar(
                name=f"{status}",
                x=data_subset[col],
                y=data_subset['counts'],
                marker_color=cores_map.get(status),
                text=data_subset['counts'],
                textposition='auto',
                texttemplate='%{text}',
                hovertemplate='Status: %{x}<br>Qtd: %{y}'
            ),
            row=row, col=col_pos
        )

# 3. Layout e Ajustes de Eixo
fig.update_layout(
    height=800,
    width=1000,
    title_text="An√°lise de Servi√ßos Agregados: Impacto do Churn",
    title_font_size=20,
    title_x=0.5,
    showlegend=True,
    barmode='group',
    margin=dict(l=30, r=30, t=100, b=40),
    legend_title_text="Churn"
)

# For√ßa o texto na horizontal
fig.update_xaxes(tickangle=0)

# Limpeza da legenda
names = set()
fig.for_each_trace(
    lambda trace: trace.update(showlegend=False) if (trace.name in names) else names.add(trace.name)
)

fig.show()

#### Observa√ß√£o:

*   **Seguran√ßa Online**: Clientes que n√£o utilizam o servi√ßo de seguran√ßa online ('N√£o') apresentam uma taxa de churn significativamente mais alta em compara√ß√£o com aqueles que o utilizam ('Sim') ou que n√£o possuem servi√ßo de internet.

*   **Backup Online**: Clientes que n√£o utilizam o servi√ßo de backup online ('N√£o') tendem a ter uma taxa de churn mais elevada em compara√ß√£o com aqueles que utilizam ('Sim') ou que n√£o possuem servi√ßo de internet. Isso sugere a import√¢ncia de servi√ßos adicionais na reten√ß√£o.

*   **Prote√ß√£o de Dispositivo**: Similar aos servi√ßos de seguran√ßa e backup online, clientes que **n√£o** possuem prote√ß√£o de dispositivo ('N√£o') tendem a apresentar uma taxa de churn mais elevada em compara√ß√£o com aqueles que utilizam o servi√ßo ('Sim') ou que n√£o possuem servi√ßo de internet.

*   **Suporte T√©cnico**: Clientes que n√£o utilizam o servi√ßo de suporte t√©cnico ('N√£o') apresentam uma taxa de churn significativamente mais alta em compara√ß√£o com aqueles que utilizam ('Sim') ou que n√£o possuem servi√ßo de internet. Isso refor√ßa a ideia de que servi√ßos adicionais de valor agregado s√£o importantes para a reten√ß√£o.

*   **Streaming TV**: Clientes que **n√£o** utilizam o servi√ßo de streaming de TV ('N√£o') apresentam uma taxa de churn mais alta em compara√ß√£o com aqueles que o utilizam ('Sim'). Clientes sem servi√ßo de internet tendem a ter uma taxa de churn menor, o que pode sugerir que o streaming de TV, quando presente, se torna um fator na decis√£o de churn.

*   **Streaming Filmes**: Similar ao Streaming TV, clientes que **n√£o** utilizam o servi√ßo de streaming de filmes ('N√£o') apresentam uma taxa de churn mais alta em compara√ß√£o com aqueles que o utilizam ('Sim'). Clientes sem servi√ßo de internet tendem a ter uma taxa de churn menor, sugerindo que o servi√ßo de streaming de filmes, quando presente, influencia a decis√£o de churn.

### An√°lise Contratual e Financeira

In [None]:
# @title
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# 1. Configurar as vari√°veis de Infraestrutura
colunas_infra = ['tipo_contrato', 'fatura_digital', 'metodo_pagamento']

# 2. Criar a estrutura (2 linhas, 2 colunas)
# Usamos 'specs' para fazer o gr√°fico de baixo ocupar as duas colunas (colspan=2)
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=("Tipo de Contrato", "Fatura Digital", "M√©todo de Pagamento"),
    specs=[[{}, {}],           # Primeira linha: dois gr√°ficos normais
           [{"colspan": 2}, None]], # Segunda linha: um gr√°fico que ocupa 2 espa√ßos e um espa√ßo vazio (None)
    vertical_spacing=0.1,
    horizontal_spacing=0.06
)

cores_map = {'N√£o': '#636EFA', 'Sim': '#EF553B'}

# 3. Adicionar os gr√°ficos manualmente para garantir as posi√ß√µes
# Gr√°fico 1 (Posi√ß√£o 1,1)
for status in df['Churn'].unique():
    subset = df[df['Churn'] == status].groupby('tipo_contrato').size().reset_index(name='counts')
    fig.add_trace(go.Bar(
        name=f"{status}", x=subset['tipo_contrato'], y=subset['counts'],
        marker_color=cores_map.get(status), text=subset['counts'], textposition='auto',
        hovertemplate='Status: %{x}<br>Qtd: %{y}'
    ), row=1, col=1)

# Gr√°fico 2 (Posi√ß√£o 1,2)
for status in df['Churn'].unique():
    subset = df[df['Churn'] == status].groupby('fatura_digital').size().reset_index(name='counts')
    fig.add_trace(go.Bar(
        name=f"{status}", x=subset['fatura_digital'], y=subset['counts'],
        marker_color=cores_map.get(status), text=subset['counts'], textposition='auto',
        hovertemplate='Status: %{x}<br>Qtd: %{y}'
    ), row=1, col=2)

# Gr√°fico 3 (Posi√ß√£o 2,1 - mas com colspan=2 ele se expande)
for status in df['Churn'].unique():
    subset = df[df['Churn'] == status].groupby('metodo_pagamento').size().reset_index(name='counts')
    fig.add_trace(go.Bar(
        name=f"{status}", x=subset['metodo_pagamento'], y=subset['counts'],
        marker_color=cores_map.get(status), text=subset['counts'], textposition='auto',
        hovertemplate='Status: %{x}<br>Qtd: %{y}'
    ), row=2, col=1)

# 4. Ajustar o layout para maximizar o tamanho e manter o padr√£o Plotly
fig.update_layout(
    height=600,
    width=1000,
    title_text="An√°lise Contratual e Financeira: Impacto do Churn",
    title_font_size=20,
    title_x=0.5,
    showlegend=True,
    barmode='group',
    margin=dict(l=30, r=30, t=100, b=40),
    legend_title_text="Churn"
)

# Limpeza da legenda repetida
names = set()
fig.for_each_trace(
    lambda trace: trace.update(showlegend=False) if (trace.name in names) else names.add(trace.name)
)

fig.show()

#### Observa√ß√£o:

*   **Tipo de Contrato**: Clientes com contrato **Mensal** apresentam uma taxa de churn drasticamente mais alta em compara√ß√£o com clientes com contratos **Anual** e **Bienal**. Contratos de longa dura√ß√£o ('Anual' e 'Bienal') demonstram maior lealdade, sendo o contrato 'Bienal' o que possui a menor taxa de evas√£o.

*   **Fatura Digital**: Clientes que optam pela **fatura digital ('Sim')** apresentam uma taxa de churn mais elevada em compara√ß√£o com aqueles que recebem a fatura impressa ('N√£o'). Isso pode indicar que a fatura digital, embora pr√°tica, pode estar associada a uma menor intera√ß√£o ou v√≠nculo com a empresa.

*   **M√©todo de Pagamento**: Clientes que utilizam o **Cheque eletr√¥nico** como m√©todo de pagamento apresentam uma taxa de churn significativamente mais alta em compara√ß√£o com outros m√©todos, como Cart√£o de cr√©dito (autom√°tico) e Transfer√™ncia banc√°ria (autom√°tica). Isso sugere que os clientes que preferem o cheque eletr√¥nico podem ter menos v√≠nculo com a empresa ou encontrar mais atrito no processo de pagamento, levando a uma maior propens√£o ao cancelamento.

## 4. Contagem de Evas√£o por Vari√°veis Num√©ricas

### An√°lise Tenure e Custos

In [None]:
# @title
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd

# 1. Garantir que as vari√°veis est√£o no formato correto
for col in ['tempo_contrato', 'valor_mensal']:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# 2. Criar a estrutura (2 linhas, 2 colunas)
fig = make_subplots(
    rows=2, cols=2, # Corrected: 2 rows for 2 variables, each with a histogram and boxplot
    subplot_titles=(
        "Distribui√ß√£o de Tenure (Meses)", "Boxplot de Tenure (Meses)",
        "Distribui√ß√£o de Valor Mensal ($)", "Boxplot de Valor Mensal ($)"
    ),
    horizontal_spacing=0.1,
    vertical_spacing=0.18
)

cores = {'N√£o': '#636EFA', 'Sim': '#EF553B'}
vars_num = ['tempo_contrato', 'valor_mensal']

# 3. Loop para preencher a grade
for i, col in enumerate(vars_num):
    row_index = i + 1 # row_index will be 1 for tempo_contrato, 2 for valor_mensal

    for status in ['N√£o', 'Sim']:
        # Histograma (Coluna 1)
        fig.add_trace(
            go.Histogram(
                x=df[df['Churn'] == status][col],
                name=f"{status}", # Keep the name for legend clarity
                marker_color=cores[status],
                opacity=0.7,
                showlegend=True if i == 0 else False, # Show legend only for the first variable
                hovertemplate=f"Churn: {status}<br>{col}: %{{x}}<br>Contagem: %{{y}}<extra></extra>"
            ), row=row_index, col=1
        )

        # Boxplot (Coluna 2)
        # Calculate min, max, mean for the current group and column
        data_for_boxplot = df[df['Churn'] == status][col].dropna()
        min_val = data_for_boxplot.min()
        max_val = data_for_boxplot.max()
        mean_val = data_for_boxplot.mean()

        fig.add_trace(
            go.Box(
                y=data_for_boxplot,
                name=f"{status}", # Keep the name for legend clarity
                marker_color=cores[status],
                boxmean=True,
                showlegend=False, # Don't show legend for boxplots (already shown by histograms)
                hovertemplate=f"Churn: {status}<br>{col}: %{{y}}<br>Min: {min_val:.2f}<br>Max: {max_val:.2f}<br>Mean: {mean_val:.2f}<extra></extra>"
            ), row=row_index, col=2
        )

# 4. Ajustes de Layout
fig.update_layout(
    height=600, # Adjusted height for better spacing
    width=1000,
    title_text="An√°lise de Tenure e Custos: Impacto do Churn",
    title_font_size=20,
    title_x=0.5,
    barmode='overlay',
    template='plotly',
    margin=dict(l=30, r=30, t=100, b=40),
    legend_title_text="Churn" # Added a title for the legend
)

# 5. Adicionar t√≠tulos aos eixos Y para cada subplot
fig.update_yaxes(title_text="Contagem de Clientes", row=1, col=1)
fig.update_yaxes(title_text="Tempo de Contrato (Meses)", row=1, col=2)
fig.update_yaxes(title_text="Contagem de Clientes", row=2, col=1)
fig.update_yaxes(title_text="Valor Mensal ($)", row=2, col=2)

# 6. Adicionar t√≠tulos aos eixos X para cada subplot (Histograms only, boxplot X-axis is categorical)
fig.update_xaxes(title_text="Tempo de Contrato (Meses)", row=1, col=1)
fig.update_xaxes(title_text="Valor Mensal ($)", row=2, col=1)


fig.show()

#### Observa√ß√£o:

*   **Tempo de Contrato (Tenure)**: Clientes com menos tempo de contrato t√™m uma taxa de Churn significativamente mais alta, enquanto a lealdade aumenta com a dura√ß√£o do contrato.

*   **Valor Mensal**: Clientes com valores mensais mais altos mostram maior propens√£o ao Churn, indicando que o custo percebido √© um fator cr√≠tico.

In [None]:
# @title
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd

# 1. Garantir que as vari√°veis est√£o no formato correto
for col in ['total_cobrado', 'contas_diarias']:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# 2. Criar a estrutura (2 linhas, 2 colunas)
fig = make_subplots(
    rows=2, cols=2, # Corrected: 2 rows for 2 variables, each with a histogram and boxplot
    subplot_titles=(
        "Distribui√ß√£o: Cobran√ßa Total ($)", "Estat√≠stica: Cobran√ßa Total ($)",
        "Distribui√ß√£o: Contas Di√°rias ($)", "Estat√≠stica: Contas Di√°rias($)"
    ),
    horizontal_spacing=0.1,
    vertical_spacing=0.18
)

cores = {'N√£o': '#636EFA', 'Sim': '#EF553B'}
vars_num = ['total_cobrado', 'contas_diarias']

# 3. Loop para preencher a grade
for i, col in enumerate(vars_num):
    row_index = i + 1 # row_index will be 1 for total_cobrado, 2 for contas_diarias

    for status in ['N√£o', 'Sim']:
        # Histograma (Coluna 1)
        fig.add_trace(
            go.Histogram(
                x=df[df['Churn'] == status][col],
                name=f"{status}", # Keep the name for legend clarity
                marker_color=cores[status],
                opacity=0.7,
                showlegend=True if i == 0 else False, # Show legend only for the first variable
                hovertemplate=f"Churn: {status}<br>{col}: %{{x}}<br>Contagem: %{{y}}<extra></extra>"
            ), row=row_index, col=1
        )

        # Boxplot (Coluna 2)
        fig.add_trace(
            go.Box(
                y=df[df['Churn'] == status][col],
                name=f"{status}", # Keep the name for legend clarity
                marker_color=cores[status],
                boxmean=True,
                showlegend=False, # Don't show legend for boxplots (already shown by histograms)
                hovertemplate=f"Churn: {status}<br>{col}: %{{y}}<extra></extra>"
            ), row=row_index, col=2
        )

# 4. Ajustes de Layout
fig.update_layout(
    height=600, # Adjusted height for better spacing
    width=1000,
    title_text="An√°lise de Tenure e Custos: Impacto do Churn",
    title_font_size=20,
    title_x=0.5,
    barmode='overlay',
    template='plotly',
    margin=dict(l=30, r=30, t=100, b=40),
    legend_title_text="Churn" # Added a title for the legend
)

# 5. Adicionar t√≠tulos aos eixos Y para cada subplot
fig.update_yaxes(title_text="Contagem de Clientes", row=1, col=1)
fig.update_yaxes(title_text="Cobran√ßa Total ($)", row=1, col=2)
fig.update_yaxes(title_text="Contagem de Clientes", row=2, col=1)
fig.update_yaxes(title_text="Valor Di√°rio ($)", row=2, col=2)

# 6. Adicionar t√≠tulos aos eixos X para cada subplot (Histograms only, boxplot X-axis is categorical)
fig.update_xaxes(title_text="Cobran√ßa Total ($)", row=1, col=1)
fig.update_xaxes(title_text="Valor Di√°rio ($)", row=2, col=1)
# For boxplots, the x-axis typically represents categories, which are implied by the plot structure, so no explicit numerical x-axis title needed.

fig.show()

#### Observa√ß√£o:

*   **Cobran√ßa Total**: Clientes com menor cobran√ßa total acumulada ('total_cobrado') apresentam maior taxa de Churn, indicando que clientes com menor hist√≥rico de gastos s√£o mais propensos a cancelar.

*   **Contas Di√°rias**: A taxa de Churn tende a aumentar com o valor das 'contas_diarias', sugerindo que um custo di√°rio percebido mais alto est√° associado a uma maior propens√£o √† evas√£o.

In [None]:
# @title
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd

# 1. Prepara√ß√£o e Transforma√ß√£o
df_plot = df.copy()
df_plot['Churn_Num'] = df_plot['Churn'].map({'Sim': 1, 'N√£o': 0})

# Criando as vari√°veis num√©ricas corretamente
df_plot['valor_mensal'] = pd.to_numeric(df_plot['valor_mensal'], errors='coerce')
df_plot['contas_diarias'] = df_plot['valor_mensal'] / 30.44
df_plot['total_cobrado'] = pd.to_numeric(df_plot['total_cobrado'], errors='coerce')
df_plot['tempo_contrato'] = pd.to_numeric(df_plot['tempo_contrato'], errors='coerce')

# 2. Fun√ß√£o para calcular taxa por faixas com Eixo X din√¢mico
def obter_taxa_por_faixa(df_f, coluna, bins=10):
    # Remove valores nulos para o c√°lculo de faixas
    df_limpo = df_f.dropna(subset=[coluna])
    # Cria as faixas baseadas nos valores REAIS da coluna
    df_limpo['faixa'] = pd.cut(df_limpo[coluna], bins=bins)
    # Calcula a m√©dia
    resumo = df_limpo.groupby('faixa', observed=True)['Churn_Num'].mean() * 100
    # Eixo X recebe o ponto m√©dio de cada intervalo real
    x_values = [intervalo.mid for intervalo in resumo.index]
    return x_values, resumo.values

# 3. Estrutura da Figura
fig_linhas = make_subplots(
    rows=2, cols=2,
    subplot_titles=(
        "Taxa de Churn por Tenure (Meses)", "Taxa de Churn por Valor Mensal ($)",
        "Taxa de Churn por Cobran√ßa Total ($)", "Taxa de Churn por Contas Di√°rias ($)"
    ),
    vertical_spacing=0.15,
    horizontal_spacing=0.06
)

vars_num = ['tempo_contrato', 'valor_mensal', 'total_cobrado', 'contas_diarias']

# 4. Loop de preenchimento
for i, col in enumerate(vars_num):
    row = (i // 2) + 1
    col_pos = (i % 2) + 1

    if col == 'tempo_contrato':
        resumo = df_plot.groupby(col)['Churn_Num'].mean() * 100
        x, y = resumo.index, resumo.values
    else:
        x, y = obter_taxa_por_faixa(df_plot, col)

    fig_linhas.add_trace(
        go.Scatter(
            x=x, y=y,
            mode='lines+markers',
            line=dict(color='#636EFA', width=2),
            marker=dict(size=5),
            hovertemplate="Valor: %{x:.2f}<br>Taxa: %{y:.2f}%<extra></extra>"
        ), row=row, col=col_pos
    )

# 5. Ajustes de Layout e Eixos Independentes
fig_linhas.update_layout(
    hoverlabel=dict(font_color="white"),
    height=800, width=1000,
    title_text="Tend√™ncia da Taxa de Churn: Tenure e Custos",
    title_font_size=20,
    title_x=0.5,
    template='plotly',
    showlegend=False,
    margin=dict(l=30, r=30, t=100, b=40)
)

# Aplicando configura√ß√µes de eixos
fig_linhas.update_yaxes(ticksuffix="%")
# Configurei para 'matches=None' para garantir que cada X tenha sua pr√≥pria escala
fig_linhas.update_xaxes(matches=None)

fig_linhas.show()

#### Observa√ß√£o:

A taxa de Churn est√° inversamente ligada ao tempo de contrato e ao valor total cobrado: clientes com menor tempo de perman√™ncia e menor gasto acumulado s√£o mais propensos a cancelar. Em contrapartida, o Churn tende a aumentar com o valor mensal e di√°rio percebido do servi√ßo, especialmente para valores mais altos.

# Extra: An√°lise de Correla√ß√£o entre Vari√°veis

In [None]:
df.info()

In [None]:
df_ml = df.copy()

## Transforma√ß√£o dos Dados

In [None]:
X = df_ml.drop(['id', 'Churn'], axis=1)
y = df_ml['Churn']

In [None]:
X.head()

In [None]:
y.head()

In [None]:
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder

In [None]:
colunas = X.columns

In [None]:
one_hot = make_column_transformer((
    OneHotEncoder(drop='if_binary'),
    ['genero', 'tem +60', 'possui_parceiro', 'possui_dependentes', 'servico_telefone',
     'multiplas_linhas', 'tipo_internet', 'seguranca_online', 'backup_online', 'protecao_dispositivo',
     'suporte_tecnico', 'streaming_tv', 'streaming_filmes', 'tipo_contrato', 'fatura_digital', 'metodo_pagamento']),
                                  remainder='passthrough',
                                  sparse_threshold=0)

In [None]:
X = one_hot.fit_transform(X)

In [None]:
one_hot.get_feature_names_out(colunas)

In [None]:
new_column_names = one_hot.get_feature_names_out(colunas)

def clean_column_name(col_name):
    if col_name.startswith('onehotencoder__'):
        return col_name.replace('onehotencoder__', '')
    elif col_name.startswith('remainder__'):
        return col_name.replace('remainder__', '')
    return col_name

cleaned_column_names = [clean_column_name(name) for name in new_column_names]
X_encoded = pd.DataFrame(X, columns=cleaned_column_names)
X_encoded.head()

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
label_encoder = LabelEncoder()

In [None]:
y = label_encoder.fit_transform(y)

In [None]:
y

## Correla√ß√£o dos Dados

In [None]:
# @title
df_encoded = X_encoded.copy()
df_encoded['Churn'] = y

# Calculate the correlation of all features with the 'Churn' variable
correlation_with_all = df_encoded.corr(numeric_only=True)['Churn'].sort_values(ascending=False)
print(correlation_with_all)

#### Observa√ß√£o:

*   A correla√ß√£o com a vari√°vel 'Churn' revela quais caracter√≠sticas t√™m maior impacto na evas√£o de clientes. Valores positivos indicam que, √† medida que a caracter√≠stica aumenta, o churn tamb√©m tende a aumentar. Valores negativos indicam o oposto.
*   Por exemplo, 'tempo_contrato' e 'total_cobrado' apresentam correla√ß√µes negativas, sugerindo que clientes com maior tempo de contrato e maior valor total pago s√£o menos propensos a cancelar. Em contraste, 'valor_mensal' e 'contas_diarias' t√™m correla√ß√µes positivas, indicando que custos mensais e di√°rios mais altos est√£o associados a maior churn.

In [None]:
# @title
df_encoded = X_encoded.copy()
df_encoded['Churn'] = y

# Calculate the correlation of all features with the 'Churn' variable
correlation_with_all = df_encoded.corr(numeric_only=True)['Churn'].sort_values(ascending=False)

# Obter Correla√ß√£o
feminino_correlation = -correlation_with_all.loc['genero_Masculino']
senior_correlation = -correlation_with_all.loc['tem +60_Sim']
parceiro_correlation = -correlation_with_all.loc['possui_parceiro_Sim']
dependente_correlation = correlation_with_all.loc['possui_dependentes_Sim']

# Filtrar as correla√ß√µes para as vari√°veis demogr√°ficas
service_correlations = pd.Series({
    'genero_Feminino': feminino_correlation,
    'genero_Masculino': correlation_with_all.loc['genero_Masculino'],
    'tem +60_Sim': correlation_with_all.loc['tem +60_Sim'],
    'tem +60_Nao': senior_correlation,
    'possui_parceiro_Sim': correlation_with_all.loc['possui_parceiro_Sim'],
    'possui_parceiro_Nao': parceiro_correlation,
    'possui_dependentes_Sim': correlation_with_all.loc['possui_dependentes_Sim'],
    'possui_dependentes_N√£o': dependente_correlation
})

# Renomear as chaves para melhor visualiza√ß√£o no gr√°fico
service_correlations = service_correlations.rename(index={
    'genero_Feminino': 'Feminino',
    'genero_Masculino': 'Masculino',
    'tem +60_Sim': 'Tem +60',
    'tem +60_Nao': 'Tem -60',
    'possui_parceiro_Sim': 'Parceiro(a)',
    'possui_parceiro_Nao': 'Solteiro(a)',
    'possui_dependentes_Sim': 'Dependentes',
    'possui_dependentes_N√£o': 'S/ Dependentes'

})

custom_rb_weaker_red = [
    [0.0, 'rgb(99, 102, 255)'],    # Azul escuro (como o RdBu_r para valores negativos)
    [0.5, 'rgb(210, 210, 210)'], # Branco (para valores pr√≥ximos de zero)
    [1.0, 'rgb(239, 85, 59)']  # Vermelho mais fraco (para valores positivos)
]


# Criar um DataFrame para o Plotly Express
df_service_corr = service_correlations.reset_index()
df_service_corr.columns = ['Vari√°veis Demogr√°ficas', 'Churn']

# Criar o gr√°fico de barras
fig = px.bar(df_service_corr, x='Vari√°veis Demogr√°ficas', y='Churn',
             title='Correla√ß√£o das Vari√°veis Demogr√°ficas com Churn',
             color='Churn', # Cores baseadas no valor da correla√ß√£o
             color_continuous_scale=custom_rb_weaker_red,
             range_color=[-0.3, 0.3],
             text_auto=".2f") # Adiciona o valor da correla√ß√£o nas barras

fig.update_layout(hoverlabel=dict(font_color="white"),
                  width=1000,
                  height=600,
                  title_font_size=20,
                  title_x=0.5)

# Mover as configura√ß√µes de fonte para os eixos
fig.update_xaxes(title_font=dict(size=16))
fig.update_yaxes(title_font=dict(size=16))

fig.update_yaxes(rangemode='tozero') # Come√ßar o eixo Y em zero

fig.show()

#### Observa√ß√£o Demogr√°fica (Correla√ß√£o com Churn):

*   **G√™nero**: A correla√ß√£o com o Churn √© quase nula, indicando que o g√™nero n√£o √© um fator significativo para a evas√£o de clientes.

*   **Clientes com + 60**: Apresentam uma correla√ß√£o positiva moderada com o Churn, sugerindo que clientes idosos t√™m maior propens√£o a cancelar.

*   **Possui Parceiro**: Ter um parceiro tem uma correla√ß√£o negativa moderada com o Churn, indicando que esses clientes s√£o menos propensos a evadir. Clientes sem parceiro mostram o oposto.

*   **Possui Dependentes**: Similar ao parceiro, ter dependentes tamb√©m tem uma correla√ß√£o negativa com o Churn, significando que clientes com dependentes s√£o mais leais.

In [None]:
# @title
# Obter Correla√ß√£o
servico_tel_correlation = -correlation_with_all.loc['servico_telefone_Sim']


# Filtrar as correla√ß√µes para as Servi√ßos Infraestrutura
service_correlations = pd.Series({
    'servico_telefone_Sim': correlation_with_all.loc['servico_telefone_Sim'],
    'servico_telefone_Nao': servico_tel_correlation,
    'multiplas_linhas_Sim': correlation_with_all.loc['multiplas_linhas_Sim'],
    'multiplas_linhas_N√£o': correlation_with_all.loc['multiplas_linhas_N√£o'],
    'multiplas_linhas_Sem servi√ßo de telefone': correlation_with_all.loc['multiplas_linhas_Sem servi√ßo de telefone'],
    'tipo_internet_N√£o': correlation_with_all.loc['tipo_internet_N√£o'],
    'tipo_internet_DSL': correlation_with_all.loc['tipo_internet_DSL'],
    'tipo_internet_Fibra optica': correlation_with_all.loc['tipo_internet_Fibra optica']

})

# Renomear as chaves para melhor visualiza√ß√£o no gr√°fico
service_correlations = service_correlations.rename(index={
    'servico_telefone_Sim': 'Servico telefone',
    'servico_telefone_Nao': 'S/ Servico telefone',
    'multiplas_linhas_Sim': 'Multi linhas',
    'multiplas_linhas_N√£o': 'S/ Multi linhas',
    'multiplas_linhas_Sem servi√ßo de telefone': 'Multi linhas S/ Servi√ßo',
    'tipo_internet_N√£o': 'S/ Internet',
    'tipo_internet_DSL': 'DSL',
    'tipo_internet_Fibra optica': 'Fibra Optica'

})

custom_rb_weaker_red = [
    [0.0, 'rgb(99, 102, 255)'],    # Azul escuro (como o RdBu_r para valores negativos)
    [0.5, 'rgb(210, 210, 210)'], # Branco (para valores pr√≥ximos de zero)
    [1.0, 'rgb(239, 85, 59)']  # Vermelho mais fraco (para valores positivos)
]


# Criar um DataFrame para o Plotly Express
df_service_corr = service_correlations.reset_index()
df_service_corr.columns = ['Servi√ßos Infraestrutura', 'Churn']

# Criar o gr√°fico de barras
fig = px.bar(df_service_corr, x='Servi√ßos Infraestrutura', y='Churn',
             title='Correla√ß√£o Servi√ßos de Infraestrutura com Churn',
             color='Churn', # Cores baseadas no valor da correla√ß√£o
             color_continuous_scale=custom_rb_weaker_red,
             range_color=[-0.3, 0.3], # Ajustar a escala de cores para melhor contraste
             text_auto=".2f") # Adiciona o valor da correla√ß√£o nas barras

fig.update_layout(hoverlabel=dict(font_color="white"),
                  width=1000,
                  height=600,
                  title_font_size=20,
                  title_x=0.5)

# Mover as configura√ß√µes de fonte para os eixos
fig.update_xaxes(title_font=dict(size=16))
fig.update_yaxes(title_font=dict(size=16))

fig.update_yaxes(rangemode='tozero') # Come√ßar o eixo Y em zero

fig.show()

#### Observa√ß√£o Servi√ßos de Infraestrutura (Correla√ß√£o com Churn):

*   **Servi√ßo de Telefone e M√∫ltiplas Linhas**: Ambos apresentam correla√ß√µes muito baixas com o Churn, indicando que a presen√ßa ou aus√™ncia desses servi√ßos tem pouco impacto na decis√£o de cancelamento do cliente.

*   **Tipo de Internet**: Clientes com servi√ßo de **Fibra √ìptica** mostram uma correla√ß√£o positiva moderada com o Churn, sugerindo que s√£o mais propensos a cancelar. Em contraste, clientes **sem servi√ßo de Internet** e com **DSL** t√™m correla√ß√µes negativas, indicando menor propens√£o √† evas√£o.

In [None]:
# @title
# Filtrar as correla√ß√µes para os servi√ßos com valor agregado
service_correlations = correlation_with_all.filter(items=[
    'seguranca_online_Sim',
    'backup_online_Sim',
    'protecao_dispositivo_Sim',
    'suporte_tecnico_Sim',
    'streaming_tv_Sim',
    'streaming_filmes_Sim'
])

# Renomear as chaves para melhor visualiza√ß√£o no gr√°fico
service_correlations = service_correlations.rename(index={
    'seguranca_online_Sim': 'Seguran√ßa Online',
    'backup_online_Sim': 'Backup Online',
    'protecao_dispositivo_Sim': 'Prote√ß√£o Dispositivo',
    'suporte_tecnico_Sim': 'Suporte T√©cnico',
    'streaming_tv_Sim': 'Streaming TV',
    'streaming_filmes_Sim': 'Streaming Filmes'
})

# Criar um DataFrame para o Plotly Express
df_service_corr = service_correlations.reset_index()
df_service_corr.columns = ['Servi√ßo Agregados', 'Churn']


custom_rb_weaker_red = [
    [0.0, 'rgb(99, 102, 255)'],    # Azul escuro (como o RdBu_r para valores negativos)
    [0.5, 'rgb(210, 210, 210)'], # Branco (para valores pr√≥ximos de zero)
    [1.0, 'rgb(239, 85, 59)']  # Vermelho mais fraco (para valores positivos)
]

# Criar o gr√°fico de barras
fig = px.bar(df_service_corr, x='Servi√ßo Agregados', y='Churn',
             title='Correla√ß√£o dos Servi√ßos Agregados com Churn',
             color='Churn', # Cores baseadas no valor da correla√ß√£o
             color_continuous_scale=custom_rb_weaker_red,
             range_color=[-0.3, 0.3], # Ajustar a escala de cores para melhor contraste
             text_auto=".2f") # Adiciona o valor da correla√ß√£o nas barras

fig.update_layout(hoverlabel=dict(font_color="white"),
                  width=1000,
                  height=600,
                  title_font_size=20,
                  title_x=0.5)

fig.update_yaxes(rangemode='tozero') # Come√ßar o eixo Y em zero

fig.show()

#### Observa√ß√£o Servi√ßos Agregados (Correla√ß√£o com Churn):

*   **Servi√ßos com correla√ß√£o negativa (menos Churn)**: A presen√ßa de servi√ßos como **Seguran√ßa Online**, **Suporte T√©cnico**, **Backup Online** e **Prote√ß√£o de Dispositivo** tem correla√ß√£o negativa com o Churn, indicando que clientes com esses servi√ßos s√£o menos propensos a cancelar. Isso sugere que esses adicionais aumentam a satisfa√ß√£o e lealdade.

*   **Servi√ßos com correla√ß√£o positiva (mais Churn)**: A presen√ßa de **Streaming TV** e **Streaming Filmes** apresenta uma correla√ß√£o positiva, embora mais fraca. Isso pode indicar que, para clientes que valorizam esses servi√ßos, a expectativa √© maior, e qualquer insatisfa√ß√£o pode levar ao Churn.

In [None]:
# @title
# Filtrar as correla√ß√µes para a aus√™ncia de servi√ßos com valor agregado
absence_service_correlations = correlation_with_all.filter(items=[
    'seguranca_online_N√£o',
    'seguranca_online_Sem Servi√ßo de Internet',
    'backup_online_N√£o',
    'backup_online_Sem Servi√ßo de Internet',
    'protecao_dispositivo_N√£o',
    'protecao_dispositivo_Sem Servi√ßo de Internet',
    'suporte_tecnico_N√£o',
    'suporte_tecnico_Sem Servi√ßo de Internet',
    'streaming_tv_N√£o',
    'streaming_tv_Sem Servi√ßo de Internet',
    'streaming_filmes_N√£o',
    'streaming_filmes_Sem Servi√ßo de Internet'
])

# Renomear as chaves para melhor visualiza√ß√£o no gr√°fico
absence_service_correlations = absence_service_correlations.rename(index={
    'seguranca_online_N√£o': 'Sem Seguran√ßa Online',
    'seguranca_online_Sem Servi√ßo de Internet': 'Seguran√ßa Online<br> S/ Internet',
    'backup_online_N√£o': 'Sem Backup Online',
    'backup_online_Sem Servi√ßo de Internet': 'Backup Online<br> S/ Internet',
    'protecao_dispositivo_N√£o': 'Sem Prote√ß√£o Dispositivo',
    'protecao_dispositivo_Sem Servi√ßo de Internet': 'Prote√ß√£o Dispositivo<br> S/ Internet',
    'suporte_tecnico_N√£o': 'Sem Suporte T√©cnico',
    'suporte_tecnico_Sem Servi√ßo de Internet': 'Suporte T√©cnico<br> S/ Internet',
    'streaming_tv_N√£o': 'Sem Streaming TV',
    'streaming_tv_Sem Servi√ßo de Internet': 'Streaming TV<br> S/ Internet',
    'streaming_filmes_N√£o': 'Sem Streaming Filmes',
    'streaming_filmes_Sem Servi√ßo de Internet': 'Streaming Filmes<br> S/ Internet'
})

# Criar um DataFrame para o Plotly Express
df_absence_service_corr = absence_service_correlations.reset_index()
df_absence_service_corr.columns = ['Aus√™ncia Servi√ßos Agregados', 'Churn']


custom_rb_weaker_red = [
    [0.0, 'rgb(99, 102, 255)'],    # Azul escuro (como o RdBu_r para valores negativos)
    [0.5, 'rgb(210, 210, 210)'], # Branco (para valores pr√≥ximos de zero)
    [1.0, 'rgb(239, 85, 59)']  # Vermelho mais fraco (para valores positivos)
]

# Criar o gr√°fico de barras
fig = px.bar(df_absence_service_corr, x='Aus√™ncia Servi√ßos Agregados', y='Churn',
             title='Correla√ß√£o da Aus√™ncia de Servi√ßos Agregados com Churn',
             color='Churn', # Cores baseadas no valor da correla√ß√£o
             color_continuous_scale=custom_rb_weaker_red,
             range_color=[-0.3, 0.3], # Ajustar a escala de cores para melhor contraste
             text_auto=".2f") # Adiciona o valor da correla√ß√£o nas barras


fig.update_layout(hoverlabel=dict(font_color="white"),
                  title_font_size=20,
                  width=1000,
                  height=600,
                  title_x=0.5,
                  )

fig.update_yaxes(rangemode='tozero') # Come√ßar o eixo Y em zero

fig.show()

#### Observa√ß√£o Aus√™ncia de Servi√ßos Agregados (Correla√ß√£o com Churn):

*   **Servi√ßos com correla√ß√£o positiva (mais Churn)**: A aus√™ncia de servi√ßos como **Seguran√ßa Online**, **Suporte T√©cnico**, **Backup Online** e **Prote√ß√£o de Dispositivo** tem uma correla√ß√£o positiva forte com o Churn, indicando que clientes sem esses servi√ßos s√£o mais propensos a cancelar. Isso sugere que a falta desses adicionais leva a uma menor satisfa√ß√£o e maior evas√£o.

*   **Servi√ßos de Streaming (Sem Streaming TV / Sem Streaming Filmes)**: A aus√™ncia de servi√ßos de streaming tamb√©m apresenta correla√ß√£o positiva com o Churn, embora mais fraca. Isso pode indicar que, para alguns clientes, a falta desses servi√ßos pode ser um fator na decis√£o de churn.

In [None]:
# @title
# Obter Correla√ß√£o
fatura_digital_correlation = -correlation_with_all.loc['fatura_digital_Sim']


# Filtrar as correla√ß√µes para as Servi√ßos Infraestrutura
service_correlations = pd.Series({
    'tipo_contrato_Mensal': correlation_with_all.loc['tipo_contrato_Mensal'],
    'tipo_contrato_Anual': correlation_with_all.loc['tipo_contrato_Anual'],
    'tipo_contrato_Bienal': correlation_with_all.loc['tipo_contrato_Bienal'],
    'fatura_digital_Sim': correlation_with_all.loc['fatura_digital_Sim'],
    'fatura_digital_N√£o': fatura_digital_correlation,
    'metodo_pagamento_Cheque eletr√¥nico': correlation_with_all.loc['metodo_pagamento_Cheque eletr√¥nico'],
    'metodo_pagamento_Cheque Enviado': correlation_with_all.loc['metodo_pagamento_Cheque Enviado'],
    'metodo_pagamento_Transfer√™ncia banc√°ria (autom√°tica)': correlation_with_all.loc['metodo_pagamento_Transfer√™ncia banc√°ria (autom√°tica)'],
    'metodo_pagamento_Cart√£o de cr√©dito (autom√°tico)': correlation_with_all.loc['metodo_pagamento_Cart√£o de cr√©dito (autom√°tico)']

})

# Renomear as chaves para melhor visualiza√ß√£o no gr√°fico
service_correlations = service_correlations.rename(index={
    'tipo_contrato_Mensal': 'Contrato Mensal',
    'tipo_contrato_Anual': 'Contrato Anual',
    'tipo_contrato_Bienal': 'Contrato Bienal',
    'fatura_digital_Sim': 'Fatura Digital',
    'fatura_digital_N√£o': 'S/ Fatura Digital',
    'metodo_pagamento_Cheque eletr√¥nico': 'Cheque eletr√¥nico',
    'metodo_pagamento_Cheque Enviado': 'Cheque Enviado',
    'metodo_pagamento_Transfer√™ncia banc√°ria (autom√°tica)': 'Transfer√™ncia banc√°ria <br> (autom√°tica)',
    'metodo_pagamento_Cart√£o de cr√©dito (autom√°tico)':'Cart√£o de cr√©dito <br> (autom√°tico)'

})

custom_rb_weaker_red = [
    [0.0, 'rgb(99, 102, 255)'],    # Azul escuro (como o RdBu_r para valores negativos)
    [0.5, 'rgb(210, 210, 210)'], # Branco (para valores pr√≥ximos de zero)
    [1.0, 'rgb(239, 85, 59)']  # Vermelho mais fraco (para valores positivos)
]


# Criar um DataFrame para o Plotly Express
df_service_corr = service_correlations.reset_index()
df_service_corr.columns = ['Vari√°veis Contratual/Financeira', 'Churn']

# Criar o gr√°fico de barras
fig = px.bar(df_service_corr, x='Vari√°veis Contratual/Financeira', y='Churn',
             title='Correla√ß√£o Vari√°veis Contratual/Financeira com Churn',
             color='Churn', # Cores baseadas no valor da correla√ß√£o
             color_continuous_scale=custom_rb_weaker_red,
             range_color=[-0.3, 0.3], # Ajustar a escala de cores para melhor contraste
             text_auto=".2f") # Adiciona o valor da correla√ß√£o nas barras


fig.update_layout(hoverlabel=dict(font_color="white"),
                  width=1000,
                  height=600,
                  title_font_size=20,
                  title_x=0.5)

# Mover as configura√ß√µes de fonte para os eixos
fig.update_xaxes(title_font=dict(size=16))
fig.update_yaxes(title_font=dict(size=16))

fig.update_yaxes(rangemode='tozero') # Come√ßar o eixo Y em zero

fig.show()

#### Observa√ß√£o Vari√°veis Contratual/Financeira (Correla√ß√£o com Churn):

*   **Tipo de Contrato**: Clientes com contrato **Mensal** apresentam uma correla√ß√£o positiva forte com o Churn, indicando alta propens√£o a cancelar. Contratos **Anual** e **Bienal** t√™m correla√ß√µes negativas, mostrando maior lealdade com contratos de longa dura√ß√£o.

*   **Fatura Digital**: Clientes que optam pela **fatura digital** t√™m correla√ß√£o positiva com o Churn, sugerindo que podem ser mais propensos a cancelar do que aqueles com fatura impressa.

*   **M√©todo de Pagamento**: O **Cheque eletr√¥nico** tem uma correla√ß√£o positiva significativa com o Churn, indicando que clientes que utilizam esse m√©todo s√£o mais propensos a cancelar. Outros m√©todos de pagamento (Cart√£o de cr√©dito, Transfer√™ncia banc√°ria) apresentam correla√ß√µes negativas, associadas a menor Churn.

In [None]:
# @title
import plotly.express as px

# 1. Calcular a matriz de correla√ß√£o
# Certifique-se de que o nome da coluna de Churn est√° correto (ex: 'Churn' ou 'Churn_Num')
cols_num = ['Churn', 'tempo_contrato', 'valor_mensal', 'total_cobrado', 'contas_diarias']
matriz_corr = df_encoded[cols_num].corr()

custom_rb_weaker_red = [
    [0.0, 'rgb(99, 102, 255)'],    # Azul escuro (como o RdBu_r para valores negativos)
    [0.5, 'rgb(232, 232, 232)'], # Branco (para valores pr√≥ximos de zero)
    [1.0, 'rgb(239, 85, 59)']  # Vermelho mais fraco (para valores positivos)
]

# 2. Criar o Heatmap
fig_heat = px.imshow(
    matriz_corr,
    text_auto='.2f',
    aspect="auto",
    color_continuous_scale=custom_rb_weaker_red,
    zmin=-1, zmax=1,
    title="Matriz de Correla√ß√£o: Vari√°veis Num√©ricas vs Churn",
    labels=dict(color="Churn")
)

fig_heat.update_layout(width=1000, height=600,title_font_size=20,
    title_x=0.5)
fig_heat.show()

#### Observa√ß√£o Matriz de Correla√ß√£o (Vari√°veis Num√©ricas vs Churn):

*   **Tempo de Contrato (Tenure)**: Apresenta uma correla√ß√£o negativa moderada com o Churn, indicando que quanto mais tempo o cliente permanece, menor a probabilidade de churn. Al√©m disso, tem uma forte correla√ß√£o positiva com 'total_cobrado', o que √© esperado, j√° que clientes com mais tempo de casa acumulam mais cobran√ßas totais.

*   **Valor Mensal (Monthly Charges)**: Possui uma correla√ß√£o positiva baixa com o Churn, sugerindo que valores mensais mais altos est√£o ligeiramente associados a uma maior propens√£o ao cancelamento. Tamb√©m tem uma correla√ß√£o positiva com 'total_cobrado' e 'contas_diarias'.

*   **Total Cobrado (Total Charges)**: Mostra uma correla√ß√£o negativa baixa com o Churn, indicando que clientes que pagaram mais no total s√£o menos propensos a cancelar. Isso √© consistente com a correla√ß√£o de 'tempo_contrato'.

*   **Contas Di√°rias (Daily Charges)**: Tem uma correla√ß√£o positiva baixa com o Churn, similar ao 'valor_mensal', sugerindo que um custo di√°rio percebido mais alto pode contribuir para a evas√£o.

In [None]:
# @title
# Filtrar as correla√ß√µes para as Servi√ßos Infraestrutura
service_correlations = pd.Series({
    'tempo_contrato': correlation_with_all.loc['tempo_contrato'],
    'valor_mensal': correlation_with_all.loc['valor_mensal'],
    'total_cobrado': correlation_with_all.loc['total_cobrado'],
    'contas_diarias': correlation_with_all.loc['contas_diarias']
})

# Renomear as chaves para melhor visualiza√ß√£o no gr√°fico
service_correlations = service_correlations.rename(index={
    'tempo_contrato': 'Tempo de Contrato (Tenure)',
    'valor_mensal': 'Valor Mensal',
    'total_cobrado': 'Cobran√ßa Total',
    'contas_diarias': 'Contas Di√°rias'

})

custom_rb_weaker_red = [
    [0.0, 'rgb(99, 102, 255)'],    # Azul escuro (como o RdBu_r para valores negativos)
    [0.5, 'rgb(210, 210, 210)'], # Branco (para valores pr√≥ximos de zero)
    [1.0, 'rgb(239, 85, 59)']  # Vermelho mais fraco (para valores positivos)
]


# Criar um DataFrame para o Plotly Express
df_service_corr = service_correlations.reset_index()
df_service_corr.columns = ['An√°lise Tenure/custos', 'Churn']

# Criar o gr√°fico de barras
fig = px.bar(df_service_corr, x='An√°lise Tenure/custos', y='Churn',
             title='Correla√ß√£o An√°lise Tenure/Custos com Churn',
             color='Churn', # Cores baseadas no valor da correla√ß√£o
             color_continuous_scale=custom_rb_weaker_red,
             range_color=[-0.3, 0.3], # Ajustar a escala de cores para melhor contraste
             text_auto=".2f") # Adiciona o valor da correla√ß√£o nas barras

fig.update_layout(hoverlabel=dict(font_color="white"),
                  width=1000,
                  height=600,
                  title_font_size=20,
                  title_x=0.5)

# Mover as configura√ß√µes de fonte para os eixos
fig.update_xaxes(title_font=dict(size=16))
fig.update_yaxes(title_font=dict(size=16))

fig.update_yaxes(rangemode='tozero') # Come√ßar o eixo Y em zero

fig.show()

#### Observa√ß√£o An√°lise Tenure/Custos (Correla√ß√£o com Churn):

*   **Tempo de Contrato (Tenure)**: Possui uma correla√ß√£o negativa significativa com o Churn, indicando que quanto mais tempo o cliente permanece, menor a probabilidade de cancelar o servi√ßo.

*   **Valor Mensal (Monthly Charges)**: Apresenta uma correla√ß√£o positiva moderada com o Churn, sugerindo que valores mensais mais altos est√£o associados a uma maior propens√£o √† evas√£o.

*   **Total Cobrado (Total Charges)**: Mostra uma correla√ß√£o negativa com o Churn, o que significa que clientes que acumularam um valor total maior de cobran√ßas s√£o menos propensos a cancelar, refor√ßando a lealdade de longo prazo.

*   **Contas Di√°rias (Daily Charges)**: Tem uma correla√ß√£o positiva com o Churn, similar ao valor mensal, indicando que um custo di√°rio percebido mais alto pode ser um fator para o cancelamento.

In [None]:
# @title
from plotly.subplots import make_subplots
import plotly.graph_objects as go

fig_scatter = make_subplots(
    rows=1, cols=3,
    subplot_titles=("Mensal ($)", "Total ($)", "Di√°rio ($)"),
    horizontal_spacing=0.06
)

vars_financeiras = ['valor_mensal', 'total_cobrado', 'contas_diarias']

for i, col in enumerate(vars_financeiras):
    for status, label, cor in zip([0, 1], ['N√£o', 'Sim'], ['#636EFA', '#EF553B']):
        mask = df_encoded['Churn'] == status

        # USANDO SCATTERGL PARA PERFORMANCE
        fig_scatter.add_trace(
            go.Scattergl(
                x=df_encoded[mask]['tempo_contrato'],
                y=df_encoded[mask][col],
                mode='markers',
                name=label if i == 0 else "",
                marker=dict(color=cor, opacity=0.3, size=4),
                showlegend=(i == 0)
            ), row=1, col=i+1
        )

fig_scatter.update_layout(height=500, width=1000, title_text="Dispers√£o: Tempo de Contrato (Tenure) vs M√©tricas de Custo",   title_font_size=20, title_x=0.5, template="plotly", legend_title_text="Churn")
fig_scatter.show()

#### Observa√ß√£o Gr√°fico de Dispers√£o (Tenure vs Custos):

*   **Churn em Clientes de Curto Prazo e Alto Custo Mensal**: Observa-se uma alta concentra√ß√£o de churn ('Sim', em vermelho/laranja) entre clientes com baixo 'tempo_contrato' (poucos meses) e 'valor_mensal' elevado. Isso refor√ßa a ideia de que novos clientes que j√° enfrentam custos mensais altos s√£o mais propensos a cancelar.

*   **Churn e Total Cobrado**: O churn √© mais evidente em clientes com baixo 'tempo_contrato' e 'total_cobrado' baixo. √Ä medida que o 'total_cobrado' aumenta, a presen√ßa de churn diminui, indicando que clientes com um hist√≥rico financeiro mais longo e consolidado s√£o mais leais.

*   **Tenure e Estabilidade**: Clientes com 'tempo_contrato' mais longo tendem a ter menos churn, independentemente do 'valor_mensal' ou 'total_cobrado', sugerindo que a perman√™ncia prolongada est√° associada √† satisfa√ß√£o e estabilidade do cliente.

*   **Rela√ß√£o Custo-Churn**: Os gr√°ficos de 'valor_mensal' e 'contas_diarias' mostram que, em geral, quanto maior o custo do servi√ßo (seja mensal ou di√°rio), maior a dispers√£o de clientes com churn, especialmente nos est√°gios iniciais do contrato.

In [None]:
from IPython.display import HTML

HTML("""
<style>
    /* VARI√ÅVEIS DE CORES DIN√ÇMICAS PARA O JUPYTER LAB */
    :root {
        --cor-titulo: #3498db;
        --cor-texto: var(--jp-content-font-color1); /* Cor principal do tema */
        --cor-bg-box: #f1f7fc;
    }

    [data-jp-theme-light="false"] :root {
        --cor-titulo: #5dade2;
        --cor-bg-box: #1c2a35;
    }

    /* ESTILO DO TEXTO E T√çTULOS */
    .jp-RenderedMarkdown p, .jp-RenderedMarkdown li {
        font-size: 18px !important;
        color: var(--cor-texto) !important;
    }
    .jp-RenderedMarkdown h1 {
        font-size: 34px !important;
        color: var(--cor-titulo) !important;
        border-bottom: 2px solid var(--cor-titulo);
    }
    .jp-RenderedMarkdown h2 { color: var(--cor-titulo) !important; }

    /* CAIXA DE AN√ÅLISE (SUBSTITUTO DO >) */
    .analise-box {
        font-style: italic !important;
        border-left: 6px solid var(--cor-titulo) !important;
        background-color: var(--cor-bg-box) !important;
        color: var(--cor-texto) !important;
        padding: 15px !important;
        margin: 20px 0 !important;
        font-size: 18px !important;
        display: block !important;
    }
    .analise-box strong { color: var(--cor-titulo) !important; }

    /* ZOOM DIRECIONAL */
    .jp-RenderedMarkdown img.zoom-right, .jp-RenderedMarkdown img.zoom-left {
        transition: all 0.4s ease-in-out !important;
        position: relative !important;
        z-index: 1 !important;
        cursor: zoom-in !important;
    }
    .jp-RenderedMarkdown img.zoom-right:hover { transform: scale(1.8) !important; transform-origin: left center !important; z-index: 9999 !important; box-shadow: 0 10px 30px rgba(0,0,0,0.5) !important; }
    .jp-RenderedMarkdown img.zoom-left:hover { transform: scale(1.8) !important; transform-origin: right center !important; z-index: 9999 !important; box-shadow: 0 10px 30px rgba(0,0,0,0.5) !important; }

    /* AJUSTES DE CONTAINER */
    .jp-RenderedMarkdown, .jp-Cell-outputWrapper { overflow: visible !important; }
    .jp-RenderedMarkdown table { display: table !important; width: 100% !important; overflow: visible !important; }
</style>
""")

# üìà Relat√≥rio Final: An√°lise de Churn Telecom X

Este relat√≥rio apresenta as principais descobertas da an√°lise de `Churn` (evas√£o de clientes) da Telecom X. O objetivo √© identificar os fatores que contribuem para o cancelamento de servi√ßos e fornecer insights acion√°veis para estrat√©gias de reten√ß√£o e aumento do LTV (Lifetime Value).

---

## 1. Vis√£o Geral da Distribui√ß√£o de Churn

### 1.1 Panorama da Base
Este gr√°fico estabelece a linha de base do projeto, mostrando a divis√£o entre clientes retidos e cancelados.

<br/>
<img src="images/Distribuicao_Churn.png" width="100%">

> **An√°lise:**
> * **Reten√ß√£o (N√£o Churn)**: A maioria dos clientes (**73,4%**) permanece na base.
> * **Evas√£o (Churn)**: A taxa de **26,6%** √© expressiva, indicando que aproximadamente um em cada quatro clientes cancela o servi√ßo, demandando estrat√©gias urgentes de reten√ß√£o.

---

## 2. Fatores-Chave Influenciadores do Churn (Vari√°veis Categ√≥ricas)

### 2.1 An√°lise Demogr√°fica

| Perfil Demogr√°fico | Correla√ß√£o Perfil Demogr√°fico |
| :---: | :---: |
| <img src="images/Analise_Demografica.png" class="zoom-right" width="100%"/> | <img src="images/Corr_Variavel_Demogr√°fica.png" class="zoom-left" width="100%"/> |

> **An√°lise:**
> * **G√™nero:** Impacto **nulo**. A evas√£o √© id√™ntica entre homens e mulheres, o que permite campanhas de reten√ß√£o unificadas.
> * **Idosos (60+):** Grupo de **alto risco**. Apresentam maior propens√£o ao `Churn` (correla√ß√£o positiva moderada), sendo um p√∫blico que exige aten√ß√£o especial.
> * **V√≠nculos Familiares:** Ter parceiros ou dependentes funciona como uma **barreira de sa√≠da**. Clientes solteiros e sem dependentes possuem menor lealdade e evadem com mais facilidade.

### 2.2 An√°lise Servi√ßos Infraestrutura

| Servi√ßos Infraestrutura | Correla√ß√£o Servi√ßos Infraestrutura |
| :---: | :---: |
| <img src="images/Servicos_Infra.png" class="zoom-right" width="100%"/> | <img src="images/Corr_Servicos_Infra.png" class="zoom-left" width="100%"/> |

> **An√°lise:**
> * **Telefonia:** Impacto **m√≠nimo**. Ter uma ou m√∫ltiplas linhas n√£o influencia significativamente a decis√£o de cancelamento.
> * **Internet de Fibra √ìptica:** Ponto cr√≠tico de **aten√ß√£o**. Clientes com Fibra apresentam a maior propens√£o ao `Churn`. Isso pode indicar insatisfa√ß√£o com pre√ßos ou que este p√∫blico √© mais visado por ofertas agressivas da concorr√™ncia.
> * **DSL e Sem Internet:** Grupos de **maior estabilidade**. Clientes que utilizam DSL ou que n√£o possuem servi√ßo de internet tendem a ser mais leais.

### 2.3 An√°lise Servi√ßos Agregados

<br/>
<img src="images/Servicos_Agregados.png" width="100%">

> **An√°lise:**
> * **Servi√ßos de Utilidade (Seguran√ßa, Backup e Suporte):** O impacto na reten√ß√£o √© **alt√≠ssimo**. Clientes que **N√ÉO** assinam esses servi√ßos apresentam taxas de `Churn` superiores; esses produtos funcionam como "√¢ncoras" de fidelidade.
> * **Servi√ßos de Entretenimento (Streaming):** Tamb√©m auxiliam na reten√ß√£o, mas seu efeito √© inferior aos servi√ßos de seguran√ßa e suporte t√©cnico.

### 2.4 Correla√ß√£o Servi√ßos Agregados

| Servi√ßos Agregados | Aus√™ncia Servi√ßos Agregados |
| :---: | :---: |
| <img src="images/Corr_Servicos_Agregados.png" class="zoom-right" width="100%"/> | <img src="images/Corr_Ausencia_Servicos.png" class="zoom-left" width="100%"/> |

> **An√°lise:**
> * **Barreiras de Reten√ß√£o:** Existe uma forte **correla√ß√£o negativa** entre a presen√ßa de servi√ßos como Seguran√ßa Online e Suporte T√©cnico com o `Churn`.
> * **O Paradoxo do Streaming:** O uso de Streaming mostra uma correla√ß√£o que sugere um perfil de usu√°rio mais exigente: se o servi√ßo n√£o superar as expectativas ou o custo aumentar, eles tendem a trocar de provedor com facilidade.

### 2.5 An√°lise Contratual e Financeira

| An√°lise Contratual / Financeira | Correla√ß√£o Contratual / Financeira |
| :---: | :---: |
| <img src="images/Analise_Contratual_Fianceira.png" class="zoom-right" width="100%"/> | <img src="images/Corr_Contratual_Fianceira.png"   class="zoom-left" width="100%"/> |

> **An√°lise T√©cnica:** > * **Tipo de Contrato:** O maior preditor de evas√£o. Contratos **Mensais** possuem correla√ß√£o positiva dr√°stica com o `Churn`, enquanto contratos **Bienais** garantem a maior lealdade.
> * **M√©todo de Pagamento:** O **Cheque Eletr√¥nico** √© um ponto cr√≠tico de reten√ß√£o. M√©todos **Autom√°ticos** (Cart√£o e Transfer√™ncia) favorecem a perman√™ncia por reduzirem o atrito financeiro.
> * **Fatura Digital:** Clientes com fatura digital tendem a sair mais. Isso sugere que este perfil de cliente √© mais digitalizado e √°gil para realizar cancelamentos ou comparar ofertas online.

---

## 3. Fatores-Chave Influenciadores do Churn (Vari√°veis Num√©ricas)

### 3.1 An√°lise Tenure e Custos

| Tenure - Valor Mensal | Cobran√ßa Total - Contas Di√°rias |
| :---: | :---: |
| <img src="images/Analise_Tenure_Custos_1.png" class="zoom-right" width="100%"/> | <img src="images/Analise_Tenure_Custos_2.png" class="zoom-left" width="100%"/> |

> **An√°lise:**
> * **Curva de Lealdade (Tenure):** O risco de evas√£o √© alt√≠ssimo nos **primeiros meses**. Ap√≥s o primeiro ano, a probabilidade de `Churn` cai drasticamente.
> * **Sensibilidade ao Pre√ßo:** Clientes com **Mensalidades** mais elevadas s√£o mais propensos a cancelar, indicando sensibilidade ao custo mensal percebido.

### 3.2 Correla√ß√£o Tenure e Custos

| Matriz Correla√ß√£o (Heatmap) | Correla√ß√£o Tenure / Custos |
| :---: | :---: |
| <img src="images/Matriz_corr.png" class="zoom-right" width="100%"/> | <img src="images/Corr_Tenure_Custo.png" class="zoom-left" width="100%"/> |

> **An√°lise:**
> * **Tempo de Casa (Tenure):** √â o fator de prote√ß√£o mais forte, com **correla√ß√£o negativa significativa** com o `Churn`.
> * **Valor Acumulado (Total Charges):** Apresenta **correla√ß√£o negativa** com o `Churn`; clientes que j√° constru√≠ram um hist√≥rico financeiro longo tendem a ser mais leais.

---

## 4. Conclus√µes e Insights Estrat√©gicos

* **Foco na Fibra √ìtica:** Priorizar a migra√ß√£o de clientes de Fibra √ìtica para planos anuais com descontos progressivos para aumentar o custo de sa√≠da.
* **Pacotes "√Çncora":** Incentivar a inclus√£o de **Suporte T√©cnico** e **Seguran√ßa Online**, pois estes servi√ßos reduzem comprovadamente a evas√£o.
* **R√©gua de Reten√ß√£o Precoce:** Implementar a√ß√µes de satisfa√ß√£o e "onboarding" nos primeiros 6 meses de contrato.
* **Meios de Pagamento:** Incentivar a migra√ß√£o do "Cheque Eletr√¥nico" para **D√©bito Autom√°tico** para reduzir pontos de atrito mensais.

---
---

Estas descobertas podem servir como ponto de partida para a equipe de Data Science aprofundar a modelagem preditiva de churn e para a equipe de neg√≥cios desenvolver estrat√©gias eficazes de reten√ß√£o de clientes.