In [None]:

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [None]:
df = pd.read_csv('/kaggle/input/telco-customer-churn/WA_Fn-UseC_-Telco-Customer-Churn.csv')

In [None]:
df.head(5)

In [None]:
df.info()

In [None]:
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# EDA

**Distribuição da variável alvo (Churn)** 
Clientes que abandonaram o serviço no último mês (coluna Churn)


In [None]:
plt.figure(figsize=(6,4))
ax = sns.countplot(x='Churn', data = df, palette='viridis')

plt.title('Distribuição do índice de Churn')
plt.xlabel('Churn')
plt.ylabel('Contagem')

# Adicionar rotulos nas barras
for p in ax.patches:
    ax.annotate(f'{p.get_height()}', (p.get_x() + 0.35, p.get_height() + 5))



**Churn por Tipo de Contrato**

In [None]:
plt.figure(figsize=(8,5))
sns.countplot(x='Contract', hue="Churn", data = df)

plt.title('Churn por Tipo de Contrato')
plt.xlabel('Tipo de Contrato')
plt.ylabel("Quantidade de Clientes")
plt.legend(title="Churn", loc="upper right")

**Churn por Tempo de Cliente e Valor Pago**

In [None]:
fig, axes = plt.subplots(1,2, figsize=(14,5))
sns.boxplot(x="Churn", y='tenure', data=df, ax=axes[0])
axes[0].set_title('Distribuição do Tempo de Cliente por Churn')

sns.boxplot(x='Churn', y='TotalCharges', data=df, ax=axes[1])
axes[1].set_title("Distribuição do Valor Pago por Churn")

plt.tight_layout()



**Correlação entre Variáveis**

In [None]:
df_corr = df.copy()
df_corr['Churn_Num'] = df_corr['Churn'].apply(lambda x:1 if x=='Yes' else 0)

cols = ['Churn_Num', 'tenure', 'TotalCharges']
matriz_correlacao = df_corr[cols].corr()

plt.figure(figsize=(8,6))
sns.heatmap(matriz_correlacao, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Mapa de Correlação')


In [None]:
df.isnull().sum()

In [None]:
df['TotalCharges'].fillna(0, inplace=True)
df.isnull().sum()

**Identificando e Tratando Outliers**

In [None]:
def limites_outliers(coluna):
    Q1 = coluna.quantile(0.25)
    Q3 = coluna.quantile(0.75)
    IQR = Q3-Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    return limite_inferior, limite_superior

lim_inf, lim_sup = limites_outliers(df['TotalCharges'])

In [None]:
print(f"Limites para Valor Pago: {lim_inf:.2f} a {lim_sup:.2f}")

In [None]:
outliers = df[(df['TotalCharges']<lim_inf) | df['TotalCharges']>lim_sup]
print(f"{len(outliers)} outliers")

# Data Preparation


In [None]:
df['Total']