### Explicação das colunas:

- **CustomerID**: Identificação única de cada cliente.
- **Age**: Idade do cliente em anos.
- **Gender**: Gênero do cliente (Male/Female).
- **Tenure**: Duração da permanência do cliente no serviço (em meses).
- **Usage Frequency**: Frequência de uso do serviço pelo cliente (baixa/média/alta).
- **Support Calls**: Número de vezes que o cliente entrou em contato com o suporte.
- **Payment Delay**: Número de pagamentos atrasados pelo cliente.
- **Subscription Type**: Tipo de assinatura do cliente (básica/premium/etc.).
- **Contract Length**: Duração do contrato do cliente (em meses).
- **Total Spend**: Total gasto pelo cliente durante toda a permanência no serviço.
- **Last Interaction**: Número de dias desde a última interação do cliente com o serviço.
- **Churn**: Indica se o cliente abandonou o serviço (1 para abandonou, 0 para permaneceu).


In [103]:
# Importando bibliotecas essenciais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurando estilos dos gráficos
%matplotlib inline
sns.set(style='whitegrid')

# 🚀 Etapa 1: Carregar e visualizar o dataset

# Tarefa: Carregue o arquivo CSV no DataFrame chamado `df` e visualize as 5 primeiras linhas.

In [104]:
# 🚀 Etapa 2: Tratar valores ausentes

# Tarefa: Verifique a quantidade de valores ausentes no DataFrame e remova linhas com valores ausentes.

# Verifique os valores ausentes
df.isnull().sum()

CustomerID           0
Age                  0
Gender               0
Tenure               0
Usage Frequency      0
Support Calls        0
Payment Delay        0
Subscription Type    0
Contract Length      0
Total Spend          0
Last Interaction     0
Churn                0
dtype: int64

In [105]:
# 🚀 Etapa 3: Ajustar tipos de dados

# Tarefa: Veja se é necessário a conversão da coluna 'Total Spend' para tipo numérico.

# Verifique os tipos de dados
df.dtypes

CustomerID            int64
Age                   int64
Gender               object
Tenure                int64
Usage Frequency       int64
Support Calls         int64
Payment Delay         int64
Subscription Type    object
Contract Length      object
Total Spend           int64
Last Interaction      int64
Churn                 int64
dtype: object

In [106]:
# 🚀 Etapa 4: Análise estatística

# Tarefa: Obtenha estatísticas descritivas para variáveis numéricas e categóricas.

In [107]:
# 🚀 Etapa 5: Análise inicial de Churn

# Tarefa: Visualize a distribuição de clientes que cancelaram (Churn) e calcule a porcentagem de cada classe.

In [109]:
# 🚀 Etapa 6: Pré-processamento de variáveis categóricas

# Tarefa: Liste as colunas categóricas e exclua as colunas necessárias!
# Se você sabe python, tente fazer de um jeito diferente que eu fiz! 

# Pergunta: quais colunas são necessárias remover? Tem outra que você pensou em resolver?

In [108]:
# 🚀 Etapa 7: Aplicar One-Hot Encoding

# Tarefa: Transforme as variáveis categóricas em numéricas com pd.get_dummies().

In [110]:
# 🚀 Etapa 8: Mapear coluna 'Churn' para valores numéricos

# Tarefa: Mapeie os valores de 'Churn' para No (0) e Yes (1).
# Pergunta: O que você ganha com isso?

In [111]:
# 🚀 Etapa 9: Escalar variáveis numéricas

# Tarefa: Escale as variáveis númericas, mas nem todas elas!

# Pergunta: Por que você escolheu essa variáveis númericas?

In [112]:
# 🚀 Etapa 10: Divisão em conjuntos de treino e teste

# Tarefa: Separe as features (X) e o target (y), e então divida em treino e teste.
from sklearn.model_selection import train_test_split

# PAINEL DE DICAS!

### Use pd.read_csv() para carregar o arquivo "./data/churn-alunos.csv".
### Use isnull().sum() para contar valores ausentes.
### Use pd.to_numeric() com o parâmetro errors='coerce'.
### Use df.describe() e df.describe(include=['O']).
### Use sns.countplot() e value_counts(normalize=True).
### Use a classe MinMaxScaler para normalizar as variáveis númericas.
### Use train_test_split() com test_size=0.2 e stratify=y.