## **Instalação das Ferramentas e Bibliotecas**

Nesta seção, serão instaladas as principais bibliotecas utilizadas para análise de dados em Python:

- **pandas**: manipulação e análise de dados
- **matplotlib**: visualização gráfica
- **numpy**: operações numéricas e vetoriais
- **scikit-learn**: modelagem e machine learning
- **seaborn**: visualização estatística avançada

Essas ferramentas são essenciais para manipulação, visualização e modelagem de dados ao longo do notebook.


In [5]:

%pip install -U pandas matplotlib numpy scikit-learn seaborn 

Collecting scikit-learn
  Downloading scikit_learn-1.6.1-cp312-cp312-win_amd64.whl.metadata (15 kB)
Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.15.3-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.5.1-py3-none-any.whl.metadata (5.6 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.6.1-cp312-cp312-win_amd64.whl (11.1 MB)
   ---------------------------------------- 0.0/11.1 MB ? eta -:--:--
   ------- -------------------------------- 2.1/11.1 MB 13.0 MB/s eta 0:00:01
   ---------------------------------------  11.0/11.1 MB 36.2 MB/s eta 0:00:01
   ---------------------------------------- 11.1/11.1 MB 19.3 MB/s eta 0:00:00
Downloading seaborn-0.13.2-py3-none-any.whl (294 kB)
Downloading joblib-1.5.1-py3-none-any.whl (307 kB)

# **Etapa 1: Coleta, Limpeza e EDA**

**1. Importação e Visualização Inicial:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Importar o CSV no Pandas  
&nbsp;&nbsp;&nbsp;&nbsp;• Verificar estatísticas básicas (`.describe()`, `.info()`)

**2. Tratamento de Dados:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Tratar valores faltantes e inconsistências

**3. Engenharia de Variáveis:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Converter variáveis categóricas via *One-Hot Encoding*  
&nbsp;&nbsp;&nbsp;&nbsp;• Escalonar variáveis numéricas com `StandardScaler`

**4. Análise Exploratória:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Gerar gráficos exploratórios:  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;– Histogramas  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;– Boxplots  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;– Matrizes de correlação


# **Etapa 2: Engenharia de Atributos e Redução de Dimensionalidade**

**1. Criação de Features Derivadas:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Exemplo: tempo de contrato em meses, gastos médios.

**2. Seleção dos Melhores Atributos:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Utilizar `SelectKBest` para identificar as variáveis mais relevantes.

**3. Redução de Dimensionalidade:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Aplicar PCA para visualização em 2D e possível redução do número de variáveis.


# **Etapa 3: Modelos de Classificação**

**1. Divisão dos Dados:**  
Dividir o conjunto em treino e teste (exemplo: 80% treino / 20% teste).

**2. Treinamento de Modelos:**  
Treinar três modelos de classificação:
- **Árvore de Decisão** (`DecisionTreeClassifier`)
- **Máquina de Vetores de Suporte** (`SVC`)
- **Perceptron Multicamadas** (`MLPClassifier`)

**3. Ajuste de Hiperparâmetros:**  
Utilizar `GridSearchCV` para encontrar os melhores hiperparâmetros de cada modelo.

**4. Avaliação de Desempenho:**  
Avaliar os modelos utilizando:
- Matriz de Confusão
- Precision, Recall, F1-Score
- ROC-AUC


# **Etapa 4: Clustering e Segmentação**

**1. Aplicar KMeans:**  
Segmentar a base completa (sem a variável de churn).

**2. (Opcional) Testar DBSCAN:**  
Explorar clusters de formas arbitrárias.

**3. Analisar cada cluster quanto a:**  
- **Taxa média de churn**
- **Receita média mensal**
- **Uso de serviços extras:** DSL, telefonia, streaming

**4. Visualizar clusters em 2D:**  
Utilizar PCA ou t-SNE para projeção e visualização.