### ✅ 1. Definir o problema

* Entenda o tipo de problema: **classificação**, **regressão**, **agrupamento**, etc.
* **Exemplo**: "Quero prever se um cliente vai cancelar o serviço" → Classificação binária.



### ✅ 2. Coletar os dados

* Obtenha os dados via:

  * APIs
  * Banco de dados (SQL)
  * Arquivos CSV, Excel, JSON
  * Web scraping
* Ferramentas úteis: `pandas`, `sqlalchemy`, `requests`



### ✅ 3. Explorar e entender os dados (EDA - Análise Exploratória)

* Verifique estatísticas básicas:

  ```python
  df.info()
  df.describe()
  ```
* Visualize os dados:

  ```python
  import seaborn as sns
  sns.pairplot(df)
  ```
* Identifique:

  * Valores ausentes
  * Outliers
  * Correlações



### ✅ 4. Pré-processar os dados

* **Limpeza**: remover valores nulos, duplicados, inconsistências.
* **Codificação de categorias**:

  ```python
  pd.get_dummies(df, columns=['categoria'])
  ```
* **Normalização/padronização**:

  ```python
  from sklearn.preprocessing import StandardScaler
  scaler = StandardScaler()
  X_scaled = scaler.fit_transform(X)
  ```
* **Divisão treino/teste**:

  ```python
  from sklearn.model_selection import train_test_split
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
  ```



### ✅ 5. Escolher o algoritmo

* **Classificação**: `LogisticRegression`, `RandomForestClassifier`, `SVC`, `XGBoost`
* **Regressão**: `LinearRegression`, `RandomForestRegressor`
* **Clustering**: `KMeans`, `DBSCAN`


### ✅ 6. Treinar o modelo

```python
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)
```


### ✅ 7. Avaliar o modelo

* Métricas para **classificação**:

  * `accuracy`, `precision`, `recall`, `f1-score`, `confusion_matrix`
* Métricas para **regressão**:

  * `mean_squared_error`, `r2_score`

```python
from sklearn.metrics import classification_report
print(classification_report(y_test, model.predict(X_test)))
```



### ✅ 8. (Opcional) Ajustar hiperparâmetros

* Use `GridSearchCV` ou `RandomizedSearchCV`:

```python
from sklearn.model_selection import GridSearchCV
grid = GridSearchCV(model, param_grid, cv=5)
grid.fit(X_train, y_train)
```

