# Introdução aos Conceitos Básicos de Machine Learning

Prof. Daniel de Abreu Pereira Uhr

### Conteúdo

* Introdução aos Conceitos Básicos de Machine Learning


### Referências

* Géron, Aurélien. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media, 2019.
* 


## **Introdução aos Conceitos Básicos de Machine Learning**

### **1. Introdução ao Machine Learning**
Machine Learning (ML) é uma subárea da inteligência artificial que utiliza algoritmos para identificar padrões em dados e realizar previsões ou classificações. Seu uso tem crescido exponencialmente em diversas áreas, incluindo economia, devido à capacidade de modelar relações complexas em grandes volumes de dados.

#### **1.1. Definição Formal**
ML pode ser definido como:
> Um campo de estudo que dá aos computadores a capacidade de aprender sem serem explicitamente programados (Arthur Samuel, 1959).

#### **1.2. Tipos de Problemas em ML**
- **Supervisionado**: Há um conjunto de dados rotulados. Exemplos: Regressão e Classificação.
- **Não Supervisionado**: Os dados não possuem rótulos. Exemplos: Agrupamento (Clustering) e Redução de Dimensionalidade.
- **Semi-supervisionado**: Combinação de dados rotulados e não rotulados.
- **Aprendizado por Reforço**: Envolve agentes que aprendem a realizar tarefas por tentativa e erro.

---

### **2. Métodos de Previsão e Classificação**

#### **2.1. Modelos Supervisionados**

##### **2.1.1. Regressão Linear e Logística**
- **Regressão Linear**: Modelo paramétrico usado para prever variáveis contínuas.
  - **Vantagens**: Simplicidade, interpretabilidade.
  - **Desvantagens**: Assumem linearidade e não modelam interações não lineares.
- **Regressão Logística**: Para classificação binária.
  - **Vantagens**: Eficaz para classes balanceadas.
  - **Desvantagens**: Dificuldade com dados desbalanceados.

##### **2.1.2. Árvores de Decisão**
- **Descrição**: Estruturas hierárquicas que particionam os dados em subconjuntos homogêneos.
  - **Vantagens**: Intuitivas e não exigem pré-processamento extensivo.
  - **Desvantagens**: Propensas ao overfitting.

##### **2.1.3. Random Forest**
- **Descrição**: Combinação de múltiplas árvores de decisão para melhorar a robustez.
  - **Vantagens**: Redução do overfitting, eficiente para problemas não lineares.
  - **Desvantagens**: Perde interpretabilidade.

##### **2.1.4. Gradient Boosting (XGBoost, LightGBM)**
- **Descrição**: Modelos baseados em árvores que otimizam iterativamente os erros residuais.
  - **Vantagens**: Alta precisão em competições de ML.
  - **Desvantagens**: Computacionalmente intensivo.

##### **2.1.5. Support Vector Machines (SVM)**
- **Descrição**: Algoritmos baseados em margens que utilizam funções de kernel para modelar dados complexos.
  - **Vantagens**: Alta eficácia com classes complexas.
  - **Desvantagens**: Não escala bem com grandes datasets.

##### **2.1.6. Redes Neurais**
- **Descrição**: Modelos inspirados no cérebro humano, eficientes para tarefas complexas e não lineares.
  - **Vantagens**: Extremamente poderosas para dados não estruturados (imagens, texto).
  - **Desvantagens**: Requerem grandes volumes de dados e alto poder computacional.

---

#### **2.2. Modelos Não Supervisionados**

##### **2.2.1. K-Means**
- **Descrição**: Algoritmo de agrupamento que minimiza a variância intra-grupo.
  - **Vantagens**: Simplicidade.
  - **Desvantagens**: Sensível a outliers.

##### **2.2.2. PCA (Principal Component Analysis)**
- **Descrição**: Reduz a dimensionalidade dos dados mantendo a maior variância possível.
  - **Vantagens**: Redução de dimensionalidade, identifica estruturas subjacentes.
  - **Desvantagens**: Perda de interpretabilidade.

---

### **3. Conceitos Fundamentais Relacionados**

#### **3.1. Validação Cruzada**
- **Descrição**: Técnica de dividir os dados em partes de treinamento e teste para avaliar a robustez do modelo.
  - **Tipos**:
    - K-Fold Cross-Validation.
    - Leave-One-Out Cross-Validation.
  - **Importância**: Evita overfitting e underfitting.

#### **3.2. Overfitting e Underfitting**
- **Overfitting**: Modelo ajustado demais aos dados de treinamento.
- **Underfitting**: Modelo não captura a complexidade dos dados.

#### **3.3. Regularização**
- **Técnicas**: LASSO, Ridge, Elastic Net.
  - **Objetivo**: Penalizar coeficientes para evitar overfitting.

#### **3.4. Feature Engineering**
- **Descrição**: Processo de criar novas variáveis (features) para melhorar a capacidade preditiva.

#### **3.5. Seleção de Modelos**
- **Critérios**: R² ajustado, AUC, RMSE, etc.
- **Trade-offs**: Complexidade x Interpretabilidade.

---

### **4. Considerações sobre Aplicação**

#### **4.1. Quando usar cada modelo?**
- **Regressão Linear/Logística**: Relações simples e interpretabilidade.
- **Árvores de Decisão e Random Forest**: Dados complexos e interações não lineares.
- **SVM**: Classes complexas e alta dimensionalidade.
- **Redes Neurais**: Grandes datasets e dados não estruturados.

#### **4.2. Vantagens e Desvantagens Gerais**
- Modelos simples são mais interpretáveis, mas menos flexíveis.
- Modelos complexos são mais precisos, mas requerem maior esforço computacional.

---

### **5. Exemplo Prático em Python**

```python
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

# Gerar dados sintéticos
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, random_state=42)

# Dividir dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar modelo Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Avaliar modelo
scores = cross_val_score(model, X_test, y_test, cv=5)
print("Acurácia média:", scores.mean())
