# **1. Introdução ao Aprendizado de Máquina**

## **Antes de comerçarmos:**

Neste curso, você será exposto a diversos termos expressos em notação matemática. Buscaremos sempre ilustrar de forma intuitiva o significado de cada uma dessas notações. No entanto, para avançar no curso, é fundamental dedicar um tempo para compreendê-las, pois, à medida que os modelos se tornam mais complexos, nem sempre será possível oferecer uma explicação puramente intuitiva.

Se você não está familiarizado com notação matemática ou sente receio ao vê-la, não se preocupe! Pense nela como uma forma compacta de expressar muitas informações em poucas palavras — como uma linguagem própria da matemática. Encare isso como o aprendizado de um novo idioma. 

Boa sorte!

## **O que é Inteligência Artificial?**

## **Diferenças entre IA, Machine Learning e Deep Learning**

## **Tipos de aprendizado de máquina**

### **O que é o Aprendizado Supervisionado?**

### **O que é o Aprendizado Não Supervisionado**

### **O que é o Aprendizado por Reforço?**

## **Definições iniciais**

### **O que são dados?**

Imagine que você quer entender melhor um grupo de pessoas. 

Para isso, você decide anotar algumas informações sobre cada uma delas, como altura *(em cm)*, peso *(em kg)* e idade *(em anos)*. Você observa uma pessoa e registra esses três valores. Depois, faz o mesmo com outra pessoa e assim por diante.

Cada conjunto de informações que você registra (neste caso, altura, peso e idade) constitui um **dado**, isto é,uma representação de algo do mundo real que queremos estudar ou analisar.

Suponha que coletamos os seguintes dados:

- Pessoa 1: 170cm de altura, 70kg e 25 anos.

- Pessoa 2: 160cm de altura, 55kg e 30 anos.

- Pessoa 3: 180cm de altura, 80kg e 28 anos.

Perceba que, com base nessas três informações podemos representar cada pessoa com três números, veja:

- Pessoa 1 -> (170, 70, 25).

- Pessoa 2 -> (160, 55, 30).

- Pessoa 3 -> (180, 80, 28).
  
Cada linha acima é um conjunto de informações sobre uma pessoa.

**Assim, o conjunto de dados que possuímos é: $$\{(170,70,25),(160,55,30),(180,80,28)\}$$**
 

### **O que são características?**

Agora, perceba que cada dado é formado por três números diferentes. Cada um deles representa um tipo específico de informação:

- O primeiro número indica a **altura**.

- O segundo número indica o **peso**.

- O terceiro número indica a **idade**.

Chamamos essas informações individuais de **características**. Elas são os aspectos que escolhemos para descrever cada pessoa.

Se tivéssemos escolhido outras informações, como cor dos olhos ou cidade onde mora, teríamos características diferetentes. Assim, **as características são os elementos que compõem cada dado.**

### **O que é um espaço de características?**

Agora que compreendemos que, no exemplo que estamos usando, cada pessoa é caracterizada por três atributos (altura, peso e idade), podemos pensar em um jeito de visualizar essas informações.

Imagine um gráfico em que cada ponto representa uma pessoa, sendo descrita por três características: altura, peso e idade:

- O **eixo X** representa a altura.

- O **eixo Y** representa o peso.

- O **eixo Z** representa a idade.

Cada pessoa pode ser representada por um ponto dentro desse espaço. **Esse espaço, onde todas as combinações possíveis de altura, peso e idade podem existir—isto é, onde essas características podem assumir quaisquer valores dentro de um intervalo permitido—é chamado de espaço de características.**  

Se tivéssemos apenas altura e peso, nosso espaço teria apenas dois eixos, como um gráfico bidimensional. Se adicionássemos mais características, precisaríamos de mais dimensões para representar tudo.

💡 Dica: Tente visualizar esse conceito de forma gráfica: imagine um ponto em um espaço tridimensional, onde o eixo X representa a altura, o eixo Y representa o peso e o eixo Z representa a idade. Esse ponto corresponde a uma pessoa dentro do nosso conjunto de dados. No início, pode parecer desafiador imaginar esse espaço, mas compreender essa ideia tornará o aprendizado muito mais intuitivo no futuro!

### **O que são vetores de características?**

Agora que entendemos que cada pessoa é representada por um ponto dentro do espaço de características, podemos dar um nome especial para essa representação: **vetor de características**

Um vetor de características é simplesmente um conjunto de números que descreve uma pessoa dentro desse espaço. Podemos imaginá-lo como uma "seta" que parte da origem do espaço de características e aponta diretamente para a posição (coordenadas) correspondente a essa pessoa.

Por exemplo, para a Pessoa 1, o vetor de características é $(170, 70, 25)$, o que significa:

- Altura: **170cm**.

- Peso: **70kg**.

- Idade: **25 anos**.

Se pensarmos em um gráfico tridimensional, onde cada eixo representa uma característica (altura, peso e idade), esse vetor nos dá a posição exata da pessoa nesse espaço. A "seta" que parte da origem até esse ponto é uma forma intuitiva de visualizar como cada observação do nosso conjunto de dados pode ser representada matematicamente.

Em resumo, vetor de características é um termo matemático que usamos para representar cada observação dentro do nosso conjunto de dados.

💡 Dica: Realmente tente imaginar que cada pessoa do nosso conjunto de dados é representada por uma seta partindo da origem e apontando para um ponto no espaço tridimensional. Essa seta nada mais é do que o vetor de características, que indica a posição exata da pessoa nesse espaço. No começo, pode ser desafiador visualizar essa ideia, mas pensar nos vetores como "setas direcionadas" ajudará a compreender melhor como os dados são organizados e analisados matematicamente!

## **Formalizando as definições iniciais**

Agora que construímos uma boa intuição, podemos formalizar esses conceitos matematicamente — mantendo o formalismo apenas no nível necessário por enquanto.

### **Dados**

- São um conjunto de observações $X = \{x_{1}, x_{2}, ..., x_{n}\}$, onde cada $x_{i}$ é uma observação.

- No nosso exemplo, os dados são o conjunto de pessoas que analisamos.

### **Características**

- São os atributos que usamos para descrever cada observação. 
  
- Por exemplo, para a observação: $x_{i} = (x_{i1}, x_{i2},...,x_{id})$, cada valor $x_{ij}$ representa um atributo específico da observação $x_{i}$ *(ex: altura, peso, idade)*, onde $j$ varia de $1$ até $d$.

### **Espaço de características**

- É o conjunto de todas as possíveis combinações dos atributos que utilizamos para descrever uma observação.

- Se cada observação é descrita por $d$ características, esse espaço contém todas as combinações possíveis desses $d$ atributos e é matematicamente representado por $R^{d}$.

- Intuitivamente, podemos imaginar esse espaço como um ambiente onde cada observação ocupa uma posição única com base nos valores de suas características.

### **Vetores de características**

- Representam cada observação dentro do espaço de características.

- No nosso exemplo, a **Pessoa 1** é representada pelo vetor: $x_{1} = (170,70,25) \in R^{3}$.

- De forma geral, para um espaço de características com $d$ dimensões, cada observação é um vetor da forma: $x_{i} = (x_{i1},x_{i2},...,x_{id}) \in R^{d}$, onde $i$ indica o número da observação e cada índice $j$ (com $j \in \{1,2,...,d\}$) representa uma característica dessa observação.

### 💡 Dica:

Não se preocupe se essas definições parecerem um pouco abstratas no começo! Você pode continuar avançando no curso sem dominar completamente essas notações matemáticas. No entanto, quanto mais confortável você estiver com essas notações, mais rápido será seu progresso e mais profundo será seu entendimento dos próximos tópicos.

Se algo não ficou claro, pergunte ao responsável pelo case e revise essas definições sempre que for estudar. Criar familiaridade com essas notaçãos ao longo do tempo tornará o aprendizado muito mais natural e intuitivo!

# **2. Fundamentos de Machine Learning**

## **O que é um modelo preditivo?**

Um modelo preditivo é um tipo de modelo de machine learning que tem como objetivo principal fazer previsões sobre novos dados com base em padrões aprendidos a partir de dados históricos.

---

Esses modelos utilizam padrões extraídos dos dados para fazer previsões sobre novas observações. Em termos formais, esses modelos buscam aprender uma função $$f: x_{i} \in X \rightarrow Y$$ que relacione os vetores de características $x_{i} \in X$ com a variável alvo $Y$, de forma que seja possível estimar um $Y$ para um novo $x_{i} \in X$ não observado anteriormente.

---

Os modelos preditivos podem ser utilizados para diferentes tipos de tarefas, como prever se um cliente pagará um empréstimo (classificação), estimar o valor de um imóvel (regressão) ou antecipar o comportamento de uma série temporal (como preços de ativos financeiros).

No entanto, as abordagens para construir esse tipo de modelo variam bastante, dependendo da forma como os dados são tratados e da estratégia utilizada para ajustar os parâmetros do modelo. Podemos dividir os modelos preditivos em algumas categorias principais, são elas:



### **1. Modelos Estatísticos e Probabilísticos**

Esses modelos assumem que os dados seguem uma distribuição probabilística específica e ajustam seus parâmetros para maximizar a verossimilhança dos dados observados.

✅ **Objetivo:** Estimar a distribuição dos dados e inferir a relação entre as variáveis.

**Exemplos:**

- Regressão Linear: Assume que a relação entre as variáveis é linear e que os resíduos seguem uma distribuição normal.

- Regressão Logística: Usa a função sigmoide para modelar probabilidades em problemas de classificação binária.

- Naïve Bayes: Baseia-se na regra de Bayes e assume independência condicional entre os atributos.

📌 **Diferencial:** Esses modelos são baseados em conceitos estatísticos bem definidos e geralmente interpretáveis.

### **2. Modelos Baseados em Otimização**

Esses modelos aprendem a função $f$ otimizando uma métrica específica, sem necessariamente assumir uma distribuição subjacente dos dados.

✅ **Objetivo:** Encontrar um modelo que minimize uma função de erro ou maximize uma margem de separação.

**Exemplos:**

- SVM (Máquinas de Vetores de Suporte): Maximiza a margem entre as classes em problemas de classificação.

- Redes Neurais (MLPs clássicas): Ajustam pesos para minimizar um erro através do gradiente descendente.

📌 **Diferencial:** Baseiam-se em técnicas numéricas de otimização e não exigem uma suposição explícita sobre a distribuição dos dados.

### **3. Modelos Baseados em Particionamento de Dados**

Esses modelos criam regras para dividir os dados em subconjuntos homogêneos, organizando-os hierarquicamente.

✅ **Objetivo:** Criar regras de decisão que segmentem os dados em diferentes categorias.

**Exemplos:**

- Árvores de Decisão: Criam um conjunto de regras sequenciais que levam a decisões.

- Random Forests: Conjunto de árvores de decisão para aumentar a robustez.

📌 **Diferencial:** São fáceis de interpretar e não exigem transformações matemáticas complexas.

### **4. Modelos Baseados em Agrupamento (Clustering)**

Modelos que tentam encontrar padrões e estruturas nos dados sem rótulos supervisionados.

✅ **Objetivo:** Agrupar os dados de forma a maximizar a semelhança dentro dos clusters e minimizar entre os clusters.

**Exemplos:**

- K-Means: Baseado na minimização da soma das distâncias dos pontos ao centro do cluster.

- DBSCAN: Detecta clusters com base na densidade dos dados.

📌 **Diferencial:** Úteis para análise exploratória e segmentação de dados sem supervisão.



### **5. Modelos Baseados em Instâncias**

Esses modelos fazem previsões baseadas nos exemplos mais próximos no conjunto de treinamento, sem construir explicitamente uma função generalizada durante o aprendizado.

✅ **Objetivo:** Utilizar diretamente os dados observados para fazer previsões sem uma fase explícita de aprendizado de parâmetros.

**Exemplo:**
    
- KNN (K-Nearest Neighbors): Classifica ou estima valores com base nos $k$ vizinhos mais próximos.

📌 Diferencial: São conhecidos como modelos preguiçosos (lazy learners) porque não possuem uma fase explícita de treinamento; todo o esforço computacional ocorre no momento da previsão.

### **A importância da amostra de treinamento para um modelo preditivo**

No fim das contas, modelos preditivos tentam encontrar uma função matemática que capture a relação entre as variáveis de entrada (características) e a variável de saída (o que queremos prever). Essa função pode ser vista como uma aproximação da verdadeira relação existente nos dados. No entanto, os dados usados para treinar o modelo representam apenas uma amostra de um conjunto muito maior e desconhecido. Se essa amostra for pequena, enviesada ou não representativa, o modelo pode aprender padrões artificiais que não se repetem em novos dados — um problema conhecido como overfitting.

Diferentes modelos fazem suposições distintas sobre essa relação. Modelos estatísticos assumem que os dados seguem certas distribuições probabilísticas, enquanto modelos baseados em otimização simplesmente ajustam funções para melhor se encaixar nos exemplos observados, sem pressupor uma estrutura fixa. Em ambos os casos, a qualidade da amostra influencia diretamente a capacidade do modelo de fazer boas previsões.

Por isso, ao treinar um modelo, é essencial garantir que os dados de entrada representem bem o fenômeno que estamos tentando modelar. Métodos como validação cruzada, regularização e aumento da diversidade dos dados ajudam a reduzir vieses e melhorar a capacidade do modelo de generalizar para novas situações.

## **Tradeoff entre Bias e Variância** 

### **Explicando o Bias**

### **Explicando a Variância**

### **Explicando o Tradeoff entre Bias e Variância**

## **Validação Cruzada e Overfitting**

## **Problemas de classificação**

### **O que é um problema de classificação?**

A classificação é o processo de reconhecimento, compreensão e agrupamento de objetos e ideias em categorias predefinidas. Utilizando conjuntos de dados de treinamento previamente categorizados, algoritmos de classificação em machine learning conseguem categorizar novos dados de forma precisa.

Esses algoritmos analisam dados de entrada para prever a probabilidade de que novos dados pertençam a uma das categorias estabelecidas.

Em termos simples, a classificação é uma forma de reconhecimento de padrões, em que os algoritmos identificam padrões nos dados de treinamento e aplicam esse conhecimento a novos conjuntos de dados.

**Motivação:** Suponha que você tenha um conjunto de dados com características de vários clientes de um banco que desejam obter empréstimos. Seus dados possuem um conjunto de características desses clientes como idade, renda, nível de educação, entre outros. 

Baseando-se no conjunto de características fornecidas, você deseja **classificar** os clientes entre aqueles que terão o empréstimo aprovado e aqueles que não terão o empréstimo aprovado

Formalmente, em problemas de classificação o objetivo é prever uma *class label*, uma lista de possibilidades pré-determinadas e que são variáveis discretas.

Na motivação acima, a nossa *class label* era se a pessoa teria o crédito aprovado ou não. Perceba que a resposta só assume dois valores possíveis, sim ou não (1 ou 0 em linguagem matemática). Além disso, podemos chamar essa variável de discreta porque ela só assume dois valores possíveis, ela "dá um salto" de 0 para 1.

Os problemas de classificação podem ser separados em:

- Classificação binária (binary classification)
- Classificação multiclasse (Multi-class classification)
- Classificação multirótulo (Multi-label Classification)
- Classificação desbalanceada (Imbalanced Classification)

### **Classificação binária (binary classification)**

O objetivo da classificação binária é classificar cada observação (vetor de características) tendo como possibilidade de resposta (label) exatamente duas classes. Você pode pensar na classificação binária como tentar responder uma pergunta do tipo sim ou não. Um email é um span? sim ou não. Um cliente terá seu pedido de empréstimo aprovado? sim ou não.

Neste cenário, podemos dizer que a class label é mutuamente exclusiva. Ou seja, ou uma observação é classificada como sim ou ela é classifica como não. É impossível uma observação ser classficadas como sim e não ao mesmo tempo.

📝 Observação: No contexto de classificação binária, é comum usar True ou False, positivo ou negativo, 1 ou 0 para se referir a uma resposta do tipo "sim ou não". Não se preocupe, são apenas maneiras diferentes de se referir a mesma coisa.

### **Classificação multiclasse (Multi-class classification)**

Semelhante a classificação binária, na classificação multiclasse também queremos classificar cada observação no nosso conjunto de dados. Porém, nossa lista de possibilidades pré-determinadas agora é maior que duas. Porém, de maneira semelhante, as class labels ainda são mutuamente exclusivas e discretas.

**Exemplo:** Se tivermos um conjunto de dados com características de alunos da FEA, podemos querer classificá-los de acordo com o curso em que eles estão matriculados. As possíveis respostas (class labels) são (i) Administração, (ii) Economia, (iii) Contabilidade ou (iv) Atuária. Perceba que um aluno não pode estar matrículado em dois ou mais destes cursos ao mesmo tempo.

### **Classificação multirótulo (Multi-label Classification)**

Semelhante a classificação multiclasse, queremos classificar cada observação na nossa base de dados em uma lista de possibilidades pré-determinadas em duas ou mais class labels. Porém, no caso da classificação multirótulo, as labels agora não são mais mutuamente exclusivas.

Pense em um problema em que queremos classificar um vetor de característcas em X, Y, e/ou Z. Em um problema de multirótulo, é totalmente possível que uma observação seja classficada como X e Y ou Y e Z **ao mesmo tempo**. Estranho né? Mas um exemplo deixa tudo mais claro.

**Exemplo:** Pense agora que temos um conjunto de dados de vários filmes e queremos classificá-los de acordo com seus gêneros. Perceba agora que os gêneros de um filme não são mutuamente exclusivas, é totalmente possível que um filme seja de comédia e ao mesmo tempo seja um filme de ação ou que um filme seja de terror e de suspense psicológico ao mesmo tempo. Ou seja, é totalmente possível que cada observação tenha uma ou mais label

### **Classificação desbalanceada (Imbalanced Classification)**

A classificação desbalanceada não é exatamente uma categoria de classificação diferente, mas sim um ponto de atenção que devemos ter quando trabalhamos com qualquer problema de classificação abordado nos tópicos anteriores.

Ela acontece quando as class labels do nosso conjunto de dados não está está balanceada. Neste caso, temos que as observações serão classificadas majoritamente de um tipo e poucas serão classificadas de outro.

**Exemplo:** Suponha que uma doença rara afeta apenas 1% da população.

Se nossa base de dados de dados for representativa da população, apenas cerca de 1% deveria ser classficado como positivo para a doença e 99% deveria ser negativo.

Apesar de não ser uma categoria diferenciada de classificação, é importante que tenhamos noção se estivermos trabalhando com um problema desse tipo porque as técnicas e modelos usuais que veremos podem não funcionar muito bem neste contexto. 

Outro ponto de atenção necessário é quando tivermos avaliando um modelo nesse contexto.

### **O que é um classificador?**

### **Métricas de Avaliação para Classificação**

#### **Acurácia**

#### **Precisão**

#### **Recall**

#### **F1-Score**

#### **Curva ROC-AUC**

### **O classificador de Bayes**

## **Problemas de regressão**

### **O que é um problema de regressão?**

### **O que é um regressor?**

### **Métricas de Avaliação para Regressão**

#### **MSE**

#### **RMSE**

#### **MAE**

#### **$R^{2}$**

## **Feature Engineering**

# **3. Modelos para Problemas de Classificação**

## **3.1 KNN (K-Nearest-Neighbors)**

## **3.2 Naive Bayes**

## **3.3 Regressão Logística**

### **O que é Regressão Logística?**

### **Interpretação dos coeficientes**

### **Aplicações**

## **3.4 Máquinas de Vetores de Suporte para Classificação (SVC)**

### **O que é Support Vector Classification (SVC)?**

### **Funções kernel (linear, polinomial, radial)**

## **3.5 Árvores de Decisão para Classificação**

### **Conceito de Decision Trees para Classificação**

### **Critérios de divisão**

#### **Critério de Gini**

#### **Entropia**

### **Poda e Overfitting**

## **3.6 Métodos de Ensemble para Classificação**

### **Bagging para Classificação**

### **Boosting para Classificação**

#### **AdaBoost Classifier**

#### **Gradient Boosting Classifier**

#### **Stochastic Gradient Boosting Classifier**

#### **XGBoost Classifier**

### **Stacking para Classificação**

## **3.7 Análise Discriminante**

### **Análise Discriminante Linear (LDA)**

### **Análise Discriminante Quadrática (QDA)**

## **Projeto de Classificação**

**Objetivos:**

1. Comparação entre os modelos

2. Aprender a como escolher o melhor modelo para um problema

...

# **4. Modelos para Problemas de Regressão**

## **4.1 Modelos Lineares para Regressão**

### **Regressão Linear Simples**

### **Regressão Linear Múltipla**

### **Regressão com Regularização**

#### **Lasso Regression**

#### **Ridge Regression**

## **4.2 Máquinas de Vetores de Suporte para Regressão (SVR)**

### **O que é Support Vector Regression (SVR)?**

### **Aplicação e Hiperparâmetros**

## **4.3 Árvores de Regressão**

### **Conceito de Decision Trees para Regressão**

### **Critérios de divisão**

#### **MSE**

#### **MAE**

### **Poda e Overfitting**

## **4.4 Métodos de Ensemble para Regressão**

### **Bagging para Regressão**

### **Boosting para Regressão**

#### **AdaBoost Regressor**

#### **Gradient Boosting Regressor**

#### **Stochastic Gradient Boosting Regressor**

#### **XGBoost Regressor**

## **Projeto de Regressão**

**Objetivos:**

1. Comparação entre os modelos

2. Aprender a como escolher o melhor modelo para um problema

...

# **5. Aprendizado Não Supervisionado**

# **6. Sistemas de recomendação**