# O que é Aprendizado de Máquina?

**Aprendizado de Máquina (Machine Learning)** é uma subárea da inteligência artificial que envolve o desenvolvimento de algoritmos e modelos que permitem que computadores "aprendam" a partir de dados, sem a necessidade de serem explicitamente programados para cada tarefa. Esses modelos podem identificar padrões, fazer previsões e tomar decisões com base em grandes volumes de dados.

Existem três principais tipos de aprendizado de máquina:

1. **Aprendizado Supervisionado**: O modelo é treinado com dados rotulados, ou seja, dados onde as respostas corretas são fornecidas. O objetivo é aprender a mapear entradas para saídas.
2. **Aprendizado Não Supervisionado**: O modelo trabalha com dados não rotulados e tenta descobrir padrões ou agrupamentos por conta própria.
3. **Aprendizado por Reforço**: O modelo aprende através de tentativa e erro, recebendo recompensas ou punições com base nas ações que executa.

O aprendizado de máquina tem uma ampla gama de aplicações, desde recomendações de produtos até diagnósticos médicos e carros autônomos.


## Problemas de Classificação e Regressão

No contexto de **Aprendizado Supervisionado**, os problemas são geralmente divididos em duas grandes categorias: **Classificação** e **Regressão**.

### Problemas de Classificação

Em um problema de **classificação**, o objetivo é prever uma **classe** ou **categoria** a partir de um conjunto de dados de entrada. As saídas, ou rótulos, são categorias discretas e bem definidas. Exemplos comuns de problemas de classificação incluem:

- **Classificação de e-mails** como "spam" ou "não spam".
- **Diagnóstico médico**, onde o objetivo é classificar se um paciente tem uma doença ou não.
- **Reconhecimento de imagem**, onde o sistema precisa identificar objetos ou pessoas em fotos.

Em resumo, em problemas de classificação, estamos tentando atribuir uma etiqueta discreta (categoria) a cada exemplo nos dados.

### Problemas de Regressão

Em um problema de **regressão**, o objetivo é prever um **valor contínuo** com base em variáveis de entrada. Ao contrário da classificação, as saídas não são categorias discretas, mas sim valores numéricos contínuos. Exemplos de problemas de regressão incluem:

- **Previsão de preços de casas** com base em características como localização, tamanho, número de quartos, etc.
- **Previsão da temperatura** em um determinado dia com base em dados climáticos históricos.
- **Análise de vendas**, onde se tenta prever o volume de vendas de um produto em um determinado período.

Assim, em problemas de regressão, estamos buscando prever um número ou valor contínuo, ao invés de uma classe.

Ambos os tipos de problemas são fundamentais no aprendizado de máquina e utilizam diferentes tipos de algoritmos para atingir seus objetivos.


# Prática

## Conjunto de Dados Iris

O conjunto de dados [Iris](https://en.wikipedia.org/wiki/Iris_flower_data_set) é um dos mais famosos e amplamente utilizados em aprendizado de máquina e estatística. Ele foi introduzido pelo biólogo e estatístico britânico **Ronald A. Fisher** em 1936 e é frequentemente utilizado para demonstrações e testes de algoritmos de classificação.

### Descrição do Conjunto de Dados

O conjunto de dados Iris contém **150 amostras** de flores da espécie **Iris**, divididas em três subespécies:

- **Iris setosa**
- **Iris versicolor**
- **Iris virginica**

Cada amostra inclui **quatro características** (também chamadas de variáveis independentes ou atributos):

1. **Comprimento da Sépala** (em centímetros)
2. **Largura da Sépala** (em centímetros)
3. **Comprimento da Pétala** (em centímetros)
4. **Largura da Pétala** (em centímetros)

Além disso, cada amostra é rotulada com a **espécie** da flor correspondente, que é a variável alvo no problema de classificação.

Podemos baixar este conjunto de dados na forma de um DataFrame do Pandas usando a biblioteca [Seaborn](http://seaborn.pydata.org/) e dar uma olhada nos primeiros itens.


In [None]:
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()

# A Matriz de Características

A disposição em forma de tabela deixa claro que as informações podem ser vistas como um array numérico bidimensional, ou matriz, que chamaremos de **matriz de características**. Por convenção, essa matriz é frequentemente armazenada em uma variável chamada **X**. A matriz de características é assumida como sendo bidimensional, com a forma \([n\_amostras, n\_características]\).

As **amostras** (ou seja, as linhas) sempre se referem aos objetos individuais descritos pelo conjunto de dados. Por exemplo, uma amostra pode representar uma flor, uma pessoa, um documento, uma imagem, um arquivo de som, um vídeo, um objeto astronômico, ou qualquer outra coisa que possa ser descrita por um conjunto de medições quantitativas.

As **características** (ou seja, as colunas) sempre se referem às observações distintas que descrevem cada amostra de maneira quantitativa. As características geralmente possuem valores reais, mas, em alguns casos, podem ser booleanas ou ter valores discretos.


# O Array de Alvo

Além da matriz de características **X**, geralmente também trabalhamos com um array de rótulos ou alvos, que por convenção chamaremos de **y**. O array de alvo costuma ser unidimensional, com comprimento igual a **n_amostras**. O array de alvo pode conter valores numéricos contínuos ou classes/rótulos discretos. 

Um ponto comum de confusão é a diferença entre o array de alvo e as outras colunas de características. A característica distintiva do array de alvo é que ele geralmente representa a quantidade que queremos prever a partir das características: em termos estatísticos, é a variável dependente. Por exemplo, dado o conjunto de dados anterior, podemos querer construir um modelo que possa prever a espécie da flor com base nas outras medições; nesse caso, a coluna de espécies seria considerada o array de alvo.


# Visualizando os Dados e as Correlações

In [None]:
%matplotlib inline
sns.pairplot(iris, hue='species', height=1.5);

# Extraindo o Array de Alvo e a Matriz de Características

In [None]:
X = iris.drop('species', axis=1)
X.shape

In [None]:
y = iris['species']
y.shape

## Introdução à Biblioteca Scikit-Learn

**Scikit-learn** é uma das bibliotecas mais populares para **Aprendizado de Máquina** em Python. Ela oferece uma vasta gama de ferramentas simples e eficientes para análise de dados e modelagem preditiva. A biblioteca é construída em cima de outros pacotes amplamente utilizados, como **NumPy**, **SciPy** e **matplotlib**, o que a torna altamente integrada com o ecossistema científico de Python.

### Principais Recursos do Scikit-learn

1. **Algoritmos de Aprendizado Supervisionado e Não Supervisionado**:
   - Algoritmos populares como **Regressão Linear**, **K-Nearest Neighbors (KNN)**, **Máquinas de Vetores de Suporte (SVM)**, **Redes Neurais**, **Árvores de Decisão**, e muitos outros estão disponíveis de forma fácil e intuitiva.

2. **Pré-processamento de Dados**:
   - Ferramentas para escalonamento de variáveis, normalização, e tratamento de valores ausentes.
   
3. **Validação Cruzada**:
   - Métodos para validar a performance de um modelo, como **cross-validation**, fornecendo uma maneira de avaliar a precisão de forma mais robusta.

4. **Seleção de Modelos**:
   - Ferramentas para ajustar hiperparâmetros de modelos com **Grid Search** ou **Random Search**.

5. **Pipeline**:
   - Facilita a criação de pipelines para aplicar uma sequência de transformações nos dados e, em seguida, treinar um modelo, tudo de forma integrada e eficiente.


## Divisão entre Conjunto de Treino e Conjunto de Teste

Ao treinar um modelo de aprendizado de máquina, é essencial avaliar sua capacidade de generalizar para dados novos e não vistos. Para isso, utilizamos a técnica de divisão entre **conjunto de treino** e **conjunto de teste**.

### Conjunto de Treino

O **conjunto de treino** é o subconjunto dos dados usados para **treinar** o modelo. Durante essa fase, o modelo "aprende" padrões a partir dos dados fornecidos. Esse processo envolve ajustar os parâmetros do modelo para minimizar os erros no conjunto de treino. Quanto melhor o modelo conseguir capturar os padrões dos dados de treino, maior será a sua capacidade de realizar previsões sobre esses dados.

No entanto, se o modelo aprender excessivamente os detalhes e ruídos específicos do conjunto de treino, pode ocorrer um fenômeno conhecido como **overfitting**, onde o modelo se ajusta tão bem ao treino que perde a capacidade de generalizar para novos dados.

### Conjunto de Teste

O **conjunto de teste** é um subconjunto separado de dados que o modelo não vê durante o treinamento. Ele é usado para **avaliar a performance do modelo**. Como esses dados são novos para o modelo, a precisão das previsões no conjunto de teste dá uma indicação de quão bem o modelo generaliza para dados desconhecidos.

Essa separação é crucial para evitar o **overfitting** e garantir que o modelo não apenas memorize o conjunto de treino, mas também seja capaz de realizar previsões precisas em dados que não foram usados durante o treinamento.

### Proporção de Divisão

Uma prática comum é dividir os dados em aproximadamente **70% para treino** e **30% para teste**, mas essa proporção pode variar dependendo do tamanho do conjunto de dados ou das exigências do problema. Em alguns casos, quando se trabalha com conjuntos de dados muito grandes, pode-se utilizar uma proporção menor para o conjunto de teste, como 80/20 ou 90/10. O mais importante é garantir que o conjunto de teste seja suficientemente grande para fornecer uma avaliação robusta da performance do modelo.

### Importância da Divisão

A divisão entre treino e teste é uma etapa fundamental no processo de modelagem, pois permite:

1. **Avaliar a generalização**: Testar o modelo em dados não vistos ajuda a estimar quão bem ele funcionará em produção.
2. **Evitar o overfitting**: Um bom desempenho no conjunto de treino, mas um desempenho ruim no conjunto de teste, é um sinal de que o modelo está se ajustando demais aos dados de treino.
3. **Ajustar o modelo**: Resultados do conjunto de teste podem ser usados para ajustar o modelo, seja para melhorar sua capacidade de generalização ou para ajustar hiperparâmetros.

Essa divisão é um dos primeiros passos no processo de validação de modelos, assegurando que eles sejam eficazes não apenas nos dados conhecidos, mas também em situações do mundo real.


In [None]:
from sklearn.model_selection import train_test_split
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y,
                                                random_state=1)

# Modelo

Para esta tarefa, usaremos um modelo simples conhecido como Gaussian Naive Bayes. 

Como é um modelo muito rápido e não possui hiperparâmetros a serem ajustados, o Gaussian Naive Bayes costuma ser uma boa escolha para uma classificação de base, antes de explorar se melhorias podem ser obtidas com modelos mais sofisticados.

In [None]:
from sklearn.naive_bayes import GaussianNB # 1. Importar classe do modelo
modelo = GaussianNB()                       # 2. Criar instância
modelo.fit(X_treino, y_treino)                  # 3. Inicializar treino
y_modelo = modelo.predict(X_teste)             # 4. Prever a partir de novos dados

## Avaliação de Modelo de Classificação: Accuracy Score

O **accuracy score** (ou acurácia) é uma métrica simples e amplamente utilizada para avaliar o desempenho de um modelo de classificação. Ele mede a proporção de previsões corretas em relação ao total de previsões realizadas. A fórmula para calcular a acurácia é:

$
\text{Acurácia} = \frac{\text{Número de previsões corretas}}{\text{Número total de previsões}}
$

Um valor de acurácia próximo de 1 (ou 100%) indica que o modelo faz a maioria das previsões corretamente. No entanto, em problemas com classes desbalanceadas, a acurácia pode ser enganosa, pois um modelo que sempre prevê a classe majoritária pode ter uma acurácia alta, mas desempenho insatisfatório nas classes minoritárias. Nesse caso, métricas adicionais, como precisão e recall, devem ser consideradas.


In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_teste, y_modelo)

## Utilizando o Modelo para Prever a Partir de Novos Dados

In [None]:
import pandas as pd

novas_medidas = [1.5, 2.3, 3.8, 2.5]
matriz_de_novas_medidas = pd.DataFrame([novas_medidas], columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
matriz_de_novas_medidas

In [None]:
modelo.predict(matriz_de_novas_medidas)[0] 