In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

### Exercício 1: Explicação Básica
**Escreva um parágrafo explicando o que é Machine Learning e por que é útil em diversas aplicações do mundo real:**

*Machine Learning é um campo da Inteligência Artificial que permite aos computadores aprenderem e melhorarem seu desempenho automaticamente, a partir da análise de dados e da aplicação de algoritmos. Utilizando conceitos de matemática, estatística e probabilidade, os sistemas são capazes de identificar padrões em conjuntos de dados e tomar decisões ou realizar previsões com base nesses padrões.*
*Devido à enorme quantidade de dados gerados diariamente, o aprendizado de máquina tornou-se fundamental em diversas áreas do nosso cotidiano. Ele é aplicado em tarefas simples, como reconhecimento de voz e recomendações de músicas, produtos e conteúdos nas redes sociais, até em problemas mais complexos, como a detecção de fraudes financeiras ou o diagnóstico precoce de doenças graves. O aprendizado de máquina é uma ferramenta poderosa para aumentar a eficiência e a precisão em várias aplicações do mundo real, por isso é extremamente necessária na sociedade atual.* 

---
### Exercício 2: Tipos de Machine Learning
**Liste e explique brevemente os dois principais tipos de Machine Learning: Aprendizado Supervisionado e Não-Supervisionado:**

*No aprendizado supervisionado o modelo é treinado com um conjunto de dados rotulados, cada entrada vem acompanhada de uma saída esperada. O algoritmo aprende a partir de exemplos de entrada e saída para cada amostra de treinamento, ambos fornecidos pelo cientista, ajustando seus parâmetros com base na diferença entre os valores previstos e os reais.*
*O aprendizado não supervisionado recebe dados não rotulados com o objetivo de fazer com que o algoritmo encontre padrões por conta própria sem interferência externa ,analisando as semelhanças entre os dados de entrada. Como não há uma saída previamente definida, o modelo descobre semelhança nos dados e diferença nas informações para então identificar, e rotular por conta própria, grupos de dados semelhantes ou detectar anomalias em instâncias que fogem do padrão.*  

---
### Exercício 3: Bibliotecas de Python para Machine Learning
**Pesquise e liste cinco bibliotecas de Python 3 que são comumente usadas em Machine Learning, destacando a importância do Scikit-Learn:**

- scikit-learn: É uma das bibliotecas mais importantes para Machine Learning em Python, oferece uma ampla gama de algoritmos de aprendizado e inclui ferramentas para pré-processamento de dados, avaliação de modelos e validação cruzada, o que a torna essencial para a construção e teste de modelos de ML de forma prática e eficiente.
- pandas: Fornece estruturas de dados como DataFrames, que permitem organizar e tratar conjuntos de dados tabulares, algo essencial no preparo dos dados em Machine Learning.
- numpy: Fornece suporte para arrays e matrizes multidimensionais, além de funções matemáticas de alto desempenho é fundamental para lidar com operações numéricas e manipulação de dados.
- scipy: Complementa o numpy com funcionalidades matemáticas adicionais, como álgebra linear avançada, estatística, integração e otimização.
- matplotlib: Usada para visualização de dados por meio de gráficos e figuras. É essencial para explorar dados, identificar padrões, verificar correlações e visualizar os resultados de modelos de Machine Learning.

---
### Exercício 4: Aprendizado Baseado em Instâncias vs Modelos
**Explique a diferença entre aprendizado baseado em instâncias e aprendizado baseado em modelos, dando um exemplo de cada um:**

*No aprendizado baseado em instâncias o algoritmo memoriza os exemplos do conjunto de treinamento e compara esses dados armazenados com as novas instâncias para fazer previsões. O k-Nearest Neighbors (k-NN) usa essa abordagem, onde a previsão é feita com base nos "k" vizinhos mais próximos da nova entrada.*
*Já no aprendizado baseado em modelos, o algoritmo cria uma representação abstrata dos dados durante o processo de treinamento, detectando padrões nos dados e criando um modelo matemático que pode ser utilizado para fazer previsões sobre novos exemplos. A regressão linear é um exemplo de modelo que aprende uma equação que relaciona variáveis de entrada a uma variável de saída.*


---
### Exercício 5: Desafios em Machine Learning
**Enumere e descreva três desafios comuns enfrentados ao criar modelos de Machine Learning:**

1. Dados de treinamento insuficientes:
Os modelos precisam de grandes volumes de dados de exemplos para aprender padrões úteis e fazer previsões precisas. Em domínios complexos ou pouco explorados, como diagnósticos médicos, coletar e rotular dados pode ser caro, demorado e exigir especialistas. Isso torna a obtenção de dados um dos maiores desafios na criação de modelos eficazes.
2. Falta de diversidade nos dados:
Ter muitos dados não garante um bom modelo se eles não forem representativos e um conjunto de dados enviesado pode levar o modelo a aprender padrões incorretos e a generalizar mal para novos dados. Ou seja, além de uma grande quantidade de exemplos é importante que esses dados sejam diversos para não comprometer a precisão e a equidade do modelo.
3. Overfitting:
O overfitting ocorre quando o modelo se ajusta excessivamente aos dados de treinamento, inclusive aos ruídos ou padrões irrelevantes. Isso faz com que ele tenha um desempenho excelente nos dados vistos durante o treinamento, mas falhe ao generalizar para novos dados. O modelo decora os exemplos em vez de aprender regras gerais.



### Exercício 6: Análise de Dados dos Pinguins
**Acesse a base de dados "Pinguins" disponível em PalmerPenguins GitHub. Identifique as *features* e o *target* na base de dados:**

In [2]:
caminho_csv = 'penguins.csv'
df_penguins = pd.read_csv(caminho_csv)
df_penguins = df_penguins.dropna()

species = 'Adelie'
df_penguins['target'] = df_penguins['species'].apply(lambda x: 1 if x == species else 0)

features = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']
X = df_penguins[features]
y = df_penguins['target']

### Exercício 7: Preparando os Dados
**Com a base de dados "Pinguins", escreva um código em Python para separar os dados em conjuntos de treino e validação. Observe que iremos criar um classificador que diferencia a espécie "Adelie" das outras duas:**

In [3]:
random_seed = 42
np.random.seed(random_seed)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=random_seed, stratify=y
)

### Exercício 8: Construção do Modelo Inicial
**Utilizando a biblioteca Scikit-Learn, escreva um código em Python para construir um modelo de Machine Learning usando o algoritmo de K-Nearest Neighbors com a base de dados "Pinguins":**

In [4]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

k = 11
distance_metric = 'minkowski'

knn = KNeighborsClassifier(n_neighbors=k, metric=distance_metric)
knn.fit(X_train, y_train)


### Exercício 9: Avaliação do Modelo
**Após treinar o modelo de K-Nearest Neighbors com a base de dados "Pinguins", escreva um código para avaliar a acurácia do seu modelo nos dados de validação:**

In [5]:
y_pred = knn.predict(X_test)
train_accuracy = knn.score(X_train, y_train)
test_accuracy = accuracy_score(y_test, y_pred)

print("Previsões do conjunto de teste:\n", y_pred)
print(f"Acurácia no treino: {100 * train_accuracy:.2f}%")
print(f"Acurácia no teste:  {100 * test_accuracy:.2f}%")
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred, target_names=["Outras", "Adelie"]))

Previsões do conjunto de teste:
 [1 0 1 1 1 0 1 0 0 0 0 1 1 1 0 1 0 1 1 0 0 1 1 1 1 1 0 0 1 1 1 0 0 1 0 0 0
 0 0 1 1 0 1 0 1 1 1 1 0 1 1 1 1 0 1 1 0 0 1 0 0 1 0 1 1 1 0]
Acurácia no treino: 81.58%
Acurácia no teste:  77.61%

Matriz de Confusão:
 [[26 12]
 [ 3 26]]

Relatório de Classificação:
               precision    recall  f1-score   support

      Outras       0.90      0.68      0.78        38
      Adelie       0.68      0.90      0.78        29

    accuracy                           0.78        67
   macro avg       0.79      0.79      0.78        67
weighted avg       0.80      0.78      0.78        67



### Exercício 10: Reflexão Crítica
**Baseado nos exercícios anteriores, escreva um breve texto discutindo os desafios encontrados ao criar um modelo de Machine Learning e como cada etapa do processo é crucial para o sucesso do projeto:**

*No desenvolvimento de modelos de Machine Learning são encontrados diversos desafios durante todas as etapas. Como esses modelos dependem fortemente dos dados, o primeiro obstáculo costuma ser garantir que esses dados estejam completos, limpos e bem estruturados, essa etapa demanda muita atenção e cuidado. A escolha do modelo, bem como dos parâmetros e métricas utilizados nele, também trazem seus desafios, pois essa etapa exige tanto conhecimento teórico quanto domínio de técnicas específicas, a fim de garantir que o modelo esteja alinhado com os objetivos do negócio. Além disso, a etapa de testes e validação é essencial, pois revela a capacidade do modelo e exige uma extensa experimentação para assegurar que ele alcance um bom desempenho e alta precisão. Cada uma dessas etapas é crucial para garantir que o modelo seja avaliado de forma justa e se comporte bem diante de novos dados.*

### Exercício 11: Aprofundamento
**Baseado nos exercícios anteriores, crie um novo modelo de classificação binário, agora para classificar os pinguins da classe Gentoo versus as outras espécies. O desempenho deste modelo é pior ou melhor do que o primeiro modelo criado?**

In [6]:
species = 'Gentoo'
df_penguins['target'] = df_penguins['species'].apply(lambda x: 1 if x == species else 0)

y = df_penguins['target']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=random_seed, stratify=y
)

knn = KNeighborsClassifier(n_neighbors=k, metric=distance_metric)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)
train_accuracy = knn.score(X_train, y_train)
test_accuracy = accuracy_score(y_test, y_pred)

print("Previsões do conjunto de teste:\n", y_pred)
print(f"Acurácia no treino: {100 * train_accuracy:.2f}%")
print(f"Acurácia no teste:  {100 * test_accuracy:.2f}%")
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred, target_names=["Outras", "Gentoo"]))



Previsões do conjunto de teste:
 [1 1 1 0 0 0 1 0 0 1 0 0 0 1 0 1 0 0 1 0 0 1 0 1 0 0 1 0 0 0 0 1 0 0 1 1 0
 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 1 1 0 1 0 0 1]
Acurácia no treino: 94.74%
Acurácia no teste:  95.52%

Matriz de Confusão:
 [[42  1]
 [ 2 22]]

Relatório de Classificação:
               precision    recall  f1-score   support

      Outras       0.95      0.98      0.97        43
      Gentoo       0.96      0.92      0.94        24

    accuracy                           0.96        67
   macro avg       0.96      0.95      0.95        67
weighted avg       0.96      0.96      0.96        67



_O modelo de classificação binária utilizando a classe “Gentoo” apresentou uma acurácia de 94.74% no treino e 95.52% no teste, demonstrando um desempenho melhor ao modelo criado com a classe “Adelie”, que teve 81,58 % e 77,61% na acurácia no treino e teste,respectivamente._

### Exercício 12: Compreensão
**Seria possível criar um modelo capaz de diferenciar as três espécies de pinguim? Escreva sua resposta destacando quais as diferenças seriam observadas na análise:**

*Sim, é possível criar um modelo capaz de diferenciar as três espécies de pinguins, não usando a classificação binária mas sim a classificação de multiclasse, criando 3 rótulos distintos para cada uma das classes. A análise seria capaz de identificar padrões nas variáveis disponíveis para prever com maior precisão a qual espécie o pinguim provavelmente pertence, diferentemente da classificação binária que apenas indica se a probabilidade do pinguim pertencer mais  a uma de duas espécies, sem considerar uma terceira opção possível.*