## Exercício 1: Explicação Básica

Escreva um parágrafo explicando o que é Machine Learning e por que é útil em diversas aplicações do mundo real.


Machine Learning, ou aprendizado de máquina, é um ramo da tecnologia da informação em que dados são usados para treinar modelos com o objetivo de fazer com que computadores aprendam os padrões presentes nesses dados de forma consistente para que consigam realizar predições. É útil pois, ao conhecer os padrões presentes nos dados, informações podem ser extraídas deles, e desta forma condutas específicas podem ser traçadas com base nessas informações. Quando pensamos, por exemplo, no mercado financeiro e na bolsa de valores, conseguir prever o padrão de comportamento do mercado é algo extremamente poderoso.

## Exercício 2: Tipos de Machine Learning

Liste e explique brevemente os dois principais tipos de Machine Learning: Aprendizado Supervisionado e Não-Supervisionado.


A forma com que podemos treinar os modelos previamente mencionados é diversa, com vários métodos disponíveis em nosso arsenal. Mas eles podem ser agrupados em dois grandes grupos: Aprendizado Supervisionado e Aprendizado Não-Supervisionado.

- No Aprendizado Supervisionado, dados são alimentados ao modelo e uma resposta (chamada rótulo) sempre é esperada. O modelo é treinado com dados que já possuem um rótulo correspondente, e depois dados de teste são utilizados para avaliar se um rótulo correto é fornecido como resposta. Dentre exemplos desse tipo, podemos listar a classificação binária ou a regressão linear.

- No Aprendizado Não-Supervisionado, não há rótulos envolvidos. Dessa forma, não há uma resposta "certa" ou "errada". O modelo é simplesmente moldado para agrupar os dados alimentados em grupos parecidos de acordo com algum padrão ou estrutura observada neles.

##Exercício 3: Bibliotecas de Python para Machine Learning

Pesquise e liste cinco bibliotecas de Python 3 que são comumente usadas em Machine Learning, destacando a importância do Scikit-Learn.



1.   Scikit-Learn: Uma das bibliotecas mais completas para ML. Ela possui métodos para todas as etapas do processo, desde a normalização e padronização de dados e codificação de variáveis categóricas até à avaliação do modelo, através das métricas de avaliação (acurácia, MSE, MAE, etc). Ela é amplamente utilizada pelo seu fácil acesso e pela baixa curva de complexidade. Obviamente, também oferece modelos de aprendizado supervisionado e não supervisionado para treino, além de ferramentas para otimizar e refinar os modelos.
2.   Pandas: utilizada para manipulação e análise de dados estruturados. Sua integração com CSV, Excel e SQL facilitam a conversão dos dados de um tipo para outro.
3. Matplotlib: utilizado para a criação de diversos modelos de gráficos, como linhas, barras ou até histogramas.
4. NumPy: biblioteca poderosa para o processamento de operações matemáticas avançadas. Serve de base para outras bibliotecas, como o Pandas.
5. Seaborn: biblioteca complementar ao Matplotlib, oferece opções de visualização mais complexas (como heatmaps, boxplots ou pairplots). Sua integração com o Pandas facilita a visualização de DataFrames.



## Exercício 4: Aprendizado Baseado em Instâncias vs Modelos

Explique a diferença entre aprendizado baseado em instâncias e aprendizado baseado em modelos, dando um exemplo de cada um.


- Aprendizado baseado em instâncias: o modelo memoriza os dados e usa comparações para prever novas amostras. Ele não possui uma função associada ao método, simplesmente faz predições baseadas na "aproximação" dos dados entre si. Desta forma, não há um treinamento real. Como exemplo mais comum temos o KNN.

- Aprendizado baseado em modelos: o modelo aprende uma função matemática para representar os dados. Ele ajusta os dados a uma equação matemática, utilizando a função encontrada para realizar as previsões futuras. Os dados de treinamento são descartados após a função ser identificada. Como exemplo, podemos citar a regressão linear.

## Exercício 5: Desafios em Machine Learning

Enumere e descreva três desafios comuns enfrentados ao criar modelos de Machine Learning.

- Qualidade dos dados: muitas vezes, somos obrigados a trabalhar com dados incompletos, inconsistentes ou fora de escala (desbalanceados), o que, caso não seja ratificado, leva a modelos enviesados e com baixa capacidade preditiva.

- Overfitting e Underfitting: em modelos mais complexos, muitas vezes acabamos por ajustar demais seus dados, levando a um overfitting do modelo e reduzindo sua capacidade de generalização. Por outro lado, ao treinarmos modelos mais simples, por vezes acabamos por não o treinarmos o suficiente, levando a um underfitting do modelo.

- Escalabilidade: modelos simples funcionam bem pois não precisam de grande volumes de dados para serem treinados ou para funcionarem, porém modelos mais robustos enfrentam problemas diversos: necessidade de alta capacidade computacional para conseguir processar grandes volumes de dados ou para utilização de modelos mais complexos, como redes neurais, o tempo necessário para o treinamento ou para a realização de predições.

## Exercício 6: Análise de Dados dos Pinguins

Acesse a base de dados "Pinguins" disponível em PalmerPenguins GitHub. Identifique as 'features' e o 'target' na base de dados.


Target: Species

Features: island, bill_length_mm, bill_depth_mm, flipper_lenght_mm, body_mass_g, sex, year

## Exercício 7: Preparando os Dados

Com a base de dados "Pinguins", escreva um código em Python para separar os dados em conjuntos de treino e validação. Observe que iremos criar um classificador que diferencia a espécie "Adelie" das outras duas.


In [98]:
pip install palmerpenguins



In [99]:
import pandas as pd
from palmerpenguins import load_penguins
penguins = load_penguins()
penguins

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009


In [100]:
penguins.isna().sum()

Unnamed: 0,0
species,0
island,0
bill_length_mm,2
bill_depth_mm,2
flipper_length_mm,2
body_mass_g,2
sex,11
year,0


In [101]:
penguins.iloc[penguins['bill_length_mm'].isna().index[penguins['bill_length_mm'].isna()]]
penguins_clean = penguins.drop(index=penguins['bill_length_mm'].isna().index[penguins['bill_length_mm'].isna()])
penguins_clean.isna().sum()

Unnamed: 0,0
species,0
island,0
bill_length_mm,0
bill_depth_mm,0
flipper_length_mm,0
body_mass_g,0
sex,9
year,0


In [111]:
##tomei a liberdade de categorizar todos os pinguins com sexo indefinido restantes como fêmeas
penguins_clean['sex'] = penguins_clean['sex'].fillna("female")
penguins_clean

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,male,2007
...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009


In [103]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

le = LabelEncoder()
penguins_clean1 = penguins_clean.copy()
penguins_clean1['species'] = le.fit_transform(penguins_clean1['species'])
penguins_clean1['species'] = penguins_clean1['species'].replace(2, 1)
##"Adelie" é a espécie 0; transformei a espécie 2 em espécie 1 para termos apenas 2 categorias

penguins_clean1['island'] = le.fit_transform(penguins_clean1['island'])
penguins_clean1['sex'] = penguins_clean1['sex'].astype(str)
penguins_clean1['sex'] = le.fit_transform(penguins_clean1['sex'])
penguins_clean1

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,0,2,39.1,18.7,181.0,3750.0,1,2007
1,0,2,39.5,17.4,186.0,3800.0,0,2007
2,0,2,40.3,18.0,195.0,3250.0,0,2007
4,0,2,36.7,19.3,193.0,3450.0,0,2007
5,0,2,39.3,20.6,190.0,3650.0,1,2007
...,...,...,...,...,...,...,...,...
339,1,1,55.8,19.8,207.0,4000.0,1,2009
340,1,1,43.5,18.1,202.0,3400.0,0,2009
341,1,1,49.6,18.2,193.0,3775.0,1,2009
342,1,1,50.8,19.0,210.0,4100.0,1,2009


In [104]:
X = penguins_clean1[['island', 'bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g', 'sex']]
y = penguins_clean1['species']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Exercício 8: Construção do Modelo Inicial

Utilizando a biblioteca Scikit-Learn, escreva um código em Python para construir um modelo de Machine Learning usando o algoritmo de K-Nearest Neighbors com a base de dados "Pinguins".


In [105]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
y_pred

array([1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1,
       0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1,
       0, 1, 0])

## Exercício 9: Avaliação do Modelo

Após treinar o modelo de K-Nearest Neighbors com a base de dados "Pinguins", escreva um código para avaliar a acurácia do seu modelo nos dados de validação.


In [106]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)
print(f"Acurácia: {accuracy_score(y_test, y_pred)*100}")

Acurácia: 88.40579710144928


## Exercício 10: Reflexão Crítica

Baseado nos exercícios anteriores, escreva um breve texto discutindo os desafios encontrados ao criar um modelo de Machine Learning e como cada etapa do processo é crucial para o sucesso do projeto.


Treinar modelos de Machine Learning é um processo longo e iterativo. Precisamos prestar atenção em todas as etapas do projeto, desde à seleção de features que nosso modelo irá utilizar, passando pelo processamento dessas features (escalonamento dos dados, transformação do tipo de dados), escolha do modelo (classificação, regressão, etc) que melhor irá corresponder as nossas necessidades, seleção de hiperparâmetros (neste caso, a escolha do k) e escolha de métricas para avaliação do modelo. Todo ajuste e escolha realizados em cada uma dessas etapas impacta diretamente no desempenho final do modelo e na sua capacidade de generalização. Escolher features demais pode atrapalhar o modelo, mas deixar de utilizar features importantes pode fazer com que o modelo não funcione por dados insuficientes. Não padronizar os dados pode fazer com que o modelo fique enviesado, enquanto utilizar um modelo inapropriado pode reduzir muito a acurácia ou aumentar demais a margem de erros. Por fim, o treinamento de modelo nem é possível se não transformarmos todos os dados em números.

## Exercício 11: Aprofundamento

Baseado nos exercícios anteriores, crie um novo modelo de classificação binário, agora para classificar os pinguins da classe Gentoo versus as outras espécies. O desempenho deste modelo é pior ou melhor do que o primeiro modelo criado?


In [112]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

le = LabelEncoder()
penguins_clean2 = penguins_clean.copy()
penguins_clean2['species'] = le.fit_transform(penguins_clean2['species'])
penguins_clean2['species'] = penguins_clean2['species'].replace(2, 0)
##"Gentoo" é a espécie 1; transformei a espécie 2 em espécie 0 para termos apenas 2 categorias

penguins_clean2['island'] = le.fit_transform(penguins_clean2['island'])
penguins_clean2['sex'] = penguins_clean2['sex'].astype(str)
penguins_clean2['sex'] = le.fit_transform(penguins_clean2['sex'])
penguins_clean2

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,0,2,39.1,18.7,181.0,3750.0,1,2007
1,0,2,39.5,17.4,186.0,3800.0,0,2007
2,0,2,40.3,18.0,195.0,3250.0,0,2007
4,0,2,36.7,19.3,193.0,3450.0,0,2007
5,0,2,39.3,20.6,190.0,3650.0,1,2007
...,...,...,...,...,...,...,...,...
339,1,1,55.8,19.8,207.0,4000.0,1,2009
340,1,1,43.5,18.1,202.0,3400.0,0,2009
341,1,1,49.6,18.2,193.0,3775.0,1,2009
342,1,1,50.8,19.0,210.0,4100.0,1,2009


In [108]:
X = penguins_clean2[['island', 'bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g', 'sex']]
y = penguins_clean2['species']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [109]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
y_pred

array([0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1,
       0, 1, 0])

In [110]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)
print(f"Acurácia: {accuracy_score(y_test, y_pred)*100}")

Acurácia: 89.85507246376811


Considerando a utilização dos mesmos hiperparâmetros e dos mesmos tipos de transformações, o desempenho deste modelo é melhor do que o modelo anterior em aproximadamente 1,4%.

## Exercício 12: Compreensão

Seria possível criar um modelo capaz de diferenciar as três espécies de pinguim? Escreva sua resposta destacando quais as diferenças seriam observadas na análise?


Sim, seria possível criar um modelo para diferenciar as três espécies de pinguim, porém podemos esperar uma acurácia bem menor das encontradas nos modelos anteriores, pois o novo modelo teria mais chances de errar. Anteriormente, ele só tinha que prever entre duas classes ("Adelie" ou não, e "Gentoo" ou não). O novo modelo teria que predizer 3 classes, o que transformaria nosso problema de classificação binária em classificação multiclasses, aumentando a complexidade do modelo. Teríamos que empregar técnicas mais refinadas de transformação de dados e talvez um outro algoritmo se quiséssemos manter a acurácia anterior.