### 1. Cite 2 técnicas para remoção de ruídos e, para cada uma, mostre uma vantagem e uma desvantagem.

- Análise de Componentes Principais (PCA, em inglês)
- Seleção de subconjuntos de atributos

No primeiro caso, a técnica PCA visa obter os principais componentes (os vetores ortogonais que melhor descrevem a variância dos dados). É eficiente na obtenção de uma representação compacta tanto para análise dos dados quanto para classificação, mas, por outro lado, é sensível à escala dos atributos e suscetível à perda de informação.

No segundo caso, a seleção de atributos consite em utilizar alguma heurística para construir subconjuntos dos atributos originais. É fácil de aplicar, todavia caso o número de atributos seja elevado, o processo de seleção pode demorar bastante. 

### 2. Qual é a importância de utilizar as seguintes abordagens de redução de dados no contexto de Ciência de Dados?

- Redução de dimensionalidade
- Redução de numerosidade

São duas técnicas que ajudam na diminuição do tempo de aprendizado do modelo, bem como o tornam menos complexo e melhor interpretável. A redução de dimensionalidade ataca o problema da *maldição da dimensionalidade*, cujo principal aspecto é um alto número de atributos presente no conjunto de dados; atributos que, geralmente, não agregam valor ao modelo e muitas vezes vão na via contrária, que é aumentar o ruído do conjunto. Já a redução dos dados visa, como observado, obter um modelo suficientemente bom com menos amostras.

### 3. De que forma pode-se detectar o _overfitting_ em um classificador?

- Comparando a performance do classificador no conjunto de validação e teste.
- Comparando as curvas de aprendizado nos conjuntos de treino e validação.

### 4. Em quais tipos de problemas é preferível utilizar _leave-one-out_ a utilizar _K-fold cross-validation_?

- Nos casos onde o conjunto de dados é muito pequeno.
- A dispensa da aleatoriedade na construção do conjunto de treino pode ajudar na confiabilidade do modelo (dado que o *viés* é menor se comparado a outras formas de validação).

---

### 5. Crie um _script_ em Python que avalie a diferença de desempenho entre os classificadores **K-NN** e **Naive Bayes** para o conjunto de dados _iris_ (`sklearn.datasets.load_iris`). Use _F-measure_ e _K-fold cross-validation_.

In [1]:
from sklearn.datasets import load_iris

In [2]:
data, target = load_iris(return_X_y=True)

In [3]:
data.shape

(150, 4)

In [4]:
target.shape

(150,)

In [5]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score

In [20]:
knn_clf = KNeighborsClassifier(n_neighbors=3)
scores = cross_val_score(knn_clf, data, target, cv=3, scoring='f1_micro')  # por que f1_micro?
print(scores.mean())

0.9803921568627452


In [21]:
gnb_clf = GaussianNB()
scores = cross_val_score(gnb_clf, data, target, cv=3, scoring='f1_micro')
print(scores.mean())

0.9342320261437909


- Note que usei `scoring`='f1_micro', o que significante que a métrica $F_1$ foi calculada a partir do total global de **True Positives (TP)**, **False Negatives (FN)** e **False Positives (FP)**.

- No caso do 'f1_macro', temos:

In [22]:
scores_knn = cross_val_score(knn_clf, data, target, cv=3, scoring='f1_macro')  # por que f1_micro?
scores_gnb = cross_val_score(gnb_clf, data, target, cv=3, scoring='f1_macro')

print(scores_knn.mean())
print(scores_gnb.mean())

0.9803411095077763
0.9341061666330485


- E para 'f1_weighted', que ajusta a falta de balançeamento entre as classes:

In [23]:
scores_knn = cross_val_score(knn_clf, data, target, cv=3, scoring='f1_weighted')  # por que f1_micro?
scores_gnb = cross_val_score(gnb_clf, data, target, cv=3, scoring='f1_weighted')

print(scores_knn.mean())
print(scores_gnb.mean())

0.9803411095077762
0.9341061666330485


- Não mudou. Pode ter sido porque as classes já são balanceadas.