# Desafio - Vaga para Cientista de Dados

**Empresa**: Lambda3 (https://www.lambda3.com.br/)

**Complexidade**: Intermediário

**Tarefa avaliada**: Machine Learning - Classificação

**Requisitos**: 
- Ferramentas Essenciais.
- Conceitos e Aplicações.
- Dominando o Python
- Python para Análise de Dados.
- Machine Learning
    - Algoritmos de Classificação
    - Técnicas de Validação
    - Tunning de Modelos

**Objetivo**: Este desafio tem como objetivo avaliar as habilidades do candidato em relação a uma tarefa simples de classificação, conforme descrito pela empresa. 
Todas as etapas do desafio podem ser resolvidos com os conhecimentos adquiridos no capítulo de Machine Learning.

**Recursos**: Para este desafio é proposto o dataset Iris (https://archive.ics.uci.edu/ml/datasets/Iris)

**Importando as bibliotecas necessárias**

In [1]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import classification_report

<p><span style="color:red">O dataset deve ser o Iris.</span></p>

**Importando o dataset Iris.**

In [3]:
df = pd.read_csv("iris.csv")

**Verificando os dados e atributos da base de dados.**

In [4]:
df.head()

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepallength    150 non-null float64
sepalwidth     150 non-null float64
petallength    150 non-null float64
petalwidth     150 non-null float64
class          150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


<p><span style="color:red"> Receber as entradas específicas (escolher as variáveis pertinentes).</span></p>
<p><span style="color:red"> Justificar a escolha das variáveis.</span></p>


**Separando separando os atributos que serão utilizados como features e a classe.**

In [6]:
X = df.drop("class",axis=1)

In [7]:
y = df["class"]

**Transformando o atributo classe para valores numéricos utilizando o LabelEncoder.**

In [8]:
label = LabelEncoder()
label.fit(y)

LabelEncoder()

In [9]:
y = label.transform(y)

**Verificando as formas das variáveis.**

In [10]:
X.shape

(150, 4)

In [106]:
y.shape

(150,)

<p><span style="color:red"> Explicar o porque escolheu o algoritmo de classificação usado (e porque não usou outros).</span></p>

O algoritmo **K Nearest Neighbors (KNN)** foi escolhido por sua simplicidade, rápida execução e por se tratar de uma base de dados pequena com poucos dados e atributos.
<br>
Pensando na estratégia de resolver o problema proposto da melhor maneira e da forma mais simples possível, o algoritmo escolhido neste cenário apresentou bons resultados, sem a necessidade de tunning e ajustes.

**Instanciando o algoritmo KNN.**

In [13]:
clf_knn = KNeighborsClassifier()

**Treinando o modelo utilizando a validação utilizando Cross Validation e armazenando os resultados.**

In [14]:
resultados_knn = cross_val_predict(clf_knn, X, y, cv=5)

**Verificando os resultados através de métricas.**

In [15]:
nomes_classes = label.inverse_transform([0,1,2])

  if diff:


In [16]:
print(classification_report(y,resultados_knn,target_names=nomes_classes))

                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        50
Iris-versicolor       0.98      0.94      0.96        50
 Iris-virginica       0.94      0.98      0.96        50

    avg / total       0.97      0.97      0.97       150



<p><span style="color:red"> Apresentar a saída classificada</span></p>
<p><span style="color:red"> Justificar a performance do modelo de classificação, com base nos métodos de avaliação pertinentes.</span></p>


O Modelo de Classificação apresentou bons resultados utilizando a técnica de Validação Cruzada com um total de 5 folds.
<br><br>
Foram escolhidas as métricas **precision**, **recall** e **f1-score** para avaliar o modelo por permitir uma análise por classe, já que estamos lidando com um problema que contém 3 classes.
    
Através do valor da métrica de precisão (precision) podemos ver que o modelo sofreu mais para classificar a classe **Iris-Virginica** obtendo um percentual de **94%** que corresponde ao número de vezes que o modelo classificou corretamente os dados da respectiva classe sobre a quantidade de vezes que a classe foi predita.

Analisando a métrica de revocação (recall) o modelo teve mais dificuldade para classificar os dados da classe Iris-versicolor também com o percentual de **94%** que corresponde ao número de vezes que o modelo classificou corretamente diante do volume de dados da respectiva classe no dataset.

Por fim, a medida **F1-Score** que corresponde a média harmonica entre as duas medidas anteriormente citadas apresentou um bom resultado com o valor de **97%**.

### Trabalho adicional

- Aplicar um método de pré-processamento de dados como o MinMax Scaler e explicar o benefício da técnica.
- Utilizar o GridSearchCV para otimizar os parametros do KNN e descobrir qual a melhor configuração.
- Treinar e otimizar outros algoritmos como SVM, Arvores de Decisão, Random Forest, Naive Bayes e comparar os resultados.

### Dicas importantes 

- Tenha coragem.
- Seja verdadeiro e honesto.
- Priorize sempre a simplicidade.
- Exponha o seu ponto de vista sem medo.
- Dê o seu máximo!