<a href="https://colab.research.google.com/github/thaislin0/Modelos-de-Machine-Learning/blob/main/Modelo_KNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelo KNN aplicado a uma base de funcionários
Objetivo da análise: dado uma base de funcionários de uma, com informações sobre: tempo que está na empresa, em qual departamento trabalha, qual o nível e qual linguagem de programação utiliza, o método KNN tentará prever qual a linguagem de programação que um novo funcionário (fora da base) provavelmente programa.

In [14]:
# Importação da biblioteca "pandas"
import pandas as pd

In [3]:
# Criação de uma variável que recebe a função de leitura de excel do pandas com o caminho do arquivo que deve ser lido
base = pd.read_excel("/content/funcionarios.xlsx")

In [6]:
# A função shape retorna quantas linhas e colunas há na base de dados
base.shape

(10, 8)

In [7]:
# A função head() retorna, por padrão, as 5 primeiras rows ('linhas') da base de dados. O valor pode ser alterado com data.head(x)
base.head()

Unnamed: 0.1,Unnamed: 0,tempo (anos),departamento_ciencia de dados,departamento_programacao,departamento_web,nivel_pleno,nivel_senior,linguagem
0,0,1,0,0,0,0,0,R
1,1,6,0,0,1,0,1,Rubi
2,2,3,1,0,0,1,0,Python
3,3,2,0,0,1,0,0,Java
4,4,4,0,1,0,1,0,Java


In [8]:
# Deleção da coluna "Unnamed: 0"
del base['Unnamed: 0']

In [9]:
base.head()

Unnamed: 0,tempo (anos),departamento_ciencia de dados,departamento_programacao,departamento_web,nivel_pleno,nivel_senior,linguagem
0,1,0,0,0,0,0,R
1,6,0,0,1,0,1,Rubi
2,3,1,0,0,1,0,Python
3,2,0,0,1,0,0,Java
4,4,0,1,0,1,0,Java


# KNN: modelo de machine learning
"As previsões são feitas para uma nova instância (x) pesquisando todo o conjunto de treinamento para as K instâncias mais semelhantes (os vizinhos) e resumindo a variável de saída para essas instâncias de K. Para a regressão, essa pode ser a variável de saída média; na classificação, esse pode ser o valor de classe do modo (ou mais comum)."

Leia mais em: https://portaldatascience.com/o-algoritmo-k-nearest-neighbors-knn-em-machine-learning/

No KNN, o X será o modelo de entrada, ou seja, as colunas e os atributos. Já o Y será o modelo de saída, ou seja, é o alvo que que queremos atingir. O alvo nunca poderá entrar no momento da modelagem, pois estaríamos utilizando a resposta para chegar em uma resposta. 

Para isso, devemos iniciar a separação entre X e Y. X: entrada e Y: saída.

In [11]:
# Definindo X e excluindo a última coluna de nome "linguagem", pois ela seria a resposta
x = base.iloc[:, :-1]
x

Unnamed: 0,tempo (anos),departamento_ciencia de dados,departamento_programacao,departamento_web,nivel_pleno,nivel_senior
0,1,0,0,0,0,0
1,6,0,0,1,0,1
2,3,1,0,0,1,0
3,2,0,0,1,0,0
4,4,0,1,0,1,0
5,2,0,0,1,1,0
6,3,0,0,0,1,0
7,2,1,0,0,1,0
8,10,0,0,1,0,1
9,5,0,1,0,1,0


In [13]:
# Definindo Y e escolhendo todas as linhas, porém apenas a última coluna
y = base.iloc[:, -1]
y


0         R
1      Rubi
2    Python
3      Java
4      Java
5       PHP
6    Python
7    Python
8       PHP
9        C#
Name: linguagem, dtype: object

In [15]:
# Importação da biblioteca 'sklearn'
from sklearn.neighbors import KNeighborsClassifier

In [16]:
# Criação de uma instância, ou seja, um objeto a partir do classificador
# Utilização do parâmetro n_neighbors para definir o número de vizinhos
knn = KNeighborsClassifier(n_neighbors=3)

In [17]:
# A função fit é a responsável por fazer o treinamento do algoritmo
knn.fit(x, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

In [18]:
# Criação de uma variável para realizar um teste a partir da base para verificar se o classificador irá acertar; o "sample" escolhe aleatoriamente
amostra = base.sample()
amostra

Unnamed: 0,tempo (anos),departamento_ciencia de dados,departamento_programacao,departamento_web,nivel_pleno,nivel_senior,linguagem
9,5,0,1,0,1,0,C#


In [21]:
# Aqui, excluímos novamente a última coluna que contém a resposta
amostra.iloc[:, :-1]

Unnamed: 0,tempo (anos),departamento_ciencia de dados,departamento_programacao,departamento_web,nivel_pleno,nivel_senior
9,5,0,1,0,1,0


In [22]:
# A função predict já pode ser utilizada para fazer a previsão. Neste caso, o modelo acertou.
knn.predict(amostra.iloc[:, :-1])

array(['C#'], dtype=object)

In [31]:
# Criação de uma nova amostra para teste do KNN
amostra2 = base.sample()
amostra2

Unnamed: 0,tempo (anos),departamento_ciencia de dados,departamento_programacao,departamento_web,nivel_pleno,nivel_senior,linguagem
2,3,1,0,0,1,0,Python


In [38]:
# Exclusão da última linha que contém a resposta
amostra2.iloc[:, :-1]

Unnamed: 0,tempo (anos),departamento_ciencia de dados,departamento_programacao,departamento_web,nivel_pleno,nivel_senior
2,3,1,0,0,1,0


In [39]:
# Utilização do KNN para prever. Acertou novamente!
knn.predict(amostra2.iloc[:, :-1])

array(['Python'], dtype=object)

In [40]:
# Agora, o modelo está sendo testado com a entrada de novos dados de um possível novo funcionário e o modelo prevê qual o tipo de linguagem que
# o mesmo irá programar de acordo com as informações passadas

In [41]:
knn.predict([[2, 1, 0, 0, 1, 0]])

array(['Python'], dtype=object)

In [42]:
# No resultado acima, o algoritmo KNN previu que o funcionário com tais entradas usuaria Python como sua linguaguem de programação