In [1]:
import pandas as pd  # Importa a biblioteca pandas como pd
import numpy as no   # Importa a biblioteca numpy como no (note que o correto seria 'np')

# Leitura do dataframe
dataframe = pd.read_csv('Fish.csv')  # Lê o arquivo CSV e armazena em 'dataframe'

# Apresentando um resumo do dataframe
dataframe.head()  # Exibe as primeiras 5 linhas do dataframe

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width
0,Bream,242.0,23.2,25.4,30.0,11.52,4.02
1,Bream,290.0,24.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,23.9,26.5,31.1,12.3778,4.6961
3,Bream,363.0,26.3,29.0,33.5,12.73,4.4555
4,Bream,430.0,26.5,29.0,34.0,12.444,5.134


In [None]:
# pd Unique é como SELECT DISTINCT Species FROM peixes
pd.unique(dataframe['Species'])

In [2]:
# Apresentando informações sobre as variáveis.
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159 entries, 0 to 158
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Species  159 non-null    object 
 1   Weight   159 non-null    float64
 2   Length1  159 non-null    float64
 3   Length2  159 non-null    float64
 4   Length3  159 non-null    float64
 5   Height   159 non-null    float64
 6   Width    159 non-null    float64
dtypes: float64(6), object(1)
memory usage: 8.8+ KB


In [3]:
# Apresentando informações Estatísticas
dataframe.describe()

Unnamed: 0,Weight,Length1,Length2,Length3,Height,Width
count,159.0,159.0,159.0,159.0,159.0,159.0
mean,398.326415,26.24717,28.415723,31.227044,8.970994,4.417486
std,357.978317,9.996441,10.716328,11.610246,4.286208,1.685804
min,0.0,7.5,8.4,8.8,1.7284,1.0476
25%,120.0,19.05,21.0,23.15,5.9448,3.38565
50%,273.0,25.2,27.3,29.4,7.786,4.2485
75%,650.0,32.7,35.5,39.65,12.3659,5.5845
max,1650.0,59.0,63.4,68.0,18.957,8.142


In [4]:
# Verificando as espécies dos peixes.
pd.unique(dataframe['Species'])

# Verificando a quantidade de entidades por espécies.
dataframe['Species'].value_counts()

Unnamed: 0_level_0,count
Species,Unnamed: 1_level_1
Perch,56
Bream,35
Roach,20
Pike,17
Smelt,14
Parkki,11
Whitefish,6


In [5]:
# Importando o ordinal encoder.
from sklearn.preprocessing import OrdinalEncoder

# Instanciando o modelo para realizar o ordinal.
ordinal = OrdinalEncoder()

# Armazenando as espécies (dado categórico) em uma variável.
species_cat = dataframe['Species']

In [11]:
# Transformando as espécies (dado categórico) em números.
species_num = ordinal.fit_transform(species_cat.values.reshape(-1, 1))

In [14]:
# Variável que armazena as categorias.
ordinal.categories_[0]

array(['Bream', 'Parkki', 'Perch', 'Pike', 'Roach', 'Smelt', 'Whitefish'],
      dtype=object)

In [16]:
# Criando um dicionário com as categorias e seus respectivos valores.
encoding_dict = dict(zip(ordinal.categories_[0], range(len(ordinal.categories_[0]))))

encoding_dict

{'Bream': 0,
 'Parkki': 1,
 'Perch': 2,
 'Pike': 3,
 'Roach': 4,
 'Smelt': 5,
 'Whitefish': 6}

In [18]:
# Substituindo os valores categórico pelos dados convertidos.
dataframe['Species'] = species_num

In [19]:
dataframe

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width
0,0.0,242.0,23.2,25.4,30.0,11.5200,4.0200
1,0.0,290.0,24.0,26.3,31.2,12.4800,4.3056
2,0.0,340.0,23.9,26.5,31.1,12.3778,4.6961
3,0.0,363.0,26.3,29.0,33.5,12.7300,4.4555
4,0.0,430.0,26.5,29.0,34.0,12.4440,5.1340
...,...,...,...,...,...,...,...
154,5.0,12.2,11.5,12.2,13.4,2.0904,1.3936
155,5.0,13.4,11.7,12.4,13.5,2.4300,1.2690
156,5.0,12.2,12.1,13.0,13.8,2.2770,1.2558
157,5.0,19.7,13.2,14.3,15.2,2.8728,2.0672


In [20]:
# Pegando as variáveis independentes x (tudo menos o target -> Species).
x = dataframe.drop(['Species'], axis=1)

In [21]:
# Substituindo os valores categórico pelos dados convertidos.
dataframe['Species'] = species_num

In [23]:
# Pegar todas as variáveis independentes, exceto a coluna "Species".
x = dataframe.drop(['Species'], axis=1)
y = dataframe['Species']

In [24]:
# Importando as lib que realiza a separação dos dados em treino e teste.
from sklearn.model_selection import train_test_split

# Realizando a separação de x e y em dados de treino (70%) e teste (30%).
X_train, X_test, y_train, y_test = train_test_split(
    x,
    y,
    test_size=0.30,
    random_state=42
)

In [25]:
# Importando o classificador KNeighbors
from sklearn.neighbors import KNeighborsClassifier

# Instanciando o modelo de classificação.
model_knn = KNeighborsClassifier(n_neighbors=3)

# Treinando o modelo de classificação.
model_knn.fit(X_train, y_train)

In [26]:
# Realiza a predição usando um modelo KNN (K-Nearest Neighbors) nos dados de teste
# O resultado, y_predict, é um array que contém as classes previstas para cada instância nos dados de teste.
y_predict = model_knn.predict(X_test)
y_predict

array([2., 5., 1., 1., 2., 2., 5., 1., 2., 2., 0., 2., 0., 4., 2., 2., 2.,
       1., 0., 2., 5., 0., 0., 0., 0., 2., 4., 1., 5., 5., 0., 1., 1., 0.,
       0., 1., 4., 1., 2., 2., 0., 0., 5., 2., 4., 1., 4., 0.])

In [27]:
# Importando a lib para avaliar o modelo (acurácia)
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_predict)

0.4791666666666667

In [28]:
list_result = list()
# Percorrendo uma lista N vizinhos de 1 até 100 com passo de 2
for n_knn in range(1, 100, 2):
    # Instanciando o modelo de regressão.
    model_knn = KNeighborsClassifier(n_neighbors=n_knn)
    # Treinando o modelo de regressão.
    model_knn.fit(X_train, y_train)
    # Realizando a predição nos dados de teste.
    # Pega as informações das variáveis independentes (somente teste).
    y_predict = model_knn.predict(X_test)
    # Armazenando os valores da acurácia no teste
    acc = accuracy_score(y_test, y_predict)
    # Armazenando na lista acurácia e n-vizinhos
    list_result.append([acc, n_knn])

In [29]:
# Criando um dataframe dos resultados.
dataframe_result = pd.DataFrame(list_result, columns=['Acurácia', 'N-Vizinhos'])
dataframe_result

Unnamed: 0,Acurácia,N-Vizinhos
0,0.479167,1
1,0.479167,3
2,0.583333,5
3,0.604167,7
4,0.604167,9
5,0.5625,11
6,0.520833,13
7,0.5625,15
8,0.541667,17
9,0.520833,19
