In [1]:
# Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
# Contribuição: Adriano Santos
# Aprendizagem baseada em instâncias

In [2]:
# Importação das bibliotecas - Esse código em Python utiliza a biblioteca scikit-learn para realizar uma classificação de vizinhos mais próximos (K-Nearest Neighbors). Primeiro, ele importa as bibliotecas necessárias, como datasets, métricas de avaliação de modelos e a classe KNeighborsClassifier. Em seguida, ele importa o pandas e scipy para manipulação de dados e estatísticas. O código provavelmente carrega um conjunto de dados, divide-o em conjuntos de treinamento e teste, e ajusta um modelo KNN a esses dados. Ele também calcula métricas de avaliação, como a precisão e a matriz de confusão do modelo, para avaliar o desempenho do classificador.

from sklearn import datasets
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import pandas as pd
from scipy import stats


In [3]:
# Carregamos de disco para visualizar apenas - No código fornecido, inicialmente, é feita a leitura de um arquivo CSV chamado 'iris.csv' localizado no diretório '../dados/'. Os dados lidos são então carregados em um DataFrame chamado 'iristemp'. Em seguida, a função 'head()' é aplicada ao DataFrame, exibindo as cinco primeiras linhas do conjunto de dados, permitindo uma rápida visualização das informações contidas no arquivo. Esse código é útil para uma análise inicial e exploração de dados em projetos de ciência de dados.

iristemp = pd.read_csv('../dados/iris.csv')
iristemp.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [4]:
# Carregamento da base de dados e visualização - Este código em Python carrega o famoso conjunto de dados Iris e utiliza a função "describe" do módulo "stats" para calcular estatísticas descritivas sobre os atributos do conjunto de dados. Isso inclui informações como média, desvio padrão, valores mínimo e máximo, quartis, entre outros. Essa análise estatística ajuda a compreender a distribuição e variabilidade dos dados, sendo uma etapa importante na análise de dados e tomada de decisões em projetos de análise de BI, algo que se alinha com minha especialização em Power BI e SQL.

iris = datasets.load_iris()
stats.describe(iris.data)

DescribeResult(nobs=150, minmax=(array([4.3, 2. , 1. , 0.1]), array([7.9, 4.4, 6.9, 2.5])), mean=array([5.84333333, 3.05733333, 3.758     , 1.19933333]), variance=array([0.68569351, 0.18997942, 3.11627785, 0.58100626]), skewness=array([ 0.31175306,  0.31576711, -0.27212767, -0.10193421]), kurtosis=array([-0.57356795,  0.18097632, -1.39553589, -1.33606741]))

In [15]:
# O código "iris.target" representa o atributo alvo do famoso conjunto de dados Iris, que contém informações sobre diferentes espécies de flores. Esse atributo contém as classes ou rótulos que queremos prever, ou seja, as espécies das flores. Enquanto isso, o comentário "#iris.data" indica que a linha subsequente está comentada e não está sendo executada. Em resumo, o código acessa as classes-alvo do conjunto de dados Iris, que são essenciais para tarefas de aprendizado de máquina voltadas para classificação.

iris.target
#iris.data

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [17]:
# Criação dos previsores (variável independente - X) e class (variável dependente - y) - No código fornecido, estão sendo atribuídos os dados da íris (flores) à variável 'previsores' e os rótulos das classes das flores à variável 'classe'. Esses dados são comumente usados em aprendizado de máquina para classificar as espécies de íris com base em suas características. 

previsores = iris.data
classe = iris.target

In [19]:
# Divisão da base de dados entre treinamento e teste (70% para treinamento e 30% para teste) - Nesse código, estamos dividindo nossos dados em conjuntos de treinamento e teste usando a função 'train_test_split' do scikit-learn. O parâmetro 'test_size' define a proporção de dados de teste (30% neste caso), enquanto 'random_state' garante que a divisão seja reproduzível. O 'len(X_treinamento)' simplesmente nos fornece o número de elementos no conjunto de treinamento, útil para análises futuras. Esse processo é essencial na construção de modelos de aprendizado de máquina para avaliar seu desempenho.

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(
    previsores, classe, test_size = 0.3, random_state = 0
)

len(X_treinamento)

105

In [21]:
# Nesse código, estamos usando o algoritmo K-Nearest Neighbors (KNN) para classificação. Primeiro, criamos uma instância do classificador KNN com 3 vizinhos próximos definidos como parâmetro. Em seguida, utilizamos o método "fit" para treinar o modelo com os dados de treinamento, representados por X_treinamento (os atributos) e y_treinamento (as classes alvo). O KNN irá aprender a classificar novos dados com base na proximidade aos vizinhos mais próximos no conjunto de treinamento, ajudando na tarefa de classificação.

knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(X_treinamento, y_treinamento)

In [23]:
# No código fornecido, é realizada a previsão de valores utilizando um modelo KNN (K-Nearest Neighbors) previamente treinado. A função `predict` é aplicada ao conjunto de teste `X_teste`, e as previsões resultantes são armazenadas na variável `previsoes`. Essas previsões provavelmente representam a classe ou valor estimado para cada entrada no conjunto de teste, permitindo a avaliação do desempenho do modelo ou a tomada de decisões com base nas predições obtidas.

previsoes = knn.predict(X_teste)
previsoes

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2, 1, 1, 2, 0, 2, 0,
       0])

In [24]:
# O código apresentado realiza o cálculo de uma matriz de confusão, que é uma ferramenta essencial na avaliação de modelos de machine learning. A variável "confusao" armazena os resultados da matriz de confusão, que é gerada comparando as previsões do modelo (previsoes) com os valores reais (y_teste). Esta matriz permite visualizar quantos valores foram classificados corretamente e quantos foram classificados incorretamente pelo modelo, sendo fundamental para analisar o desempenho e a precisão do algoritmo de machine learning em questão.

confusao = confusion_matrix(y_teste, previsoes)
confusao

array([[16,  0,  0],
       [ 0, 17,  1],
       [ 0,  0, 11]], dtype=int64)

In [27]:
# Nesse código, calculamos a taxa de acerto de um modelo de machine learning. Primeiro, utilizamos a função `accuracy_score` para medir a precisão do modelo comparando as previsões (variável `previsoes`) com os valores reais (variável `y_teste`). Em seguida, calculamos a taxa de erro subtraindo a taxa de acerto de 1. Para exibir o resultado de forma mais legível, multiplicamos a taxa de acerto por 100 e arredondamos para duas casas decimais. Por fim, imprimimos a taxa de acerto em formato percentual. Isso permite avaliar o desempenho do modelo em termos de acurácia.

taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_erro = 1 - taxa_acerto
taxa_acerto = round(taxa_acerto * 100, 2)
print(f"{taxa_acerto}%")

97.78%
