# Punto 1 - Autocorrector con KNN

In [1]:
import numpy as np
import json
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors

In [2]:
#Leemos el archivo que contiene el vocabulario con nombres cientificos
with open("translation.json") as jsonFile:
  data = json.load(jsonFile)

vocabulary = []
for i in data.keys():
  vocabulary.append(i)

print(vocabulary)

['equus-quagga', 'panthera-leo', 'panthera-onca', 'ursus-arctos-horribilis', 'megaptera-novaeangliae', 'panthera-tigris', 'haliaeetus-leucocephalus', 'tyrannosaurus-rex', 'diplodocus', 'panthera-pardus', 'homo-sapiens', 'phoebetria-fusca', 'bos-taurus', 'gallus-gallus-domesticus', 'ovis-aries', 'ceratotherium-simum', 'loxodonta-africana', 'tursiops-truncatus', 'orcinus-orca', 'carcharodon-carcharias', 'canis-lupus-familiaris', 'felis-catus', 'salmo-salar', 'balaenoptera-musculus', 'giraffa-camelopardalis', 'ophiophagus-hannah', 'crotalus-atrox', 'varanus-komodoensis', 'pterois-mombasae', 'spinosaurus-aegyptiacus', 'crocodylus-niloticus', 'falco-peregrinus', 'gorilla-gorilla', 'pongo-abelii', 'gavialis-gangeticus', 'acinonyx-jubatus', 'canis-lupus', 'ursus-maritimus', 'hippopotamus-amphibius', 'iguana-iguana', 'iguanodon-bernissartensis', 'stegosaurus-stenops', 'triceratops-horridus', 'pteranodon-longiceps', 'ankylosaurus-magniventris', 'agalychnis-callidryas', 'dendrobatidae', 'mellisu

In [3]:
#convertimos la lista del vocabulario a una representacion numerica
tfidf_vectorizer = TfidfVectorizer(analyzer='char')
tfidf_matrix = tfidf_vectorizer.fit_transform(vocabulary)

#entrenamos el modelo KNN para encontrar 2 vecinos
knn = NearestNeighbors(n_neighbors=2, metric="cosine")
knn.fit(tfidf_matrix)

In [4]:
#definimos la funcion que retornara la palabra mas parecida en el vocabulario
def autocorrect(input_word):

    #representacion numerica de la palabra ingresada
    input_vector = tfidf_vectorizer.transform([input_word])
    
    #encontrar el vecino mas cercano en el vocabulario
    _, indices = knn.kneighbors(input_vector)
    closest_words = [vocabulary[i] for i in indices[0]]
    
    return closest_words

Ejemplos de nombres cientificos para probar la funcion de autocorrector:

- tyrannosaurus-rex: T. Rex
- salmo-salar: Salmon
- balaenoptera-musculus: Blue Whale
- canis-lupus: Wolf,
- alces-alces: Moose

In [7]:
#modificar variable con la especie que se quiera buscar
input_word = "salmon"

suggestions = autocorrect(input_word)

print(f"Especie: {input_word}")
print()
print(f"Quisiste decir: {suggestions[0]} o {suggestions[1]}?")

Especie: salmon

Quisiste decir: salmo-salar o monodon-monoceros?
