# Desafio iFood: Criando um Algoritmo K-Nearest Neighbors do Zero

## Introdução:

No mundo em constante evolução da ciência de dados e aprendizado de máquina, dominar algoritmos é uma habilidade essencial. O K-Nearest Neighbors (KNN) é um dos pilares da aprendizagem supervisionada, amplamente utilizado para classificação e regressão. Neste artigo, enfrentaremos um desafio empolgante: criar nosso próprio algoritmo de Machine Learning K-Nearest Neighbors do zero, sem depender de bibliotecas.

## Contexto do Desafio:

Imagine uma empresa de logística de entrega de alimentos, semelhante ao conhecido iFood. Ela mantém um registro detalhado dos clientes, incluindo o número de identificação, os valores das últimas quatro compras e a classificação do Net Promoter Score (NPS). Nosso objetivo? Estimar as classificações NPS para os clientes que ainda não as forneceram, usando o modelo de Machine Learning K-Nearest Neighbors (KNN) sem usar nenhuma biblioteca como o numpy, math e outras. Para isso precisamos saber mais sobre Net Promoter Score (NPS) e o modelo que iremos usar que é o K-Nearest Neighbors (KNN). Abaixo explicarei detalhadamente sobre cada um e no final explicarei mais sobre as regras e os dados que serão usados para fazermos a nossa classificação.

## Sobre o modelo K-Nearest Neighbors (KNN)

K-Nearest Neighbors (KNN) é um algoritmo de aprendizado de máquina que se baseia no princípio de que pontos de dados semelhantes tendem a estar próximos no espaço de características. Ele é usado para classificação e regressão, onde a ideia-chave é que objetos com características semelhantes compartilham a mesma classe ou categoria. Mas o que é isso?

Imagine que você quer prever qual será o meu voto na próxima eleição presidencial se eu morasse no Texas, nos Estados Unidos. Se não souber mais nada sobre mim (e se tiver os dados), uma abordagem sensata seria analisar o voto dos meus vizinhos. Morando no Texas, como eu, meus vizinhos invariavelmente planejam votar em um candidato republicano, logo, "candidato republicano" também é um bom palpite para o meu voto.

Agora, imagine que você sabe mais do que minha localização geográfica (talvez saiba minha idade, minha renda, quantos filhos tenho e assim por diante.). Na medida em que meu comportamento é influenciado (ou caracterizado) por esses fatos, uma análise dos vizinhos mais próximos de mim em todas essas dimensões parece ser um indicador melhor do que uma análise de todos os meus vizinhos. Essa é a ideia central da classificação baseada nos vizinhos mais próximos.


### O KNN é usado em diversas aplicações em Ciência de Dados, incluindo:

1. **Classificação de Documentos**: Pode ser usado para classificar documentos com base em seu conteúdo ou tema.
2. **Recomendação de Produtos**: Usado em sistemas de recomendação para encontrar produtos ou conteúdo semelhante aos gostos do usuário.
3. **Detecção de Anomalias**: Pode ajudar a identificar anomalias em conjuntos de dados.
4. **Previsão de Preços e Valores**: Pode ser usado para prever preços de ações, valores imobiliários, entre outros.
5. **Diagnóstico Médico**: Auxilia na classificação de pacientes com base em sintomas e histórico médico.

### Características:

* **Não Paramétrico**: O KNN é um algoritmo não paramétrico, o que significa que não faz suposições rígidas sobre a distribuição dos dados. Ele se adapta aos dados disponíveis, tornando-o flexível.
* **Sensibilidade ao Tamanho do Conjunto de Dados**: A eficiência do KNN pode variar dependendo do tamanho do conjunto de dados. A complexidade computacional do KNN aumenta à medida que o conjunto de dados cresce, tornando-o mais lento em grandes conjuntos de dados.
* **Velocidade Ajustável**: A velocidade de cálculo do KNN é ajustável e depende de fatores como o tamanho do conjunto de treinamento e o valor escolhido para K. Um valor menor de K (mais vizinhos) geralmente requer mais cálculos, tornando-o mais lento, enquanto um valor maior de K (menos vizinhos) pode tornar o algoritmo mais rápido, mas potencialmente menos preciso.
* **Simplicidade**: O KNN é um algoritmo relativamente simples de entender e implementar. Sua lógica é direta, tornando-o uma excelente escolha para iniciantes em aprendizado de máquina.
* **Aplicação Versátil**: O KNN pode ser usado tanto para tarefas de classificação quanto de regressão. Na classificação, ele atribui uma classe com base na maioria dos K vizinhos mais próximos, enquanto na regressão, ele calcula a média dos valores de destino dos K vizinhos mais próximos para fazer uma previsão numérica.
* **Amplamente Conhecido e Estudado**: O KNN é um dos algoritmos mais antigos e bem estudados em aprendizado de máquina. Isso significa que há uma riqueza de recursos, tutoriais e informações disponíveis para aprender e aprimorar seu uso.

### Fórmula do Algoritmo K-Nearest Neighbors (KNN):

A fórmula matemática para o algoritmo KNN envolve o cálculo da distância entre pontos no espaço de características para determinar a classe de um novo ponto. Uma das métricas de distância mais comuns usadas é a Distância Euclidiana.

A Distância Euclidiana entre dois pontos, x e y, com coordenadas xi e yi em n dimensões, é calculada da seguinte maneira:

d(x, y) = √((x₁ - y₁)² + (x₂ - y₂)² + ... + (xn - yn)²)

Nesta fórmula:
- d(x, y) é a distância entre os pontos x e y.
- n é o número de dimensões (ou características) do espaço.
- xn e yn são as coordenadas do ponto x e y na dimensão i.

### Explicação:

O algoritmo KNN é um algoritmo de classificação e regressão baseado na ideia de que os pontos em um espaço de características semelhantes devem ter rótulos semelhantes. Para classificar um novo ponto, o KNN calcula a distância entre esse ponto e todos os pontos de treinamento conhecidos. Em seguida, ele seleciona os k pontos mais próximos (os "vizinhos mais próximos") com base na métrica de distância, que é frequentemente a Distância Euclidiana.

Após encontrar os k vizinhos mais próximos, o KNN determina a classe do novo ponto (ou seu valor, no caso de regressão) com base na classe predominante dos vizinhos.

Esta fórmula matemática ajuda a calcular as distâncias entre os pontos, permitindo que o KNN identifique os vizinhos mais próximos e tome decisões de classificação ou regressão com base em sua proximidade.

Lembre-se de que o KNN é um algoritmo simples e eficaz, amplamente utilizado em aprendizado de máquina para tarefas de classificação e regressão.

### Escolha de K:
Uma decisão crítica ao usar o KNN é a escolha do valor de K. O valor de K representa o número de vizinhos próximos que o algoritmo considera ao fazer uma previsão. Escolher um valor apropriado de K é fundamental, pois ele afeta o viés e a variância do modelo. Um valor pequeno de K pode levar a previsões instáveis e sensíveis ao ruído nos dados, enquanto um valor grande de K pode resultar em previsões mais suaves, mas potencialmente enviesadas.

Determinar o valor de K ideal geralmente envolve técnicas de validação cruzada, como a validação cruzada k-fold, que ajuda a avaliar o desempenho do modelo com diferentes valores de K e escolher aquele que oferece o melhor equilíbrio entre viés e variância.

### Métricas de Distância
O K-Nearest Neighbors (KNN) pode usar várias métricas de distância, dependendo do problema e das necessidades específicas. A métrica de distância mais comum e padrão usada pelo KNN é a Distância Euclidiana. No entanto, o KNN é altamente flexível e permite a escolha de diferentes métricas de distância, como:

1. **Distância Euclidiana**: Essa é a métrica de distância padrão, como discutida anteriormente, e é a mais comumente usada.

2. **Distância de Manhattan**: Também conhecida como norma L1, é a soma dos valores absolutos das diferenças entre as coordenadas.

3. **Distância de Minkowski**: É uma métrica de distância generalizada que engloba tanto a Distância Euclidiana quanto a Distância de Manhattan. A Distância de Minkowski inclui um parâmetro "p" que permite ajustar a métrica de acordo com a necessidade, onde "p" é um valor real positivo.

4. **Distância Ponderada**: Além das métricas mencionadas acima, é possível aplicar pesos diferentes às diferentes características ao calcular a distância. Isso é conhecido como Distância Ponderada e pode ser útil quando algumas características são mais importantes que outras.

A escolha da métrica de distância depende da natureza do problema e dos dados. Por exemplo, a Distância de Manhattan é mais apropriada quando as características têm unidades diferentes, enquanto a Distância Euclidiana é eficaz quando as unidades são semelhantes. A seleção da métrica e a escolha do valor de "p" (para Distância de Minkowski) são etapas importantes ao aplicar o KNN a um problema específico.

### Algoritmo:

1. Definir um valor para K: Isso envolve escolher o número de vizinhos próximos que serão considerados ao tomar uma decisão de classificação ou regressão.
2. Encontrar os K vizinhos mais próximos: Isso envolve calcular as distâncias entre o ponto a ser classificado e todos os pontos de dados no conjunto de treinamento e, em seguida, selecionar os K pontos mais próximos.
3. Tomar uma decisão com base nos K vizinhos:
    * Se for um problema de Regressão: Calcular a média dos valores dos K vizinhos e atribuir esse valor ao ponto de interesse.
    * Se for um problema de Classificação: Calcular a moda (classe mais comum) dos K vizinhos e atribuir essa classe ao ponto de interesse.
4. Atribuir o valor/classe ao ponto de interesse conforme o cálculo do Passo 3.

### Vantagens do K-Nearest Neighbors (KNN):
O algoritmo K-Nearest Neighbors (KNN) apresenta várias vantagens notáveis. Primeiramente, ele é amplamente elogiado por sua simplicidade. Sua lógica é direta e fácil de entender, tornando-o uma excelente escolha para introdução a algoritmos de aprendizado de máquina. Além disso, o KNN é não paramétrico, o que significa que ele não faz suposições rígidas sobre a distribuição dos dados. Isso torna o KNN altamente flexível e adequado para uma ampla gama de aplicações.

Outra vantagem importante do KNN é sua capacidade de se adaptar a dados com estruturas de cluster visíveis. Quando os pontos de dados compartilham características semelhantes, eles tendem a estar próximos uns dos outros no espaço de características. O KNN aproveita essa proximidade para fazer previsões precisas. Portanto, se os seus dados possuem agrupamentos bem definidos, o KNN pode ser uma escolha particularmente eficaz.

### Desvantagens do K-Nearest Neighbors (KNN):
Apesar das vantagens, o KNN não é isento de limitações. Uma desvantagem notável é sua sensibilidade a valores atípicos (outliers). Pontos de dados extremos podem afetar adversamente as previsões do KNN, tornando-o menos adequado para dados com valores discrepantes. Além disso, o KNN requer armazenamento dos dados de treinamento para realizar previsões, o que pode ser desafiador quando o conjunto de treinamento é extenso.

KNN também sofre da chamada "maldição da dimensionalidade." À medida que a dimensionalidade dos dados aumenta, o espaço de características se torna cada vez mais esparsamente povoado, o que pode levar a previsões menos precisas. Essa é uma desvantagem particularmente relevante ao lidar com dados de alta dimensionalidade.

### Visualização do Modelo:
Playground - [https://ml-playground.com/]

## O que é o Net Promoter Score (NPS)?
Agora vamos parar um pouco de falar sobre nosso modelo porque sua cabeça já deve estar a mil, vamos falar de uma coisa mais simples que é o Net Promoter Score (NPS) que é uma métrica de satisfação do cliente que foi desenvolvida por Fred Reichheld em 2003. É uma métrica simples, mas poderosa, que se concentra em uma pergunta-chave:

"Em uma escala de 0 a 10, o quanto você recomendaria nossa empresa/produto/serviço a um amigo ou colega?"

Com base nas respostas a essa pergunta, os clientes são classificados em três categorias:

Promotores (ou Detratores): Clientes que deram notas de 9 ou 10 são considerados promotores. Eles estão altamente satisfeitos e propensos a recomendar a empresa.

Neutros: Clientes que deram notas de 7 ou 8 são considerados neutros. Eles estão satisfeitos, mas não entusiásticos, e podem ou não recomendar a empresa.

Detratores: Clientes que deram notas de 0 a 6 são considerados detratores. Eles não estão satisfeitos e são menos propensos a recomendar a empresa.

Neste link conseguimos ver uma imagem de como a métrica é simples: [https://assets-global.website-files.com/633ec8b202a7496fb9c9dda9/64020daae50d701ac16ebd7a_Net%20Promoter%20Score.jpeg]

### Como Calcular o NPS?
O cálculo do NPS é simples. Após coletar as respostas dos clientes à pergunta-chave, você calcula a porcentagem de promotores e detratores em relação ao total de respostas. A fórmula é a seguinte:

NPS = (% de Promotores) - (% de Detratores)

O resultado é um número que pode variar de -100 a +100. Quanto maior o NPS, mais promotores a empresa tem em relação aos detratores.

### O que o NPS Revela?
O NPS é uma métrica valiosa porque vai além da simples avaliação de satisfação do cliente. Ele fornece informações sobre o quão leais e entusiastas os clientes são em relação à empresa. Aqui estão algumas das informações que o NPS pode revelar:

1. **Lealdade do Cliente**: Empresas com NPS mais alto geralmente têm clientes mais leais e propensos a fazer compras repetidas.

2. **Potencial de Crescimento**: Um NPS positivo geralmente indica um potencial de crescimento, pois os promotores são mais propensos a trazer novos clientes.

3. **Identificação de Problemas**: O NPS permite identificar áreas de insatisfação e problemas que precisam ser resolvidos para melhorar a experiência do cliente.

4. **Benchmarking**: O NPS também pode ser usado para comparar o desempenho de uma empresa com o de concorrentes, ajudando a identificar áreas em que a empresa pode melhorar.

### Utilização do NPS:
Empresas de todos os setores usam o NPS para medir o sucesso e a satisfação do cliente. Ele é frequentemente aplicado em pesquisas de satisfação, e a pontuação é acompanhada regularmente para avaliar as tendências ao longo do tempo. Com base nos resultados do NPS, as empresas podem tomar medidas para melhorar a satisfação do cliente, aprimorar produtos e serviços e fortalecer o relacionamento com os clientes.

### Conclusão:
O Net Promoter Score (NPS) é uma métrica fundamental para medir a satisfação do cliente e a lealdade à marca. Sua simplicidade e eficácia o tornam uma ferramenta valiosa para empresas que desejam melhorar o atendimento ao cliente e alcançar o crescimento dos negócios. Incorporar o NPS ao seu artigo pode ajudar a destacar a importância da satisfação do cliente e como o KNN pode ser usado para prever e melhorar o NPS.

## Desafio:

### Dados:

Agora vamos para o nosso desafio, primeiro vamos começar pelos nossos dados.

Os dados abaixo são referentes ao cadastro de clientes de uma empresa de logística de entrega de alimentação. Nesse cadastro, contém quanto foi gasto pelo cliente nas últimas 4 compras e sua classificação de NPS: Promotor, Neutro, Detrator. O nosso intuito é, a partir das últimas compras de alguns clientes que já deram uma nota NPS, estimar essa classificação para aqueles que ainda não estão classificados, a fim de melhorar o atendimento desses novos clientes.

Os dados abaixo seguem o seguinte padrão:

CPF: **INT**, Classificação NPS: **STRING**, Valor das últimas compras feitas pelo cliente: **TUPLA**

NPS - [https://assets-global.website-files.com/633ec8b202a7496fb9c9dda9/64020daae50d701ac16ebd7a_Net%20Promoter%20Score.jpeg]

### Regras:

* Se você precisar de usar uma função, crie e use-a!
* Não é permitido usar nenhum módulo externo como numpy e math.
* Use apenas os objetos e fluxos visto até o momento no curso

In [None]:
data = [[66707599984, 'Promotor', (51.00, 35.00, 14.00, 20.0)],
 [55695397315, 'Promotor', (49.00, 30.00, 14.00, 20.0)],
 [63743886918, 'Promotor', (47.00, 32.00, 13.00, 20.0)],
 [55941368774, 'Promotor', (46.00, 31.00, 15.00, 20.0)],
 [75486280874, 'Promotor', (50.00, 36.00, 14.00, 20.0)],
 [53164949799, 'Promotor', (54.00, 39.00, 17.00, 40.0)],
 [39898704131, 'Promotor', (46.00, 34.00, 14.00, 30.0)],
 [53740901207, 'Promotor', (50.00, 34.00, 15.00, 20.0)],
 [51735950236, 'Promotor', (44.00, 29.00, 14.00, 20.0)],
 [47305108951, 'Promotor', (49.00, 31.00, 15.00, 10.0)],
 [63858864633, 'Promotor', (54.00, 37.00, 15.00, 20.0)],
 [53363167240, 'Promotor', (48.00, 34.00, 16.00, 20.0)],
 [72133754195, 'Promotor', (48.00, 30.00, 14.00, 10.0)],
 [52802483512, 'Promotor', (43.00, 30.00, 11.00, 10.0)],
 [57925287214, 'Promotor', (48.00, 34.00, 19.00, 20.0)],
 [74354632224, 'Promotor', (50.00, 30.00, 16.00, 20.0)],
 [64020216626, 'Promotor', (50.00, 34.00, 16.00, 40.0)],
 [78223722856, 'Promotor', (52.00, 35.00, 15.00, 20.0)],
 [58245228846, 'Promotor', (52.00, 34.00, 14.00, 20.0)],
 [74490686776, 'Promotor', (47.00, 32.00, 16.00, 20.0)],
 [48646824781, 'Promotor', (48.00, 31.00, 16.00, 20.0)],
 [77381458676, 'Promotor', (54.00, 34.00, 15.00, 40.0)],
 [41615431874, 'Promotor', (52.00, 41.00, 15.00, 10.0)],
 [52163844491, 'Promotor', (55.00, 42.00, 14.00, 20.0)],
 [70276304567, 'Promotor', (49.00, 31.00, 15.00, 20.0)],
 [69119828185, 'Promotor', (50.00, 32.00, 12.00, 20.0)],
 [65441690046, 'Promotor', (55.00, 35.00, 13.00, 20.0)],
 [56457227894, 'Promotor', (49.00, 36.00, 14.00, 10.0)],
 [46939428126, 'Promotor', (44.00, 30.00, 13.00, 20.0)],
 [60979942480, 'Promotor', (51.00, 34.00, 15.00, 20.0)],
 [41648583220, 'Promotor', (50.00, 35.00, 13.00, 30.0)],
 [50376331791, 'Promotor', (45.00, 23.00, 13.00, 30.0)],
 [67008801023, 'Promotor', (44.00, 32.00, 13.00, 20.0)],
 [72149193419, 'Promotor', (50.00, 35.00, 16.00, 60.0)],
 [62830733382, 'Promotor', (51.00, 38.00, 19.00, 40.0)],
 [56716675811, 'Promotor', (48.00, 30.00, 14.00, 30.0)],
 [61089667146, 'Promotor', (51.00, 38.00, 16.00, 20.0)],
 [47795509468, 'Promotor', (46.00, 32.00, 14.00, 20.0)],
 [60899885693, 'Promotor', (53.00, 37.00, 15.00, 20.0)],
 [53433670705, 'Promotor', (50.00, 33.00, 14.00, 20.0)],
 [54850120580, 'Neutro', (70.00, 32.00, 47.00, 14.00)],
 [71457789994, 'Neutro', (64.00, 32.00, 45.00, 15.00)],
 [67692777563, 'Neutro', (69.00, 31.00, 49.00, 15.00)],
 [43133573182, 'Neutro', (55.00, 23.00, 40.00, 13.00)],
 [55150612815, 'Neutro', (65.00, 28.00, 46.00, 15.00)],
 [48211725243, 'Neutro', (57.00, 28.00, 45.00, 13.00)],
 [76686463776, 'Neutro', (63.00, 33.00, 47.00, 16.00)],
 [71971000560, 'Neutro', (49.00, 24.00, 33.00, 10.00)],
 [40307235992, 'Neutro', (66.00, 29.00, 46.00, 13.00)],
 [44826533081, 'Neutro', (52.00, 27.00, 39.00, 14.00)],
 [45735414894, 'Neutro', (59.00, 32.00, 48.00, 18.00)],
 [57137146514, 'Neutro', (61.00, 28.00, 40.00, 13.00)],
 [53657058251, 'Neutro', (63.00, 25.00, 49.00, 15.00)],
 [52941460485, 'Neutro', (61.00, 28.00, 47.00, 12.00)],
 [44306600683, 'Neutro', (64.00, 29.00, 43.00, 13.00)],
 [43460747924, 'Neutro', (66.00, 30.00, 44.00, 14.00)],
 [75590376075, 'Neutro', (68.00, 28.00, 48.00, 14.00)],
 [68267282206, 'Neutro', (67.00, 30.00, 50.00, 17.00)],
 [77567920298, 'Neutro', (60.00, 29.00, 45.00, 15.00)],
 [67600419504, 'Neutro', (57.00, 26.00, 35.00, 10.00)],
 [44902189811, 'Neutro', (55.00, 24.00, 38.00, 11.00)],
 [62966866614, 'Neutro', (55.00, 24.00, 37.00, 10.00)],
 [56182108880, 'Neutro', (58.00, 27.00, 39.00, 12.00)],
 [78299785392, 'Neutro', (60.00, 27.00, 51.00, 16.00)],
 [45206071878, 'Neutro', (54.00, 30.00, 45.00, 15.00)],
 [57381925887, 'Neutro', (60.00, 34.00, 45.00, 16.00)],
 [65654934891, 'Neutro', (67.00, 31.00, 47.00, 15.00)],
 [56130640481, 'Neutro', (63.00, 23.00, 44.00, 13.00)],
 [59667611672, 'Neutro', (56.00, 30.00, 41.00, 13.00)],
 [40349334385, 'Neutro', (55.00, 25.00, 40.00, 13.00)],
 [68422640081, 'Neutro', (55.00, 26.00, 44.00, 12.00)],
 [55245923439, 'Neutro', (61.00, 30.00, 46.00, 14.00)],
 [51286696873, 'Neutro', (58.00, 26.00, 40.00, 12.00)],
 [41065279767, 'Neutro', (50.00, 23.00, 33.00, 10.00)],
 [42866454119, 'Neutro', (56.00, 27.00, 42.00, 13.00)],
 [61962944542, 'Neutro', (57.00, 30.00, 42.00, 12.00)],
 [48623501235, 'Neutro', (57.00, 29.00, 42.00, 13.00)],
 [49475220139, 'Neutro', (62.00, 29.00, 43.00, 13.00)],
 [52245218531, 'Neutro', (51.00, 25.00, 30.00, 11.00)],
 [50932926697, 'Neutro', (57.00, 28.00, 41.00, 13.00)],
 [47432932248, 'Detrator', (63.00, 33.00, 60.00, 25.00)],
 [39321991579, 'Detrator', (58.00, 27.00, 51.00, 19.00)],
 [46283759608, 'Detrator', (71.00, 30.00, 59.00, 21.00)],
 [56996272538, 'Detrator', (63.00, 29.00, 56.00, 18.00)],
 [77232189978, 'Detrator', (65.00, 30.00, 58.00, 22.00)],
 [77183282421, 'Detrator', (76.00, 30.00, 66.00, 21.00)],
 [42857147573, 'Detrator', (49.00, 25.00, 45.00, 17.00)],
 [39331584043, 'Detrator', (73.00, 29.00, 63.00, 18.00)],
 [48130345228, 'Detrator', (67.00, 25.00, 58.00, 18.00)],
 [71422443953, 'Detrator', (72.00, 36.00, 61.00, 25.00)],
 [72508507904, 'Detrator', (69.00, 32.00, 57.00, 23.00)],
 [41188727558, 'Detrator', (56.00, 28.00, 49.00, 20.00)],
 [61358776640, 'Detrator', (77.00, 28.00, 67.00, 20.00)],
 [66934042323, 'Detrator', (63.00, 27.00, 49.00, 18.00)],
 [40622495567, 'Detrator', (67.00, 33.00, 57.00, 21.00)],
 [57221661311, 'Detrator', (72.00, 32.00, 60.00, 18.00)],
 [45159362930, 'Detrator', (62.00, 28.00, 48.00, 18.00)],
 [45018975174, 'Detrator', (61.00, 30.00, 49.00, 18.00)],
 [70685429140, 'Detrator', (64.00, 28.00, 56.00, 21.00)],
 [61808723477, 'Detrator', (72.00, 30.00, 58.00, 16.00)],
 [56363906548, 'Detrator', (74.00, 28.00, 61.00, 19.00)],
 [39646194720, 'Detrator', (79.00, 38.00, 64.00, 20.00)],
 [55385494438, 'Detrator', (64.00, 28.00, 56.00, 22.00)],
 [75796138061, 'Detrator', (63.00, 28.00, 51.00, 15.00)],
 [53595767857, 'Detrator', (61.00, 26.00, 56.00, 14.00)],
 [48758828080, 'Detrator', (77.00, 30.00, 61.00, 23.00)],
 [58387651356, 'Detrator', (63.00, 34.00, 56.00, 24.00)],
 [72846931192, 'Detrator', (64.00, 31.00, 55.00, 18.00)],
 [47046896346, 'Detrator', (60.00, 30.00, 48.00, 18.00)],
 [69730292799, 'Detrator', (69.00, 31.00, 54.00, 21.00)],
 [48177836349, 'Detrator', (67.00, 31.00, 56.00, 24.00)],
 [57976326635, 'Detrator', (69.00, 31.00, 51.00, 23.00)],
 [55710813002, 'Detrator', (58.00, 27.00, 51.00, 19.00)],
 [64028580439, 'Detrator', (68.00, 32.00, 59.00, 23.00)],
 [49962942971, 'Detrator', (67.00, 33.00, 57.00, 25.00)],
 [47250893163, 'Detrator', (67.00, 30.00, 52.00, 23.00)],
 [75559276274, 'Detrator', (63.00, 25.00, 50.00, 19.00)],
 [58529878272, 'Detrator', (65.00, 30.00, 52.00, 20.00)],
 [76005896622, 'Detrator', (62.00, 34.00, 54.00, 23.00)],
 [49212614633, 'Detrator', (59.00, 30.00, 51.00, 18.00)]]

no_class = [[45926320819, '', (58.00, 40.00, 12.00, 20.0)],
 [52559670741, '', (57.00, 44.00, 15.00, 40.0)],
 [59016004832, '', (54.00, 39.00, 13.00, 40.0)],
 [66175672425, '', (51.00, 35.00, 14.00, 30.0)],
 [53330429526, '', (57.00, 38.00, 17.00, 30.0)],
 [43765563403, '', (51.00, 38.00, 15.00, 30.0)],
 [68020822591, '', (54.00, 34.00, 17.00, 20.0)],
 [53939481689, '', (51.00, 37.00, 15.00, 40.0)],
 [47014057561, '', (46.00, 36.00, 10.00, 20.0)],
 [57183542047, '', (51.00, 33.00, 17.00, 50.0)],

 [68518284363, '', (50.00, 20.00, 35.00, 10.00)],
 [65806049885, '', (59.00, 30.00, 42.00, 15.00)],
 [54128073086, '', (60.00, 22.00, 40.00, 10.00)],
 [41306785494, '', (61.00, 29.00, 47.00, 14.00)],
 [65234831039, '', (56.00, 29.00, 36.00, 13.00)],
 [50964498067, '', (67.00, 31.00, 44.00, 14.00)],
 [50810951429, '', (56.00, 30.00, 45.00, 15.00)],
 [48765044397, '', (58.00, 27.00, 41.00, 10.00)],
 [41960083761, '', (62.00, 22.00, 45.00, 15.00)],
 [76657763082, '', (56.00, 25.00, 39.00, 11.00)],

 [64726487742, '', (65.00, 32.00, 51.00, 20.00)],
 [75746566283, '', (64.00, 27.00, 53.00, 19.00)],
 [78576734793, '', (68.00, 30.00, 55.00, 21.00)],
 [56440141847, '', (57.00, 25.00, 50.00, 20.00)],
 [66827423000, '', (58.00, 28.00, 51.00, 24.00)],
 [45267873396, '', (64.00, 32.00, 53.00, 23.00)],
 [46387191493, '', (65.00, 30.00, 55.00, 18.00)],
 [54273611732, '', (77.00, 38.00, 67.00, 22.00)],
 [75135392881, '', (77.00, 26.00, 69.00, 23.00)],
 [64703873108, '', (60.00, 22.00, 50.00, 15.00)]]

# Usando a Moda como Classificação:

In [None]:
# Passo 1: Defina um valor para K
def obter_valor_k():
    while True:
        entrada_k_str = input("Qual valor desejado para K? ")  # Solicitamos ao usuário o valor de K como uma string
        if entrada_k_str.isdigit():  # Verifica se a entrada é composta apenas de dígitos
            valor_k = int(entrada_k_str)  # Converte a entrada em um número inteiro
            if valor_k > 0:
                return valor_k
            else:
                print("O valor de K deve ser maior que 0. Tente novamente.")
        else:
            print("Entrada inválida. Certifique-se de inserir um número inteiro válido.")

valor_k = obter_valor_k()

# Passo 2: Defina uma função com a Fórmula Matemática da Distância Euclidiana
def distancia_euclidiana(x, y):
    soma_dos_quadrados = 0
    for i in range(len(x)):
        soma_dos_quadrados += (x[i] - y[i]) ** 2 #Formula Matematica d(x, y) = √((x₁ - y₁)² + (x₂ - y₂)² + ... + (xn - yn)²)
    return soma_dos_quadrados**(0.5) # Aplicando a raiz quadrada

# Passo 3: Calcula a distância euclidiana entre um usuário do conjunto de dados e o novo ponto.
def calcular_distancia(usuario, novo_ponto):
    return distancia_euclidiana(usuario[2], novo_ponto)

# Passo 4: Defina uma função para encontrar os K vizinhos mais próximos
def k_vizinhos(data, novo_ponto, valor_k):
    # Função interna para extrair a distância a partir de um elemento (para ordenação)
    def chave_de_ordenacao(item):
        _, dist = item  # Desempacota a tupla para obter a distância
        return dist

    vizinhos = []  # Lista para armazenar os vizinhos mais próximos e suas distâncias
    for usuario in data:
        dist = distancia_euclidiana(usuario[2], novo_ponto)
        # Calcula a distância Euclidiana entre o novo ponto e cada ponto do conjunto de dados
        vizinhos.append((usuario, dist))  # Armazena o usuário e sua distância em uma tupla

    vizinhos.sort(key=chave_de_ordenacao)  # Ordena a lista de vizinhos com base nas distâncias
    return vizinhos[:valor_k]  # Retorna os K vizinhos mais próximos (os primeiros K elementos da lista ordenada)

# Passo 5: Classificar com base na moda dos K vizinhos
def classificar_com_base_na_moda(vizinhos):
    if not vizinhos:
        return 'Desconhecido'  # Se não houver vizinhos, retorna 'Desconhecido'

    classes_vizinhos = []  # Inicializa uma lista vazia para armazenar as classes dos vizinhos

    for usuario, _ in vizinhos:
        classes_vizinhos.append(usuario[1])  # Adiciona a classe do vizinho à lista
        #Agora, a lista classes_vizinhos contém as classes dos vizinhos.

    contagem = {}  # Dicionário para contagem de ocorrências de cada classe

    # Itera sobre as classes dos vizinhos para contar quantas vezes cada classe aparece
    for classe in classes_vizinhos:
        if classe in contagem:
            contagem[classe] += 1
        else:
            contagem[classe] = 1

    # Encontra a classe mais frequente (moda) usando a função max com base na contagem
    classe_mais_frequente = max(contagem, key=contagem.get)

    return classe_mais_frequente

# Passo 6: Classificação dos usuários
for usuario in no_class:
    if usuario[1] == '': # Se o usuário não tiver classificação
        vizinhos = k_vizinhos(data, usuario[2], valor_k)
        classificacao = classificar_com_base_na_moda(vizinhos)
        print(f"CPF: {usuario[0]}, Classificação NPS: {classificacao}")


CPF: 45926320819, Classificação NPS: Promotor
CPF: 52559670741, Classificação NPS: Promotor
CPF: 59016004832, Classificação NPS: Promotor
CPF: 66175672425, Classificação NPS: Promotor
CPF: 53330429526, Classificação NPS: Promotor
CPF: 43765563403, Classificação NPS: Promotor
CPF: 68020822591, Classificação NPS: Promotor
CPF: 53939481689, Classificação NPS: Promotor
CPF: 47014057561, Classificação NPS: Promotor
CPF: 57183542047, Classificação NPS: Promotor
CPF: 68518284363, Classificação NPS: Neutro
CPF: 65806049885, Classificação NPS: Neutro
CPF: 54128073086, Classificação NPS: Neutro
CPF: 41306785494, Classificação NPS: Neutro
CPF: 65234831039, Classificação NPS: Neutro
CPF: 50964498067, Classificação NPS: Neutro
CPF: 50810951429, Classificação NPS: Neutro
CPF: 48765044397, Classificação NPS: Neutro
CPF: 41960083761, Classificação NPS: Neutro
CPF: 76657763082, Classificação NPS: Neutro
CPF: 64726487742, Classificação NPS: Detrator
CPF: 75746566283, Classificação NPS: Detrator
CPF: 785

# Conclusão:

Recentemente, ouvi um episódio antigo do Podcast Data Hackers, especificamente o número 10, onde Humberto Brandão enfatizou: 'Se a pessoa não se dedicar a entender a base, ela fica muito presa no que o Framework faz.' Essa afirmação foi fundamental para a minha abordagem no projeto em colaboração entre a Ada Tech e o iFood. Em vez de me lançar diretamente nas bibliotecas de Machine Learning e aplicar o KNN com o Scikit-Learn, o projeto priorizou que a gente compreenda profundamente o algoritmo KNN e seu funcionamento independente das bibliotecas.

O projeto se concentrou estritamente no uso da linguagem Python, sem o suporte de bibliotecas adicionais. Dado que, na época em que o exercício foi proposto, estávamos na parte de funções do curso, resolvi aprofundar meu domínio nessa área, aplicando princípios de Engenharia de Software e Clean Code.

Essa abordagem resultou em código legível, simples e conciso que são características essenciais do código de produção de alta qualidade, crucial para a colaboração e manutenção contínua no desenvolvimento de software.

Embora houvessem dificuldades, principalmente na adaptação entre a lógica matemática e sua transposição ao código, porém que foi enfrentada com muita leveza, respeitando os limites dos nossos conhecimentos individuais, mas também os elevando-o graças a capacidade do trabalho coletivo.

Além disso, durante o projeto, aprofundei meus conhecimentos em estatística, explorei ainda mais o algoritmo de Machine Learning KNN e adquiri um entendimento mais sólido do NPS, que antes eu não não tinha tanta experiência. No geral, essa experiência foi incrível e me proporcionou uma ótima oportunidade de aprendizado.

### Referências:
Se você deseja aprofundar seus conhecimentos sobre o KNN, há muitos recursos disponíveis. Alguns deles incluem livros de referência, tutoriais online e cursos de aprendizado de máquina. Recomendo consultar fontes confiáveis, como:

"Primeira" aparição do modelo " - [https://apps.dtic.mil/dtic/tr/fulltext/u2/a800276.pdf]

"Data Science do Zero" de Joel Grus.

"Introduction to Machine Learning with Python" de Andreas C. Müller e Sarah Guido.

Tutoriais online em sites populares, como Kaggle, Scikit-learn, e Towards Data Science.

NPS (Net Promoter Score) - [https://rockcontent.com/br/blog/nps/]

# Grupo:
Matheus Muniz Damasco

Ricardo Jeferson da Silva Francisco

Maria Vitória Silva de Vasconcelos