In [21]:
import numpy as np
import pandas as pd
from collections import Counter

class KNN:
    def __init__(self, k=3):
        self.k = k
        
    def fit(self, X, y):
        self.X_train = X
        self.y_train = y
        
    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum((x1 - x2)**2))
    
    def predict(self, X):
        predictions = [self._predict(x) for x in X]
        return np.array(predictions)
    
    def _predict(self, x):
        distances = [self.euclidean_distance(x, x_train) for x_train in self.X_train]
        k_indices = np.argsort(distances)[:self.k]
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        most_common = Counter(k_nearest_labels).most_common(1)
        return most_common[0][0]

def preprocess_data(data):
    features = ['GDP (USD Billion)', 'Population (Millions)', 'Unemployment Rate (%)', 
                'Average Age', 'Women (%)', 'Men (%)', 'Budget (USD Billion)']
    X = data[features].values
    y = data['City'].values
    
    X_normalized = (X - np.mean(X, axis=0)) / np.std(X, axis=0)
    
    return X_normalized, y

def run_knn(data, k=3):
    X, y = preprocess_data(data)
    
    # Split data into train and test sets (80-20 split)
    split = int(0.8 * len(X))
    X_train, X_test = X[:split], X[split:]
    y_train, y_test = y[:split], y[split:]
    
    knn = KNN(k=k)
    knn.fit(X_train, y_train)
    
    predictions = knn.predict(X_test)
    
    accuracy = np.mean(predictions == y_test)
    print(f"Accuracy: {accuracy:.2f}")
    
    return knn, accuracy

def generate_submission(model, test_data, output_file='submission.csv'):
    X_test, _ = preprocess_data(test_data)
    predictions = model.predict(X_test)
    
    submission = pd.DataFrame({
        'ID': test_data['City'],
        'label': predictions
    })
    
    submission.to_csv(output_file, index=False)
    print(f"Submission file created: {output_file}")

# Example usage
if __name__ == "__main__":
    # Load your data
    data = pd.read_csv("../datos-estadistica/X_train.csv")
    
    # Run KNN
    knn_model, accuracy = run_knn(data, k=3)
    
    # Load test data (assuming you have a separate test file)
    test_data = pd.read_csv("../datos-estadistica/X_test.csv")
    
    # Generate submission file
    generate_submission(knn_model, test_data, 'submission.csv')

    print("Descripción:")
    print("La métrica principal es la precisión. Significa que la ciudad en el objetivo es la ciudad más cercana al centroide.")
    
    print("\nEvaluación:")
    print("La precisión de las presentaciones se evalúa")
    
    print("\nArchivo de envío:")
    print("Para cada ID del conjunto de pruebas, se ha predicho una etiqueta para la variable TARGET.")
    print("El archivo contiene un encabezado y tiene el siguiente formato:")
    print("\nID,label")
    print("Cúcuta,Medellín")
    print("Puerto Carreño,Popayán")
    print("...")

Accuracy: 0.00
Submission file created: submission.csv
Descripción:
La métrica principal es la precisión. Significa que la ciudad en el objetivo es la ciudad más cercana al centroide.

Evaluación:
La precisión de las presentaciones se evalúa

Archivo de envío:
Para cada ID del conjunto de pruebas, se ha predicho una etiqueta para la variable TARGET.
El archivo contiene un encabezado y tiene el siguiente formato:

ID,label
Cúcuta,Medellín
Puerto Carreño,Popayán
...
