# 🧠 Programación II - Semana 2
**Tema: Transformación de datos con NumPy y clasificación con KNN**
Basado en el libro *Numerical Python* de Robert Johansson

## 🔢 Transformaciones de Arrays con NumPy

In [None]:
import numpy as np

# Array 3D ejemplo
array3d = np.arange(24).reshape(2, 3, 4)
print("Array original:")
print(array3d)

# Estadísticas por ejes
print("\nMedia por eje 0:", np.mean(array3d, axis=0))
print("\nMedia por eje 1:", np.mean(array3d, axis=1))
print("\nMedia por eje 2:", np.mean(array3d, axis=2))

## ✅ Operaciones con axis

In [None]:
# Ejemplo de operaciones estadísticas en matrices
# Matriz de ejemplo
ventas = np.array([
    [200, 220, 250],
    [180, 210, 240],
    [170, 200, 230]
])

# Media por columnas (promedio por mes)
media_columnas = np.mean(ventas, axis=0)
print("Media por columnas:", media_columnas)

# Desviación estándar por filas (variabilidad por producto)
desviacion_filas = np.std(ventas, axis=1)
print("Desviación por filas:", desviacion_filas)

# Mínimo por eje
min_filas = np.min(ventas, axis=1)
print("Mínimos por fila:", min_filas)

# Máximo por eje
max_columnas = np.max(ventas, axis=0)
print("Máximos por columna:", max_columnas)

# Varianza por eje
varianza_columnas = np.var(ventas, axis=0)
print("Varianza por columnas:", varianza_columnas)


## 🔎 Uso de argmin() y argmax()

In [None]:
# Índices del valor máximo por fila
idx_max_filas = np.argmax(ventas, axis=1)
print("Índice de máximo por fila:", idx_max_filas)

# Índices del valor mínimo por columna
idx_min_columnas = np.argmin(ventas, axis=0)
print("Índice de mínimo por columna:", idx_min_columnas)


## 🔄 Transformaciones de forma

In [None]:
# Array original
arr = np.arange(12).reshape(3, 4)

# Flatten: convierte a 1D
flattened = arr.flatten()
print("Flatten:", flattened)

# Ravel: igual a flatten pero más eficiente
raveled = arr.ravel()
print("Ravel:", raveled)

# Reshape: de (3, 4) a (2, 6)
reshaped = arr.reshape(2, 6)
print("Reshape:", reshaped)


## 🔄 Concatenación y Apilamiento

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

# Concatenar verticalmente
concat_v = np.concatenate([a, b], axis=0)
print("Concatenación vertical:\n", concat_v)

# Concatenar horizontalmente
concat_h = np.concatenate([a, b], axis=1)
print("Concatenación horizontal:\n", concat_h)

# Stack: crea un nuevo eje
stacked = np.stack([a, b], axis=0)
print("Stack eje 0:\n", stacked)

# vstack y hstack
vstacked = np.vstack([a, b])
hstacked = np.hstack([a, b])
print("vstack:\n", vstacked)
print("hstack:\n", hstacked)


## 🔁 Inversión con np.flip()

In [None]:
# Invertir filas
flip_filas = np.flip(a, axis=0)
print("Filas invertidas:\n", flip_filas)

# Invertir columnas
flip_columnas = np.flip(a, axis=1)
print("Columnas invertidas:\n", flip_columnas)


# 🔍 Clasificación con KNN (Dataset Iris)

# 🧠 Algoritmo KNN desde cero con NumPy – Guía Teórica + Matemática

## 1. Cargar el dataset
Importar el archivo `Iris.csv` y extraer las características numéricas $X \in \mathbb{R}^{n \times d}$ y las etiquetas categóricas $y \in \{0, 1, ..., C-1\}$, donde:
- $n$: número de ejemplos,
- $d$: número de características,
- $C$: número de clases.



## 2. Preprocesamiento
Transformar las etiquetas categóricas a valores numéricos utilizando codificación ordinal. El resultado será un vector $y \in \mathbb{N}^n$.



## 3. División del dataset
Separar el dataset en entrenamiento y prueba:
- $X_{\text{train}}, y_{\text{train}}$
- $X_{\text{test}}, y_{\text{test}}$




## 4. Cálculo de distancias

Para cada ejemplo de prueba $\mathbf{x} \in X_{\text{test}}$, calcular su distancia a cada punto de entrenamiento $\mathbf{x}_i \in X_{\text{train}}$ mediante la **distancia euclidiana**:

$$
d(\mathbf{x}, \mathbf{x}_i) = \sqrt{\sum_{j=1}^d (x_j - x_{i,j})^2}
$$



## 5. Selección de los $k$ vecinos más cercanos

Ordenar todas las distancias y tomar los índices de los $k$ menores valores:

$$
\text{vecinos}(\mathbf{x}) = \text{argsort}(d(\mathbf{x}, \mathbf{x}_i))[:k]
$$



## 6. Votación mayoritaria

Para la predicción de $\hat{y}$, usar la clase más frecuente entre los vecinos:

$$
\hat{y} = \arg\max_{c \in \{0, \dots, C-1\}} \sum_{i \in \text{vecinos}(\mathbf{x})} \mathbf{1}[y_i = c]
$$

Donde $\mathbf{1}[\cdot]$ es la función indicadora.



## 7. Evaluación del modelo

Comparar $\hat{y}$ con $y_{\text{test}}$ y calcular la **exactitud (accuracy)** como:

$$
\text{Accuracy} = \frac{1}{n_{\text{test}}} \sum_{i=1}^{n_{\text{test}}} \mathbf{1}[\hat{y}_i = y_i]
$$

## 🧪 Retos adicionales para estudiantes (no resolver en clase)
- Cambia el valor de `k` y analiza los resultados.
- Usa `np.argmax` y `np.argmin` en arrays aleatorios.
- Normaliza el dataset Iris manualmente con `np.mean` y `np.std` usando `axis=0`.

# Ejercicio en Diapositivas



![image.png](attachment:image.png)

In [3]:
import numpy as np

In [8]:
temperaturas=[[28,30,27],[25,27,26],[33,35,34]]


temperaturas_np=np.array(temperaturas)
print(temperaturas_np)

[[28 30 27]
 [25 27 26]
 [33 35 34]]


In [10]:
max_temp_c=np.max(temperaturas_np,axis=1)
print(max_temp_c)

[30 27 35]


In [11]:
max_temp_d=np.min(temperaturas_np,axis=0)
print(max_temp_d)

[25 27 26]


### Normalizar, convertir los valores entre 0 y 1


In [13]:
max_array=np.max(temperaturas_np)
max_array

np.int64(35)

In [14]:
min_array=np.min(temperaturas_np)
min_array

np.int64(25)

![image.png](attachment:image.png)

In [21]:
rank=max_array-min_array
rank

np.int64(10)

In [22]:
array_norm_p=temperaturas_np-min_array
print(array_norm_p)

[[ 3  5  2]
 [ 0  2  1]
 [ 8 10  9]]


In [25]:
array_norm=array_norm_p/rank

print(array_norm)

[[0.3 0.5 0.2]
 [0.  0.2 0.1]
 [0.8 1.  0.9]]
