# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**:

In [1]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [2]:
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

norma_l0 = np.count_nonzero(matriz, axis=1)
norma_l1 = np.linalg.norm(matriz, ord=1, axis=1)
norma_l2 = np.linalg.norm(matriz, ord=2, axis=1)
norma_linf = np.max(np.abs(matriz), axis=1)

print("Norma l0:", norma_l0)
print("Norma l1:", norma_l1)
print("Norma l2:", norma_l2)
print("Norma linf:", norma_linf)


Norma l0: [3 3 3]
Norma l1: [ 6. 15. 24.]
Norma l2: [ 3.74165739  8.77496439 13.92838828]
Norma linf: [3 6 9]


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [3]:
def calculate_metrics(truth, prediction):
    # True Positive
    tp = np.sum(np.logical_and(truth == 1, prediction == 1))

    # True Negative
    tn = np.sum(np.logical_and(truth == 0, prediction == 0))

    # False Positive
    fp = np.sum(np.logical_and(truth == 0, prediction == 1))

    # False Negative
    fn = np.sum(np.logical_and(truth == 1, prediction == 0))

    precision = tp / (tp + fp) if (tp + fp) != 0 else 0
    recall = tp / (tp + fn) if (tp + fn) != 0 else 0
    accuracy = (tp + tn) / (tp + tn + fp + fn) if (tp + tn + fp + fn) != 0 else 0

    return precision, recall, accuracy

truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

precision, recall, accuracy = calculate_metrics(truth, prediction)

print("Precision:", precision)
print("Recall:", recall)
print("Accuracy:", accuracy)

Precision: 0.5
Recall: 0.5
Accuracy: 0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [4]:
def split(X_input,
          Y_input,
          train_size=0.7,
          val_size=0.15,
          test_size=0.15,
          random_state=42,
          shuffle=True):
    
    assert train_size + val_size + test_size == 1.0, "Los tamaños de conjunto deben sumar 1.0"
    
    total_samples = len(X_input)
    indices = np.arange(total_samples)
    if shuffle:
        np.random.seed(random_state)
        np.random.shuffle(indices)
    
    train_end = int(total_samples * train_size)
    val_end = int(total_samples * (train_size + val_size))
    
    train_indices = indices[:train_end]
    val_indices = indices[train_end:val_end]
    test_indices = indices[val_end:]
    
    X_train, y_train = X_input[train_indices], Y_input[train_indices]
    X_val, y_val = X_input[val_indices], Y_input[val_indices]
    X_test, y_test = X_input[test_indices], Y_input[test_indices]
    
    return X_train, y_train, X_val, y_val, X_test, y_test

# Ejemplo de uso:
X_data = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
y_data = np.array([0, 1, 0, 1, 0])

X_train, y_train, X_val, y_val, X_test, y_test = split(X_data, y_data, train_size=0.7, val_size=0.15, test_size=0.15)

print("Conjunto de entrenamiento:")
print("X_train:", X_train)
print("y_train:", y_train)

print("\nConjunto de validación:")
print("X_val:", X_val)
print("y_val:", y_val)

print("\nConjunto de prueba:")
print("X_test:", X_test)
print("y_test:", y_test)


Conjunto de entrenamiento:
X_train: [[ 3  4]
 [ 9 10]
 [ 5  6]]
y_train: [1 0 0]

Conjunto de validación:
X_val: [[1 2]]
y_val: [0]

Conjunto de prueba:
X_test: [[7 8]]
y_test: [1]
