# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**:

In [1]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [29]:
# Se define la matriz de vectores
m = np.array([[1,0,-3],[4,-5,6],[-7,8,9],[10,0,-12]])

# se calcula la norma L0 por vector
norm_l0 = np.sum(m!=0, axis=1)
print("La norma L0 es:",norm_l0)

# Se calcula la norma L1 por vector
norm_l1 = np.sum(np.abs(m), axis=1)
print("La norma L1 es:",norm_l1)

# Se calcula la norma L2 por vector
norm_l2 = np.sqrt(np.sum(m**2, axis=1))
print("La norma L2 es:", norm_l2)

# Se calcula la norma L-infinito por vector
norm_linf = np.max(np.abs(m), axis=1)
print("La norma L-infinito es:", norm_linf)

La norma L0 es: [2 3 3 2]
La norma L1 es: [ 4 15 24 22]
La norma L2 es: [ 3.16227766  8.77496439 13.92838828 15.62049935]
La norma L-infinito es: [ 3  6  9 12]


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [37]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

TP = np.sum((truth == 1) & (prediction == 1))
TN = np.sum((truth == 0) & (prediction == 0))
FP = np.sum((truth == 0) & (prediction == 1))
FN = np.sum((truth == 1) & (prediction == 0))

precision = TP / (TP + FP)
recall = TP / (TP + FN)
accuracy = (TP + TN) / (TP + TN + FP + FN)

print("Precision:", precision)
print("Recall:", recall)
print("Accuracy:", accuracy)

Precision: 0.5
Recall: 0.5
Accuracy: 0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [56]:
def split(X_input,
            Y_input,
            train_size=0.7,
            val_size=0.15,
            test_size=0.15,
            random_state=42,
            shuffle=True):

      # Validar que la suma de train_size, val_size y test_size sea 1
      if train_size + val_size + test_size != 1:
            raise ValueError("La suma de train_size, val_size y test_size debe ser 1.")

      # Ordenar aleatoriamente si shuffle es True
      if shuffle:
            X_input = np.random.RandomState(random_state).permutation(X_input)
            Y_input = np.random.RandomState(random_state).permutation(Y_input)

      print("X Input:", X_input, X_input.shape)
      print("Y Input:", Y_input, Y_input.shape)

      # Convertir train_size y val_size a enteros
      train_size_x = int(X_input.shape[0] * train_size)
      val_size_x = int(X_input.shape[0] * val_size)
      train_size_y = int(Y_input.shape[0] * train_size)
      val_size_y = int(Y_input.shape[0] * val_size)


      # Dividir los datos en train, val y test
      X_train = X_input[:train_size_x]
      Y_train = Y_input[:train_size_y]
      X_val = X_input[train_size_x:train_size_x + val_size_x]
      Y_val = Y_input[train_size_y:train_size_y + val_size_y]
      X_test = X_input[train_size_x + val_size_x:]
      Y_test = Y_input[train_size_y + val_size_y:]

      # mostrar los datos de train, val y test
      print("---- Valores para X ----")
      print("X Train:", X_train, X_train.shape)
      print("X Val:", X_val, X_val.shape)
      print("X Test:", X_test, X_test.shape)

      print("---- Valores para Y ----")
      print("Y Train:", Y_train, Y_train.shape)
      print("Y Val:", Y_val, Y_val.shape)
      print("Y Test:", Y_test, Y_test.shape)

x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20])
y = np.array([0, 0, 0, 0, 1, 1, 1, 1, 1, 1])

split(x, y, 0.8, 0.1, 0.1, 42, True)

X Input: [ 1 18 16  2  9  6 12  4 19 17 14  3 10 20  5 13  8 11 15  7] (20,)
Y Input: [1 0 1 0 1 0 1 1 0 1] (10,)
---- Valores para X ----
X Train: [ 1 18 16  2  9  6 12  4 19 17 14  3 10 20  5 13] (16,)
X Val: [ 8 11] (2,)
X Test: [15  7] (2,)
---- Valores para Y ----
Y Train: [1 0 1 0 1 0 1 1] (8,)
Y Val: [0] (1,)
Y Test: [1] (1,)
