# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**:

In [2]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [20]:
# Norma p si p > 0 y p < inf

def norma_p(matriz, p):
    suma_potencias = np.sum(np.abs(matriz) ** p)
    norma_p = suma_potencias ** (1 / p)
    return norma_p

# Norma p si p = 0

def norma_0(vector):
    norma_0 = np.count_nonzero(vector)
    return norma_0

#Norma p si p = inf

def norma_inf(vector):
    norma_inf = np.max(np.abs(vector))
    return norma_inf


matriz = np.array([[5, 9], [-2, 1]])

print(norma_p(matriz,1))
print(norma_p(matriz,2))
print(norma_0(matriz))
print(norma_inf(matriz))


# En el caso de utilizar las funciones de numpy para realizar estos cálculos, lso resultados obtenidos son diferentes.
# Esto se debe a que numpy no utiliza las definiciones expresadas en el enunciado sino las descriptas en este documento:
# https://metodosnumericosb.fi.unsj.edu.ar/wp-content/uploads/2021/08/Clase-1-de-Ecuaciones-No-Lineales.pdf

17.0
10.535653752852738
4
9


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [22]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

def precision(prediction, truth):
    true_positives = np.sum(np.logical_and(prediction == 1, truth == 1))
    false_positives = np.sum(np.logical_and(prediction == 1, truth == 0))
    
    precision = true_positives / (true_positives + false_positives)
    return precision if true_positives + false_positives != 0 else 0

def recall(prediction, truth):
    true_positives = np.sum(np.logical_and(prediction == 1, truth == 1))
    false_negatives = np.sum(np.logical_and(prediction == 0, truth == 1))
    
    recall = true_positives / (true_positives + false_negatives)
    return recall if true_positives + false_negatives != 0 else 0

def accuracy(prediction, truth):
    correctos = np.sum(prediction == truth)
    total = len(truth)
    
    accuracy = correctos / total
    return accuracy


print("Precision:", precision(prediction, truth))
print("Recall:", recall(prediction, truth))
print("Accuracy:", accuracy(prediction, truth))

Precision: 0.5
Recall: 0.5
Accuracy: 0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [23]:
# En esta función se supone que el usuario pasa los valores de train, test y val de forma que sumen 1.
# Esto debiera validarse en una implementación completa.
def split(X_input,
          Y_input,
          train_size=0.7,
          val_size=0.15,
          test_size=0.15,
          random_state=42,
          shuffle=True):
      
      # Se valida si los valores train, test y val son coherentes...

      if shuffle:
            np.random.seed(random_state)
            indices = np.random.permutation(len(X_input))
            X_input = X_input[indices]
            Y_input = Y_input[indices]

      train_end = int(len(X_input) * train_size)
      val_end = int(len(X_input) * (train_size + val_size))

      X_train, Y_train = X_input[:train_end], Y_input[:train_end]
      X_val, Y_val = X_input[train_end:val_end], Y_input[train_end:val_end]
      X_test, Y_test = X_input[val_end:], Y_input[val_end:]

      return X_train, X_val, X_test, Y_train, Y_val, Y_test

X_ejemplo = np.random.rand(1000, 5)  # Datos de entrada, matriz de 1000 filas y 5 columnas
Y_ejemplo = np.random.randint(0, 2, size=(1000,))  # Datos de salida binarios

# Llamo a la función split con valores proporcionales
X_train, X_val, X_test, Y_train, Y_val, Y_test = split(X_ejemplo, Y_ejemplo, train_size=0.6, val_size=0.2, test_size=0.2)

print("Tamaño de X_train:", len(X_train))
print("Tamaño de X_val:", len(X_val))
print("Tamaño de X_test:", len(X_test))


Tamaño de X_train: 600
Tamaño de X_val: 200
Tamaño de X_test: 200
