# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**:

In [None]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [1]:
import numpy as np
from numpy import linalg
m_size = 100
rand = np.random.randint(size = (m_size,m_size), low = 0, high = 100)
#Mi implementacion
def calculateNorm(matrix,n):
  return linalg.norm(matrix,n,axis=1)

def calculateNorm1(matrix,n):
  matrix = matrix.astype('float64')
  if(n == np.inf):
    return vector_norm_inf(matrix)
  if(n == 0):
    return vector_norm_l0(matrix)
  return vector_norm_ln(matrix,n)

def vector_norm_l0(matrix):
    mask = matrix > 0
    return np.sum(mask, axis=1)

def vector_norm_ln(matrix,n):
    abs_m = np.abs(matrix)
    return np.sum(abs_m ** n, axis=1)**(1/n)

def vector_norm_inf(m):
    return np.max(m, axis=1)


valido = True
for i in range(100):
  valido = valido and np.all(np.equal(calculateNorm(rand,i),calculateNorm1(rand,i)))
valido = valido and np.all(np.equal(calculateNorm(rand,np.inf),calculateNorm1(rand,np.inf)))
print(valido)

True


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [2]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

import numpy as np
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

not_truth = np.logical_not(truth)
not_prediction = np.logical_not(prediction)
TP = np.logical_and(truth,prediction).sum()
TN = np.logical_and(not_truth,not_prediction).sum()
FP = np.logical_and(not_truth,prediction).sum()
FN = np.logical_and(truth,not_prediction).sum()
presicion = TP/(TP + FN)
recall = TP / (TP + FN)
accuracy = (TP + TN) / (TP + TN + FP + FN)
print(presicion)
print(recall)
print(accuracy)

0.5
0.5
0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [3]:
def split(X_input,
          Y_input,
          train_size=0.7,
          val_size=0.15,
          test_size=0.15,
          random_state=42,
          shuffle=True):
    
 # Verificar que los tamaños suman 1.0
    assert train_size + val_size + test_size == 1.0, "Los tamaños de train, validation y test deben sumar 1.0"

    # Obtener la longitud total de los datos
    total_samples = len(X_input)

    # Calcular los índices de corte para train, validation y test
    train_end = int(train_size * total_samples)
    val_end = train_end + int(val_size * total_samples)

    # Crear índices para barajar si es necesario
    indices = np.arange(total_samples)
    if shuffle:
        np.random.seed(random_state)
        np.random.shuffle(indices)

    # Aplicar los índices para obtener datos barajados
    X_shuffled = X_input[indices]
    Y_shuffled = Y_input[indices]

    # Dividir los datos en conjuntos de train, validation y test
    X_train, Y_train = X_shuffled[:train_end], Y_shuffled[:train_end]
    X_val, Y_val = X_shuffled[train_end:val_end], Y_shuffled[train_end:val_end]
    X_test, Y_test = X_shuffled[val_end:], Y_shuffled[val_end:]

    return X_train, X_val, X_test, Y_train, Y_val, Y_test

#Ejemplo
m_size = 127
X_data = np.random.randint(size = (m_size,m_size), low = 0, high = 100)
Y_data = np.random.randint(size = m_size, low = 0, high = 100)

X_train, X_val, X_test, Y_train, Y_val, Y_test = split(X_data,Y_data)
print(X_train.shape,X_val.shape,X_test.shape,Y_train.shape,Y_val.shape,Y_test.shape)

(88, 127) (19, 127) (20, 127) (88,) (19,) (20,)
