# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**: Simon Rodriguez

In [1]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [2]:
# Se crea la matriz en formato numpy array, donde cada fila es un vector:
m = np.arange(1,10).reshape(3,3)
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [4]:
# Se puede usar una función de álgebra lineal de Numpy para calcular las normas de los vectores:

l0 = np.linalg.norm(m, ord=0, axis=1)
l1 = np.linalg.norm(m, ord=1, axis=1)
l2 = np.linalg.norm(m, ord=2, axis=1)
li = np.linalg.norm(m, ord=np.inf, axis=1)

print('La norma l0 es: ', l0)
print('La norma l1 es: ', l1)
print('La norma l2 es: ', l2)
print('La norma l infinito es: ', li)

La norma l0 es:  [3. 3. 3.]
La norma l1 es:  [ 6. 15. 24.]
La norma l2 es:  [ 3.74165739  8.77496439 13.92838828]
La norma l infinito es:  [3. 6. 9.]


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [None]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

# Creamos una matriz de confusion
#   | 1  | 0
# 1 | TP | FP
# 0 | FN | TN

# TP (1,1)
# FP (1,0)
# FN (0,1)
# TN (0,0)

cm = np.array([0,0,0,0]).reshape(2,2)
np.add.at(cm, (prediction, truth), 1)

TP = cm[1,1]
FP = cm[1,0]
FN = cm[0,1]
TN = cm[0,0]

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
Accuracy = (TP + TN) / (TP + TN + FP + FN)

print('La precisión del modelo es: ', Precision)
print('El Recall (exhaustividad) del modelo es: ', Recall)
print('La Accuracy (exactitud) del modelo es: ', Accuracy)

La precisión del modelo es:  0.5
El Recall (exhaustividad) del modelo es:  0.5
La Accuracy (exactitud) del modelo es:  0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [20]:
# Crear datos de ejemplo
num_samples = 1000
num_features = 5
X = np.random.rand(num_samples, num_features)
y = np.random.randint(2, size=num_samples)  # Datos de ejemplo para la variable target

def split(X_input, 
          y_input,
          train_percentage=0.7,
          val_percentage=0.15, #no se usa, se calcula con train y test
          test_percentage=0.15,
          random_state=42,
          shuffle=True):

    total_samples = len(X_input)

    if shuffle:
        np.random.seed(random_state)
        indices = np.random.permutation(total_samples)
    else:
        indices = np.arange(total_samples)

    train_size = int(total_samples * train_percentage)
    test_size = int(total_samples * test_percentage)
    val_size = total_samples - train_size - test_size #Sirve de chequeo, pero no se usa porque es el resto despues de train y test.

    train_indices = indices[:train_size]
    test_indices = indices[train_size:train_size + test_size]
    val_indices = indices[train_size + test_size:]

    X_train, y_train = X_input[train_indices], y_input[train_indices]
    X_test, y_test = X_input[test_indices], y_input[test_indices]
    X_val, y_val = X_input[val_indices], y_input[val_indices]

    return X_train, y_train, X_test, y_test, X_val, y_val

# Dividir los datos de ejemplo
X_train, y_train, X_test, y_test, X_val, y_val = split(X, y, train_percentage=0.7, test_percentage=0.15, val_percentage=0.15, random_state=42, shuffle=True)

[[0.98996023 0.32235384 0.80987445 0.25464065 0.68150272]
 [0.76022786 0.59563874 0.47157619 0.41184091 0.34886827]
 [0.92952914 0.83061941 0.96502691 0.12429722 0.73086748]
 ...
 [0.23287915 0.15676043 0.68342942 0.59368462 0.75482746]
 [0.30946258 0.44797166 0.40547168 0.98408946 0.29224896]
 [0.29481724 0.35454821 0.56459408 0.25232274 0.91528994]]


In [17]:
X_val

array([[5.82144803e-01, 3.56770490e-01, 1.64270449e-01, 5.03719435e-01,
        8.30202884e-01],
       [9.72095993e-01, 6.17557313e-01, 9.81415722e-01, 3.37755987e-01,
        7.03031700e-01],
       [1.71789109e-01, 2.78713715e-01, 1.58852692e-01, 1.95666296e-01,
        9.72977380e-01],
       [1.83579627e-01, 2.52765860e-01, 4.06636527e-01, 3.83164469e-01,
        7.94662892e-01],
       [4.34678148e-01, 1.92839609e-01, 1.91105623e-01, 7.68764181e-01,
        2.65587598e-01],
       [2.47462981e-01, 6.45237645e-01, 6.50971745e-01, 8.24517070e-01,
        4.17708567e-01],
       [2.07749273e-01, 6.48746937e-01, 8.71187046e-01, 7.48318801e-01,
        8.68757231e-01],
       [7.60464606e-01, 9.84929108e-01, 9.45774717e-01, 1.97106039e-01,
        8.75363240e-01],
       [1.96953630e-01, 4.12758320e-01, 2.27778342e-01, 5.83858267e-01,
        3.71463339e-01],
       [6.53829964e-01, 6.81209258e-01, 7.52154892e-01, 5.03576896e-01,
        8.94054605e-01],
       [9.05321828e-01, 8.3038