# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**: Simon Rodriguez

In [2]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [3]:
# Se crea la matriz en formato numpy array, donde cada fila es un vector:
m = np.arange(1,10).reshape(3,3)
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [4]:
# Se puede usar una función de álgebra lineal de Numpy para calcular las normas de los vectores:

l0 = np.linalg.norm(m, ord=0, axis=1)
l1 = np.linalg.norm(m, ord=1, axis=1)
l2 = np.linalg.norm(m, ord=2, axis=1)
li = np.linalg.norm(m, ord=np.inf, axis=1)

print('La norma l0 es: ', l0)
print('La norma l1 es: ', l1)
print('La norma l2 es: ', l2)
print('La norma l infinito es: ', li)

La norma l0 es:  [3. 3. 3.]
La norma l1 es:  [ 6. 15. 24.]
La norma l2 es:  [ 3.74165739  8.77496439 13.92838828]
La norma l infinito es:  [3. 6. 9.]


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [5]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

# Creamos una matriz de confusion
#   | 1  | 0
# 1 | TP | FP
# 0 | FN | TN

# TP (1,1)
# FP (1,0)
# FN (0,1)
# TN (0,0)

cm = np.array([0,0,0,0]).reshape(2,2)
np.add.at(cm, (prediction, truth), 1)

TP = cm[1,1]
FP = cm[1,0]
FN = cm[0,1]
TN = cm[0,0]

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
Accuracy = (TP + TN) / (TP + TN + FP + FN)

print('La precisión del modelo es: ', Precision)
print('El Recall (exhaustividad) del modelo es: ', Recall)
print('La Accuracy (exactitud) del modelo es: ', Accuracy)

La precisión del modelo es:  0.5
El Recall (exhaustividad) del modelo es:  0.5
La Accuracy (exactitud) del modelo es:  0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [11]:
# Crear datos de ejemplo
num_samples = 10
num_features = 5
X = np.random.rand(num_samples, num_features)
y = np.random.randint(2, size=num_samples)  # Datos de ejemplo para la variable target

def split(X_input, 
          y_input,
          train_percentage=0.7,
          val_percentage=0.15, #no se usa, se calcula con train y test
          test_percentage=0.15,
          random_state=42,
          shuffle=True):

    total_samples = len(X_input)

    if shuffle:
        np.random.seed(random_state)
        indices = np.random.permutation(total_samples)
    else:
        indices = np.arange(total_samples)

    train_size = int(total_samples * train_percentage)
    test_size = int(total_samples * test_percentage)
    val_size = total_samples - train_size - test_size #Sirve de chequeo, pero no se usa porque es el resto despues de train y test.

    train_indices = indices[:train_size]
    test_indices = indices[train_size:train_size + test_size]
    val_indices = indices[train_size + test_size:]

    X_train, y_train = X_input[train_indices], y_input[train_indices]
    X_test, y_test = X_input[test_indices], y_input[test_indices]
    X_val, y_val = X_input[val_indices], y_input[val_indices]

    return X_train, y_train, X_test, y_test, X_val, y_val

# Dividir los datos de ejemplo
X_train, y_train, X_test, y_test, X_val, y_val = split(X, y, train_percentage=0.7, test_percentage=0.15, val_percentage=0.15, random_state=42, shuffle=True)

In [12]:
print("X Train:", X_train)
print("y Train:", y_train)
print("X Test:", X_test)
print("y Test:", y_test)
print("X val:", X_val)
print("y val:", y_val)


X Train: [[0.29563369 0.10549426 0.45653457 0.21844044 0.41650995]
 [0.65107703 0.91495968 0.85003858 0.44945067 0.09541012]
 [0.4393365  0.2017192  0.8957636  0.47537022 0.56327557]
 [0.1988424  0.71134195 0.79017554 0.60595997 0.92630088]
 [0.94285357 0.59886547 0.69478493 0.88046784 0.62435405]
 [0.37081825 0.66884125 0.66592236 0.59129779 0.27472179]
 [0.88328026 0.32434502 0.12208795 0.35629784 0.90682844]]
y Train: [0 0 1 0 0 0 0]
X Test: [[0.23598492 0.25606832 0.04043359 0.71066289 0.11089082]]
y Test: [0]
X val: [[0.56124343 0.38292687 0.9717121  0.84891382 0.72172952]
 [0.69551609 0.13933145 0.60441738 0.53984109 0.20306122]]
y val: [1 0]
