# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**: Clara Bureu

In [2]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [5]:
matriz = np.random.rand(3,3)
l0 = np.count_nonzero(matriz)
l1 = np.sum(np.abs(matriz))
l2 = np.linalg.norm(matriz, ord=2)
linf = np.max(np.abs(matriz))

print(matriz)
print(l0)
print(l1)
print(l2)
print(linf)

[[0.21232636 0.56136105 0.8971688 ]
 [0.67917574 0.07806362 0.34427852]
 [0.10672352 0.54267187 0.66589374]]
9
4.087663220877966
1.4625998102182374
0.8971688002334378


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [6]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

TP = np.sum(np.logical_and(truth == 1, prediction == 1))
TN = np.sum(np.logical_and(truth == 0, prediction == 0))
FP = np.sum(np.logical_and(truth == 0, prediction == 1))
FN = np.sum(np.logical_and(truth == 1, prediction == 0))

precision = TP/(TP+FP)
recall = TP/(TP+FN)
accuracy = (TP+FN)/(TP+TN+FP+FN) 


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [13]:

def split(X_input,
          Y_input,
          train_size=0.7,
          val_size=0.15,
          test_size=0.15,
          random_state=42,
          shuffle=True):
    
      if shuffle:
            X_input = np.random.rand(5)
            Y_input = np.random.rand(5)
            print(X_input)
            print(Y_input)

      count = len(X_input)
    
      train = int(count * train_size)
      val = int(count * val_size)
      test = int(count * test_size)

      X_train = X_input[:train]
      Y_train = Y_input[:train]

      X_test = X_input[train:train+test]
      Y_test = Y_input[train:train+test]

      X_val = X_input[train+test:]
      Y_val = Y_input[train+test:]

      return X_train, Y_train, X_test, Y_test, X_val, Y_val

import numpy as np
import pandas as pd

# Ejemplo de datos de entrada
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
y = np.array([0, 1, 0, 1, 1])

# Llamar a la función de división de datos
X_train, Y_train, X_test, Y_test, X_val, Y_val = split(X, y, train_size=0.7, test_size=0.2, val_size=0.1)

# Imprimir los conjuntos de datos resultantes
print("Conjunto de datos:")
print(X, y)
print("Conjunto de entrenamiento:")
print(X_train, Y_train)
print("Conjunto de prueba:")
print(X_test, Y_test)
print("Conjunto de validación:")
print(X_val, Y_val)

[0.73052319 0.82083755 0.53459386 0.49445874 0.36252455]
[0.16239692 0.57558335 0.31167837 0.39274545 0.01524251]
Conjunto de datos:
[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]] [0 1 0 1 1]
Conjunto de entrenamiento:
[0.73052319 0.82083755 0.53459386] [0.16239692 0.57558335 0.31167837]
Conjunto de prueba:
[0.49445874] [0.39274545]
Conjunto de validación:
[0.36252455] [0.01524251]
