# Trabajo integrador - Parte 1
## Python y Numpy

**Nombre**: Mariana Taglio

In [1]:
import numpy as np

## Ejercicio 1

Dada una matriz en formato *numpy array*, donde cada fila de la matriz representa un vector matemático, se requiere computar las normas $l_0$, $l_1$, $l_2$, $l_{\infty}$, según la siguientes definiciones:

\begin{equation}
    ||\mathbf{x}||^{p} = \bigg(\sum_{j=1}^{n}{|x_i|^p}\bigg)^{\frac{1}{p}}
\end{equation}

con los casos especiales para $p=0$ y $p=\infty$ siendo:

\begin{equation}
    \begin{array}{rcl}
        ||\mathbf{x}||_0 & = & \bigg(\sum_{j=1 \wedge x_j != 0}{|x_i|}\bigg)\\
        ||\mathbf{x}||_{\infty} & = & \max_{i}{|x_i|}\\
    \end{array}
\end{equation}

In [7]:
# Creo una matriz con numpy

m = np.array([[1,2,3,4],
              [5,6,7,8],
              [9,10,11,12]])

# Computo norma l1, suma de los valores absolutos de los elemntos del vector
norma_l1 = np.sum(np.abs(m), axis=1)
print("Norma l1:", norma_l1)

# Computo norma l2, la raiz cuadrada de la suma de los cuadrados de los elementos del vector
norma_l2 = np.sqrt(np.sum(m**2, axis=1))
print("Norma l2:", norma_l2)

# Computo norma l0, elementos diferentes a 0 de un vector
norma_l0 = np.count_nonzero(m, axis=1)
print("Norma l0:", norma_l0)

# Computo norma l_inf, maximo valor absoluto de los elementos del vector
norma_inf = np.max(np.abs(m), axis=1)
print("Norma inf:", norma_inf)

Norma l1: [10 26 42]
Norma l2: [ 5.47722558 13.19090596 21.11871208]
Norma l0: [4 4 4]
Norma inf: [ 4  8 12]


## Ejercicio 2

En clasificación contamos con dos arreglos, la “verdad” y la “predicción”. Cada elemento de los arreglos pueden tomar dos valores, “True” (representado por 1) y “False” (representado por 0). Entonces podemos definir 4 variables:

* True Positive (TP): El valor verdadero es 1 y el valor predicho es 1
* True Negative (TN): El valor verdadero es 0 y el valor predicho es 0
* False Positive (FP): El valor verdadero es 0 y el valor predicho es 1
* False Negative (FN): El valor verdadero es 1 y el valor predicho es 0

A partir de esto definimos:

* Precision = TP / (TP + FP)
* Recall = TP / (TP + FN)
* Accuracy = (TP + TN) / (TP + TN + FP + FN)
 
Calcular las 3 métricas con Numpy y operaciones vectorizadas.

In [23]:
truth = np.array([1,1,0,1,1,1,0,0,0,1])
prediction = np.array([1,1,1,1,0,0,1,1,0,0])

tp = np.sum((truth == 1) & (prediction==1))
tn = np.sum((truth == 0) & (prediction==0))
fp = np.sum((truth == 0) & (prediction==1))
fn = np.sum((truth == 1) & (prediction==0))

In [34]:
# Precision
if tp + fp > 0:
    precision = tp / (tp + fp)
else:
    precision = 0.0
print("Precision:", precision)

# Recall
if tp + fn > 0:
    recall =  tp / (tp + fn)
else:
    recall = 0.0
print("Recall:", recall)

# Accuracy
if (tp + tn + fp + fn) > 0:
    accuracy = (tp + tn) / (tp + tn + fp + fn)
else:
    accuracy = 0.0
print("Accuracy:", accuracy)

Precision: 0.5
Recall: 0.5
Accuracy: 0.4


## Ejercicio 3

Crear una función que separe los datos en train-validation-test. Debe recibir de parametros:

- X: Array o Dataframe que contiene los datos de entrada del sistema.
- y: Array o Dataframe que contiene la(s) variable(s) target del problema.
- train_percentage: _float_ el porcentaje de training.
- test_percentage: _float_ el porcentaje de testing.
- val_percentage: _float_ el porcentaje de validación.
- shuffle: _bool_ determina si el split debe hacerse de manera random o no.

Hints: 

* Usar Indexing y slicing
* Usar np.random.[...]

In [72]:
def split(X_input, 
          Y_input, 
          train_size=0.7, 
          val_size=0.15, 
          test_size=0.15, 
          random_state=42, 
          shuffle=True):
      
      input_size = len(X_input)

      # Genero los indices        
      indices = np.arange(input_size)
      if shuffle == True:
            np.random.shuffle(indices)

      # Calculo size de train y val sets y casteo a int
      train_size =int(input_size * train_size)
      val_size = int(input_size * val_size)
      test_size = int(input_size * test_size)

      train_index = indices[:train_size]
      val_index = indices[train_size:train_size + val_size]
      test_index = indices[train_size + val_size:train_size + val_size + test_size]

      X_train, Y_train = X_input[train_index], Y_input[train_index]
      X_val, Y_val = X_input[val_index], Y_input[val_index]
      X_test, Y_test = X_input[test_index], Y_input[test_index]
      
      return (X_train, Y_train), (X_val, Y_val), (X_test, Y_test)

In [71]:
# Testing

X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13, 10], [14, 15], [17, 18], [19, 20]])
y = np.array([0, 1, 0, 1, 0, 1, 1, 1, 0, 1])

(X_train, y_train), (X_val, y_val), (X_test, y_test) = split(X, y, train_size=0.6, val_size=0.25, test_size=0.15, shuffle=True)

print("Training set:", len(X_train))
print("Validation set:", len(X_val))
print("Test set:", len(X_test))

Training set: 6
Validation set: 2
Test set: 1
