In [1]:
# Use black formatter
%load_ext lab_black

import numpy as np
import csv

# Print with 3 decimals
np.set_printoptions(formatter={"float": lambda x: "{0:0.3f}".format(x)})

#### Ejecicio #1:    Normalización
Muchos algoritmos de Machine Learning necesitan datos de entrada centrados y normalizados. Una normalización habitual es el z-score, que implica restarle la media y dividir por el desvío a cada feature de mi dataset. 

Dado un dataset X de n muestras y m features, implementar un método en numpy para normalizar con z-score. Pueden utilizar np.mean() y np.std().

In [2]:
random_data = np.random.uniform(low=-100, high=100, size=(5, 5))
random_data

array([[45.891, 48.999, 1.189, -32.194, -64.689],
       [-16.647, -12.208, -23.461, -55.561, -18.228],
       [-95.130, -15.046, -11.519, -22.661, -27.956],
       [-65.405, -74.439, -78.136, 54.615, -17.066],
       [-27.964, -34.725, 52.074, -26.783, 12.328]])

In [3]:
def normalize(data):
    """Normalize data using z-score formula"""
    return (random_data - data.mean(axis=0)) / data.std(axis=0)


normalize(random_data)

array([[1.627, 1.663, 0.314, -0.420, -1.678],
       [0.318, 0.132, -0.274, -1.046, 0.198],
       [-1.324, 0.061, 0.011, -0.165, -0.195],
       [-0.702, -1.424, -1.579, 1.905, 0.244],
       [0.081, -0.431, 1.528, -0.275, 1.431]])

#### Ejecicio #2:    Remover filas y columnas con NaNs en un dataset
Dado un dataset, hacer una función que, utilizando numpy, filtre las columnas y las filas que tienen NaNs.

In [4]:
file_path = "/tf/notebooks/CEIA-inteligencia_artificial/clase_3/clase3v2.csv"

with open(file_path, "r") as f:
    data = list(csv.reader(f, delimiter=";"))

data = np.array(data, dtype=float)
data[:5, :]

array([[3.670, 2.864, nan, 2.949, nan, -9.365, 7.565],
       [13.505, 4.482, nan, 0.771, nan, -3.706, 32.867],
       [-5.737, -1.031, nan, 0.908, nan, 5.333, -20.922],
       [-0.019, 1.910, nan, 0.137, nan, 3.400, 1.433],
       [6.080, 1.528, nan, 0.746, nan, -11.487, 11.868]])

In [5]:
remove_nan_column = lambda data: data[:, ~np.isnan(data).any(axis=0)]
remove_nan_row = lambda data: data[~np.isnan(data).any(axis=1)]

print(f"Tamaño original: {data.shape}")
print(f"Tamaño sin NaN en columnas: {remove_nan_column(data).shape}")
print(f"Tamaño sin NaN en filas: {remove_nan_row(data).shape}")

Tamaño original: (100, 7)
Tamaño sin NaN en columnas: (100, 5)
Tamaño sin NaN en filas: (75, 7)


#### Ejecicio #3:    Reemplazar NaNs por la media de la columna
Dado un dataset, hacer una función que utilizando numpy reemplace los NaNs por la media de la columna.

In [6]:
def replace_nan_with_mean(data):
    """Replace NaN values with mean of the column"""
    mean = np.nanmean(data, axis=0)
    return np.nan_to_num(data, nan=mean)


replace_nan_with_mean(data)[:5, :]

array([[3.670, 2.864, 4.185, 2.949, -0.631, -9.365, 7.565],
       [13.505, 4.482, 4.185, 0.771, -0.631, -3.706, 32.867],
       [-5.737, -1.031, 4.185, 0.908, -0.631, 5.333, -20.922],
       [-0.019, 1.910, 4.185, 0.137, -0.631, 3.400, 1.433],
       [6.080, 1.528, 4.185, 0.746, -0.631, -11.487, 11.868]])

#### Ejecicio #4:    Dado un dataset X separarlo en 70 / 20 / 10
Como vimos en el ejercicio integrador, en problemas de Machine Learning es fundamental que separemos los datasets de n muestras, en 3 datasets de la siguiente manera:

* Training dataset: los datos que utilizaremos para entrenar nuestros modelos. Ej: 70% de las muestras.
* Validation dataset: los datos que usamos para calcular métricas y ajustar los hiperparámetros de nuestros modelos. Ej: 20% de las muestras.
* Testing dataset: una vez que entrenamos los modelos y encontramos los hiperparámetros óptimos de los mísmos, el testing dataset se lo utiliza para computar las métricas finales de nuestros modelos y analizar cómo se comporta respecto a la generalización. Ej: 10% de las muestras.

A partir de utilizar np.random.permutation, hacer un método que dado un dataset, devuelva los 3 datasets como nuevos numpy arrays.

In [30]:
def split_data(data, train_size=0.8, validation_size=None):
    """Split data into train, validation and test sets. Validation in optional"""

    if validation_size is None:
        if train_size > 1:
            raise ValueError("Train size must be less than 1")
    else:
        if train_size + validation_size > 1:
            raise ValueError("Train size + validation size must be less than 1")

    suffled_data = np.random.permutation(data)
    data_samples = data.shape[0]
    train_number = int(data_samples * train_size)

    if validation_size:
        validation_number = train_number + int(data_samples * validation_size)
        return (
            suffled_data[0:train_number],
            suffled_data[train_number:validation_number],
            suffled_data[validation_number:],
        )
    else:
        return suffled_data[0:train_number], suffled_data[train_number:]


train, validation, test = split_data(data, train_size=0.7, validation_size=0.2)
print(f"Tamaño del dataset train: {train.shape}")
print(f"Tamaño del dataset validation: {validation.shape}")
print(f"Tamaño del dataset test: {test.shape}")

Tamaño del dataset train: (70, 7)
Tamaño del dataset validation: (20, 7)
Tamaño del dataset test: (10, 7)


In [None]:
def split_data(data, train_size=0.8, test_size=0.2, validation=False):
    """Split data into train, validation and test sets. Validation in optional"""

    if train_size + test_size > 1 or train_size < 0 or test_size < 0:
        raise ValueError(
            "train_size + test_size must be less than 1 and greater than 0"
        )

    suffled_data = np.random.permutation(data)
    data_samples = data.shape[0]
    train_number = int(data_samples * train_size)
    test_number = 0
    validation_number = 0

    if validation:
        test_number = int(data_samples * test_size)
        validation_number = data_samples - train_number - test_number
        return suffled_data[0:train_number], suffled_data[train_number:validation_number], suffled_data[validation_number:]
    else:
        return suffled_data[0:train_number], suffled_data[train_number:]



#### Ejercicio #5:   A partir del dataset de consigna, aplicar los conceptos de regresión lineal.
1. Armar una clase para cargar el [dataset](data/income.csv) en un ndarray estructurado, tal como se realizó en el ejercicio 10 de la Clase 1.
2. Incluir un método split a la clase para obtener los sets de training y test.
3. Crear una clase métrica base y una clase MSE (Error cuadrático medio) que herede de la clase base.
4. Crear una clase modelo base y clases regresión lineal y regresión afín que hereden de la primera. Usar los conocimientos teóricos vistos en clase.
5. Hacer un fit de las regresiones con los datos de entrenamiento.
6. Hacer un predict sobre los datos de test y reportar el MSE en cada caso.
7. Graficar la curva obtenida.