# Aprendizaje automático
# Tarea 1

Prof. Felipe Meza Obando,
Instituto Tecnológico de Costa Rica, 

Medio de entrega: Link de GitHub

Entregables: Un archivo jupyter ( .IPYNB ). 

Modo de trabajo - Parejas:

Estudiantes:

Yu Hung Yeh Chai

José Alberto Raygada Agüero

---

Objetivo
El objetivo de esta Tarea 1 consiste en normalizar y estandarizar el set
de datos de daily-min-temperatures.csv de forma manual y automática a partir de scikit-learn
o la librería que considere apropiada.

---


### Primero cargamos las librerías y funciones propias

In [1]:
# !pip install torch

%matplotlib inline

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import sklearn
from sklearn.preprocessing import MinMaxScaler
import sklearn.preprocessing
import torch as torch


#Funciones
def bold(t):
    """
    Funcion para formatear en negrita el texto.
    t = cualquier dato
    """
    return "\033[1m" + str(t) + "\033[0m"

def newline():
    """
    Funcion para imprimir cambio de linea
    """
    print("\r\n")
    


### Luego cargamos el archivo como un dataframe de csv

In [2]:
df = pd.read_csv(r"daily-min-temperatures.txt")
df.head()

Unnamed: 0,Date,Temp
0,1981-01-01,20.7
1,1981-01-02,17.9
2,1981-01-03,18.8
3,1981-01-04,14.6
4,1981-01-05,15.8


### Se selecciona únicamente la columna de temperatura que es el dato que podemos estandarizar

In [3]:
print(bold("Features"))
print("----------------------------------------------")
newline()    

feature = df[["Temp"]]

print(feature)


[1mFeatures[0m
----------------------------------------------


      Temp
0     20.7
1     17.9
2     18.8
3     14.6
4     15.8
...    ...
3645  14.0
3646  13.6
3647  13.5
3648  15.7
3649  13.0

[3650 rows x 1 columns]


### Normalización y estandarización (Feature Scaling)

Una de las transformaciones más importantes que deben ser aplicadas a los datos es el escalamiento de características (feature scaling). En la mayoría de los casos, los algorítmos de aprendizaje automático no se desempeñan bien cuando la entrada de atributos numéricos presentan diferentes escalas. Existen dos formas comunes para conseguir que todos los datos de los atributos tengan la misma escala:

1. **Normalización (min-max scaling)**: es la más simple; los valores son cambiados y re-escalados de tal forma que se presenten en un rango de 0 a 1. Lo anterior se logra restando el valor mínimo y dividiendo por el máximo menos el mínimo. 

$$Scaler(x_i)=\frac{x_i-min(x)}{max(x) - min(x)}$$

      
2. **Estandarización:** La estandarización requiere primero restar el valor medio (mean value ${\mu}$), por lo tanto los valores estandarizados siempre presentan una media igual a cero, y después dividir por la desviación estandar (standard deviation ${\sigma}$), de tal forma que la distribución resultante presentará varianza igual a 1.


$$Scaler(x_i)=\frac{x_i-\mu}{\sigma}$$



_____
**Referencias:**

***Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow by Aurélien Géron.*** 2019, second edition. Prepare the Data for Machine Learning Algorithms, Feature Scaling, pág. 69-70.

### Normalización y estandarización automática

In [4]:
print(bold("Resultado automático"))
print("----------------------------------------------")
newline()

scaler = MinMaxScaler()
nombreColumnas = feature.columns.to_numpy()
datosEscalados = pd.DataFrame(scaler.fit_transform(feature), columns = nombreColumnas)

print(datosEscalados)


[1mResultado automático[0m
----------------------------------------------


          Temp
0     0.787072
1     0.680608
2     0.714829
3     0.555133
4     0.600760
...        ...
3645  0.532319
3646  0.517110
3647  0.513308
3648  0.596958
3649  0.494297

[3650 rows x 1 columns]


### Normalización y estandarización manual

In [5]:
#Funciones manuales de normalizar y estandarizar
def normalizar(datos):
    """
    Funcion para normalizar set de datos
    datos = set de datos
    """
    minimo = datos.min()
    maximo = datos.max()

    normalizado = (datos - minimo) / (maximo - minimo)
    return normalizado

def estandarizar(datos):
    """
    Funcion para estandarizar set de datos
    datos = set de datos
    """
    promedio = datos.mean()
    desv_std = datos.std()
    estandarizado = (datos - promedio) / desv_std
    return estandarizado

In [6]:
print(bold("Resultado manual"))
print("----------------------------------------------")
newline()  

print(normalizar(estandarizar(feature)))

[1mResultado manual[0m
----------------------------------------------


          Temp
0     0.787072
1     0.680608
2     0.714829
3     0.555133
4     0.600760
...        ...
3645  0.532319
3646  0.517110
3647  0.513308
3648  0.596958
3649  0.494297

[3650 rows x 1 columns]
