# Matemática para Ciencia de los Datos
# Trabajo práctico 3

María Auxiliadora Mora, Instituto Tecnológico de Costa Rica, 

Medio de entrega: Por medio del TEC-Digital.

Entregables: Un archivo jupyter ( .IPYNB ). 

Modo de trabajo: en grupos de máximo dos personas.


---



Resumen: En el presente trabajo práctico se realizarán ejercicios para repasar los siguientos conceptos: vector gradiente, derivada parcial y mínimos cuadrados. Pueden usar celdas de texto para explicaciones amplias y en las celdas de código, además de programar en python, documente su código con comentarios explicativos de lo que va haciendo (cuando corresponda).


---



**Pregunta 1 (5 puntos)**

Calcule el vector gradiente $\nabla f$ para la siguiente función multi-variable $f: \mathbb{R}^2\rightarrow\mathbb{R}$. Además, evalúelo en $\begin{bmatrix}1\\1\end{bmatrix}$ y $\begin{bmatrix}-1\\-1\end{bmatrix}$. 

--No se require programación en python--.

 - $f(x,y) = x^4+y^3+5x^2y^3$
 

---

Tenemos que:

\begin{equation}
\nabla f= (\frac{\partial \:f}{{\partial \:x}}, \frac{\partial \:f}{\partial \:y})
\end{equation}



**1. Calculamos las derivadas parciales:**

$=\frac{\partial \:}{\partial \:x}\left(x^4\right)+\frac{\partial \:}{\partial \:x}\left(y^3\right)+\frac{\partial \:}{\partial \:x}\left(5x^2y^3\right)$

Es igual a la suma de sus derivadas individuales,
Para x, siendo y constante, por lo que su derivada es cero.

$\frac{\partial \:}{\partial \:x}\left(x^4\right)=4x^3$

$\frac{\partial \:}{\partial \:x}\left(y^3\right)=0$

$\frac{\partial \:}{\partial \:x}\left(5x^2y^3\right)=10xy^3$

$=4x^3+10xy^3$

Ahora derivamos para y, siendo x constante:

$=\frac{\partial \:}{\partial \:y}\left(x^4\right)+\frac{\partial \:}{\partial \:y}\left(y^3\right)+\frac{\partial \:}{\partial \:y}\left(5x^2y^3\right)$

$\frac{\partial \:}{\partial \:y}\left(x^4\right)=0$

$\frac{\partial \:}{\partial \:y}\left(y^3\right)=3y^2$

$\frac{\partial \:}{\partial \:y}\left(5x^2y^3\right)=15x^2y^2$

$=3y^2+15x^2y^2$

Entonces

\begin{equation}
\Rightarrow\nabla f=(\left(4x^3+10xy^3\right),\left(3y^2+15x^2y^2\right))
\end{equation}

Evalúelo en $\begin{bmatrix}1\\1\end{bmatrix}$ 

$=(\left(4(1)^3+10(1)(1)^3\right),\left(3(1)^2+15(1)^2(1)^2\right))$
$=(14,18)$


y $\begin{bmatrix}-1\\-1\end{bmatrix}$. 

$=(\left(4(-1)^3+10(-1)(-1)^3\right),\left(3(-1)^2+15(-1)^2(-1)^2\right))$
$=(6,18)$


**Pregunta 2 (10 puntos)**

Implemente en python la función $distancia = evaluateError\left(vreal,vpredicho\right)$, la cual calcula y retorna la distancia euclidiana entre los dos vectores, el vreal (el valor real conocido) y el vpredicho (la predicción del modelo). Debe programar en python a nivel de operaciones matriciales y/o vectoriales, no debe invocar a una función pre-construída que calcule dicha distancia.

Se adjunta un archivo (nacimientos.csv) con datos para probar su función. El archivo contiene dos columnas una con la duración total del embarazo en semanas y la otra con el valor predicho por un modelo. 


---

In [39]:
import numpy 
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

def evaluateError(vreal,vpredicho):
    """
    Get euclidian distance
    param vreal the real values
    param vpredicho the guess values
    return: return the error between the vreal and vpredicho
    """
    return numpy.sqrt(numpy.sum((vreal-vpredicho)**2))


#Cargue los datos utilizando un dataframe de Pandas.
df = pd.read_csv('datos/nacimientos.csv', sep=';')
df.head()
distancia = evaluateError(df['real'],df['predicho'])
print ("Euclidian Distance between vreal and vpredicho: ", distancia)





Euclidian Distance between vreal and vpredicho:  58.463663928973865


**Pregunta 3 (10 puntos)**

Implemente en python la función $w_{opt}=estimateOptimumW\left(X,b\right)$ la cual recibe la matriz de características y sus respuestas o targets ($X$ y $b$), y estima el vector de pesos óptimo $w\_opt$ usando mínimos cuadrados. Debe programar en python a nivel de operaciones matriciales y/o vectoriales, no debe invocar a una función pre-construída que calcule mínimos cuadrados.


---

In [67]:
import torch as torch
import numpy as np
import math
from sklearn.datasets import make_regression

def estimateOptimumW(X, b):
    """ Estimate the optimum W 
    param b, Target
    param X, Characteristics Matrix 
    return 
       wOpt, array with optimum weights
    """
    # Calculate w = *Apinverse*Targets
    XPinv = torch.tensor(np.linalg.pinv(X))
    wOpt = XPinv.mm(b)
    return wOpt
 
    
    
X, y = make_regression(n_features=2, n_informative=1,
                       bias=1, noise=20)

# The data is converted to Pytorch tensors.    
A = torch.tensor(X)
b = torch.tensor(y)

# The targets are adjusted to be able to computet he multiplication. 
b=b.reshape([b.shape[0],1])

# Optimun w for sample data  
wOpt = estimateOptimumW( A, b)

print("El valor optimo:", wOpt)

El valor optimo: tensor([[ 2.1584],
        [98.3319]], dtype=torch.float64)


**Pregunta 4 (25 puntos)**

**Ajuste de curvas con mínimos cuadrados.**

Datos para el ejercicio: Se adjunta un archivo con datos (defaultofcredit.csv) para realizar el ejercicio, los targets ($b$) en este conjunto de datos corresponden a la columna: default_payment_next_month.

Una descripción completa del conjunto de datos está disponible en https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset

Realice lo siguiente:

- a) Cargue el conjunto de datos defaultofcredit.csv, los targets ($b$) corresponden a la columna: default_payment_next_month.
- b) Explore el conjunto de datos, visualice algunas estadísticas y verifique que no existan valores faltantes.
- c) Utilice la función estimateOptimumW para calcular el $w_{opt}$ para los datos. 
- d) Implemente la función forward, la cual estima las salidas del modelo al hacer  $T =f(X\,\vec{w}_{opt})$ donde la función f(x) se refiere a la función de activación y en este caso, simplemente se va a utilizar la función signo o escalón.

- e) Utilice la función evaluateError para calcular el error de predicción.

In [92]:


def evaluateErrorTensor(vreal,vpredicho):   
    return torch.sqrt(torch.sum((vreal-vpredicho)**2))


#Cargue el conjunto de datos defaultofcredit.csv, 
#los targets (b) corresponden a la columna: default_payment_next_month.
df = pd.read_csv('datos/defaultofcredit.csv', sep=';')
df.head()



Unnamed: 0,LIMIT_BAL,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default_payment_next_month
0,20000,24,2,2,-1,-1,-2,-2,3913,3102,...,0,0,0,0,689,0,0,0,0,1
1,120000,26,-1,2,0,0,0,2,2682,1725,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,90000,34,0,0,0,0,0,0,29239,14027,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,50000,37,0,0,0,0,0,0,46990,48233,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,50000,57,-1,0,-1,0,0,0,8617,5670,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


In [27]:
df.describe(include = 'all')

Unnamed: 0,LIMIT_BAL,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default_payment_next_month
count,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,...,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0
mean,167484.322667,35.4855,-0.0167,-0.133767,-0.1662,-0.220667,-0.2662,-0.2911,51223.3309,49179.075167,...,43262.948967,40311.400967,38871.7604,5663.5805,5921.163,5225.6815,4826.076867,4799.387633,5215.502567,0.2212
std,129747.661567,9.217904,1.123802,1.197186,1.196868,1.169139,1.133187,1.149988,73635.860576,71173.768783,...,64332.856134,60797.15577,59554.107537,16563.280354,23040.87,17606.96147,15666.159744,15278.305679,17777.465775,0.415062
min,10000.0,21.0,-2.0,-2.0,-2.0,-2.0,-2.0,-2.0,-165580.0,-69777.0,...,-170000.0,-81334.0,-339603.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,50000.0,28.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,3558.75,2984.75,...,2326.75,1763.0,1256.0,1000.0,833.0,390.0,296.0,252.5,117.75,0.0
50%,140000.0,34.0,0.0,0.0,0.0,0.0,0.0,0.0,22381.5,21200.0,...,19052.0,18104.5,17071.0,2100.0,2009.0,1800.0,1500.0,1500.0,1500.0,0.0
75%,240000.0,41.0,0.0,0.0,0.0,0.0,0.0,0.0,67091.0,64006.25,...,54506.0,50190.5,49198.25,5006.0,5000.0,4505.0,4013.25,4031.5,4000.0,0.0
max,1000000.0,79.0,8.0,8.0,8.0,8.0,8.0,8.0,964511.0,983931.0,...,891586.0,927171.0,961664.0,873552.0,1684259.0,896040.0,621000.0,426529.0,528666.0,1.0


In [93]:
# % of values missing in each column
values_list = list()
cols_list = list()
for col in df.columns:
    pct_missing = np.mean(df[col].isnull())*100
    cols_list.append(col)
    values_list.append(pct_missing)
pct_missing_df = pd.DataFrame()
pct_missing_df['col'] = cols_list
pct_missing_df['pct_missing'] = values_list

#empty rows as nan
df = df.replace(r'^\s*$', np.nan, regex=True)

#drop rows with na if the % is low
less_missing_values_cols_list = list(pct_missing_df.loc[(pct_missing_df.pct_missing < 0.9) & (pct_missing_df.pct_missing > 0), 'col'].values)
df.dropna(subset=less_missing_values_cols_list, inplace=True)

df.describe()

Unnamed: 0,LIMIT_BAL,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default_payment_next_month
count,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,...,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0
mean,167484.322667,35.4855,-0.0167,-0.133767,-0.1662,-0.220667,-0.2662,-0.2911,51223.3309,49179.075167,...,43262.948967,40311.400967,38871.7604,5663.5805,5921.163,5225.6815,4826.076867,4799.387633,5215.502567,0.2212
std,129747.661567,9.217904,1.123802,1.197186,1.196868,1.169139,1.133187,1.149988,73635.860576,71173.768783,...,64332.856134,60797.15577,59554.107537,16563.280354,23040.87,17606.96147,15666.159744,15278.305679,17777.465775,0.415062
min,10000.0,21.0,-2.0,-2.0,-2.0,-2.0,-2.0,-2.0,-165580.0,-69777.0,...,-170000.0,-81334.0,-339603.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,50000.0,28.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,3558.75,2984.75,...,2326.75,1763.0,1256.0,1000.0,833.0,390.0,296.0,252.5,117.75,0.0
50%,140000.0,34.0,0.0,0.0,0.0,0.0,0.0,0.0,22381.5,21200.0,...,19052.0,18104.5,17071.0,2100.0,2009.0,1800.0,1500.0,1500.0,1500.0,0.0
75%,240000.0,41.0,0.0,0.0,0.0,0.0,0.0,0.0,67091.0,64006.25,...,54506.0,50190.5,49198.25,5006.0,5000.0,4505.0,4013.25,4031.5,4000.0,0.0
max,1000000.0,79.0,8.0,8.0,8.0,8.0,8.0,8.0,964511.0,983931.0,...,891586.0,927171.0,961664.0,873552.0,1684259.0,896040.0,621000.0,426529.0,528666.0,1.0


In [94]:
#http://www.semspirit.com/artificial-intelligence/machine-learning/preparing-the-data/preparing-the-data-in-python/separating-source-and-target-variables/

A = df.values[:,:-1] #all columns except the last one
b = df.values[:,len(df.values[0])-1].astype('float64') #only the last column
#b en formato de columna
b =  np.reshape(b, (A.shape[0], 1))

#Escalar los datos 
A = np.array( A )
scaler = MinMaxScaler()     #de la biblioteca Scikit-learn
scaler.fit(A) 
A = scaler.transform(A)


In [95]:
At=torch.from_numpy(A)
bt=torch.from_numpy(b) 
wOpt = estimateOptimumW(At,bt)
print("El valor optimo:", wOpt)


El valor optimo: tensor([[-0.0605],
        [ 0.1030],
        [ 0.9591],
        [ 0.1968],
        [ 0.1175],
        [ 0.0313],
        [ 0.0571],
        [ 0.0077],
        [-0.6907],
        [ 0.1129],
        [ 0.0787],
        [-0.0413],
        [-0.1311],
        [ 0.2889],
        [-0.6256],
        [-0.3836],
        [-0.0384],
        [-0.1386],
        [-0.1856],
        [-0.0452]], dtype=torch.float64)


In [96]:
#Implemente la función forward, la cual estima las salidas del modelo al hacer  𝑇=𝑓(𝑋𝑤⃗𝑜𝑝𝑡)
#donde la función f(x) se refiere a la función de activación y en este caso, simplemente se va a utilizar 
#la función signo o escalón.

def forward(SamplesAll, wOpt):
    """
    Get model output
    param SamplesAll, a matrix with dimensions NumSamples x NumDimensions 
    return: Estimates the model outputs activation function 
    """
    EstimatedTargets = SamplesAll.mm(wOpt)
    
    return EstimatedTargets

# Estimated target for sample data    
EstimatedTargetsAll = forward(At, wOpt)

print (EstimatedTargetsAll)

tensor([[0.4511],
        [0.1904],
        [0.2460],
        ...,
        [0.7315],
        [0.2859],
        [0.2603]], dtype=torch.float64)


In [91]:

# Error for sample data  
error = evaluateErrorTensor(bt, EstimatedTargetsAll)

print(error)

tensor(67.3468, dtype=torch.float64)
