<a href="https://colab.research.google.com/github/ElmerAvila09/Portafolio-AprendizajeMaquina/blob/main/Aprendizaje_Maquina_GD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Importacion de los datos

In [248]:
import pandas as pd
import numpy as np

data = pd.read_csv('alimentos.csv')
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 276 entries, 0 to 275
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Fecha              276 non-null    object 
 1   Hora               276 non-null    object 
 2   Nombre             276 non-null    object 
 3   Calorias (Cal)     276 non-null    int64  
 4   Carbohidratos (g)  276 non-null    float64
 5   Lipidos (g)        276 non-null    float64
 6   Proteinas (g)      276 non-null    float64
 7   Sodio (g)          276 non-null    float64
 8   Sodio (mg)         276 non-null    float64
dtypes: float64(5), int64(1), object(3)
memory usage: 19.5+ KB
None


## Seleccion de datos

In [249]:
# El modelo predecira la cantida de calorias de un alimento a partir del contenido de carbohidratos, lipidos, proteinas y sodio del mismo; de este modo eliminamos las demas columnas, no necesarias
# Eliminamos las columnas que no necesitamos
data = data.drop(['Fecha', 'Hora', 'Nombre', 'Sodio (mg)'], axis=1)

# Los datos no se encuentran ordenados de ninguna manera, podemos dividirlos en 2 datasets: entrenamiento (80%) y testing (20%)
data_train = data.iloc[:round(data.shape[0] * .80), :]
data_test = data.iloc[round(data.shape[0] * .80):, :]

print('\nTotal de datos:', len(data))
print('No. de datos de entreamiento:', len(data_train))
print('No. de datos para prediccion:', len(data_test))


Total de datos: 276
No. de datos de entreamiento: 221
No. de datos para prediccion: 55


In [250]:
# Dividimos cada una de las variables dependientes e independientes
x1_train = data_train['Carbohidratos (g)']
x2_train = data_train['Lipidos (g)']
x3_train = data_train['Proteinas (g)']
x4_train = data_train['Sodio (g)']

x1_test = data_test['Carbohidratos (g)']
x2_test = data_test['Lipidos (g)']
x3_test = data_test['Proteinas (g)']
x4_test = data_test['Sodio (g)']

y_train = data_test["Calorias (Cal)"]
y_test = data_test["Calorias (Cal)"]

## Generacion del modelo
### **Gradiente Descendiente**

In [251]:
# Funcion de Hipotesis
h = lambda x0, x1, x2, x3, theta: theta[0] + theta[1] *x0 + theta[2] *x1 + theta[3] *x2 + theta[4] *x3

# Funcion auxiliar (parcial) de la funcion de costo
j_i = lambda x0, x1, x2, x3, y, theta: (h(x0, x1, x2, x3, theta)-y)**2

In [252]:
#[3,5,2,2,2]
# Parametros e hiper-parametro
theta = [7,4,8,3,-2]
alpha = 0.0000000007

n_iter = 70000

In [253]:
# Datos necesarios para las formulas
n_train = len(data_train)
n_test = len(data_test)

# Ciclo para iterar n catidad de veces sobre el modelo
for idx in range(n_iter):
  acumDelta0 = []
  acumDelta1 = []
  acumDelta2 = []
  acumDelta3 = []
  acumDelta4 = []
  
  for x1, x2, x3, x4, y in zip(x1_train, x2_train, x3_train, x4_train, y_train):
    acumDelta0.append(h(x1, x2, x3, x4, theta) - y)
    acumDelta1.append(h(x1, x2, x3, x4, theta) - y * x1)
    acumDelta2.append(h(x1, x2, x3, x4, theta) - y * x2)
    acumDelta3.append(h(x1, x2, x3, x4, theta) - y * x3)
    acumDelta4.append(h(x1, x2, x3, x4, theta) - y * x4)

  # Sumatoria de los deltas calculados anteriormente, que se emplearan para calcular los nuevos thetas
  sum_j0 = sum(acumDelta0)
  sum_j1 = sum(acumDelta1)
  sum_j2 = sum(acumDelta2)
  sum_j3 = sum(acumDelta3)
  sum_j4 = sum(acumDelta4)

  # Calculo de los nuevos thetas (coeficientes del modelo)
  theta[0] = theta[0] - alpha / n_train * sum_j0
  theta[1] = theta[1] - alpha / n_train * sum_j1
  theta[2] = theta[2] - alpha / n_train * sum_j2
  theta[3] = theta[3] - alpha / n_train * sum_j3
  theta[4] = theta[4] - alpha / n_train * sum_j4

# Impresion de los thetas obtenidos finalmente
print('Thetas calculados:', theta)

Thetas calculados: [7.001263101469252, 4.089543807351609, 8.032518449885586, 3.0313542010167738, -2.0007969955533556]


## Validacion del modelo

In [254]:
# Calculo de Error con los datos de prueba/validacion
acum_delta = []
for x1, x2, x3, x4, y in zip(x1_test, x2_test, x3_test, x4_test, y_test):
  acum_delta.append(j_i(x1, x2, x3, x4, y, theta))  

sum_delta = sum(acum_delta)  
j_test = 1/(2*n_test)*sum_delta

# Impresion del Error de prueba/validacion
print('Error de validacion:', j_test)

# Calculo de Error de los datos de entrenamiento
acum_delta = []
for x1, x2, x3, x4, y in zip(x1_train, x2_train, x3_train, x4_train, y_train):
  acum_delta.append(j_i(x1, x2, x3, x4, y, theta)) 

sDelta = sum(acum_delta)  
j_train = 1/(2*n_train)*sDelta

# Impresion del Error con los datos de entrenamiento
print('Error de entrenamiento:', j_train)
print(theta)

Error de validacion: 432.00757418211856
Error de entrenamiento: 6815.549969805282
[7.001263101469252, 4.089543807351609, 8.032518449885586, 3.0313542010167738, -2.0007969955533556]


## Predicciones

In [255]:
#y_pred = []
y_pred = round(h(data['Carbohidratos (g)'], data['Lipidos (g)'], data['Proteinas (g)'], data['Sodio (g)'], theta))

comp_table = pd.DataFrame({'Real': data['Calorias (Cal)'], 'Prediccion': y_pred})
comp_table.head(25)

Unnamed: 0,Real,Prediccion
0,400,387.0
1,400,387.0
2,308,275.0
3,141,134.0
4,141,134.0
5,141,134.0
6,0,7.0
7,630,626.0
8,630,626.0
9,159,159.0
