#**Caso 1. Ejemplo de creación de un modelo de predicción con Regresión Lineal**

# **Instalación de librerías**

In [None]:
install.packages("caTools")
install.packages("ggplot2")
install.packages("dplyr")


Cargando las librerías

In [None]:
library(caTools)
library(ggplot2)
library(dplyr)

Cargand los datos del conjuunto de datos en archivo CSV

In [None]:
#Cargando los datos
datos <- read.csv(file = 'sample_data/datasetCholesterol.csv', sep = ',') 

Revisando el conjunto de datos para identificar los tipos de datos existentes

In [None]:
# Resumen del set de datos
glimpse(datos)

In [None]:
#Cambiando de tipo char a factor la clase
datos$edad = as.integer(datos$edad)


In [None]:
datos$colesterol = as.double(datos$colesterol)


In [None]:
datos$edad


In [None]:
datos$colesterol

In [None]:
#Revisando la clase
glimpse(datos)

In [None]:
#Graficando el dataset
theme_set(theme_classic())
  
ggplot(datos, aes(x=edad, y=colesterol)) + 
  geom_point(col="tomato3", size=3) + #Draw points
  geom_segment(aes(x=edad,
                   xend=edad,
                   y=min(colesterol),
                   yend=max(colesterol)),
               linetype="dashed",
               size=0.1)+  #Draw dashed lines
  labs(title="Colesterol por Edad",
       subtitle="Edad vs Colesterol",
       caption = "source: Dataset")+
  coord_flip()

# **Creando el conjunto de datos train and test con split**

In [None]:
#Separando el train y test
split = sample.split(datos$colesterol, SplitRatio = 0.7)
nltrain = subset(datos, split == TRUE)
nltest = subset(datos, split == FALSE)

In [None]:
ggplot() + geom_point(data = nltrain, aes(x = edad, y = colesterol), size = 3, col="tomato2") + 
  xlab("Edad") + 
  ylab("Colesterol") + 
  labs(title="Colesterol por Edad",
       caption = "source: Dataset")

# **Creando el modelo de regresión**

In [None]:
#Creando modelo
set.seed(1234)
modeloLR <- lm(colesterol ~ edad, data = nltrain)

En la información devuelta por el summary se observa que el p-value del estadístico F es muy pequeño, indicando que al menos uno de los predictores del modelo está significativamente relacionado con la variable respuesta.

In [None]:
summary(modeloLR)

In [None]:
#Predicciones para el conjunto de entrenamiento
y_predict <- predict(modeloLR, nltrain)
y_predict

In [None]:
ggplot() + geom_point(data = nltrain, aes(x = edad, y = colesterol), size = 0.9) + 
  geom_line(aes( x = nltrain$edad, y = y_predict), color = "red") +
  xlab("Edad") + 
  ylab("Colesterol") + 
  ggtitle("Curva de Ajuste sobre Conjunto de Entrenamiento (nltrain)")

In [None]:
##Prediciendo  colesterol de un rango de edad
rango.edades <- data.frame(edad = seq(20, 60))

In [None]:
predict_value <- predict(modeloLR, rango.edades)
glimpse(predict_value)

In [None]:
df_predic=as.data.frame(predict_value)
df_predic

In [None]:
ggplot() + geom_line(aes( x = df_predic$predict_value, y = df_predic$predict_value), color = "red") +
  xlab("Edad") + 
  ylab("Colesterol") + 
  ggtitle("Curva de Ajuste sobre Conjunto de Entrenamiento (nltrain)")

In [None]:
predict_value <- predict(modeloLR, data.frame(edad = c(60)))
predict_value

In [None]:
#Salvando el modelo
saveRDS(modeloLR,"cholesterolLR.rds")

In [None]:
write.csv(df_predic,'prediccion20_60.csv')