<a href="https://colab.research.google.com/github/SaraiLorenzo/Analisis-y-visualizacion-de-datos/blob/main/Copy_of_Regresion_R_parte1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Practica de regresión

**Resumen**

El presente trabajo desarrolla un análisis de datos utilizando herramientas estadísticas y computacionales en el lenguaje de programación R, con el propósito de aplicar técnicas de modelado y análisis cuantitativo para la interpretación de información estructurada. A través de la implementación de procesos de limpieza, organización y exploración de datos, se busca transformar un conjunto de información en conocimiento útil que permita identificar patrones, relaciones y tendencias relevantes.

La metodología empleada contempla etapas fundamentales de la Ingeniería de Datos, comenzando con la preparación del entorno de trabajo, la carga y transformación del conjunto de datos, el análisis exploratorio y la aplicación de modelos estadísticos para obtener resultados interpretables. El uso de técnicas de regresión permite comprender la relación entre variables y evaluar cómo ciertos factores influyen en los resultados observados.

El proyecto no solo enfatiza la parte técnica del análisis, sino también la importancia de interpretar correctamente los resultados obtenidos para apoyar la toma de decisiones basada en datos. Asimismo, se pone en práctica el uso de herramientas de visualización para comunicar los hallazgos de forma clara y comprensible.

En conjunto, el trabajo representa un ejercicio integral que fortalece competencias clave en el ámbito del análisis de datos, la estadística aplicada y la programación, demostrando cómo la combinación de metodología científica y tecnología permite convertir datos en información de valor para distintos contextos académicos y profesionales.

**Objetivo**

Desarrollar un análisis de datos mediante el uso del lenguaje de programación R y técnicas estadísticas, aplicando procesos de limpieza, exploración y modelado que permitan identificar relaciones entre variables, interpretar resultados y fortalecer competencias prácticas dentro del área de la Ingeniería de Datos.

**Alcance**

Esta practica abarca:
1. La preparacion del trabajo en R
2. La carga, revision y organizacion de datos
3. La limpieza y transformación de la informacion
4. Interpretacion de los resultados.

**Entregables**

Pratica desarrollada en Google Colab, R.


**Desarrollo de resultados**

In [None]:
#install.packages("ISLR2")
install.packages("ggplot2")
install.packages("readr")

# Cargar librerías necesarias
#library(ISLR2)
library(ggplot2)
library(readr)
# Cargar datos de publicidad
#data(Advertising) # Variables: TV, Radio, Newspaper, Sales
#data(Credit)
Advertising<- read.csv("Advertising.csv")



Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
# Ajustar modelo de regresión lineal simple
# Predecir ventas en función del presupuesto de TV
modelo_simple <- lm(Sales ~ TV, data = Advertising)
# Ver resumen completo del modelo
summary(modelo_simple)

In [None]:
# Visualizar la recta de regresión
ggplot(Advertising, aes(x = TV, y = Sales)) + geom_point(color = '#2E75B6', alpha = 0.6, size = 2.5) + geom_smooth(method = 'lm', color = '#E74C3C', se = TRUE) + labs(title = 'Ventas vs. Inversión en TV', x = 'Presupuesto TV (miles USD)', y = 'Ventas (miles de unidades)') + theme_minimal()

In [None]:
# Modelo de regresión múltiple
modelo_mult <- lm(Sales ~ TV + Radio + Newspaper, Advertising)
summary(modelo_mult)
# Resultado esperado (aproximado):
# Coefficients: Estimate Std. Error t value Pr(&gt;|t|)
# (Intercept) 2.9389 0.3119 9.422 &lt;2e-16 ***
# TV 0.0458 0.0014 32.809 &lt;2e-16 ***
# radio 0.1885 0.0086 21.893 &lt;2e-16 ***
# newspaper -0.0010 0.0059 -0.177 0.860
# ---
# Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
# Predicción para nuevos datos
nuevos_datos <- data.frame(TV = 150, Radio = 25, Newspaper = 30)
predict(modelo_mult, newdata = nuevos_datos, interval = 'prediction', level = 0.95)

In [None]:
# Ejemplo con variable categórica: ShelveLoc (Good/Bad/Medium)
Carseats<- read.csv("Carseats.csv")


In [None]:
modelo_carseat <- lm(Sales ~ Price + ShelveLoc + Age + Income, data = Carseats)
summary(modelo_carseat)


In [None]:
# R crea automáticamente:
# ShelveLocGood → 1 si ubicación es &#39;Good&#39;, 0 si no
# ShelveLocMedium → 1 si ubicación es &#39;Medium&#39;, 0 si no
# (Bad es la categoría de referencia)
# Verificar qué contraste usa R
contrasts(as.factor(Carseats$ShelveLoc))

In [None]:
# Interacción entre TV y radio
# El efecto de TV puede amplificarse cuando radio también es alto
modelo_interact <- lm(Sales ~ TV * Radio, data = Advertising)
summary(modelo_interact)
# Equivalente a:
# lm(sales ~ TV + radio + TV:radio, data = Advertising)
# Modelo con transformación logarítmica y cuadrática
modelo_poly <- lm(Sales ~ TV + I(TV^2) + Radio, data = Advertising)
summary(modelo_poly)

In [None]:
# Gráficos de diagnóstico completos
par(mfrow = c(2, 2)) # Layout 2x2
plot(modelo_mult) # 4 gráficos automáticos
# Gráfico 1 - Residuals vs Fitted: detecta no linealidad
# Gráfico 2 - Q-Q Plot: evalúa normalidad de residuos
# Gráfico 3 - Scale-Location: evalúa homocedasticidad
# Gráfico 4 - Residuals vs Leverage: detecta puntos influyentes


In [None]:
# ── Prueba formal de homocedasticidad ──
install.packages("lmtest")
library(lmtest)
bptest(modelo_mult) # Breusch-Pagan: H0 = homocedasticidad
# ── Multicolinealidad ──
install.packages("car")
library(car)
vif(modelo_mult) # VIF &lt; 5 = aceptable, &gt;10 = problema severo
# ── Observaciones influyentes ──
influenceIndexPlot(modelo_mult, vars = c('Cook', 'Studentized'))
# Distancia de Cook &gt; 1 sugiere observación muy influyente

**Conclusion**

Esta práctica permite comprender la importancia del análisis de datos como una herramienta fundamental dentro de la Ingeniería de Datos, ya que mediante el uso del lenguaje de programación R es posible realizar un análisis más estructurado y claro de la información. A lo largo del desarrollo del trabajo se reconoce que el análisis no se limita a ejecutar comandos o generar resultados numéricos, sino que implica seguir un proceso ordenado que inicia con la preparación de los datos y termina con la interpretación de los resultados obtenidos.
Uno de los principales aprendizajes del proyecto se relaciona con la etapa de exploración y organización de datos. Trabajar con información correctamente estructurada facilita el análisis y mejora la calidad de los resultados, ya que permite identificar errores, inconsistencias y patrones dentro del conjunto de datos. Esta fase resulta clave porque establece una base sólida para aplicar métodos estadísticos y evita interpretaciones incorrectas. Además, el análisis exploratorio ayuda a comprender mejor el comportamiento de las variables antes de aplicar cualquier modelo. La aplicación de modelos de regresión representa un elemento importante dentro de la práctica, ya que permite evaluar la relación existente entre variables y analizar cómo ciertos factores influyen en los resultados observados. Este proceso fortalece el razonamiento analítico y estadístico, debido a que requiere interpretar valores, comprender tendencias y analizar el comportamiento general de los datos. De esta forma, el modelo de regresión no solo aporta resultados numéricos, sino que también ayuda a desarrollar la capacidad de interpretar la información de forma lógica y fundamentada.
Otro aspecto relevante es que esta práctica permitió reforzar conocimientos vistos en clase y llevarlos a un contexto práctico. Observar cómo una variable puede influir en otra ayudó a comprender mejor los conceptos estadísticos y a relacionarlos con situaciones reales de análisis. Esto contribuye al desarrollo de habilidades para la toma de decisiones basadas en datos, una competencia esencial dentro del área de Ingeniería de Datos.
Además, el trabajo fortaleció habilidades en el uso de herramientas tecnológicas para el análisis de datos, mostrando que R es una herramienta útil para automatizar procesos, optimizar tiempo y facilitar el manejo de la información. La programación permitió desarrollar un flujo de trabajo más eficiente y ordenado, lo cual resulta importante cuando se trabaja con grandes volúmenes de datos o cuando se requiere replicar análisis.
En conclusión, esta práctica permitió aplicar conocimientos teóricos en un caso práctico, mejorando la capacidad para analizar datos, interpretar resultados y presentar información de forma clara.
