<a href="https://colab.research.google.com/github/XaviCarrera/r-estad-stica/blob/main/RegresionLogistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tutorial de Regresión Logística en R

En este tutorial aprenderemos los conceptos básicos de la regresión logística en R.
Usaremos el dataset `mtcars`, transformando la variable de respuesta en binaria.
Exploraremos los siguientes temas:
- Covarianza
- Correlación
- Regresión Logística
- Interpretación de los coeficientes
- Evaluación del modelo

In [1]:
library(tidyverse)
library(ggplot2)
library(dplyr)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.1     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.4     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.4     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


# Carga del dataset `mtcars`

Este dataset contiene información sobre automóviles, como el consumo de combustible, peso y potencia.

Para aplicar regresión logística, necesitamos una variable de respuesta binaria.
Convertiremos `am` (tipo de transmisión: 0 = automático, 1 = manual) en un factor.

In [3]:
data(mtcars)

mtcars$am <- as.factor(mtcars$am)

# Covarianza y Correlación
Analizamos la relación entre las variables predictoras y la variable de respuesta `am`.

In [4]:
cov(mtcars$mpg, mtcars$hp)

In [5]:
cor(mtcars$mpg, mtcars$hp)

# Regresión Logística
Modelamos la variable `am` en función de `mpg` y `hp`.

In [6]:
modelo_logistico <- glm(am ~ mpg + hp, data=mtcars, family=binomial)
summary(modelo_logistico)


Call:
glm(formula = am ~ mpg + hp, family = binomial, data = mtcars)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)  
(Intercept) -33.60517   15.07672  -2.229   0.0258 *
mpg           1.25961    0.56747   2.220   0.0264 *
hp            0.05504    0.02692   2.045   0.0409 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 43.230  on 31  degrees of freedom
Residual deviance: 19.233  on 29  degrees of freedom
AIC: 25.233

Number of Fisher Scoring iterations: 7


# Interpretación de los coeficientes

Los coeficientes representan el logit (log-odds) de la probabilidad de `am = 1`.
Para interpretarlos en términos de probabilidades, calculamos los odds ratios.

In [7]:
exp(coef(modelo_logistico))

# Evaluación del modelo
Para medir el desempeño, calculamos la matriz de confusión y la exactitud.

In [8]:
predicciones <- ifelse(predict(modelo_logistico, type = "response") > 0.5, 1, 0)
tabla_confusion <- table(Predicho = predicciones, Real = mtcars$am)
print(tabla_confusion)

        Real
Predicho  0  1
       0 16  3
       1  3 10


In [9]:
exactitud <- sum(diag(tabla_confusion)) / sum(tabla_confusion)
print(paste("Exactitud del modelo:", round(exactitud, 4)))

[1] "Exactitud del modelo: 0.8125"
