# Sesión 8 - Postwork

Un centro de salud nutricional está interesado en analizar estadística y 
probabilísticamente los patrones de gasto en alimentos saludables y no saludables
en los hogares mexicanos con base en su nivel socioeconómico, en si el hogar tiene
recursos financieros extra al ingreso y en si presenta o no inseguridad alimentaria.
Además, está interesado en un modelo que le permita identificar los determinantes socioeconómicos de la inseguridad alimentaria.

La base de datos es un extracto de la Encuesta Nacional de Salud y Nutrición (2012) levantada por el Instituto Nacional de Salud Pública en México. La mayoría de las personas afirman que los hogares con menor nivel socioeconómico tienden a gastar más en productos no saludables que las personas con mayores niveles socioeconómicos y que esto, entre otros determinantes, lleva a que un hogar presente cierta inseguridad alimentaria.

La base de datos contiene las siguientes variables:

- `nse5f` (nivel socieconómico del hogar): 1 "Bajo", 2 "Medio bajo", 3 "Medio", 4 "Medio alto", 5 "Alto"
- `area` (zona geográfica): 0 "Zona urbana", 1 "Zona rural"
- `numpeho` (número de personas en el hogar)
- `refin` (recursos financieros distintos al ingreso laboral): 0 "no", 1 "sí"
- `edadjef` (edad del jefe/a de familia)
- `sexoje` (sexo del jefe/a de familia): 0 "Hombre", 1 "Mujer"
- `añosedu` (años de educación del jefe de familia)
- `ln_als` (logarítmo natural del gasto en alimentos saludables)
- `ln_alns` (logarítmo natural del gasto en alimentos no saludables)
- `IA` (inseguridad alimentaria en el hogar): 0 "No presenta IA", 1 "Presenta IA"

```R
df <- read.csv("https://raw.githubusercontent.com/beduExpert/Programacion-R-Santander-2022/main/Sesion-08/Postwork/inseguridad_alimentaria_bedu.csv")
```

1) Plantea el problema del caso
2) Realiza un análisis descriptivo de la información
3) Calcula probabilidades que nos permitan entender el problema en México
4) Plantea hipótesis estadísticas y concluye sobre ellas para entender el problema en México
5) Estima un modelo de regresión, lineal o logístico, para identificiar los determinanres de la inseguridad alimentaria en México
6) Escribe tu análisis en un archivo README.MD y tu código en un script de R y publica ambos en un repositorio de Github.

> NOTA: Todo tu planteamiento deberá estár correctamente desarrollado y deberás analizar e interpretar todos tus resultados para poder dar una conclusión final al problema planteado.

## 1) Planteamiento del problema del caso

### Objetivos
- Analizar patrones de gasto en alimentos saludables y no saludables en familias mexicanas con base en:
    - el nivel socioeconómico
    - disponibilidad de recursos financieros adicionales al ingreso
    - presencia de inseguridad alimentaria
- Elaborar un modelo que prediga la posibilidad de presentar inseguridad alimentaria (IA) con base en las variables disponibles en el extracto de la Encuesta Nacional de Salud y Nutrición 2012 (ENSANUT 2012)


## 2) Análisis descriptivo de la información

Obtención de los datos

In [23]:
url <- "https://raw.githubusercontent.com/beduExpert/Programacion-R-Santander-2022/main/Sesion-08/Postwork/inseguridad_alimentaria_bedu.csv"
datos <- read.csv(url, encoding = "UTF-8")
head(datos)

nse5f,area,numpeho,refin,edadjef,sexojef,añosedu,IA,ln_als,ln_alns
5,0,4,0,43.0,0.0,24,0,5.393628,
5,0,5,1,,,24,0,7.024649,
5,0,4,0,46.0,0.0,24,0,6.767343,4.60517
5,1,1,0,54.0,0.0,24,0,3.401197,4.094345
5,0,2,1,39.0,0.0,24,0,6.115892,5.480639
5,0,5,1,,,24,0,7.5148,5.598422


Para obtener un resumen estadístico de los datos, se convierten en factores las variables discretas.

In [25]:
datos$nse5f <- factor(datos$nse5f,
                      levels = 1:5,
                      labels = c("Bajo", "Medio bajo", "Medio", "Medio alto", "Alto"),
                      ordered = TRUE
)
datos$area <- factor(datos$area,
                     levels = 0:1,
                     labels = c("Zona urbana", "Zona rural")
)
datos$refin <- factor(datos$refin,
                      levels = 0:1,
                      labels = c("no", "sí")
)
datos$sexoje <- factor(datos$sexoje,
                       levels = 0:1,
                       labels = c("Hombre", "Mujer")
)
datos$IA <- factor(datos$IA,
                   levels = 0:1,
                   labels = c("No presenta IA", "Presenta IA")
)

Y, enseguida, el resumen estadístico.

In [31]:
summary(datos)

        nse5f               area          numpeho       refin     
 Bajo      :8858   Zona urbana:26591   Min.   : 1.000   no:33046  
 Medio bajo:8560   Zona rural :14218   1st Qu.: 3.000   sí: 7763  
 Medio     :8323                       Median : 4.000             
 Medio alto:7903                       Mean   : 3.941             
 Alto      :7165                       3rd Qu.: 5.000             
                                       Max.   :19.000             
                                                                  
    edadjef        sexojef         añosedu                   IA       
 Min.   : 18    Min.   :0.000   Min.   : 0.00   No presenta IA:10781  
 1st Qu.: 37    1st Qu.:0.000   1st Qu.: 9.00   Presenta IA   :30028  
 Median : 47    Median :0.000   Median : 9.00                         
 Mean   : 49    Mean   :0.247   Mean   :10.36                         
 3rd Qu.: 60    3rd Qu.:0.000   3rd Qu.:12.00                         
 Max.   :111    Max.   :1.000   Max.  