# M2_AI3_Obesidad
#### Autor: Leandro Gutierrez
#### Este documento intenta dar respuesta a la actividad individual 3 propuesta en el Modulo **Fundamentos de Estadística** del **Master en Big Data y Ciencia de Datos**. En él se describirán cada uno de los enunciados postulados y los resultados obtenidos a través del uso de Python y Google Colab.
#### Junio 28, 2024

## Enunciado
Con los datos facilitados sobre el total de personas diagnosticadas con obesidad en España y sobre el total de población detallado a nivel de provincia, te pedimos que halles:

- ¿Cuál es la probabilidad de padecer obesidad en España?. Se debe aportar su fórmula y su sustitución. Analizar los resultados obtenidos (15%)
- Si seleccionamos una de las personas obesas al azar, ¿Cuál es la probabilidad de que resida en Barcelona? ¿Y en el resto de provincias? Se debe aportar su fórmula y su sustitución. (70%)
- Aportar el árbol de decisión, añadir una explicación de cómo funciona, el resultado y un comentario o análisis del resultado obtenido. (15%)


#### Consideraciones

- [Fuente de la información](https://campus.il3.ub.edu/pluginfile.php/444355/mod_assign/intro/datos_obesidad.xlsx?time=1719295273514).
- Los datos de obesidad están basadas en diferentes fuentes, como la Encuesta Nacional de Salud (ENSANUT) y el Estudio Sobre Nutrición, Actividad Física y Salud (ENAS).
- Los datos de población son estimaciones del INE a fecha de 1 de enero de 2023.

## Solución

### Diccionario de datos

<table>
<tbody>
<tr><th><b>Variable</b></th><th><b>Definition</b></th><th><b>Key</b></th></tr>
<tr>
    <td>Fecha</td>
    <td>Identificador de toma de información.</td>
    <td></td>
</tr>
<tr>
    <td>Provincia</td>
    <td>Provincia que identifica lugar geográfico de la observación.</td>
    <td></td>
</tr>
<tr>
    <td>total Obesos</td>
    <td>Total de habitantes en la provincia con obesidad al momento de la observación</td>
    <td></td>
</tr>
<tr>
    <td>Total Habitantes</td>
    <td>Total de habitantes en la provincia al momento de la observación</td>
    <td></td>
</tr>
</tbody>
</table>


### Carga del dataset

In [2]:
import requests
import pandas as pd

url = 'https://raw.githubusercontent.com/leandrogutierrez148/master/main/M2/A3/datos_obesidad.xlsx'

# token de acceso a Github personal
token = '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'

# headers para el request
headers = {
    "Authorization": f"token {token}"
}

# realizamos el request
response = requests.get(url, headers=headers)

# obtenemos los datos
with open('archivo.xlsx', 'wb') as file:
    file.write(response.content)
        
    # leemos el archivo descargado con pandas y openpyxl
    try:
        df_org = pd.read_excel('archivo.xlsx', engine='openpyxl')
    except Exception as e:
        print("Error al leer el archivo Excel: ", e)

df_org.head(20)

Unnamed: 0,Fecha,Provincia,Total Obesos,Total Habitantes
0,2023-01-01,Alava,42345,323897
1,2023-01-01,Albacete,146234,398567
2,2023-01-01,Alicante,368423,1949789
3,2023-01-01,Almería,240567,702345
4,2023-01-01,Asturias,278234,1019897
5,2023-01-01,Ávila,48345,162567
6,2023-01-01,Badajoz,201234,677897
7,2023-01-01,Baleares,322567,1115234
8,2023-01-01,Barcelona,712897,5539567
9,2023-01-01,Bizkaia,238345,1154789


### Análisis del dataset

Navegaremos en el dataset para ver su estructura, esquema, completitud y los conjuntos de valores de las variables.

In [3]:
# copiamos dataframe para no alterar original
df_aux = df_org.copy()

In [4]:
# resumen información del dataset
print(df_aux.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Fecha             50 non-null     datetime64[ns]
 1   Provincia         50 non-null     object        
 2   Total Obesos      50 non-null     int64         
 3   Total Habitantes  50 non-null     int64         
dtypes: datetime64[ns](1), int64(2), object(1)
memory usage: 1.7+ KB
None


Podemos observar que la variable **Fecha** fue interpretada por pandas como **datetime64**, mientras que la variable **Provincia** como **object** y a su vez **Total Obesos** y **Total Habitantes** como **int64**

In [5]:
# controlamos forma del dataset
df_aux.shape

(50, 4)

Contamos con 50 observaciones y 4 variables.

#### Completitud

In [6]:
# controlamos valores nulos en los datos
df_aux.isna().sum()

Fecha               0
Provincia           0
Total Obesos        0
Total Habitantes    0
dtype: int64

No se registran valores nulos en el dataset.

#### Conjunto de valores

In [15]:
# hacemos un describe preeliminar de cada variable
print(df_aux['Fecha'].describe())
print(df_aux['Provincia'].describe())
print(df_aux['Total Obesos'].describe())
print(df_aux['Total Habitantes'].describe())

count                     50
mean     2023-01-01 00:00:00
min      2023-01-01 00:00:00
25%      2023-01-01 00:00:00
50%      2023-01-01 00:00:00
75%      2023-01-01 00:00:00
max      2023-01-01 00:00:00
Name: Fecha, dtype: object
count        50
unique       50
top       Alava
freq          1
Name: Provincia, dtype: object
count        50.000000
mean     183134.640000
std      170495.555137
min       11345.000000
25%       75364.500000
50%      138678.000000
75%      238345.000000
max      873423.000000
Name: Total Obesos, dtype: float64
count    5.000000e+01
mean     9.588493e+05
std      1.324569e+06
min      8.253500e+04
25%      3.228995e+05
50%      6.099560e+05
75%      1.008620e+06
max      6.775897e+06
Name: Total Habitantes, dtype: float64


#### Análisis de los tipos de variables

1. Fecha: variable alfanumérica que indica el dia de la toma de la observación. La definiremos como cualitativa ordinal, ya que nos puede sirvir para agrupar y ordenar nuestras observaciones. Podemos observar que solo se presenta el valor **2023-01-01**. Es una variable **cualitativa ordinal**.
2. Provincia: variable alfanumerica que indica el lugar geográfico donde se tomó la observación. La definiremos como cualitativa nominal, ya que nos puede servir para agrupar y clasificar nuestras observaciones pero no cuenta con un orden o secuencia específica. Es una variable **cualitatica nominal**.
3. Total Obesos: variable numérica entera la cual indica la cantidad de habitantes con obesidad en la provincia donde se realizó la observación al momento de indicado en `Fecha`. Vamos a considerar la variable **cuantitativa discreta** ya que al hablamos de habitantes. 
4. Total Habitantes: variable numérica entera la cual indica la cantidad total de habitantes en la provincia donde se realizó la observación al momento de indicado en `Fecha`. Vamos a considerar la variable **cuantitativa discreta** ya que al hablamos de habitantes.

Observamos que contamos con un dataset generado a partir de diversas fuentes: los datos de obesidad se obtuvieron del ENSANUT y el ENAS. Mientras que los datos poblacionales son estimaciones del INE al primero de Enero del 2023. Contamos con un 50 registros, correspondientes a las 50 Provincias de España, esto define a España como nuestro universo, cuando en adelante hablemos de Probabilidad de Obesidad, estaremos hablando de la problabilida de padecer Obesidad en Esapaña, es decir 
$$P(Obeso\ España) = P(Obeso)$$
Esto nos ayuda a ser mas claros en nuestras formulas.

En cuanto a los datos en sí mismos, vemos que contamos con 50 filas y 4 columnas. Las cuatro columnas corresponden a los valores de **Fecha, Provincia, Total Obesos y Total Habitantes**. Pudimos observar que no existen valores nulos y ver algunas medidas de posición y dispersión con los `describe()` de cada columna.

No abordaremos un análisis unidimensional minucioso ya que no creemos sea relevante para esta práctica. Continuaremos definiendo nuestro Experimento y desarrollando las actividades propuestas.

### Definición del Experimento

Dado el experimento aleatorio $𝐸$, el cual determina en que **provincia** vive una persona residente en España y si padece o no **obesidad**.

Cuyo espacio muestral queda definido como:
$$
S = \{(ALAV, Obeso), (ALAV, NoObeso), ..., (BCN, Obeso), (BCN, NoObeso), ..., (ZAR, Obeso), (ZAR, NoObeso)\}
$$

### Apartado 1

Para determinar la probabilidad de padecer obesidad en España necesitamos estudiar el conjunto de eventos que verifican el suceso **Obeso**.

$$
\begin{align*}
    \epsilon_{1} &= \{ALAV, Obeso\}\\
    ...\\
    \epsilon_{1} &= \{BCN, Obeso\}\\
    ...\\
    \epsilon_{i} &= \{PROV_{i}, Obeso\}\\
    ...\\
    \epsilon_{n} &= \{ZAR, Obeso\}
\end{align*}
$$

Por teorema de probabilidad total tenemos que:

$$
\begin{align*}
P(Obeso) &= P(\epsilon_{1}) + ... + P(\epsilon_{i}) + ... + P(\epsilon_{n})\\
P(Obeso) &= P(ALAV \cap Obeso) + ... + P(PROV_{i} \cap Obeso) + ... + P(ZAR \cap Obeso) 
\end{align*}
$$

donde $P(\epsilon_{i})$ es la probabilidad de vivir en la $PROV_{i}$ y padecer Obesidad


Podemos conocer la probabilidad del suceso, sabiendo que nuestro espacio muestral es finito y basandonos en la noción básica de probabilidad, la cual dice
que la probabilidad de un suceso es igual a la cantidad total de casos faborables sobre el total de casos posibles.
$$
    P(A) = \frac{Total\ favorables}{Total\ posibles}
$$    

Reemplazando para nuestro experimento:

$$
\begin{align*}
    P(Obeso) &= \frac{Total\ obesos\ ALAV} {Total\ habitantes\ en\ España} + ... + \frac{Total\ obesos\ PROV_{i}} {Total\ habitantes\ en\ España}  + ... + \frac{Total\ obesos\ ZAR} {Total\ habitantes\ en\ España}\\
\end{align*}
$$

Quedando:

$$
P(Obeso) = \frac{Total\ obesos}{Total\ habitantes\ en\ España}
$$

Ambos datos que podemos obtener a partir del dataset analizado. Considerando que hay registro de las 50 Provincias Españolas.

Encontremos la cantidad de casos que se verifica el suceso **Obesidad** y el total de habitantes sobre los que se practicó el experimento:

In [8]:
# calculamos el total de casos positivos
total_obesos = df_aux['Total Obesos'].sum()

# calculamos el total de experimentos
total_hab = df_aux['Total Habitantes'].sum()

print(f'Total Obesos en España: {total_obesos}')
print(f'Total Habitatntes en España: {total_hab}')

Total Obesos en España: 9156732
Total Habitatntes en España: 47942464


Obtenemos una frecuencia relativa igual a:

$$
P(Obeso) = \frac{9156732} {47942464}
$$

In [9]:
frec_rel = total_obesos/total_hab

print(f'Frecuencia relativa de Obeso: {frec_rel}')

Frecuencia relativa de Obeso: 0.19099418836712273


Por lo tanto la probabilidad de **Padecer Obesidad en España** es del **0.1909**.

[ANALIZAR RESULTADOS]

### Apartado 2

Dados los sucesos:
- Ser obeso (Obeso)
- Residir en Barcelona (BCN)

Para encontrar la probabilidad de que un individuo **Resida en Barcelona** si se sabe que es **Obeso** vamos a utilizar la probabilidad condicional, de tal manera que 

$$
P(BCN|_{Obeso}) = \frac{P(BCN \cap Obeso)}{P(Obeso)} = \frac{P(BCN \cap Obeso)}{P(Obeso)}
$$

Para obtener la probabilidad de que un individuo sea Obeso y viva en Barcelona, $P(BCN \cap Obeso)$, haremos:

$$
P(BCN \cap Obesidad)= \frac{Total\ obesos en BCN}{Total habitantes en España}
$$

Y siendo

$$
P(Obeso) = \frac{Total\ obesos}{Total\ habitantes\ en\ España}
$$

Nos queda

$$
P(BCN|_{Obeso}) = \frac{P(BCN \cap Obeso)}{P(Obeso)} = \frac{Total\ obesos\ en\ BCN}{Total\ obesos}
$$

In [10]:
## obtenemos el total de obesos en BCN
bcn_obeso = df_aux[df_aux['Provincia'] == 'Barcelona']['Total Obesos']
bcn_obeso

8    712897
Name: Total Obesos, dtype: int64

$$
P(BCN|_{Obeso}) = \frac{712897}{9156732}
$$

In [11]:
# obtenemos la probabilidad condicional de que el individuo resida en BCN dado que es Obeso
cond_bcn_obeso = bcn_obeso / total_obesos
cond_bcn_obeso

8    0.077855
Name: Total Obesos, dtype: float64

La probabilidad de que se cumpla la condición **Residir en Barceolna** habiendo seleccionado azarozamente un individuo calificado como **Obeso** es del **0.0778**.

Para extender el análisis para el resto de provincias agregaremos a nuestro Dataframe la variable *Provincia|Obeso* la cual indica la probabilidad de ser de la provicia siendo que se sabe se ha seleccionado aleatoriamente un individuo con **Obesidad**.

In [19]:
# expandimos el análisis a todas las provincias
df_aux['Provincia|Obeso'] = df_aux['Total Obesos']/total_obesos

In [20]:
# vemos los resultados
df_aux.head(50)

Unnamed: 0,Fecha,Provincia,Total Obesos,Total Habitantes,Provincia|Obeso
0,2023-01-01,Alava,42345,323897,0.004624
1,2023-01-01,Albacete,146234,398567,0.01597
2,2023-01-01,Alicante,368423,1949789,0.040235
3,2023-01-01,Almería,240567,702345,0.026272
4,2023-01-01,Asturias,278234,1019897,0.030386
5,2023-01-01,Ávila,48345,162567,0.00528
6,2023-01-01,Badajoz,201234,677897,0.021977
7,2023-01-01,Baleares,322567,1115234,0.035227
8,2023-01-01,Barcelona,712897,5539567,0.077855
9,2023-01-01,Bizkaia,238345,1154789,0.026029


Para obtener la probabilidad del suceso "residir de una provincia distinta a Barcelona, sabiendo que se eligió aleatoriamente a un individuo padece obesidad":
$$
P(Resto\ provincias|Obeso) = P(ALAV | Obeso) + ... + P(BALE | Obeso) + P(BIZ | Obeso) + ... +  P(ZAR | Obeso) 
$$

In [23]:
cond_rest_obeso = df_aux[df_aux['Provincia'] != "Barcelona"]['Provincia|Obeso'].sum()
cond_rest_obeso

0.92214504039214

[ANALIZAR RESULTADOS]

### Apartado 3

Para visualizar el arbol de decision haremos uso de la probabilidad del complemento, de manera que:
$$
P(Obeso) + P(NoObeso) = 1
$$

Por lo que:
$$
P(NoObeso) = 1 - P(Obeso)
$$

Ahora para encontrar la probabilidad del suceso "residir a la provincia $X$, sabiendo que se ha seleccionado al azar un individuo que **no padece Obesidad**":

In [28]:
total_no_obesos = df_aux['Total Habitantes'].sum() - df_aux['Total Obesos'].sum()
df_aux['Provincia|NoObeso'] = (df_aux['Total Habitantes'] - df_aux['Total Obesos'])/total_no_obesos
df_aux


Unnamed: 0,Fecha,Provincia,Total Obesos,Total Habitantes,Provincia|Obeso,Provincia|NoObeso
0,2023-01-01,Alava,42345,323897,0.004624,0.007259
1,2023-01-01,Albacete,146234,398567,0.01597,0.006506
2,2023-01-01,Alicante,368423,1949789,0.040235,0.040772
3,2023-01-01,Almería,240567,702345,0.026272,0.011906
4,2023-01-01,Asturias,278234,1019897,0.030386,0.019122
5,2023-01-01,Ávila,48345,162567,0.00528,0.002945
6,2023-01-01,Badajoz,201234,677897,0.021977,0.01229
7,2023-01-01,Baleares,322567,1115234,0.035227,0.020437
8,2023-01-01,Barcelona,712897,5539567,0.077855,0.124444
9,2023-01-01,Bizkaia,238345,1154789,0.026029,0.023628


Seleccionar una persona al azar\
    ├── Es obesa: $P(Obesa) = 0.1909$\
    │   ├── Reside en Alava: $P(ALAV|Obesa) = 0.0046$\
    │   ├── ...\
    │   ├── Reside en Barcelona: $P(BCN|Obesa) = 0.0778$\
    │   ├── ...\
    │   └── Reside en Zaragoza: = $P(ZAR|Obesa) = 0.0201$\
    └── No es obesa: $P(NoObesa) = 0.8091$\
    │   ├── Reside en Alava: $P(ALAV|NoObesao) = 0.0072$\
    │   ├── ...\
    │   ├── Reside en Barcelona: $P(BCN|NoObesao) = 0.1244$\
    │   ├── ...\
    │   └── Reside en Zaragoza: = $P(ZAR|NoObesao) = 0.0203$
