# RELACIÓN ENTRE ALGUNAS VARIABLES SOCIODEMOGRÁFICAS CON LA RESISTENCIA A LA INSULINA DE LA POBLACIÓN ESPAÑOLA.


# DESARROLLO DEL PROYECTO.

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)


import numpy as np

import warnings
warnings.filterwarnings('ignore')


import pylab as plt  # import matplotlib.pyplot as plt
import seaborn as sns


# 1. Introducción.

La Resistencia a la Insulina (RI) es un problema de salud de creciente importancia en la sociedad actual. Su impacto se hace evidente en la salud y el bienestar de las personas, ya que está estrechamente relacionado con enfermedades crónicas, como la diabetes tipo 2, que afecta a un número significativo de individuos en todo el mundo. El estudio de la RI y sus factores desencadenantes se ha vuelto esencial, ya que puede desempeñar un papel crucial tanto en la prevención como en el tratamiento de estas enfermedades.

Entre los factores de riesgo que destacan en la aparición de la Resistencia a la Insulina se encuentran la obesidad, el sedentarismo, la falta de sueño, antecedentes familiares de diabetes tipo 2, el síndrome de ovario poliquístico y la edad, especialmente a partir de los 45 años. Estos factores representan desafíos significativos para la salud pública, lo que resalta la importancia de investigar y comprender más a fondo la RI. En este contexto, este estudio busca arrojar luz sobre estos aspectos y sus implicaciones en la salud de la población.

# 2. Hipótesis inicial.

Como hipótesis inicial del estudio, planteo que: 
     
"La Resistencia a la Insulina (RI) está asociada con diversas variables sociodemográficas, como la edad, el sexo, la clase social y el nivel de educación. Además, que existe una correlación significativa entre la RI y ciertos hábitos de salud, incluyendo la práctica de ejercicio físico, la adhesión a una dieta mediterránea y el tabaquismo. Y por último, que también se relaciona con el sobrepeso y la obesidad".

# 3. Materiales y métodos.

In [2]:
df_clean_original = pd.read_csv('/Users/karmelealonsoaia/Desktop/ironhack_labs/PROYECTOS/3.-project_etl/data/data_clean/df_clean.csv')

df_clean = df_clean_original.copy()

In [3]:
df_clean.head()

Unnamed: 0,sexo,edad,estudios,clase_social,ejercicio,dieta_mediterranea,consumo_tabaco,altura,peso,imc,colesterol,ct,glucemia,gluc
0,mujer,57,secundarios,III,si,no,no,166.0,62.0,22.5,185,normal,84,normal
1,hombre,28,primarios,III,si,si,no,181.5,82.0,24.9,197,normal,62,normal
2,hombre,25,universitarios,I,no,no,no,177.0,69.0,22.0,229,limitrofe,83,normal
3,hombre,50,secundarios,III,no,no,si,171.0,86.0,29.4,272,alto,110,prediabetes
4,mujer,33,secundarios,II,si,no,no,154.0,45.0,19.0,191,normal,81,normal


El primero de los DataFrames utilizados consiste en un archivo CSV que contiene un Estudio realizado a 258931 trabajadores (103427 mujeres y 155504 hombres), de distintas regiones de nuestro país (Baleares, Andalucía, Canarias, Comunidad Valenciana, Cataluña, Madrid, Castilla La Mancha, Castilla León, País Vasco)
y pertenecientes a sectores laborales muy diversos entre los que podemos destacar hostelería, construcción, comercio, sanidad, administración pública, transporte, educación, industria y limpieza. 

· El estudio se llevó a cabo en el periodo comprendido entre los meses de enero de 2004 y junio de 2006. 

· Los datos clínicos y personales de los trabajadores se obtuvieron de la base de datos anonimizada de trabajadores que está disponible en el repositorio de la escuela universitaria ADEMA-UIB (Universidad de las Islas Baleares).

· Todos los parámetros se expresan en miligramos/decilitros.

· Se considera a una persona fumadora si había consumido al menos un cigarrillo diariamente (o su equivalente en otras modalidades de consumo) en los últimos treinta días, o si había dejado el consumo hace menos de 12 meses.

· La clase social se clasificó en tres categorías partiendo de los datos de la Clasificación Nacional de Ocupaciones 2011 (CNO-11) y aplicando los criterios establecidos por la Sociedad Española de Epidemiología: Clase I. Personal directivo, profesionales universitarios, deportistas y artistas. Clase II. Trabajadores con cualificación en ocupaciones intermedias y autónomos. Clase III. Trabajadores no cualificados.

En el otro cuaderno de Jupyter, que se encuentra en la misma carpeta llamada "notebook" que este, he realizado la limpieza de los datos. Durante este proceso, eliminé numerosas columnas y filas por diversas razones. Algunas de estas se llevaron a cabo porque se consideró que no eran relevantes para el estudio posterior. En otros casos, desconocía el significado de los valores en esas columnas, lo que justificó su eliminación.

Además, eliminé aquellas columnas que eran agrupaciones de otras columnas, lo cual habría generado duplicados innecesarios en esta etapa inicial de la investigación y no habría aportado información adicional valiosa. Estas agrupaciones deberán realizarse en el momento del estudio per se, según el enfoque que se quiera realizar.

Esta labor de limpieza de datos permitirá trabajar en una estapa posterior con un conjunto más refinado de datos, lo cual ayudará en el propósito.

In [4]:
df2_clean_original = pd.read_csv('/Users/karmelealonsoaia/Desktop/ironhack_labs/PROYECTOS/3.-project_etl/data/data_clean/df2_clean.csv')
df2_clean = df2_clean_original.copy()

In [5]:
df2_clean.head()

Unnamed: 0,edad,sexo,año,total
0,21,hombre,2006,248.031
1,21,hombre,2005,256.159
2,21,hombre,2004,270.677
3,21,mujer,2006,235.545
4,21,mujer,2005,243.919


El segundo DataFrame se originó a partir de un archivo CSV descargado del INE. Contiene información acerca de la población total española, diferenciando por edades y sexo.

Si se desea consultar las columnas originales, están contenidas en el otro cuaderno de Jupyter de esta misma carpeta. 

Así, se ha simplificado y ajustado esta tabla para que tenga las mismas categorías de rango de edad y años que la anterior. Esto es esencial para que el estudio tenga coherencia y sea relevante.

El objetivo final que se pretende con esta tabla, en la que contamos con la información sobre la población total en España, es el de, combinándo los valores de esta tabla con los de la tabla anterior y posterior, poder estimar el número real de personas afectadas en España, y no tan solo un porcentaje, del cual no obtenemos un numero concreto. Es decir, tras obtener un resultado porcentual, ajustarlo al número concreto que equivaldría con respecto a la población total española.

In [6]:
df3_clean_original = pd.read_csv('/Users/karmelealonsoaia/Desktop/ironhack_labs/PROYECTOS/3.-project_etl/data/data_clean/df3_clean.csv')
df3_clean = df3_clean_original.copy()

In [7]:
df3_clean.head()

Unnamed: 0,edad,total,mujeres,hombres
0,< 31,"26,3%","21,2%","33,3%"
1,31- 42,"26,5%","19,3%","36,5%"
2,43-54,"38,1%","31,3%","46,3%"
3,55-65,"52,0%","53,0%","50,8%"
4,65 +,"49,1%","51,9%","44,1%"


In [8]:
df4_clean_original = pd.read_csv('/Users/karmelealonsoaia/Desktop/ironhack_labs/PROYECTOS/3.-project_etl/data/data_clean/df4_clean.csv')
df4_clean = df4_clean_original.copy()

In [9]:
df4_clean.head()

Unnamed: 0,indicadores,RI,no_RI,p
0,peso,80.1,62.3,"< 0,001"
1,IMC,30.5,26.2,"< 0,001"
2,edad,55.6,49.3,"< 0,001"
3,colesterol_HDL,56.4,65.4,"< 0,001"
4,colesterol_no_HDL,126.6,112.6,"< 0,001"


In [10]:
df5_clean_original = pd.read_csv('/Users/karmelealonsoaia/Desktop/ironhack_labs/PROYECTOS/3.-project_etl/data/data_clean/df5_clean.csv')
df5_clean = df5_clean_original.copy()

In [11]:
df5_clean.head()

Unnamed: 0.1,Unnamed: 0,coeficiente_correlación,p
0,Peso,0.421,"<0,001"
1,IMC,0.447,"<0,001"


Los DataFrames 3, 4 y 5 han sido obtenidos a través del scrapeo, por Beautiful Soup, de un artículo publicado por "elsevier" una página web enfocada en "Endocrinología y nutrición". Así, las tres tablas, aunque con un denominador común, a saber: el estudio de la resistencia a la insulina en la población española, tienen un contenido diferente. 

· La primera de las tres tablas tiene tiene información acerca de la prevalencia de RI por grupos de edad y sexo.
Por grupos de edad, puede observarse que la prevalencia aumenta con la edad, con un descenso a partir de los 65 años como se puede observar en la tabla 3. Sin embargo, no hay diferencia estadísticamente significativa en los hombres.

· La segunda de ellas es una comparación de los valores medios de las diferentes variables analizadas entre aquellos individuos que presentan resistencia a la insulina (RI) y los que no.
Puede observarse que los valores medios de las medidas antropométricas son mayores en el grupo de RI.

· La tercera contiene el coeficiente de correlación entre RI y algunas medidas las medidas antropométricas.

En estas tres tablas también se ha realizado una limpieza y trasnformación previa, disponible en el otro documento Jupyter.

# 4. Vinculación de los 3 primeros DataFrames a través de una columna común.

Para ir concluyendo con el proyecto, he optado por crear una columna adicional que vincule las tres primeras columnas a través de la edad, actuando como un punto de conexión común. Sin embargo, no eliminaré la columna "edad" de los dos primeros DataFrames, ya que en ellas se proporciona información más detallada en comparación con la columna "rango_edad".

Por otro lado, las dos últimas columnas ya están relacionadas con la tercera y contienen un tipo diferente de información. Estas se tratarán por separado en el análisis.

In [12]:
bins = [20, 30, 42, 54, 65, 75] # Defino los límites de los rangos de edades.

labels = ["< 31", "31-42", "43-54", "55-65", "65 +"] # Defino las etiquetas para los rangos. 

df_clean["rango_edad"] = pd.cut(df_clean["edad"], bins=bins, labels=labels, right=False) # Crea una nueva columna denominada 'rango_edad'.

In [13]:
df_clean.head()

Unnamed: 0,sexo,edad,estudios,clase_social,ejercicio,dieta_mediterranea,consumo_tabaco,altura,peso,imc,colesterol,ct,glucemia,gluc,rango_edad
0,mujer,57,secundarios,III,si,no,no,166.0,62.0,22.5,185,normal,84,normal,55-65
1,hombre,28,primarios,III,si,si,no,181.5,82.0,24.9,197,normal,62,normal,< 31
2,hombre,25,universitarios,I,no,no,no,177.0,69.0,22.0,229,limitrofe,83,normal,< 31
3,hombre,50,secundarios,III,no,no,si,171.0,86.0,29.4,272,alto,110,prediabetes,43-54
4,mujer,33,secundarios,II,si,no,no,154.0,45.0,19.0,191,normal,81,normal,31-42


In [14]:
bins = [20, 30, 42, 54, 65, 75]

labels = ["< 31", "31-42", "43-54", "55-65", "65 +"]

df2_clean["rango_edad"] = pd.cut(df2_clean["edad"], bins=bins, labels=labels, right=False)

In [15]:
df2_clean.head()

Unnamed: 0,edad,sexo,año,total,rango_edad
0,21,hombre,2006,248.031,< 31
1,21,hombre,2005,256.159,< 31
2,21,hombre,2004,270.677,< 31
3,21,mujer,2006,235.545,< 31
4,21,mujer,2005,243.919,< 31


En el Dataframe 3, como ya tiene una columna que contiene los mismos valores que las que estoy creando en el resto de Dataframes como nexo común, decido cambiarle el nombre con el fin de que coincida con el nombre del resto de ellas.

In [16]:
df3_clean = df3_clean.rename(columns={"edad": "rango_edad"})

In [17]:
df3_clean

Unnamed: 0,rango_edad,total,mujeres,hombres
0,< 31,"26,3%","21,2%","33,3%"
1,31- 42,"26,5%","19,3%","36,5%"
2,43-54,"38,1%","31,3%","46,3%"
3,55-65,"52,0%","53,0%","50,8%"
4,65 +,"49,1%","51,9%","44,1%"
5,total,"39,8%","37,1%","43,6%"
6,p,"< 0,001","< 0,001",0427


# 5. Exportación y modificación de los nombres de los DataFrames.

In [18]:
df_clean.to_csv('df_estudio_poblacion_esp.csv', index=False)

In [19]:
df2_clean.to_csv('df_poblacion_esp_total.csv', index=False)

In [20]:
df3_clean.to_csv('df_prevalencia_RI.csv', index=False)

In [21]:
df4_clean.to_csv('df_comparacion_RI.csv', index=False)

In [22]:
df5_clean.to_csv('df_correlacion_RI.csv', index=False)