# Obtener los datos del Parkinson

**APIS**

In [7]:
import pandas as pd
import requests

# URLs de la API
DATA_URL = "https://api.ourworldindata.org/v1/indicators/916408.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/916408.metadata.json"


**CARGA DE DATOS**

In [8]:
def cargar_datos():
   
    datos = requests.get(DATA_URL).json()  # Datos de casos de Parkinson
    metadata = requests.get(METADATA_URL).json()  # Información adicional (años y países)
    return datos, metadata


**PROCESAR DATOS**

In [9]:
def procesar_datos(datos, metadata):
    """Extrae la lista de valores, años disponibles y países desde los datos JSON."""
    
    # Extraer la lista de valores numéricos (casos de Parkinson)
    valores = datos["values"]
    
    # Extraer la lista de años disponibles
    años = []
    for item in metadata["dimensions"]["years"]["values"]:
        años.append(item["id"])
    
    # Extraer los países y sus nombres en un diccionario
    paises = {}
    for item in metadata["dimensions"]["entities"]["values"]:
        paises[item["id"]] = item["name"]
    
    return valores, años, paises


**CREAR EL DATAFRAME**

In [10]:
def crear_dataframe(valores, años, paises):
    
    num_años = len(años)
    num_valores = len(valores)

    if num_valores % num_años == 0:
        num_paises = num_valores // num_años
        

        # Tabla con datos
        datos_lista = []
        for i in range(num_valores):
            año = años[i % num_años]  # Seleccionar el año
            id_pais = list(paises.keys())[i // num_años]  # Seleccionar el país 
            nombre_pais = paises[id_pais]  #  nombre del país

            # Crear un diccionario con los datos y añadir a la lista
            fila = {"Año": año, "País": nombre_pais, "Parkinson": valores[i]}
            datos_lista.append(fila)

        # Convertir la lista de datos en un DataFrame
        df = pd.DataFrame(datos_lista)

    else:
       
        # Crear un DataFrame con los datos disponibles
        df = pd.DataFrame({"Año": años[:num_valores], "Casos": valores[:num_valores]})
        df["País"] = "Mundo"

    return df

In [11]:
datos, metadata = cargar_datos()  
valores, años, paises = procesar_datos(datos, metadata) 
df_parkinson = crear_dataframe(valores, años, paises) 

# Mostrar los resultados en un display
display(df_parkinson)

Unnamed: 0,Año,País,Parkinson
0,1990,Cambodia,21.533830
1,1991,Cambodia,21.483840
2,1992,Cambodia,21.502138
3,1993,Cambodia,21.607151
4,1994,Cambodia,21.767658
...,...,...,...
7291,2017,South America,101.905710
7292,2018,South America,105.467110
7293,2019,South America,108.644905
7294,2020,South America,110.542580


In [12]:
parkinson_final = df_parkinson.dropna()
display(parkinson_final)

Unnamed: 0,Año,País,Parkinson
0,1990,Cambodia,21.533830
1,1991,Cambodia,21.483840
2,1992,Cambodia,21.502138
3,1993,Cambodia,21.607151
4,1994,Cambodia,21.767658
...,...,...,...
7291,2017,South America,101.905710
7292,2018,South America,105.467110
7293,2019,South America,108.644905
7294,2020,South America,110.542580


In [193]:
parkinson_final.to_csv('Parkinson.csv', index=False)

# Obtener los datos de tasa de contaminación de aire

**PROCESAR DATOS**

In [13]:
def procesar_datos(datos, metadata):
    # Extraer valores y años
    valores = datos['values']
    años = [item['id'] for item in metadata['dimensions']['years']['values']]

    # Extraer información de entidades
    entidades = metadata['dimensions']['entities']['values']
    nombres_entidades = [entidad['name'] for entidad in entidades]
    

    # Ajustar la longitud de los valores si no coincide con las entidades
    if len(valores) != len(nombres_entidades) * len(años):
        print("Las longitudes de los datos no coinciden. Verifica los datos.")
        return None

    # Crear listas para el DataFrame
    años_repetidos = años * len(nombres_entidades)
    entidades_repetidas = sum([[nombre] * len(años) for nombre in nombres_entidades], [])
    

    # Crear un diccionario con los datos procesados
    datos_procesados = {
        'Año': años_repetidos,
        'País': entidades_repetidas,
        'Tasa_contaminacion_Aire': valores
    }

    return datos_procesados

**CREAR DATAFRAME**

In [14]:
def crear_dataframe(datos_procesados):
    if datos_procesados:
        df = pd.DataFrame(datos_procesados)
        return df
    else:
        print("No se pudo crear el DataFrame. Los datos procesados son nulos.")
        return None

In [15]:
import pandas as pd
import requests
import json

# URLs de la API
DATA_URL = "https://api.ourworldindata.org/v1/indicators/939832.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/939832.metadata.json"

datos, metadata = cargar_datos()
datos_procesados = procesar_datos(datos, metadata)
df_aire = crear_dataframe(datos_procesados)
display(df_aire)

Unnamed: 0,Año,País,Tasa_contaminacion_Aire
0,1990,Afghanistan,9.830483
1,1991,Afghanistan,9.412167
2,1992,Afghanistan,8.970597
3,1993,Afghanistan,8.853374
4,1994,Afghanistan,9.138245
...,...,...,...
7099,2017,Zimbabwe,2.167512
7100,2018,Zimbabwe,2.128228
7101,2019,Zimbabwe,2.164050
7102,2020,Zimbabwe,2.195074


# Obtener los datos de la variable de calidad de agua (nitratos)

**PROCESAR DATOS**

In [16]:
def procesar_datos(data_response, metadata_response):
    
    # Lista de valores de concentración de nitratos
    valores = data_response["values"]
    
    # Lista de años disponibles
    años = []
    for item in metadata_response["dimensions"]["years"]["values"]:
        años.append(item["id"])
    
    # Diccionario de países con su código y nombre
    paises = {}
    for item in metadata_response["dimensions"]["entities"]["values"]:
        paises[item["id"]] = item["name"]
    
    return valores, años, paises

**CREAR DATAFRAME**

In [17]:
def crear_dataframe(valores, años, paises):
    
    datos_lista = []
    indice_valor = 0  

    for id_pais, nombre_pais in paises.items():  # Iterar sobre los países
        for año in años:  # Iterar sobre los años disponibles
            
            if indice_valor < len(valores):
                # Añadir el valor si hay datos disponibles
                fila = {
                    "Año": año,
                    "País": nombre_pais,                    
                    "Nitratos": valores[indice_valor]
                }
                indice_valor += 1  
            
            else:
                # Si no hay más valores, completar con None 
                fila = {
                    "Año": año,
                    "País": nombre_pais,                    
                    "Nitratos": None
                }
            
            datos_lista.append(fila)  # Añadir la fila a la lista de datos
    
    # Convertir la lista en un DataFrame 
    df = pd.DataFrame(datos_lista)
    
    return df

In [18]:
import pandas as pd
import requests
DATA_URL = "https://api.ourworldindata.org/v1/indicators/820661.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/820661.metadata.json"
datos, metadata = cargar_datos()  
valores, años, paises = procesar_datos(datos, metadata) 
df_nitratos = crear_dataframe(valores, años, paises) 

# Mostrar los resultados en un display
display(df_nitratos)

Unnamed: 0,Año,País,Nitratos
0,1992,Austria,27.586168
1,1993,Austria,26.506536
2,1994,Austria,26.761826
3,1995,Austria,29.362993
4,1996,Austria,30.037287
...,...,...,...
1105,2017,Turkey,
1106,2018,Turkey,
1107,2019,Turkey,
1108,2020,Turkey,


# Obtener los datos de la variable de exposición al plomo

**PRCESAR DATOS**

In [19]:
def procesar_metadata(metadata_response, data_response):
    # Crear un diccionario vacío 
    entities_map = {}
    
    # Iterar sobre las entidades en metadata 
    for e in metadata_response["dimensions"]["entities"]["values"]:
        entity_id = e["id"]
        entity_name = e["name"]
        entities_map[entity_id] = entity_name

    # Verificar que las listas de 'values', 'years' y 'entities' tengan la misma longitud
    if not (len(data_response["values"]) == len(data_response["years"]) == len(data_response["entities"])):
        print("Las listas 'values', 'years' y 'entities' tienen diferentes longitudes.")
    
    return entities_map

**CREAR DATAFRAME**

In [20]:
def crear_dataframe(data_response, entities_map):
    # Crear una lista vacía para almacenar las filas de datos
    data_list = []
    
    # Iterar sobre los valores de 'values', 'years' y 'entities' para construir el DataFrame
    for i in range(len(data_response["values"])):
        value = data_response["values"][i]
        year_id = data_response["years"][i]
        entity_id = data_response["entities"][i]
        
        # Obtener el nombre de la entidad
        entity_name = entities_map.get(entity_id, "Unknown")
        
        # Añadir los datos a la lista
        data_list.append({"Año": year_id,"País": entity_name, "Exp_Plomo": value})

    # Convertir la lista a un DataFrame
    df = pd.DataFrame(data_list)
    
    return df

In [21]:
import pandas as pd
import requests
DATA_URL = "https://api.ourworldindata.org/v1/indicators/941463.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/941463.metadata.json"
data_response, metadata_response = cargar_datos()  
entities_map = procesar_metadata(metadata_response, data_response)  
df_plomo = crear_dataframe(data_response, entities_map)  

# Mostrar las filas del DataFrame
display(df_plomo)

Unnamed: 0,Año,País,Exp_Plomo
0,1990,Afghanistan,2765.59400
1,1991,Afghanistan,2773.61840
2,1992,Afghanistan,2782.52610
3,1993,Afghanistan,2818.00600
4,1994,Afghanistan,2869.15920
...,...,...,...
7099,2017,Zimbabwe,759.63760
7100,2018,Zimbabwe,755.67847
7101,2019,Zimbabwe,749.21820
7102,2020,Zimbabwe,739.96454


# Obtener los datos de uso de pepticidas

**PROCESAR DATOS**

In [22]:
def procesar_datos(data_response, metadata_response):
    
    # Lista de valores de pesticidas
    valores = data_response["values"]
    
    # Lista de años disponibles
    años = []
    for item in metadata_response["dimensions"]["years"]["values"]:
        años.append(item["id"])
    
    # Diccionario de países con su código y nombre
    paises = {}
    for item in metadata_response["dimensions"]["entities"]["values"]:
        paises[item["id"]] = item["name"]
    
    return valores, años, paises

**CREAR DATAFRAME**

In [23]:
def crear_dataframe(valores, años, paises):
    """Crea un DataFrame a partir de los datos procesados."""
    
    datos_lista = []
    indice_valor = 0  

    for id_pais, nombre_pais in paises.items():  # Iterar sobre los países
        for año in años:  # Iterar sobre los años disponibles
            
            if indice_valor < len(valores):
                # Añadir el valor si hay datos disponibles
                fila = {
                    "Año": año,
                    "País": nombre_pais,
                    "Pesticidas": valores[indice_valor]
                }
                indice_valor += 1  
            
            else:
                # Si no hay más valores, completar con None 
                fila = {
                    "Año": año,
                    "País": nombre_pais,
                    "Pesticidas": None
                }
            
            datos_lista.append(fila)  # Añadir la fila a la lista de datos
    
    # Convertir la lista en un DataFrame
    df = pd.DataFrame(datos_lista)
    
    return df

In [24]:
import pandas as pd
import requests
DATA_URL = "https://api.ourworldindata.org/v1/indicators/832404.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/832404.metadata.json"
datos, metadata = cargar_datos()  
valores, años, paises = procesar_datos(datos, metadata) 
df_pepticidas = crear_dataframe(valores, años, paises) 


# Mostrar las filas del DataFrame
display(df_pepticidas)

Unnamed: 0,Año,País,Pesticidas
0,1990,Africa (FAO),73958.66
1,1991,Africa (FAO),69956.26
2,1992,Africa (FAO),60260.71
3,1993,Africa (FAO),54301.62
4,1994,Africa (FAO),58819.04
...,...,...,...
8027,2017,Zimbabwe,
8028,2018,Zimbabwe,
8029,2019,Zimbabwe,
8030,2020,Zimbabwe,


# OBTENCIÓN DE DATOS VARIABLE NO RELACIONADA (precipitaciones)

**PROCESAR DATOS**

In [25]:
def procesar_datos(data_json, metadata_json):
    # Extraer lista de años
    years = [y["id"] for y in metadata_json["dimensions"]["years"]["values"]]
    
    # Extraer lista de países 
    countries = {c["id"]: c["name"] for c in metadata_json["dimensions"]["entities"]["values"]}
    
    # Verificar si el número de valores coincide con países * años
    num_countries = len(countries)
    num_years = len(years)
    num_values = len(data_json["values"])

    if num_countries * num_years != num_values:
        raise ValueError(f"Error: Se esperaban {num_countries * num_years} valores, pero se encontraron {num_values}")

    # Reestructurar los datos en formato (país, año, valor)
    datos_procesados = []
    index = 0
    for country_id, country_name in countries.items():
        for year in years:
            datos_procesados.append({"País": country_name, "Año": year, "Precipitación (mm)": data_json["values"][index]})
            index += 1

    return datos_procesados


**CREAR DATAFRAME**

In [26]:
def crear_dataframe(datos_procesados):
    df = pd.DataFrame(datos_procesados)
    return df


In [27]:
import pandas as pd
import requests
DATA_URL = "https://api.ourworldindata.org/v1/indicators/1005182.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/1005182.metadata.json"


# Uso de las funciones:
# 1. Cargar los datos
datos, metadata = cargar_datos()

# 2. Procesar los datos
datos_procesados = procesar_datos(datos, metadata)

# 3. Crear el DataFrame
df_precipitaciones = crear_dataframe(datos_procesados)

# Mostrar las primeras filas del DataFrame
display(df_precipitaciones)



Unnamed: 0,País,Año,Precipitación (mm)
0,Afghanistan,1940,217.678160
1,Afghanistan,1941,1388.520100
2,Afghanistan,1942,45.775917
3,Afghanistan,1943,2582.801800
4,Afghanistan,1944,899.675350
...,...,...,...
16570,Eswatini,2020,1073.184600
16571,Eswatini,2021,147.840290
16572,Eswatini,2022,795.214360
16573,Eswatini,2023,421.734000


# UNION DE DATOS

## Teniendo en cuenta todos los datos de todos los DF

In [209]:
df_merged_outer = df_parkinson.merge(df_nitratos, on=['Año', 'País'], how='outer')\
                        .merge(df_plomo, on=['Año', 'País'], how='outer')


In [210]:
display(df_merged_outer)

Unnamed: 0,Año,País,Parkinson,Nitratos,Exp_Plomo
0,1990,Cambodia,21.533830,,799.84644
1,1991,Cambodia,21.483840,,798.64690
2,1992,Cambodia,21.502138,,799.89874
3,1993,Cambodia,21.607151,,804.59204
4,1994,Cambodia,21.767658,,812.10320
...,...,...,...,...,...
7381,2017,Liechtenstein,,15.146489,
7382,2018,Liechtenstein,,15.881583,
7383,2019,Liechtenstein,,15.655723,
7384,2020,Liechtenstein,,20.443571,


## Teniendo en cuenta todos los datos de todos los DF 

In [30]:
df_merged_outer = df_parkinson.merge(df_nitratos, on=['Año', 'País'], how='outer')\
                        .merge(df_plomo, on=['Año', 'País'], how='outer')\
                        .merge(df_pepticidas, on=['Año', 'País'], how='outer')\
                        .merge(df_aire, on=['Año', 'País'], how='outer')\
                        .merge(df_precipitaciones, on=['Año', 'País'], how='outer')

In [31]:
display(df_merged_outer)

Unnamed: 0,Año,País,Parkinson,Nitratos,Exp_Plomo,Pesticidas,Tasa_contaminacion_Aire,Precipitación (mm)
0,1990,Cambodia,21.533830,,799.84644,258.02,0.770228,1951.19900
1,1991,Cambodia,21.483840,,798.64690,653.00,0.867021,904.05820
2,1992,Cambodia,21.502138,,799.89874,545.00,0.876114,1474.90120
3,1993,Cambodia,21.607151,,804.59204,687.00,0.992484,640.35815
4,1994,Cambodia,21.767658,,812.10320,2196.54,0.902714,977.33185
...,...,...,...,...,...,...,...,...
19734,1988,Eswatini,,,,,,402.73434
19735,1989,Eswatini,,,,,,1735.61340
19736,2022,Eswatini,,,,,,795.21436
19737,2023,Eswatini,,,,,,421.73400


## Teniendo en cuenta los datos comunes de todos los DF (no estan todos)

In [213]:
df_merged_inner = df_parkinson.merge(df_nitratos, on=['Año', 'País'], how='inner')\
                              .merge(df_plomo, on=['Año', 'País'], how='inner')

In [214]:
display(df_merged_inner)

Unnamed: 0,Año,País,Parkinson,Nitratos,Exp_Plomo
0,1992,Czechia,115.57936,8.090960,262.31787
1,1993,Czechia,117.58800,7.254836,253.40916
2,1994,Czechia,119.72034,8.145075,251.62610
3,1995,Czechia,122.08167,7.585634,249.17851
4,1996,Czechia,124.39523,7.122982,238.00769
...,...,...,...,...,...
1015,2017,Turkey,93.22251,,326.82510
1016,2018,Turkey,96.95188,,310.28693
1017,2019,Turkey,100.30327,,306.72952
1018,2020,Turkey,99.63544,,304.11856


## Teniendo en cuenta los datos comunes de todos los DF

In [32]:
df_merged_inner_prueba = df_parkinson.merge(df_aire, on=['Año', 'País'], how='inner')\
                              .merge(df_plomo, on=['Año', 'País'], how='inner')\
                              .merge(df_pepticidas, on=['Año', 'País'], how='inner')\
                              .merge(df_nitratos, on=['Año','País'],how = 'inner')\
                              .merge(df_precipitaciones, on=['Año','País'],how = 'inner')

In [33]:
display(df_merged_inner_prueba)

Unnamed: 0,Año,País,Parkinson,Tasa_contaminacion_Aire,Exp_Plomo,Pesticidas,Nitratos,Precipitación (mm)
0,1992,Czechia,115.57936,1.455477,262.31787,1105.73,8.090960,1350.674700
1,1993,Czechia,117.58800,1.443997,253.40916,1105.73,7.254836,3387.695800
2,1994,Czechia,119.72034,1.298633,251.62610,1105.73,8.145075,50.897533
3,1995,Czechia,122.08167,1.113701,249.17851,1105.73,7.585634,545.179440
4,1996,Czechia,124.39523,0.912675,238.00769,1105.73,7.122982,759.902600
...,...,...,...,...,...,...,...,...
985,2017,Turkey,93.22251,5.153062,326.82510,84.03,,1199.511100
986,2018,Turkey,96.95188,4.861793,310.28693,88.60,,630.757450
987,2019,Turkey,100.30327,4.874065,306.72952,78.25,,1747.559900
988,2020,Turkey,99.63544,4.889884,304.11856,71.71,,3377.161100


In [34]:
df_merged_final =df_merged_inner_prueba.dropna()


display(df_merged_final)


Unnamed: 0,Año,País,Parkinson,Tasa_contaminacion_Aire,Exp_Plomo,Pesticidas,Nitratos,Precipitación (mm)
0,1992,Czechia,115.57936,1.455477,262.317870,1105.73,8.090960,1350.674700
1,1993,Czechia,117.58800,1.443997,253.409160,1105.73,7.254836,3387.695800
2,1994,Czechia,119.72034,1.298633,251.626100,1105.73,8.145075,50.897533
3,1995,Czechia,122.08167,1.113701,249.178510,1105.73,7.585634,545.179440
4,1996,Czechia,124.39523,0.912675,238.007690,1105.73,7.122982,759.902600
...,...,...,...,...,...,...,...,...
775,2017,Iceland,273.64038,0.527082,75.714800,828.62,4.273996,2252.927000
776,2018,Iceland,278.41790,0.755430,72.021164,873.01,4.726720,2607.986800
777,2019,Iceland,283.65630,0.699459,69.151436,824.14,4.639593,684.304900
778,2020,Iceland,286.52228,0.635466,64.987210,1062.61,5.769000,685.502440


In [218]:
df_merged_final.to_csv('tabla_final.csv', index=False)
