# PROCESAMIENTO DE DATOS

## Función general para la carga de los datos

In [27]:
def cargar_datos():
   
    datos = requests.get(DATA_URL).json()  # Datos de casos de Parkinson
    metadata = requests.get(METADATA_URL).json()  # Información adicional (años y países)
    return datos, metadata


## Función general para el procesamiento de los datos

In [28]:
def procesar_datos(data_response, metadata_response):
    # Extraer los valores numéricos (dependiendo de la estructura)
    if "values" in data_response:
        valores = data_response["values"]
    else:
        raise ValueError("No se encontró la clave 'values' en los datos")

    # Extraer la lista de años disponibles (independientemente de la estructura específica)
    if "dimensions" in metadata_response and "years" in metadata_response["dimensions"]:
        años = [item["id"] for item in metadata_response["dimensions"]["years"]["values"]]
    else:
        raise ValueError("No se encontró la clave 'years' en la metadata")

    # Extraer los países o entidades desde la metadata (independientemente de la estructura específica)
    if "dimensions" in metadata_response and "entities" in metadata_response["dimensions"]:
        paises = {item["id"]: item["name"] for item in metadata_response["dimensions"]["entities"]["values"]}
    else:
        raise ValueError("No se encontró la clave 'entities' en la metadata")
    
    return valores, años, paises

## Función general para la creación de DF

In [29]:
import pandas as pd

def crear_dataframe(valores, años, paises, nombre_columna):    
    # Crear la lista para almacenar las filas de datos
    datos_lista = []
    
    # Variable para iterar sobre los valores
    indice_valor = 0
    
    # Iterar sobre los países y años
    for id_pais, nombre_pais in paises.items():  # Iterar sobre los países
        for año in años:  # Iterar sobre los años disponibles
            if indice_valor < len(valores):
                print(f"Valor original antes de agregar (País: {nombre_pais}, Año: {año}): {valores[indice_valor]}")
                # Si hay un valor disponible, añadirlo a la fila
                fila = {
                    "Año": año,
                    "País": nombre_pais,
                    nombre_columna: valores[indice_valor]
                }
                indice_valor += 1
            else:
                # Si no hay más valores, completar con None
                fila = {
                    "Año": año,
                    "País": nombre_pais,
                    nombre_columna: None
                }
            datos_lista.append(fila)  # Añadir la fila a la lista
    
    # Convertir la lista a un DataFrame
    df = pd.DataFrame(datos_lista)
    
    return df

## Obtención de datos del Parkinson (varibale independiente)

In [21]:
import pandas as pd
import requests

# URLs de la API
DATA_URL = "https://api.ourworldindata.org/v1/indicators/916408.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/916408.metadata.json"
datos, metadata = cargar_datos()  
valores, años, paises = procesar_datos(datos, metadata) 
df_parkinson = crear_dataframe(valores, años, paises,"Parkinson") 

# Mostrar los resultados en un display
display(df_parkinson)

Unnamed: 0,Año,País,Parkinson
0,1990,Cambodia,21.533830
1,1991,Cambodia,21.483840
2,1992,Cambodia,21.502138
3,1993,Cambodia,21.607151
4,1994,Cambodia,21.767658
...,...,...,...
7291,2017,South America,101.905710
7292,2018,South America,105.467110
7293,2019,South America,108.644905
7294,2020,South America,110.542580


## Obtención de datos de la tasa contaminación del aire (varibale independiente)

In [26]:
import pandas as pd
import requests

# URLs de la API
DATA_URL = "https://api.ourworldindata.org/v1/indicators/939832.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/939832.metadata.json"
datos, metadata = cargar_datos()  
valores, años, paises = procesar_datos(datos, metadata) 
df_aire = crear_dataframe(valores, años, paises,"Contaminacion_aire") 

# Mostrar los resultados en un display
display(df_aire)

Unnamed: 0,Año,País,Contaminacion_aire
0,1990,Afghanistan,9.830483
1,1991,Afghanistan,9.412167
2,1992,Afghanistan,8.970597
3,1993,Afghanistan,8.853374
4,1994,Afghanistan,9.138245
...,...,...,...
7099,2017,Zimbabwe,2.167512
7100,2018,Zimbabwe,2.128228
7101,2019,Zimbabwe,2.164050
7102,2020,Zimbabwe,2.195074


## Obtención de datos de las muertes atribuidas a fuentes de agua inseguras, calidad de agua (varibale independiente)

In [14]:
import pandas as pd
import requests

DATA_URL = "https://api.ourworldindata.org/v1/indicators/936533.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/936533.metadata.json"
datos, metadata = cargar_datos()  
valores, años, paises = procesar_datos(datos, metadata) 
df_agua = crear_dataframe(valores, años, paises,"Muertes_agua") 

# Mostrar los resultados en un display
display(df_agua)

Unnamed: 0,Año,País,Muertes_agua
0,1990,Afghanistan,5876.4130
1,1991,Afghanistan,6145.5880
2,1992,Afghanistan,6818.0254
3,1993,Afghanistan,8395.5060
4,1994,Afghanistan,8754.6260
...,...,...,...
7291,2017,Zimbabwe,3928.3027
7292,2018,Zimbabwe,3940.3884
7293,2019,Zimbabwe,3856.9373
7294,2020,Zimbabwe,3784.6410


## Obtención de datos de la exposición al plomo (varibale independiente)

In [15]:
import pandas as pd
import requests

DATA_URL = "https://api.ourworldindata.org/v1/indicators/941463.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/941463.metadata.json"
datos, metadata = cargar_datos()  
valores, años, paises = procesar_datos(datos, metadata) 
df_plomo = crear_dataframe(valores, años, paises,"Exp_plomo") 

# Mostrar los resultados en un display
display(df_plomo)

Unnamed: 0,Año,País,Exp_plomo
0,1990,Afghanistan,2765.59400
1,1991,Afghanistan,2773.61840
2,1992,Afghanistan,2782.52610
3,1993,Afghanistan,2818.00600
4,1994,Afghanistan,2869.15920
...,...,...,...
7099,2017,Zimbabwe,759.63760
7100,2018,Zimbabwe,755.67847
7101,2019,Zimbabwe,749.21820
7102,2020,Zimbabwe,739.96454


## Obtención de datos del uso de pepticidas (varibale independiente)

In [30]:
import pandas as pd
import requests

DATA_URL = "https://api.ourworldindata.org/v1/indicators/1016584.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/1016584.metadata.json"
datos, metadata = cargar_datos()  
valores, años, paises = procesar_datos(datos, metadata) 
df_pepticidas = crear_dataframe(valores, años, paises,"Pepticidas") 

# Mostrar los resultados en un display
display(df_pepticidas)

Valor original antes de agregar (País: Africa (FAO), Año: 1990): 73504.69
Valor original antes de agregar (País: Africa (FAO), Año: 1991): 69490.83
Valor original antes de agregar (País: Africa (FAO), Año: 1992): 59769.13
Valor original antes de agregar (País: Africa (FAO), Año: 1993): 53768.65
Valor original antes de agregar (País: Africa (FAO), Año: 1994): 58312.42
Valor original antes de agregar (País: Africa (FAO), Año: 1995): 64426.54
Valor original antes de agregar (País: Africa (FAO), Año: 1996): 66678.48
Valor original antes de agregar (País: Africa (FAO), Año: 1997): 71455.93
Valor original antes de agregar (País: Africa (FAO), Año: 1998): 73631.57
Valor original antes de agregar (País: Africa (FAO), Año: 1999): 75315.72
Valor original antes de agregar (País: Africa (FAO), Año: 2000): 73352.77
Valor original antes de agregar (País: Africa (FAO), Año: 2001): 73533.03
Valor original antes de agregar (País: Africa (FAO), Año: 2002): 81030.17
Valor original antes de agregar (País:

Unnamed: 0,Año,País,Pepticidas
0,1990,Africa (FAO),73504.69
1,1991,Africa (FAO),69490.83
2,1992,Africa (FAO),59769.13
3,1993,Africa (FAO),53768.65
4,1994,Africa (FAO),58312.42
...,...,...,...
8245,2018,Zimbabwe,
8246,2019,Zimbabwe,
8247,2020,Zimbabwe,
8248,2021,Zimbabwe,


In [26]:
import pandas as pd

def crear_dataframe(valores, años, paises, nombre_columna):    
    # Crear la lista para almacenar las filas de datos
    datos_lista = []
    
    # Variable para iterar sobre los valores
    indice_valor = 0
    
    # Iterar sobre los países y años
    for id_pais, nombre_pais in paises.items():  # Iterar sobre los países
        for año in años:  # Iterar sobre los años disponibles
            if indice_valor < len(valores):
                # Si hay un valor disponible, añadirlo a la fila
                fila = {
                    "Año": año,
                    "País": nombre_pais,
                    nombre_columna: valores[indice_valor]
                }
                indice_valor += 1
            else:
                # Si no hay más valores, completar con None (esto representará un NaN)
                fila = {
                    "Año": año,
                    "País": nombre_pais,
                    nombre_columna: None
                }
            datos_lista.append(fila)  # Añadir la fila a la lista
    
    # Convertir la lista a un DataFrame
    df = pd.DataFrame(datos_lista)
    
    # Eliminar las filas que tienen valores NaN en la columna correspondiente
    df = df.dropna(subset=[nombre_columna])
    
    # Redondear los valores y convertir a enteros
    df[nombre_columna] = df[nombre_columna].round().astype(int)
    
    # Formatear la columna con punto como separador de miles
    df[nombre_columna] = df[nombre_columna].apply(lambda x: f"{x:,}".replace(',', '.'))
    
    return df

 




## Obtención de datos de la cantidad de precipitaciones (varibale independiente)

In [33]:
import pandas as pd
import requests

DATA_URL = "https://api.ourworldindata.org/v1/indicators/1005182.data.json"
METADATA_URL = "https://api.ourworldindata.org/v1/indicators/1005182.metadata.json"
datos, metadata = cargar_datos()  
valores, años, paises = procesar_datos(datos, metadata) 
df_precipitaciones = crear_dataframe(valores, años, paises,"Precipitaciones") 

# Mostrar los resultados en un display
display(df_precipitaciones)

Unnamed: 0,Año,País,Precipitaciones
0,1940,Afghanistan,217.678160
1,1941,Afghanistan,1388.520100
2,1942,Afghanistan,45.775917
3,1943,Afghanistan,2582.801800
4,1944,Afghanistan,899.675350
...,...,...,...
16570,2020,Eswatini,1073.184600
16571,2021,Eswatini,147.840290
16572,2022,Eswatini,795.214360
16573,2023,Eswatini,421.734000


# ELIMINAR NULOS Y GUARDARLO EN .CSV

In [31]:
import pandas as pd

def limpiar_y_guardar_csv(df, nombre_archivo):
    # Eliminar filas con valores nulos
    df_limpio = df.dropna()

    # Guardar en un archivo CSV
    df_limpio.to_csv(nombre_archivo, index=False, encoding="utf-8")

    print(f"Datos guardados en '{nombre_archivo}' sin valores nulos.")
    
    return df_limpio  

## Parkinson

In [32]:
limpiar_y_guardar_csv(df_parkinson,"Datos_Parkinson.csv")

Datos guardados en 'Datos_Parkinson.csv' sin valores nulos.


Unnamed: 0,Año,País,Parkinson
0,1990,Cambodia,21.533830
1,1991,Cambodia,21.483840
2,1992,Cambodia,21.502138
3,1993,Cambodia,21.607151
4,1994,Cambodia,21.767658
...,...,...,...
7291,2017,South America,101.905710
7292,2018,South America,105.467110
7293,2019,South America,108.644905
7294,2020,South America,110.542580


## Contaminación de aire

In [27]:
limpiar_y_guardar_csv(df_aire,"Datos_contaminación_aire.csv")

Datos guardados en 'Datos_contaminación_aire.csv' sin valores nulos.


Unnamed: 0,Año,País,Contaminacion_aire
0,1990,Afghanistan,9.830483
1,1991,Afghanistan,9.412167
2,1992,Afghanistan,8.970597
3,1993,Afghanistan,8.853374
4,1994,Afghanistan,9.138245
...,...,...,...
7099,2017,Zimbabwe,2.167512
7100,2018,Zimbabwe,2.128228
7101,2019,Zimbabwe,2.164050
7102,2020,Zimbabwe,2.195074


## Muertes atribuidas a fuentes de agua inseguras

In [28]:
limpiar_y_guardar_csv(df_agua,"Datos_muertes_agua.csv")

Datos guardados en 'Datos_muertes_agua.csv' sin valores nulos.


Unnamed: 0,Año,País,Muertes_agua
0,1990,Afghanistan,5876.4130
1,1991,Afghanistan,6145.5880
2,1992,Afghanistan,6818.0254
3,1993,Afghanistan,8395.5060
4,1994,Afghanistan,8754.6260
...,...,...,...
7291,2017,Zimbabwe,3928.3027
7292,2018,Zimbabwe,3940.3884
7293,2019,Zimbabwe,3856.9373
7294,2020,Zimbabwe,3784.6410


## Exposicion al plomo

In [29]:
limpiar_y_guardar_csv(df_plomo,"Datos_exp_plomo.csv")

Datos guardados en 'Datos_exp_plomo.csv' sin valores nulos.


Unnamed: 0,Año,País,Exp_plomo
0,1990,Afghanistan,2765.59400
1,1991,Afghanistan,2773.61840
2,1992,Afghanistan,2782.52610
3,1993,Afghanistan,2818.00600
4,1994,Afghanistan,2869.15920
...,...,...,...
7099,2017,Zimbabwe,759.63760
7100,2018,Zimbabwe,755.67847
7101,2019,Zimbabwe,749.21820
7102,2020,Zimbabwe,739.96454


## Uso de pepticidas

In [32]:
limpiar_y_guardar_csv(df_pepticidas,"Datos_uso_pepticidas.csv")

Datos guardados en 'Datos_uso_pepticidas.csv' sin valores nulos.


Unnamed: 0,Año,País,Pepticidas
0,1990,Africa (FAO),73504.69
1,1991,Africa (FAO),69490.83
2,1992,Africa (FAO),59769.13
3,1993,Africa (FAO),53768.65
4,1994,Africa (FAO),58312.42
...,...,...,...
7910,2013,Venezuela,2185.07
7911,2014,Venezuela,2185.07
7912,2015,Venezuela,2185.07
7913,2016,Venezuela,2185.07


## Precipitaciones

In [34]:
limpiar_y_guardar_csv(df_precipitaciones,"Datos_precipitaciones.csv")

Datos guardados en 'Datos_precipitaciones.csv' sin valores nulos.


Unnamed: 0,Año,País,Precipitaciones
0,1940,Afghanistan,217.678160
1,1941,Afghanistan,1388.520100
2,1942,Afghanistan,45.775917
3,1943,Afghanistan,2582.801800
4,1944,Afghanistan,899.675350
...,...,...,...
16570,2020,Eswatini,1073.184600
16571,2021,Eswatini,147.840290
16572,2022,Eswatini,795.214360
16573,2023,Eswatini,421.734000
