# Entrega consulta de APIs

Este dataset no es el utilizado para mi proyecto, ya que como son valores numericos de distintos parametros no hace sentido matchear valores con una API. Para motivos del entregable, usamos un dataset con variables de latitud y longitud, para obtener la provincia y país a la que hacen referencia a traves de la API de Google Maps.

### Descripción del nuevo dataset

Descripción del S3E20 extraida de Kaggle:

El objetivo de este desafío es crear modelos de aprendizaje automático que utilicen datos de emisiones de código abierto (de observaciones satelitales del Sentinel-5P) para predecir las emisiones de carbono.

Se seleccionaron aproximadamente 497 ubicaciones únicas de diversas áreas en Ruanda, con una distribución en torno a tierras de cultivo, ciudades y centrales eléctricas. Los datos para esta competencia están divididos por tiempo; los años 2019 a 2021 están incluidos en los datos de entrenamiento, y su tarea es predecir los datos de emisiones de CO2 para 2022 hasta noviembre.

Se extrajeron siete características principales semanalmente del Sentinel-5P desde enero de 2019 hasta noviembre de 2022. Cada característica (Dióxido de azufre, Monóxido de carbono, etc.) contiene subcaracterísticas como la densidad de columna vertical, que es la densidad de columna vertical a nivel del suelo, calculada utilizando la técnica DOAS. Puede obtener más información sobre cada característica en los enlaces a continuación, que incluyen cómo se miden y las definiciones de las variables.

In [1]:
import requests
import json
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

In [2]:
import pandas as pd

df = pd.read_csv("playground-series-s3e20/train.csv")

In [3]:
print("El playground series episodio 22 tiene ", len(df), " filas y ", df.shape[1], " columnas.")

El playground series episodio 22 tiene  79023  filas y  76  columnas.


## Obtención de provincia y país por la API

Para este ejercicio, se va a obtener la ciudad a partir de los datos de latitud y longitud del dataset.

In [4]:
df.head()

Unnamed: 0,ID_LAT_LON_YEAR_WEEK,latitude,longitude,year,week_no,SulphurDioxide_SO2_column_number_density,SulphurDioxide_SO2_column_number_density_amf,SulphurDioxide_SO2_slant_column_number_density,SulphurDioxide_cloud_fraction,SulphurDioxide_sensor_azimuth_angle,...,Cloud_cloud_top_height,Cloud_cloud_base_pressure,Cloud_cloud_base_height,Cloud_cloud_optical_depth,Cloud_surface_albedo,Cloud_sensor_azimuth_angle,Cloud_sensor_zenith_angle,Cloud_solar_azimuth_angle,Cloud_solar_zenith_angle,emission
0,ID_-0.510_29.290_2019_00,-0.51,29.29,2019,0,-0.000108,0.603019,-6.5e-05,0.255668,-98.593887,...,3664.436218,61085.80957,2615.120483,15.568533,0.272292,-12.628986,35.632416,-138.786423,30.75214,3.750994
1,ID_-0.510_29.290_2019_01,-0.51,29.29,2019,1,2.1e-05,0.728214,1.4e-05,0.130988,16.592861,...,3651.190311,66969.478735,3174.572424,8.690601,0.25683,30.359375,39.557633,-145.18393,27.251779,4.025176
2,ID_-0.510_29.290_2019_02,-0.51,29.29,2019,2,0.000514,0.748199,0.000385,0.110018,72.795837,...,4216.986492,60068.894448,3516.282669,21.10341,0.251101,15.377883,30.401823,-142.519545,26.193296,4.231381
3,ID_-0.510_29.290_2019_03,-0.51,29.29,2019,3,,,,,,...,5228.507736,51064.547339,4180.973322,15.386899,0.262043,-11.293399,24.380357,-132.665828,28.829155,4.305286
4,ID_-0.510_29.290_2019_04,-0.51,29.29,2019,4,-7.9e-05,0.676296,-4.8e-05,0.121164,4.121269,...,3980.59812,63751.125781,3355.710107,8.114694,0.235847,38.532263,37.392979,-141.509805,22.204612,4.347317


In [5]:
locations = df[["latitude","longitude"]].drop_duplicates().reset_index()

locations.head()

Unnamed: 0,index,latitude,longitude
0,0,-0.51,29.29
1,159,-0.528,29.472
2,318,-0.547,29.653
3,477,-0.569,30.031
4,636,-0.598,29.102


In [6]:
base_url = "https://maps.googleapis.com/maps/api/geocode/json"
api_key = "AIzaSyBJbCshf_U9KpngJqB9l0wCbWQF-QWAsxg" ## Esta key fue eliminada antes de subir la notebook y no sirve mas

params = {
    "latlng": f"{locations.latitude[0]},{locations.longitude[0]}",
    "key": api_key
}

response = requests.get(base_url, params=params)
data = response.json()

Imprimimos la HTTP response.

In [7]:
data

{'plus_code': {'compound_code': 'F7QQ+XXX Mushenge, Democratic Republic of the Congo',
  'global_code': '6GFFF7QQ+XXX'},
 'results': [{'address_components': [{'long_name': 'F7QQ+XX',
     'short_name': 'F7QQ+XX',
     'types': ['plus_code']},
    {'long_name': 'Mushenge',
     'short_name': 'Mushenge',
     'types': ['locality', 'political']},
    {'long_name': 'Lubero',
     'short_name': 'Lubero',
     'types': ['administrative_area_level_2', 'political']},
    {'long_name': 'North-Kivu',
     'short_name': 'North-Kivu',
     'types': ['administrative_area_level_1', 'political']},
    {'long_name': 'Democratic Republic of the Congo',
     'short_name': 'CD',
     'types': ['country', 'political']}],
   'formatted_address': 'F7QQ+XX Mushenge, Democratic Republic of the Congo',
   'geometry': {'bounds': {'northeast': {'lat': -0.51, 'lng': 29.29},
     'southwest': {'lat': -0.5101249999999999, 'lng': 29.289875}},
    'location': {'lat': -0.51, 'lng': 29.29},
    'location_type': 'GEOMET

Notamos que tras obtener el output, imprimimos el resultado de provincia y Pais, navegando por los indices del JSON abajo.

In [8]:
data['results'][0]['address_components'][3]['long_name'], data['results'][0]['address_components'][4]['long_name']

('North-Kivu', 'Democratic Republic of the Congo')

Creamos una función para devolver estos resultados por latitud y longitud.

In [9]:
def get_country_and_province(api_key,lat,long):
    
    params = {
        "latlng": f"{lat},{long}",
        "key": api_key
    }

    response = requests.get(base_url, params=params)
    data = response.json()
    
    try:
        res = data['results'][0]['address_components'][3]['long_name'], data['results'][0]['address_components'][4]['long_name']
    except:
        res = "Not determined", "Not determined"
    
    return res

Aplicamos la función a los datos y creamos dos columnas nuevas.

In [10]:
locations[['Province', 'Country']] = locations.apply(lambda row: 
                                                             pd.Series(
                                                                 get_country_and_province(api_key,row['latitude'],
                                                                                          row['longitude'])), axis=1)

Imprimimos los resultados y mostramos las nuevas columnas.

In [11]:
locations

Unnamed: 0,index,latitude,longitude,Province,Country
0,0,-0.510,29.290,North-Kivu,Democratic Republic of the Congo
1,159,-0.528,29.472,North-Kivu,Democratic Republic of the Congo
2,318,-0.547,29.653,Nord-Kivu,Democratic Republic of the Congo
3,477,-0.569,30.031,Mkoa wa Magharibi,Uganda
4,636,-0.598,29.102,North-Kivu,Democratic Republic of the Congo
...,...,...,...,...,...
492,78228,-3.153,30.347,Not determined,Not determined
493,78387,-3.161,28.839,South-Kivu,Democratic Republic of the Congo
494,78546,-3.174,29.926,Karuzi,Burundi
495,78705,-3.287,29.713,Muramvya,Burundi
