# UTN - Data Engineering - Modulo 1 - TP1
## Extracción de datos y almacenamiento.

El Trabajo Practico consiste en extraer la temperatura, presion y velocidad del viento de una ciudad.
Estos datos posteriormente se utilizaran en Data Analytics para determinar si existe alguna relacion entre la temperatura-presion y la velocidad del viento en superficie.

Como parte del proceso, para extraer los datos, se requiere conocer las coordenadas geograficas de la ciudad estudiada.
El usuario ingresa la ciudad y el pais al que pertenece la ciudad.

La consulta a una API busca estos datos y devuelve las coordenas. Informacion que se guarda en un directorio en formato csv. 

Luego una segunda consulta a una API del clima utilizando las coordenadas obtenidas devuelve la informacion de la temperatura, presion y velocidad del viento.
La consulta se realiza para un rango de fechas ingresadas por el usuario.

La informacion obtenida se guarda en forma de parquet Incremental en el archivo data.parquet. Dentro del directorio 'bronce' correspondiente a la ciudad seleccionada.


### Se instalan las librerias principales

In [None]:
!pip install requests
!pip install fastparquet
!pip install pandas

### Se importan las Librerias

Importo las libreria request para poder generar los get().

Importo Pandas para el manejo de Data Frames.

Importo os para el manejo de carpetas y archivos.

In [2]:
import requests
import pandas as pd
import os

### Seccion funciones que extraen de las API

En esta seccion se crean las funciones que extraen los datos de las API.

Genera dos funciones porque todavia mi capacidad de programador no me permite darme cuenta como hacer una sola funcion que sirva en multiples API.

In [3]:
# Esta funcion extrae las coordenadas geograficas de la ciudad ingresada.
# Devuelve un df con los resultados.

def get_city(cityName, country, headers):
    # URL de la API incluyendo la ciudad y el pais ingresados por el usuario
    baseUrl = 'https://api.api-ninjas.com/v1/geocoding?city=' + cityName + '&country=' + country
    
    response = requests.get(baseUrl, headers)
    
    adress = response.json()
    # Se verifica si se encontro o no la ciudad buscada.
    # De encontrarse la ciudad se genera un Data Frame.
    if len(adress) == 0:
        print('Ciudad no encontrada')
        return pd.DataFrame()
    else:
        return pd.DataFrame.from_dict(adress)

# Esta funcion extrae la temperatura, presion y velociad del viento.       
def get_weather(cityCoord, fechaStart, fechafin):
    
    # URL de la API de consulta para extrar temp., pres. y velocidad del viento para las coordenadas de la ciudad.
    # Se leen las coordenadas del df obtenido en la consulta anterior.
    clima = 'https://api.open-meteo.com/v1/forecast?latitude=' + str(cityCoord.iloc[0,1]) + '&longitude=' + str(cityCoord.iloc[0,2]) + '&hourly=temperature_2m,wind_speed_10m&start_date=' + fechaStart + '&end_date=' + fechafin
    
    response = requests.get(clima)
    response_dict = response.json()
    
    # Se genera un Data Frame del json sin el encabezado, solo de la tabla de resultados en forma horaria.
    return pd.DataFrame.from_dict(response_dict['hourly'])
    

### Seccion funciones de verificacion de datos

En esta seccion se colocan las funciones que verifican si los datos son correctos o se deben corregir.

In [4]:
# Esta funcion intentria verificar si se encuentra mas de una ciudad con el mismo nombre en un mismo pais.
# Si la API devuelve mas de una fila con respuesta se muestre el resultado y se le pide que por consola elija una opcion.
# Es un poco precario, pero hasta el momento es lo que pude hacer. Si se pone 'Pico Truncado' Argentina. La API devuelve 4 resultados.
# En este caso el usuario debe elegir un numero entre 0 y 3 para que solo haya una valor.
# La funcion devuelve el df cun una sola fila que incluye la ciudad y las coordenadas.

def check_city(cityCoordDf):
    if len(cityCoordDf) == 0:
        print('Por favor ingrese correctamente el nombre de la ciudad')
    elif len(cityCoordDf) == 1:
        print('Ciudad encontrada correctamente')
        print(cityCoordDf.iloc[0,0])
        return cityCoordDf
    else:
        print(cityCoordDf)
        num = int(input("Elija el numero de la ciudad deseada: "))
        return pd.DataFrame(cityCoordDf.iloc[num,]).transpose()
        

### Seccion Resguardo de Datos

En esta seccion se crean las funciones de resguardo de los datos.

Una funcion para los datos de la ciudad y otra para los datos del clima.

In [5]:
# Genera el directorio con el nombre de la ciudad seleccionada
# Guarda los datos de la ciudad en formato csv, archivo simple de una sola line.

def saveDataCity(df):
    # variables del path del directorio y el nombre del archivo con la ciudad
    directoryPath = 'weather/' + df.iloc[0,0] + '/'
    dfName = directoryPath + df.iloc[0,0] + '.csv'
    # Verifica la existencia del directorio. Si no existe lo crea.
    directory = os.path.dirname(directoryPath)
    if directory and not os.path.exists(directory):
        os.makedirs(directory)
    # Guarda el archivo de la ciudad en el directorio
    df.to_csv(dfName, sep='\t')
       
# Guarda en formato parquet los datos obtenidos para la ciudad elejida.
# Esta funcion, realiza un resguardo en formato parquet, tando de un df nuevo
# como de uno existente al que se le agrega nueva informacion (parquet incremental)
def saveDataParquet(df, cityCoord, partitionCols=None):
    # Variable con el path y el nombre del archivo
    directoryPath = 'weather/' + cityCoord.iloc[0,0] + '/bronce/data.parquet'
    # Como el archivo parquet se guarda multiples veces, primero verifica si existe el directorio bronce
    # dentro del directorio de la ciudad. Si no existe lo crea.
    directory = os.path.dirname(directoryPath)
    if directory and not os.path.exists(directory):
        os.makedirs(directory)
    # Verifica si existe ya un archivo data.parquet
    # si existe lo lee y lo guarda en formato df. Luego le agrega la nueva consulta.
    # Si no existe, no hace nada, porque en el paso siguiente se guarda el df.
    if os.path.exists(directoryPath):
        df2 = pd.read_parquet(directoryPath)
        df = df2.append(df)
        os.remove(directoryPath)
    # Aca se guarda el df en formato parquet ya sea el nuevo archivo o el que haya sufrido un append.
    df.to_parquet(directoryPath)
    
    

### Ingreso de datos para extraccion

Seccion para ingresar los datos y trabajar con las API.

In [13]:
# Ingreso la ciudad a buscar.
cityName = 'comodoro rivadavia'
country = 'argentina'

# Esta API requiere de un Key y se puede utilizar esta, no hay problema.
headers = {'X-Api-Key': 'YO3DOw3APQguBKsqQq0nMA==acw96vJrBQsSnpeG'}

# Se llama a la funcion.
cityCoordDf = get_city(cityName, country, headers)

In [14]:
# Se llama a la funcion de control de las ciudades por si la respuesta no es unica.
# Hago una salvedad. Se podria poner todo en la misma funcion. Si me da el tiempo lo obtimizo.
# Lo realizo por partes, por inseguridad en la programacion y por control paso a paso.
cityCoord = check_city(cityCoordDf)

print(cityCoord)

Ciudad encontrada correctamente
Comodoro Rivadavia
                 name   latitude  longitude country            state
0  Comodoro Rivadavia -45.863202 -67.475262      AR  Chubut Province


In [15]:
# Genero el directorio para esa ciudad
# Y guardo las coordenadas Geograficas en un archivo csv
saveDataCity(cityCoord)


In [16]:
# Como la ciudad se extrajo con exito
# Ahora consulto el clima

# Antes se consulta las fechas a extraer.
fechaStart = '2024-03-17'
fechafin = '2024-03-27'

# Se crea el df llamando a la funcion para extraer el clima.
weather = get_weather(cityCoord, fechaStart, fechafin)

weather.head()

Unnamed: 0,time,temperature_2m,wind_speed_10m
0,2024-03-17T00:00,14.3,44.3
1,2024-03-17T01:00,13.5,43.7
2,2024-03-17T02:00,12.9,40.8
3,2024-03-17T03:00,12.6,38.0
4,2024-03-17T04:00,12.5,39.2


In [17]:
# Se resguarda en formato parquet los datos del clima
# Se puede realizar otra consulta para otras fechas repitiendo el paso anterior
# Tambien se podria generar un script que se repita todos los dias, etc.

saveDataParquet(weather,cityCoord)