# Extracción de datos de precipitación desde repositorio Cassandra

> Elaborado por Paola Álvarez, profesional contratista IDEAM, contrato 193 de 2023. Comentarios o inquietudes, remitir a *palvarez@ideam.gov.co* 

In [15]:
import numpy as np
import pandas as pd
import datetime
import prestodb 
import matplotlib.pyplot as plt
import os
from datetime import datetime

In [2]:
conn=prestodb.dbapi.connect(
    host='172.16.50.20',
    port=8080,
    user='Paola',
    catalog='raw',
    schema='cassandra',
)
cur = conn.cursor()

_________________

El siguiente código permite hacer la descarga diaria de datos de precipitación

In [38]:
def descarga_datoscrud_cassandra(inicio, fin, codestacion, sensor):
    cur.execute(f''' select lm.station, s.name, lm.sensor, lm.event_time + interval '5' hour event_time, lm.event_value 
    from cassandra.raw.weather_events AS lm INNER JOIN cassandra.raw.stations AS s
        ON lm.station = s.stationid
    where lm.station in ('{codestacion}')
    AND lm.event_time BETWEEN timestamp '{inicio}' AND timestamp '{fin}' 
    AND lm.sensor in ('{sensor}') ''') # estación de la forma '0021206600'; sensor de la forma '0240'
    station_sensem = cur.fetchall()
    
    # Se genera un Data Frame a partir de los datos extaídos
    stationdf = pd.DataFrame(station_sensem, columns= ['Station', 'Name', 'Sensor','Fecha','Valor'])
    print(stationdf.head(3))
    
    # Se genera la lista de las diferentes estaciones con base en sus códigos
    j = stationdf['Station'].values.ravel()
    k = pd.unique(j).tolist()

    # Se crea una carpeta con el nombre del semestre
    inicio_date = datetime.strptime(inicio, '%Y-%m-%d') #'%Y-%m-%d %H:%M:%S.%f'
    fin_date = datetime.strptime(fin, '%Y-%m-%d') #'%Y-%m-%d %H:%M:%S.%f'
    semestre = inicio_date.strftime('%Y-%m-%d') + "_a_" + fin_date.strftime('%Y-%m-%d')
    if not os.path.exists(semestre):
        os.makedirs(semestre)

    # Se exportan los datos separados por estaciones según su código para futuros usos 
    for i in k:
        Filtro = stationdf['Station'] == i
        h = stationdf[Filtro]
        nombre_archivo = semestre + "/Estacion_" + str(i) + ".csv"
        print('Se guardó el archivo:', nombre_archivo)
        h.to_csv(nombre_archivo)
    
    return station_sensem, stationdf

In [40]:
# Se llama la función con parámetros especificados con los siguientes formatos
EMA_0240_13_01, df_EMA_0240_23_08 = descarga_datoscrud_cassandra('2018-01-01','2018-01-04', '0035215020',  '0103')

Empty DataFrame
Columns: [Station, Name, Sensor, Fecha, Valor]
Index: []


In [26]:
# Sin estación específica
def desc_datoscrud_cassandra_noest(inicio, fin, sensor):
    cur.execute(f''' select lm.station, s.name, lm.sensor, lm.event_time + interval '5' hour event_time, lm.event_value 
    from cassandra.raw.weather_events AS lm INNER JOIN cassandra.raw.stations AS s
        ON lm.station = s.stationid
    where lm.event_time BETWEEN timestamp '{inicio}' AND timestamp '{fin}' 
    AND lm.sensor in ('{sensor}') ''') # estación de la forma '0021206600'; sensor de la forma '0240'
    station_sensem = cur.fetchall()
    
    # Se genera un Data Frame a partir de los datos extaídos
    stationdf = pd.DataFrame(station_sensem, columns= ['Station', 'Name', 'Sensor','Fecha','Valor'])
    print(stationdf.head(3))
    
    # Se genera la lista de las diferentes estaciones con base en sus códigos
    j = stationdf['Station'].values.ravel()
    k = pd.unique(j).tolist()

    # Se crea una carpeta con el nombre del semestre
    inicio_date = datetime.strptime(inicio, '%Y-%m-%d') #'%Y-%m-%d %H:%M:%S.%f'
    fin_date = datetime.strptime(fin, '%Y-%m-%d') #'%Y-%m-%d %H:%M:%S.%f'
    semestre = inicio_date.strftime('%Y-%m-%d') + "_a_" + fin_date.strftime('%Y-%m-%d')
    if not os.path.exists(semestre):
        os.makedirs(semestre)

    # Se exportan los datos separados por estaciones según su código para futuros usos 
    for i in k:
        Filtro = stationdf['Station'] == i
        h = stationdf[Filtro]
        nombre_archivo = semestre + "/Estacion_" + str(i) + ".csv"
        print('Se guardó el archivo:', nombre_archivo)
        h.to_csv(nombre_archivo)
    
    return station_sensem, stationdf

In [28]:
# Se llama la función con parámetros especificados con los siguientes formatos
EMA_0240_13_01, df_EMA_0240_23_08 = desc_datoscrud_cassandra_noest('2018-01-01','2018-01-02', '0103')

      Station                        Name Sensor                    Fecha  \
0  0028025502  AEROPUERTO ALFONSO LOPEZ -   0103  2018-01-01 05:00:00.000   
1  0028025502  AEROPUERTO ALFONSO LOPEZ -   0103  2018-01-01 05:10:00.000   
2  0028025502  AEROPUERTO ALFONSO LOPEZ -   0103  2018-01-01 05:20:00.000   

   Valor  
0    3.8  
1    4.0  
2    3.6  


AttributeError: type object 'datetime.datetime' has no attribute 'datetime'

In [None]:
# Se llama la función con parámetros especificados con los siguientes formatos
EMA_0240_13_01, df_EMA_0240_23_08 = desc_datoscrud_cassandra_noest('2018-01-01','2018-01-02', '0104')