In [1]:
#LIBRERIAS NECESARIAS:
#Para utilizar API
import requests
#Para realizar la estructura tabular
import pandas as pd
#Para rellenar vacíos
import numpy as np

#ETL:

#para normalizar strings
from unicodedata import normalize
#para normalizar incluyendo la ñ
import re 
#para normalizar fechas
import datetime

#Conexión con postgresql:

#Para crear tablas con claves primarias y foraneas
import psycopg2
#Para append los datos a ingestar en la tabla
from sqlalchemy import create_engine

#Carga de datos a postgres:

#Para tener errores en try y except
import traceback

#Ver para japón: (borrar si no se usa)
from urllib.parse import quote
import io

#### ***`ETL`***

In [2]:
def normalizar_index(df):
    '''
    Normalizamos índice
    '''
    df.reset_index(drop = True, inplace = True)
    return(df)

In [3]:
def limpieza_general_tabla (df):
    '''
    Función limpieza de cadenas de string
    Devuelve:  el df ingestado con normalizaciones
    '''
    #Vemos duplicados y existen los eliminamos
    df.drop_duplicates(inplace = True) 
    #Acomodamos el indice
    df=normalizar_index(df)
  
    #recorremos cada columna del dataset con un bucle
    for c in df.columns:         
        #Detectamos las columnas que son string 
        if df[c].dtype == 'object':
            #ponemos todo en minúsculas
            df[c]=df[c].str.lower() 
            df[c]=df[c].apply(lambda x:x.strip() if type(x)!=float else x)
            #creamos una lista de valores a reemplazar por vacío
            lista_simbolos=['!',',',';','-','.',' ?','? ','?',':']
            for elemento in lista_simbolos:
                df[c]=df[c].apply(lambda x:x.replace(elemento ,'')if type(x)!=float else x)                  
            #creamos una lista de valores a reemplazar por espacio
            lista_simbolos=['_','  ']
            for elemento in lista_simbolos:
                df[c]=df[c].apply(lambda x:x.replace(elemento ,' ')if type(x)!=float else x)                  
        #sacamos los acentos
        df[c]=df[c].apply(lambda x: normalize( 'NFC', re.sub(r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+", r"\1", normalize( "NFD", x), 0, re.I))
                                        if type(x)== str and x!= 0 and x!= 'NaN'
                                        else x)

        if c== 'place':
 
            lista_simbolos=[' of ',' sw ',' w ',' n ']
            for elemento in lista_simbolos:
                df[c]=df[c].apply(lambda x:x.replace(elemento ,' ')if type(x)!=float else x)
            #reemplazamos los '' por 'sin dato'
            df[c]=df[c].apply(lambda x: 'sin dato' if type(x)== str and x=='' else x)
            #sacamos los que no tengan el pais que buscamos
            df=df[df.place.str.contains('japan|chile')|df.pais.str.contains('usa')] 
            #los eliminamos de place
            lista_simbolos=['japan','chile']
            for elemento in lista_simbolos:
                df[c]=df[c].apply(lambda x:x.replace(elemento ,'')if type(x)!=float else x)

        #detectamos NaN
        df[c]=df[c].apply(lambda x: None if type(x)== str and x=='' else x)  
    return df


In [4]:
'''
INTENTO DE HACER UN CALENDARIO PARA RECORRER LA API, NO FUNCIONA BORRAR SI QUEDÓ

from datetime import datetime
import pytz

local = datetime.now()
print("Local:", local.strftime("%m/%d/%Y, %H:%M:%S"))


tz_NY = pytz.timezone('America/New_York') 
datetime_NY = datetime.now(tz_NY)
print("NY:", datetime_NY.strftime("%m/%d/%Y, %H:%M:%S"))

'''

'\nINTENTO DE HACER UN CALENDARIO PARA RECORRER LA API, NO FUNCIONA BORRAR SI QUEDÓ\n\nfrom datetime import datetime\nimport pytz\n\nlocal = datetime.now()\nprint("Local:", local.strftime("%m/%d/%Y, %H:%M:%S"))\n\n\ntz_NY = pytz.timezone(\'America/New_York\') \ndatetime_NY = datetime.now(tz_NY)\nprint("NY:", datetime_NY.strftime("%m/%d/%Y, %H:%M:%S"))\n\n'

In [5]:
def guardar_datos (url,pais):
    '''
    Función para pasar de los datos de url de USGS
    Toma de parámetro una url y devuelve el df que utilizaremos

    '''
    # Obtenemos los datos
    resp = requests.get(url).json()

    # Guardamos los datos en formato diccionario
    dict={'mag':[],'place':[],'time':[],'url':[],'tsunami':[],'sig':[],'title':[],'lng':[],'lat':[],'deepth':[]}
    #recorremos la catidad de "filas" que tiene
    for i, fila in enumerate(resp['features']):
        
        a=resp['features'][i]
        #agrego al diccionario magnitud, tiempo, si produjo tsunami y sig
        lista_propierties=['mag','time','tsunami','sig']
        for elemento in lista_propierties:
            if a['properties'][elemento]is None:
                dict[elemento].append(np.nan) 
            else:
                dict[elemento].append(float(a['properties'][elemento]))
                
        
        #agrego lugar, url con información a ampliar y el título     
        lista_propierties2=['place','url','title']
        for elemento in lista_propierties2:
            if a['properties'][elemento]is None:
                dict[elemento].append('Sin dato')
            else:
                dict[elemento].append(a['properties'][elemento])

        #Agrego al diccionario latitud, longitud y profundidad
        list_geometry=['lng','lat','deepth']
        for indice, elemento in enumerate(list_geometry):
            if a['geometry']['coordinates'][indice] is None:
                dict[elemento].append(np.nan)
            else:
                dict[elemento].append(float(a['geometry']['coordinates'][indice]))

    #Devuelvo el diccionario hecho df
    return (pd.DataFrame(dict))

In [6]:
def ultimoDia(anio, mes):
    '''
    Función ultimo día del mes
    Devuelve el último día del mes

    anio: año a procesar
    mes: mes del cual obtener el último día
    '''
    #Valor por defecto
    ultimo_dia = 31
    #Meses con 30 días
    if mes in [4, 6, 9, 11]:
        ultimo_dia = 30

    # Vemos si el año es bisiesto
    if mes == 2:
        if (anio % 4) == 0:
            if (anio % 100) == 0:
                if (anio % 400) == 0:
                    ultimo_dia = 29
                else:
                    ultimo_dia = 28
            else:
                ultimo_dia = 29
        else:
            ultimo_dia = 28

    return ultimo_dia

#### ***`Carga (Load - Potgresql)`***

In [7]:
#conexión a postgres mediante alquemy
cone = create_engine('postgresql://sismosu:123@localhost:5432/sismosdb', pool_size=50, max_overflow=0)

In [8]:
'''
REALIZAMOS TABLAS DE MANERA TABLA MANUAL: para poner primarykey, clave foranea
'''

tabla_eeuu_usgs = 'DROP TABLE IF EXISTS USA CASCADE; CREATE TABLE USA (id SERIAL PRIMARY KEY NOT NULL ,mag float8,pais text, place text,time timestamp,url text,tsunami float8, sig float8, title text,lng float8, lat float8,deepth float8);'
tabla_chile_usgs = 'DROP TABLE IF EXISTS CHILE CASCADE; CREATE TABLE CHILE (id SERIAL PRIMARY KEY NOT NULL ,mag float8,pais text, place text,time timestamp,url text,tsunami float8, sig float8, title text,lng float8, lat float8,deepth float8);'
tabla_japon_usgs = 'DROP TABLE IF EXISTS JAPON CASCADE; CREATE TABLE JAPON (id SERIAL PRIMARY KEY NOT NULL  ,mag float8,pais text, place text,time timestamp,url text,tsunami float8, sig float8, title text,lng float8, lat float8,deepth float8);'
tabla_hechos = 'DROP TABLE IF EXISTS SISMOS CASCADE; CREATE TABLE SISMOS (id SERIAL PRIMARY KEY NOT NULL ,mag float8,pais text, place text,time timestamp,url text,tsunami float8, sig float8, title text,lng float8, lat float8,deepth float8);'

conn = psycopg2.connect(
    host='localhost',
    user='sismosu',
    password='123',
    database='sismosdb',
    port='5432'
 )

cur = conn.cursor()

cur.execute(tabla_eeuu_usgs)
cur.execute(tabla_chile_usgs)
cur.execute(tabla_japon_usgs)
cur.execute(tabla_hechos)

conn.commit()
cur.close()


### ***`Japón`***

In [9]:
'''anio=2020
mes=5
fecha_desde = f'{str(anio)}-{str(mes)}-01'
fecha_hasta = f'{str(anio)}-{str(mes + 1)}-01'
url = f'http://service.iris.edu/fdsnws/dataselect/1/query?net=IU&minimumlength=30&start=2018-11-01T20:12:12&end=2018-11-01T20:35:33&format=geocsv.slist.inline&nodata=404'
r = requests.get(url)
df = pd.read_csv(io.StringIO(r.text))
#corregimos las fechas
#df=limpieza_fechas(df)
#normalizamos cadenas de string
#df=limpieza_general_tabla(df)
#Paso la tabla a Potgres
df.head()'''

"anio=2020\nmes=5\nfecha_desde = f'{str(anio)}-{str(mes)}-01'\nfecha_hasta = f'{str(anio)}-{str(mes + 1)}-01'\nurl = f'http://service.iris.edu/fdsnws/dataselect/1/query?net=IU&minimumlength=30&start=2018-11-01T20:12:12&end=2018-11-01T20:35:33&format=geocsv.slist.inline&nodata=404'\nr = requests.get(url)\ndf = pd.read_csv(io.StringIO(r.text))\n#corregimos las fechas\n#df=limpieza_fechas(df)\n#normalizamos cadenas de string\n#df=limpieza_general_tabla(df)\n#Paso la tabla a Potgres\ndf.head()"

In [10]:
#df

In [11]:
#df.index.get_level_values(0)[19]

In [12]:
'''url = f'service.iris.edu/fdsnws/event/1/query?eventid={3022}'
r = requests.get(url)
df2 = pd.read_csv(io.StringIO(r.text))
df2'''

"url = f'service.iris.edu/fdsnws/event/1/query?eventid={3022}'\nr = requests.get(url)\ndf2 = pd.read_csv(io.StringIO(r.text))\ndf2"

In [13]:
'''url = 'http://service.iris.edu/fdsnws/event/1/query?originid=3022'
r = requests.get(url)
df2 = pd.read_csv(io.StringIO(r.text))
df2'''

"url = 'http://service.iris.edu/fdsnws/event/1/query?originid=3022'\nr = requests.get(url)\ndf2 = pd.read_csv(io.StringIO(r.text))\ndf2"

In [14]:
'''df['Error 400: Bad Request'][0]'''

"df['Error 400: Bad Request'][0]"

### ***`Carga de datos de USGS`***

In [16]:
import traceback
def cargar_paises(anio,mes,dia_fin):
    
    '''
    Carga en postgres para cada mes los sismos de los tres paises (japón, usa ,chile) para el año y mes indicado en tres tablas distintas
    Sirve para respaldo
    
    '''
    #Lista de paises
    paises = ['usa', 'japon', 'chile']
    fecha_inicio_error=[]
    fecha_final_error=[]
    pais_error=[]
    error=[]
    for pais in paises:
        while anio > 1999:
            ultimo_dia=ultimoDia(anio, mes)
            # Armamos la cadena de fechas
            fecha_desde = f'{str(anio)}-{str(mes)}-01'
            fecha_hasta = f'{str(anio)}-{str(mes)}-{str(ultimo_dia)}'
            try:
                # Hacemos la consulta a la API en función del país de interés
                if pais == 'usa':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&jsonerror=true'
                elif pais == 'japon':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&minlatitude=27.000000&maxlatitude=44.000000&minlongitude=132.780000&maxlongitude=145.530000&jsonerror=true'
                elif pais == 'chile':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&minlatitude=-56.800000&maxlatitude=-19.000000&minlongitude=-79.000000&maxlongitude=-68.900000&jsonerror=true'

                #paso a df
                df = guardar_datos (url,pais)
                #corregimos las fechas
                df.time=df.time.apply(lambda x: datetime.datetime.fromtimestamp(int(x)//1000).strftime('%Y-%m-%d %H:%M:%S.%f') if x!=np.nan else x)
                df.time=df.time.apply(lambda x: datetime.datetime.strptime(x, '%Y-%m-%d %H:%M:%S.%f') if x!=np.nan else x)
                #Agrego columna con el nombre de país:
                df['pais']=pais
                #normalizamos cadenas de string
                df=limpieza_general_tabla(df)
                #Paso la tabla a Potgres
                df.to_sql(name=pais,con=cone, if_exists='append', index=False)
                print('La carga se ha hecho con exito!en la fecha:', fecha_desde,'hasta',fecha_hasta)
            except:
                #imprimo los errores
                #traceback.print_exc()
                print('Error en la carga en la fecha:', fecha_desde,'hasta',fecha_hasta,'del país:',pais)
                fecha_inicio_error.append(fecha_desde)
                fecha_final_error.append(fecha_hasta)
                pais_error.append(pais)
                error.append(traceback.print_exc())
            # Decrementamos el mes
            if mes == 1:
                # Reducimos el año
                anio -= 1
                mes = 12
            else:
                mes -= 1 
    errores=pd.DataFrame()
    errores['fecha_inicio']=fecha_inicio_error
    errores['fecha_final']=fecha_final_error
    errores['pais']=pais_error
    errores['error']=error
    display(errores)

In [None]:
#Ejecutamos la función
#Configuramos la fecha de inicio
anio = 2022
mes = 11
dia_fin = 0
cargar_paises(anio,mes,dia_fin)

df=limpieza_general_tabla(df)
df=df[df.place.str.contains('japan|chile')|df.pais.str.contains('usa')]

ERROR: raise AttributeError("Can only use .str accessor with string values!")

Error en la carga en la fecha: 2020-6-01 hasta 2020-6-30 del país: usa

Error en la carga en la fecha: 2019-7-01 hasta 2019-7-31 del país: usa

Error en la carga en la fecha: 2018-7-01 hasta 2018-7-31 del país: usa

Error en la carga en la fecha: 2018-6-01 hasta 2018-6-30 del país: usa

Error en la carga en la fecha: 2010-4-01 hasta 2010-4-30 del país: usa




In [18]:
'''df = pd.DataFrame([key for key in clients.keys()], columns=['Name'])
df['id'] = [value['id'] if 'id' in value.keys() else None for value in clients.values()]
df['email'] = [value['email'] if 'email' in value.keys() else None for value in clients.values()]
df['gender'] = [value['gender'] if 'gender' in value.keys() else None for value in clients.values()]
df['ip_address'] = [value['ip_address'] if 'ip_address' in value.keys() else None for value in clients.values()]
df['money'] = [value['money'] if 'money' in value.keys() else None for value in clients.values()]'''

"df = pd.DataFrame([key for key in clients.keys()], columns=['Name'])\ndf['id'] = [value['id'] if 'id' in value.keys() else None for value in clients.values()]\ndf['email'] = [value['email'] if 'email' in value.keys() else None for value in clients.values()]\ndf['gender'] = [value['gender'] if 'gender' in value.keys() else None for value in clients.values()]\ndf['ip_address'] = [value['ip_address'] if 'ip_address' in value.keys() else None for value in clients.values()]\ndf['money'] = [value['money'] if 'money' in value.keys() else None for value in clients.values()]"

In [19]:
def cargar_paises_sismos(anio,mes,dia_fin):
    '''
    Carga en postgres para cada mes los sismos de los tres paises (japón, usa ,chile) para el año y mes indicado en una única tabla de hechos
    Sirve para automatizar la carga incremental
    
    '''
    #Lista de paises
    paises = ['japon', 'usa' ,'chile']
    fecha_inicio_error=[]
    fecha_final_error=[]
    pais_error=[]

    while anio > 2000:
        #recorre la lista de paises
        for pais in paises:
            ultimo_dia=ultimoDia(anio, mes)
            # Armamos la cadena de fechas
            fecha_desde = f'{str(anio)}-{str(mes)}-01'
            fecha_hasta = f'{str(anio)}-{str(mes)}-{str(ultimo_dia)}'
            try:
                # Hacemos la consulta a la API en función del país de interés
                if pais == 'usa':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&jsonerror=true'
                elif pais == 'japon':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&minlatitude=27.000000&maxlatitude=44.000000&minlongitude=132.780000&maxlongitude=145.530000&jsonerror=true'
                elif pais == 'chile':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&minlatitude=-56.800000&maxlatitude=-19.000000&minlongitude=-79.000000&maxlongitude=-68.900000&jsonerror=true'

                #paso a df
                df = guardar_datos (url,pais)
                #corregimos las fechas
                df.time=df.time.apply(lambda x: datetime.datetime.fromtimestamp(int(x)//1000).strftime('%Y-%m-%d %H:%M:%S.%f') if x!=np.nan else x)
                #Le decimos que es formato fecha
                df.time=df.time.apply(lambda x: datetime.datetime.strptime(x, '%Y-%m-%d %H:%M:%S.%f') if x!=np.nan else x)
                #Agrego columna con el nombre de país:
                df['pais']=pais

                #normalizamos cadenas de string
                df=limpieza_general_tabla(df)

                #Paso la tabla a Potgres
                df.to_sql(name='sismos',con=cone, if_exists='append', index=False)
                print('La carga se ha hecho con exito!en la fecha:', fecha_desde,'hasta',fecha_hasta,'del país:',pais)
            
            except:
                #imprimo los errores
                #traceback.print_exc()
                print('Error en la carga en la fecha:', fecha_desde,'hasta',fecha_hasta,'del país:',pais)
                fecha_inicio_error.append(fecha_desde)
                fecha_final_error.append(fecha_hasta)
                pais_error.append(pais)


        # Decrementamos el mes
        if mes == 1:
            # Reducimos el año
            anio -= 1
            mes = 12
        else:
            mes -= 1 
    errores=pd.DataFrame()
    errores['fecha_inicio']=fecha_inicio_error
    errores['fecha_final']=fecha_final_error
    errores['pais']=pais_error

    display(errores)        

In [None]:
#Ejecutamos la función
# Configuramos la fecha de inicio
anio = 2022
mes = 11
dia_fin = 0
cargar_paises_sismos(anio,mes,dia_fin)