In [36]:
#LIBRERIAS NECESARIAS:
#Para utilizar API
import requests
#Para realizar la estructura tabular
import pandas as pd
#Para rellenar vacíos
import numpy as np
import json
#ETL:

#para normalizar strings
from unicodedata import normalize
#para normalizar incluyendo la ñ
import re 
#para normalizar fechas
import datetime

#Conexión con postgresql:

#Para crear tablas con claves primarias y foraneas
import psycopg2
#Para append los datos a ingestar en la tabla
from sqlalchemy import create_engine

#Carga de datos a postgres:

#Para tener errores en try y except
import traceback

#Ver para japón: (borrar si no se usa)
from urllib.parse import quote
import io

#limpiar la consola
import os

#### ***`ETL`***

In [155]:
def normalizar_index(df):
    '''
    Normalizamos índice
    '''
    df.reset_index(drop = True, inplace = True)
    return(df)

In [156]:
def limpieza_general_tabla (df):
    '''
    Función limpieza de cadenas de string
    Devuelve:  el df ingestado con normalizaciones
    '''
    #Vemos duplicados y existen los eliminamos
    df.drop_duplicates(inplace = True) 
    #Acomodamos el indice
    df=normalizar_index(df)
  
    #recorremos cada columna del dataset con un bucle
    for c in df.columns:         
        #Detectamos las columnas que son string 
        if df[c].dtype == 'object':
            #ponemos todo en minúsculas
            df[c]=df[c].str.lower() 
            df[c]=df[c].apply(lambda x:x.strip() if type(x)!=float else x)
            #creamos una lista de valores a reemplazar por vacío
            lista_simbolos=['!',',',';','-','.',' ?','? ','?',':']
            for elemento in lista_simbolos:
                df[c]=df[c].apply(lambda x:x.replace(elemento ,'')if type(x)!=float else x)                  
            #creamos una lista de valores a reemplazar por espacio
            lista_simbolos=['_','  ']
            for elemento in lista_simbolos:
                df[c]=df[c].apply(lambda x:x.replace(elemento ,' ')if type(x)!=float else x)                  
        #sacamos los acentos
        df[c]=df[c].apply(lambda x: normalize( 'NFC', re.sub(r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+", r"\1", normalize( "NFD", x), 0, re.I))
                                        if type(x)== str and x!= 0 and x!= 'NaN'
                                        else x)

        if c== 'place':
 
            lista_simbolos=[' of ',' sw ',' w ',' n ']
            for elemento in lista_simbolos:
                df[c]=df[c].apply(lambda x:x.replace(elemento ,' ')if type(x)!=float else x)
            #reemplazamos los '' por 'sin dato'
            df[c]=df[c].apply(lambda x: 'sin dato' if type(x)== str and x=='' else x)
            #sacamos los que no tengan el pais que buscamos
            df=df[df.place.str.contains('japan|chile')|df.pais.str.contains('usa')] 
            #los eliminamos de place
            lista_simbolos=['japan','chile']
            for elemento in lista_simbolos:
                df[c]=df[c].apply(lambda x:x.replace(elemento ,'')if type(x)!=float else x)

        #detectamos NaN
        df[c]=df[c].apply(lambda x: None if type(x)== str and x=='' else x)  
    return df


In [157]:
'''
INTENTO DE HACER UN CALENDARIO PARA RECORRER LA API, NO FUNCIONA BORRAR SI QUEDÓ

from datetime import datetime
import pytz

local = datetime.now()
print("Local:", local.strftime("%m/%d/%Y, %H:%M:%S"))


tz_NY = pytz.timezone('America/New_York') 
datetime_NY = datetime.now(tz_NY)
print("NY:", datetime_NY.strftime("%m/%d/%Y, %H:%M:%S"))

'''

'\nINTENTO DE HACER UN CALENDARIO PARA RECORRER LA API, NO FUNCIONA BORRAR SI QUEDÓ\n\nfrom datetime import datetime\nimport pytz\n\nlocal = datetime.now()\nprint("Local:", local.strftime("%m/%d/%Y, %H:%M:%S"))\n\n\ntz_NY = pytz.timezone(\'America/New_York\') \ndatetime_NY = datetime.now(tz_NY)\nprint("NY:", datetime_NY.strftime("%m/%d/%Y, %H:%M:%S"))\n\n'

In [158]:
def guardar_datos (url,pais):
    '''
    Función para pasar de los datos de url de USGS
    Toma de parámetro una url y devuelve el df que utilizaremos

    '''
    # Obtenemos los datos
    resp = requests.get(url).json()

    # Guardamos los datos en formato diccionario
    dict={'mag':[],'place':[],'time':[],'url':[],'tsunami':[],'sig':[],'title':[],'lng':[],'lat':[],'deepth':[]}
    #recorremos la catidad de "filas" que tiene
    for i, fila in enumerate(resp['features']):
        
        a=resp['features'][i]
        #agrego al diccionario magnitud, tiempo, si produjo tsunami y sig
        lista_propierties=['mag','time','tsunami','sig']
        for elemento in lista_propierties:
            if a['properties'][elemento]is None:
                dict[elemento].append(np.nan) 
            else:
                dict[elemento].append(float(a['properties'][elemento]))
                
        
        #agrego lugar, url con información a ampliar y el título     
        lista_propierties2=['place','url','title']
        for elemento in lista_propierties2:
            if a['properties'][elemento]is None:
                dict[elemento].append('Sin dato')
            else:
                dict[elemento].append(a['properties'][elemento])

        #Agrego al diccionario latitud, longitud y profundidad
        list_geometry=['lng','lat','deepth']
        for indice, elemento in enumerate(list_geometry):
            if a['geometry']['coordinates'][indice] is None:
                dict[elemento].append(np.nan)
            else:
                dict[elemento].append(float(a['geometry']['coordinates'][indice]))

    #Devuelvo el diccionario hecho df
    return (pd.DataFrame(dict))

In [159]:
def ultimoDia(anio, mes):
    '''
    Función ultimo día del mes
    Devuelve el último día del mes

    anio: año a procesar
    mes: mes del cual obtener el último día
    '''
    #Valor por defecto
    ultimo_dia = 31
    #Meses con 30 días
    if mes in [4, 6, 9, 11]:
        ultimo_dia = 30

    # Vemos si el año es bisiesto
    if mes == 2:
        if (anio % 4) == 0:
            if (anio % 100) == 0:
                if (anio % 400) == 0:
                    ultimo_dia = 29
                else:
                    ultimo_dia = 28
            else:
                ultimo_dia = 29
        else:
            ultimo_dia = 28

    return ultimo_dia

#### ***`Carga (Load - Potgresql)`***

In [160]:
#conexión a postgres mediante alquemy
cone = create_engine('postgresql://sismosu:123@localhost:5432/sismosdb', pool_size=50, max_overflow=0)

In [None]:
'''
REALIZAMOS TABLAS DE MANERA TABLA MANUAL: para poner primarykey, clave foranea
'''

tabla_eeuu_usgs = 'DROP TABLE IF EXISTS USA CASCADE; CREATE TABLE USA (id SERIAL PRIMARY KEY NOT NULL ,mag float8,pais text, place text,time timestamp,url text,tsunami float8, sig float8, title text,lng float8, lat float8,deepth float8);'
tabla_chile_usgs = 'DROP TABLE IF EXISTS CHILE CASCADE; CREATE TABLE CHILE (id SERIAL PRIMARY KEY NOT NULL ,mag float8,pais text, place text,time timestamp,url text,tsunami float8, sig float8, title text,lng float8, lat float8,deepth float8);'
tabla_japon_usgs = 'DROP TABLE IF EXISTS JAPON CASCADE; CREATE TABLE JAPON (id SERIAL PRIMARY KEY NOT NULL  ,mag float8,pais text, place text,time timestamp,url text,tsunami float8, sig float8, title text,lng float8, lat float8,deepth float8);'
tabla_hechos = 'DROP TABLE IF EXISTS SISMOS CASCADE; CREATE TABLE SISMOS (id SERIAL PRIMARY KEY NOT NULL ,mag float8,pais text, place text,time timestamp,url text,tsunami float8, sig float8, title text,lng float8, lat float8,deepth float8);'

conn = psycopg2.connect(
    host='localhost',
    user='sismosu',
    password='123',
    database='sismosdb',
    port='5432'
 )

cur = conn.cursor()

cur.execute(tabla_eeuu_usgs)
cur.execute(tabla_chile_usgs)
cur.execute(tabla_japon_usgs)
cur.execute(tabla_hechos)

conn.commit()
cur.close()


### ***`Japón`***

# Es este: Si queda lo pongo en una función para que sea llamada

In [4]:
import time

In [84]:
#creo dicc vacio
dict={'mag':[],'place':[],'time':[],'url':[],'tsunami':[],'title':[],'lng':[],'lat':[],'deepth':[]}
'''
límite
entero ($ int32 )
( consulta )	
número de devoluciones (1-100, el valor predeterminado es 10)
'''
limit=100
'''
compensar
entero ($ int32 )
( consulta )	
Número de registros para omitir 
(0 o más, el valor predeterminado es 0). 
Por ejemplo, limit=100&offset=200 devuelve 100 registros desde el 201.
'''
offset=0
'''
desde_fecha
cuerda
( consulta )	
Fecha especificada o posterior (formato aaaaMMdd)
'''

#fecha_start=time.time()
fecha_start=20180501
#print(datetime.datetime.strptime(fecha_start, '%Y/%m/%d %H:%M:%S'))
print(datetime.date.today().strftime('%Y/%m/%d %H:%M:%S.%f'))

'''
fecha_end
límite de las iteraciones

'''
fecha_end= 20220406
#fecha_end= str(20210801)
#fecha_end=datetime.datetime.strptime(fecha_end, '%Y%m%d')

    
while offset<=2100 and fecha_start>=fecha_end :
    urlP2p = "https://api.p2pquake.net/v1/human-readable?limit=100&offset={offset}&since_date={fecha_start}"
    #urlP2p = "https://api.p2pquake.net/v1/human-readable?limit=100&offset={offset}"
    responseP2p = requests.get(urlP2p)
    jsonDataP2p = responseP2p.json()
    for i in range(limit):
        try:
            try:a=jsonDataP2p[i]
            except:pass
            
            try:dict['mag'].append(a['earthquake']['hypocenter']['magnitude'])
            except:dict['mag'].append(None)

            try:dict['place'].append(a['points'][0]['addr'])
            except:dict['place'].append(None)
            
            #try:dict['time'].append(datetime.datetime.strftime(a['time'], '%Y/%m/%d %H:%M:%S.%f'))            
            try:dict['time'].append(a['time'])
            except:dict['time'].append(None)
            
            indice=offset+i
            try:dict['url'].append("https://api.p2pquake.net/v1/human-readable?limit=1&offset={indice}&since_date={fecha_start}")
            except:dict['url'].append(None)
            
            try:dict['tsunami'].append(a['earthquake']["domesticTsunami"])
            except:dict['tsunami'].append(None)
                        
            try:dict['title'].append(a['earthquake']['hypocenter']['name'])
            except:dict['title'].append(None)
            
            try:dict['lng'].append(a['earthquake']['hypocenter']['longitude'])
            except:dict['lng'].append(None)
            
            try:dict['lat'].append(a['earthquake']['hypocenter']['latitude'])
            except:dict['lat'].append(None)
            
            try:dict['deepth'].append(a['earthquake']['hypocenter']['depth'][:-2])
            except:dict['deepth'].append(None)
        except: 
            pass
    df=pd.DataFrame(dict)
    fecha_min=df.time[-1:].values[0]
    #print(fecha_min)
    fecha_min=datetime.datetime.strptime(fecha_min, '%Y/%m/%d %H:%M:%S.%f')
    fecha_min=int(datetime.datetime.strftime(fecha_min, '%Y%m%d'))
    fecha_start=fecha_min
    offset+=100
    print(offset, fecha_min)
    
print('fin')
print(fecha_min)
#borro duplicados
df.drop_duplicates(inplace=True)
#filtro filas con vacíos
filtros=[None,'']
for i in filtros:
    m1=df['mag'].values !=i
    m2=df['title'].values !=i
    m3=df['lng'].values !=i
    m4=df['lat'].values !=i
    m5=df['deepth'].values !=i
    df=df[m1 & m2 & m3 & m4 & m5]

df

2022/11/22 00:00:00.000000
fin
20221110


Unnamed: 0,mag,place,time,url,tsunami,sig,title,lng,lat,deepth
0,3.2,珠洲市,2022/11/22 21:34:05.870,https://api.p2pquake.net/v1/human-readable?lim...,,0,石川県能登地方,E137.2,N37.5,10km
1,2.6,伊那市,2022/11/22 16:35:12.166,https://api.p2pquake.net/v1/human-readable?lim...,,0,長野県南部,E138.1,N35.9,10km
2,3.1,?i?F?s,2022/11/22 16:01:42.236,https://api.p2pquake.net/v1/human-readable?lim...,,0,?I?i?§”\“o’n?u,E137.3,N37.5,10km
3,3.1,珠洲市,2022/11/22 16:01:42.092,https://api.p2pquake.net/v1/human-readable?lim...,,0,石川県能登地方,E137.3,N37.5,10km
6,2.8,鹿児島十島村,2022/11/22 12:07:55.812,https://api.p2pquake.net/v1/human-readable?lim...,,0,トカラ列島近海,E129.3,N29.2,10km
...,...,...,...,...,...,...,...,...,...,...
92,3.6,城里町,2022/11/11 14:32:15.765,https://api.p2pquake.net/v1/human-readable?lim...,,0,茨城県南部,E140.0,N36.2,50km
93,3.6,,2022/11/11 14:31:20.228,https://api.p2pquake.net/v1/human-readable?lim...,,0,茨城県南部,E140.0,N36.2,50km
96,3.0,珠洲市,2022/11/10 12:30:16.187,https://api.p2pquake.net/v1/human-readable?lim...,,0,石川県能登地方,E137.2,N37.5,10km
97,4.2,銚子市,2022/11/10 10:26:11.086,https://api.p2pquake.net/v1/human-readable?lim...,,0,千葉県東方沖,E141.1,N35.5,40km


## ***`Chile`***

In [86]:
from bs4 import BeautifulSoup

In [220]:
def get_url(date):
    fecha='/'+date
    year=date[:4]
    month='/'+date[4:6]
    url="https://www.sismologia.cl/sismicidad/catalogo/"+year+month+fecha+".html"
    return(url)

In [221]:
def get_rows(date):
    url=get_url(date)
    urlx = requests.get (url)
    soup = BeautifulSoup(urlx.content,"html.parser")
    rows = soup.find("table", attrs={"class":"sismologia detalle"}).find_all("tr")
    return rows

In [223]:
def datos_chile(url,rows):
    #creo dicc vacio
    dict={'mag':[],'place':[],'time':[],'url':[],'tsunami':[],'title':[],'lng':[],'lat':[],'deepth':[]}
    for index,i in enumerate(rows):
        if index==0:
            pass
        else:
            dict['mag'].append(rows[index].find_all("td")[-1].get_text()[:-3])
            dict['place'].append(rows[index].find_all("td")[0].get_text()[19:])
            dict['time'].append(rows[index].find_all("td")[1].get_text())

            dict['url'].append(url)
            dict['tsunami'].append(None)
            dict['title'].append(None)

            dict['lng'].append(rows[index].find_all("td")[2].get_text()[:7])
            dict['lat'].append(rows[index].find_all("td")[2].get_text()[-7:])
            dict['deepth'].append(rows[index].find_all("td")[3].get_text()[:-3])
    for elemento in dict:
        len(dict[elemento])
    df_chile=pd.DataFrame(dict)
    return df_chile


In [229]:
def carga_chile(date):
    url=get_url(date)
    rows=get_rows(date)
    df_chile=datos_chile(url,rows)
    return df_chile 

In [227]:
date=str(20201103)

In [230]:
df_chile=carga_chile(date)
df_chile

Unnamed: 0,mag,place,time,url,tsunami,title,lng,lat,deepth
0,3.8,35 km al S de Lebu,2020-11-03 20:59:50,https://www.sismologia.cl/sismicidad/catalogo/...,,,-37.926,-73.698,34
1,4.9,489 km al O de Melinka,2020-11-03 19:47:34,https://www.sismologia.cl/sismicidad/catalogo/...,,,-44.234,-79.851,10
2,4.1,45 km al S de Putre,2020-11-03 19:26:41,https://www.sismologia.cl/sismicidad/catalogo/...,,,-18.601,-69.586,117
3,3.1,41 km al S de Pica,2020-11-03 18:23:05,https://www.sismologia.cl/sismicidad/catalogo/...,,,-20.834,-69.193,111
4,3.3,35 km al O de Mina Collahuasi,2020-11-03 17:51:15,https://www.sismologia.cl/sismicidad/catalogo/...,,,-20.713,-68.971,108
5,2.8,25 km al SO de Los Vilos,2020-11-03 16:26:48,https://www.sismologia.cl/sismicidad/catalogo/...,,,-32.074,-71.691,24
6,3.8,18 km al SO de Los Vilos,2020-11-03 14:56:29,https://www.sismologia.cl/sismicidad/catalogo/...,,,-32.021,-71.651,35
7,3.2,47 km al NO de Quillagua,2020-11-03 12:16:03,https://www.sismologia.cl/sismicidad/catalogo/...,,,-21.361,-69.854,50
8,3.5,78 km al E de Socaire,2020-11-03 10:51:31,https://www.sismologia.cl/sismicidad/catalogo/...,,,-23.85,-67.18,200
9,4.5,51 km al SO de Ollagüe,2020-11-03 09:35:26,https://www.sismologia.cl/sismicidad/catalogo/...,,,-21.609,-68.52,126


In [70]:
df_chile.to_csv('chile_dataset.csv')

# Acá: Sacar última información de japón, para alimentar db y crear alertas

In [None]:
#creo dicc vacio
dict={'mag':[],'place':[],'time':[],'url':[],'tsunami':[],'sig':[],'title':[],'lng':[],'lat':[],'int':[]}
#pido los últimos sismos
urlJMAList = "https://www.jma.go.jp/bosai/quake/data/list.json"
#hago una lista de los últimos sismos
responseJMAList = requests.get(urlJMAList)
#la convierto a formato json
jsonDataJMAList = responseJMAList.json()

i=0
#recorro la lista y solicito la info a la api
#for elemento in range(len(jsonDataJMAList)):
jsonDataJMALastDatetime = jsonDataJMAList[0]["rdt"]
print(jsonDataJMALastDatetime)
jsonDataJMALastDatetime = datetime.datetime.strptime(jsonDataJMALastDatetime, '%Y-%m-%dT%H:%M:%S+09:00')
print(jsonDataJMALastDatetime)
urlJMAEarthquakeData = "https://www.jma.go.jp/bosai/quake/data/" + jsonDataJMAList[i]["json"]
print(urlJMAEarthquakeData)
responseJMAEarthquakeData = requests.get(urlJMAEarthquakeData)
print(responseJMAEarthquakeData)
jsonDataJMAEarthquakeData = responseJMAEarthquakeData.json()
#'mag'
dict['mag'].append(jsonDataJMAEarthquakeData['Body']['Earthquake']['Magnitude'])
#'place
dict['place'].append(jsonDataJMAEarthquakeData['Body']['Earthquake']['Hypocenter']['Area']['enName'] )
#time
dict['time'].append(jsonDataJMAEarthquakeData['Head']['ReportDateTime'])
#url
dict['url'].append(urlJMAEarthquakeData)
#tsunami
dict['tsunami'].append(jsonDataJMAEarthquakeData['Body']['Comments']['ForecastComment']['enText'])
#sig
dict['sig'].append(0)
#title
dict['title'].append(jsonDataJMAEarthquakeData['Head']['Title'])

#lat, long
dict['lat'].append(jsonDataJMAEarthquakeData['Body']["Intensity"]["Observation"]["Pref"][0]['Area'][0]['City'][0]['IntensityStation'][0]['latlon']['lat'])

dict['lng'].append(jsonDataJMAEarthquakeData['Body']["Intensity"]["Observation"]["Pref"][0]['Area'][0]['City'][0]['IntensityStation'][0]['latlon']['lon'])

#intensidad:
dict['int'].append(jsonDataJMAEarthquakeData['Body']["Intensity"]["Observation"]["Pref"][0]['Area'][0]['MaxInt'])
i+=1
df=pd.DataFrame(dict)
display(df.head())   
'''df=pd.DataFrame(dict)
df.head()
'''

2022-11-20T18:21:00+09:00
2022-11-20 18:21:00
https://www.jma.go.jp/bosai/quake/data/20221120182125_20221120181734_VXSE5k_1.json
<Response [200]>


Unnamed: 0,mag,place,time,url,tsunami,sig,title,lng,lat,int
0,4.7,Off the Coast of Kushiro,2022-11-20T18:21:00+09:00,https://www.jma.go.jp/bosai/quake/data/2022112...,This earthquake poses no tsunami risk.\n,0,震源・震度情報,144.38,42.99,3


'df=pd.DataFrame(dict)\ndf.head()\n'

In [None]:
urlJMAEarthquakeData = "https://api.p2pquake.net/v2/jma/quake" + jsonDataJMAList[0]["json"]
responseJMAEarthquakeData = requests.get(urlJMAEarthquakeData)
print(responseJMAEarthquakeData)
jsonDataJMAEarthquakeData = responseJMAEarthquakeData.json()


https://www.jma.go.jp/bosai/quake/data/20221119095803_20221119095504_VXSE5k_1.json

### ***`Carga de datos de USGS`***

In [None]:
import traceback
def cargar_paises(anio,mes,dia_fin):
    
    '''
    Carga en postgres para cada mes los sismos de los tres paises (japón, usa ,chile) para el año y mes indicado en tres tablas distintas
    Sirve para respaldo
    
    '''
    #Lista de paises
    paises = ['usa', 'japon', 'chile']
    fecha_inicio_error=[]
    fecha_final_error=[]
    pais_error=[]
    error=[]
    for pais in paises:
        while anio > 1999:
            ultimo_dia=ultimoDia(anio, mes)
            # Armamos la cadena de fechas
            fecha_desde = f'{str(anio)}-{str(mes)}-01'
            fecha_hasta = f'{str(anio)}-{str(mes)}-{str(ultimo_dia)}'
            try:
                # Hacemos la consulta a la API en función del país de interés
                if pais == 'usa':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&jsonerror=true'
                elif pais == 'japon':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&minlatitude=27.000000&maxlatitude=44.000000&minlongitude=132.780000&maxlongitude=145.530000&jsonerror=true'
                elif pais == 'chile':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&minlatitude=-56.800000&maxlatitude=-19.000000&minlongitude=-79.000000&maxlongitude=-68.900000&jsonerror=true'

                #paso a df
                df = guardar_datos (url,pais)
                #corregimos las fechas
                df.time=df.time.apply(lambda x: datetime.datetime.fromtimestamp(int(x)//1000).strftime('%Y-%m-%d %H:%M:%S.%f') if x!=np.nan else x)
                df.time=df.time.apply(lambda x: datetime.datetime.strptime(x, '%Y-%m-%d %H:%M:%S.%f') if x!=np.nan else x)
                #Agrego columna con el nombre de país:
                df['pais']=pais
                #normalizamos cadenas de string
                df=limpieza_general_tabla(df)
                #Paso la tabla a Potgres
                df.to_sql(name=pais,con=cone, if_exists='append', index=False)
                print('La carga se ha hecho con exito!en la fecha:', fecha_desde,'hasta',fecha_hasta)
            except:
                #imprimo los errores
                #traceback.print_exc()
                print('Error en la carga en la fecha:', fecha_desde,'hasta',fecha_hasta,'del país:',pais)
                fecha_inicio_error.append(fecha_desde)
                fecha_final_error.append(fecha_hasta)
                pais_error.append(pais)
                error.append(traceback.print_exc())
            # Decrementamos el mes
            if mes == 1:
                # Reducimos el año
                anio -= 1
                mes = 12
            else:
                mes -= 1 
    errores=pd.DataFrame()
    errores['fecha_inicio']=fecha_inicio_error
    errores['fecha_final']=fecha_final_error
    errores['pais']=pais_error
    errores['error']=error
    display(errores)

In [None]:
#Ejecutamos la función
#Configuramos la fecha de inicio
anio = 2022
mes = 11
dia_fin = 0
cargar_paises(anio,mes,dia_fin)

df=limpieza_general_tabla(df)
df=df[df.place.str.contains('japan|chile')|df.pais.str.contains('usa')]

ERROR: raise AttributeError("Can only use .str accessor with string values!")

Error en la carga en la fecha: 2020-6-01 hasta 2020-6-30 del país: usa

Error en la carga en la fecha: 2019-7-01 hasta 2019-7-31 del país: usa

Error en la carga en la fecha: 2018-7-01 hasta 2018-7-31 del país: usa

Error en la carga en la fecha: 2018-6-01 hasta 2018-6-30 del país: usa

Error en la carga en la fecha: 2010-4-01 hasta 2010-4-30 del país: usa




In [None]:
'''df = pd.DataFrame([key for key in clients.keys()], columns=['Name'])
df['id'] = [value['id'] if 'id' in value.keys() else None for value in clients.values()]
df['email'] = [value['email'] if 'email' in value.keys() else None for value in clients.values()]
df['gender'] = [value['gender'] if 'gender' in value.keys() else None for value in clients.values()]
df['ip_address'] = [value['ip_address'] if 'ip_address' in value.keys() else None for value in clients.values()]
df['money'] = [value['money'] if 'money' in value.keys() else None for value in clients.values()]'''

"df = pd.DataFrame([key for key in clients.keys()], columns=['Name'])\ndf['id'] = [value['id'] if 'id' in value.keys() else None for value in clients.values()]\ndf['email'] = [value['email'] if 'email' in value.keys() else None for value in clients.values()]\ndf['gender'] = [value['gender'] if 'gender' in value.keys() else None for value in clients.values()]\ndf['ip_address'] = [value['ip_address'] if 'ip_address' in value.keys() else None for value in clients.values()]\ndf['money'] = [value['money'] if 'money' in value.keys() else None for value in clients.values()]"

In [None]:
def cargar_paises_sismos(anio,mes,dia_fin):
    '''
    Carga en postgres para cada mes los sismos de los tres paises (japón, usa ,chile) para el año y mes indicado en una única tabla de hechos
    Sirve para automatizar la carga incremental
    
    '''
    #Lista de paises
    paises = ['japon', 'usa' ,'chile']
    fecha_inicio_error=[]
    fecha_final_error=[]
    pais_error=[]

    while anio > 2000:
        #recorre la lista de paises
        for pais in paises:
            ultimo_dia=ultimoDia(anio, mes)
            # Armamos la cadena de fechas
            fecha_desde = f'{str(anio)}-{str(mes)}-01'
            fecha_hasta = f'{str(anio)}-{str(mes)}-{str(ultimo_dia)}'
            try:
                # Hacemos la consulta a la API en función del país de interés
                if pais == 'usa':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&jsonerror=true'
                elif pais == 'japon':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&minlatitude=27.000000&maxlatitude=44.000000&minlongitude=132.780000&maxlongitude=145.530000&jsonerror=true'
                elif pais == 'chile':
                    url = f'https://earthquake.usgs.gov/fdsnws/event/1/query?format=geojson&starttime={fecha_desde}&endtime={fecha_hasta}&minlatitude=-56.800000&maxlatitude=-19.000000&minlongitude=-79.000000&maxlongitude=-68.900000&jsonerror=true'

                #paso a df
                df = guardar_datos (url,pais)
                #corregimos las fechas
                df.time=df.time.apply(lambda x: datetime.datetime.fromtimestamp(int(x)//1000).strftime('%Y-%m-%d %H:%M:%S.%f') if x!=np.nan else x)
                #Le decimos que es formato fecha
                df.time=df.time.apply(lambda x: datetime.datetime.strptime(x, '%Y-%m-%d %H:%M:%S.%f') if x!=np.nan else x)
                #Agrego columna con el nombre de país:
                df['pais']=pais

                #normalizamos cadenas de string
                df=limpieza_general_tabla(df)

                #Paso la tabla a Potgres
                df.to_sql(name='sismos',con=cone, if_exists='append', index=False)
                print('La carga se ha hecho con exito!en la fecha:', fecha_desde,'hasta',fecha_hasta,'del país:',pais)
            
            except:
                #imprimo los errores
                #traceback.print_exc()
                print('Error en la carga en la fecha:', fecha_desde,'hasta',fecha_hasta,'del país:',pais)
                fecha_inicio_error.append(fecha_desde)
                fecha_final_error.append(fecha_hasta)
                pais_error.append(pais)


        # Decrementamos el mes
        if mes == 1:
            # Reducimos el año
            anio -= 1
            mes = 12
        else:
            mes -= 1 
    errores=pd.DataFrame()
    errores['fecha_inicio']=fecha_inicio_error
    errores['fecha_final']=fecha_final_error
    errores['pais']=pais_error

    display(errores)        

In [None]:
#Ejecutamos la función
# Configuramos la fecha de inicio
anio = 2022
mes = 11
dia_fin = 0
cargar_paises_sismos(anio,mes,dia_fin)