In [10]:
import requests
import pandas as pd
import math
import json
import threading
import concurrent.futures
import os
import sys
from datetime import datetime

sys.path.append(os.path.dirname(os.getcwd()))

# Env Variables
from src.config.setup import SetupConfig

In [2]:
SetupConfig.DBN_CONN_STR

'postgresql+psycopg2://postgres:AquilesBrinco@127.0.0.1:5432/bd_accidentalidad_bgta'

In [3]:
SetupConfig.TABLE_ACCIDENTE

'historicaL_table_accidente'

In [None]:
a = 2

In [70]:
end_point_dmb = 'https://services2.arcgis.com/NEwhEo9GGSHXcRXV/arcgis/rest/services/AccidentalidadAnalisis/FeatureServer/0/query?where=1%3D1&outFields=*&outSR=4326&resultOffset=0&resultRecordCount=1000&f=json'
data_dmb_accidente = requests.get(end_point_dmb) # El límite de registros por petición es de 2000

response_json = data_dmb_accidente.json()
len(response_json['features'])

In [None]:
"""
Layers:
- Accidente: 0
- Lesionado: 1
- Muerto: 2
- Actor Vial: 3
- Causa: 4
- Vehiculo: 5
- Via: 6
"""

In [4]:
# Function to build endpoint
def build_endpoint(batch_size:int, offset:int, layer:int):
    """
    Construir endpoint para realizar peticiones y obtener datos.

    Args:
    - batch_size: El tamaño del lote
    - offset: El número de pasos hacia adelante que nos moveremos
    - layer: id de la capa a la cual accederemos
    """
    assert batch_size <= 2000, f"El tamaño del lote no puede ser superior a {2000}"
    return f'https://services2.arcgis.com/NEwhEo9GGSHXcRXV/arcgis/rest/services/AccidentalidadAnalisis/FeatureServer/{layer}/query?where=1%3D1&outFields=*&outSR=4326&resultOffset={offset}&resultRecordCount={batch_size}&f=json'


# Function to fetch total nro rows
def fetch_total_nro_rows_of_the_layer(layer):
    """
    Obtener el número total de registros de la capa elegida.

    Args:
    - Layer: La capa elegida

    Layers:
    - Accidente: 0
    - Lesionado: 1
    - Muerto: 2
    - Actor Vial: 3
    - Causa: 4
    - Vehiculo: 5
    - Via: 6
    """
    assert layer <= 6, f"La capa ingresada no está disponible, por favor revisar la documentación de la función para ver las capas disponibles!"
    
    # Set endpoint
    end_point_recount = f'https://services2.arcgis.com/NEwhEo9GGSHXcRXV/arcgis/rest/services/AccidentalidadAnalisis/FeatureServer/{layer}/query?where=1%3D1&outFields=*&returnCountOnly=true&outSR=4326&f=json'

    # Make request and decode response
    total_rows_response = requests.get(end_point_recount)
    total_rows_json = total_rows_response.json()
    
    return total_rows_json['count']

In [5]:
# Function para extraer datos desde la capa
def extract_data_raw_service(layer:int, batch_size:int=2000, offset_initial:int=0):
    """
    Obtener el conjunto de datos completo de la capa elegida desde la API disponible

    Args:
    - Layer: La capa elegida
    - batch_size: El tamaño del lote, por defecto 2000 (El límite superior aceptado)
    - offset_initial: El registro desde donde comenzaremos a hacer la extracción (Por defecto empezamos desde el primer registro)
    
    Layers:
    - Accidente: 0
    - Lesionado: 1
    - Muerto: 2
    - Actor Vial: 3
    - Causa: 4
    - Vehiculo: 5
    - Via: 6
    """
    try:
        # Obtener Nro Total de filas
        nro_total_rows_layer = fetch_total_nro_rows_of_the_layer(layer)

        # Nro Requests
        nro_requests = math.ceil(nro_total_rows_layer / batch_size)

        # Extract data
        df_consolidated = pd.DataFrame()

        for nro in range(nro_requests):
            try:
                # Build Endpoint
                end_point_layer = build_endpoint(batch_size, offset_initial, layer)

                # Make requests
                endpoint_response = requests.get(end_point_layer)

                # Extract content
                content_json = endpoint_response.json()

                # Build Dataframe
                cols_df = content_json['features'][0]['attributes'].keys()
                data_df = pd.DataFrame([feature['attributes'].values() for feature in content_json['features']], columns=cols_df)

                # Insertar data df en df consolidated
                df_consolidated = pd.concat([df_consolidated, data_df])

                #print(f'Lote nro {nro + 1} se extrajo exitosamente!')

                offset_initial += batch_size
            except Exception as e:
                print(f'Error al proceso el lote nro {nro} de páginas: {e}')

        return df_consolidated.reset_index(drop=True)
    
    except Exception as e:
        print(f'Error en el proceso de extracción de datos {str(e)}')

In [6]:
thread_local = threading.local()

# Definir la sesión
def get_session():
    """
    Devuelve una sesión de requests. Si no existe una sesión previamente en el hilo actual,
    crea una nueva y la almacena en un contexto local para reutilizarla en futuras solicitudes.
    """
    if not hasattr(thread_local, "session"):
        thread_local.session = requests.Session()
    return thread_local.session


# Hacer peticiones a la API
def make_request_to_api(endpoint):
    """
    Realiza una solicitud HTTP GET a una URL específica utilizando la sesión obtenida por get_session().
    Retorna el contenido de la respuesta como un objeto JSON. Maneja los errores de conexión y decodificación de JSON.
    
    Args:
        url (str): La URL a la que se va a realizar la solicitud HTTP.
        
    Returns:
        dict: El contenido de la respuesta como un objeto JSON.
    """
    try:
        # Obtener session
        session = get_session()

        with session.get(endpoint) as response:
            try:
                return response.json() # Retornar respuesta decodificada como json
            except json.JSONDecodeError as e:
                print(f'Error al decodificar JSON en la respuesta: {e}')
                
    except (requests.ConnectionError, requests.Timeout) as e:
        print(f'Error de conexión al procesar la solicitud: {e}')


# Obtener el listado total de endpoints a consultar
def get_total_endpoints(layer:int, batch_size:int=2000, offset_initial:int=0):
    """
    """
    try:
        # Obtener Nro Total de filas
        nro_total_rows_layer = fetch_total_nro_rows_of_the_layer(layer)

        # Nro Requests
        nro_requests = math.ceil(nro_total_rows_layer / batch_size)

        # Get pages
        list_endpoints = []
        for nro in range(nro_requests):
            # Build Endpoint
            end_point_layer = build_endpoint(batch_size, offset_initial, layer)

            # Add enpoint
            list_endpoints.append(end_point_layer)

            offset_initial += batch_size

        return list_endpoints
    
    except Exception as e:
        print(f'No se pudo recuperar la lista de endpoints: {e}')

In [162]:
list_endpoints = get_total_endpoints(0)

In [7]:
def extract_data_raw_service_v2(layer:int, batch_size:int=2000, offset_initial:int=0):
    """
    Obtener el conjunto de datos completo de la capa elegida desde la API disponible

    Args:
    - Layer: La capa elegida
    - batch_size: El tamaño del lote, por defecto 2000 (El límite superior aceptado)
    - offset_initial: El registro desde donde comenzaremos a hacer la extracción (Por defecto empezamos desde el primer registro)
    
    Layers:
    - Accidente: 0
    - Lesionado: 1
    - Muerto: 2
    - Actor Vial: 3
    - Causa: 4
    - Vehiculo: 5
    - Via: 6
    """
    import warnings
    warnings.filterwarnings("ignore", message="The behavior of .* is deprecated")
    
    # Get List of the endpoints
    list_endpoints = get_total_endpoints(layer, batch_size, offset_initial)

    with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor: # Limitamos a 10 hilos concurrentes
        responses = executor.map(make_request_to_api, list_endpoints)

    # Extract data
    df_consolidated = pd.DataFrame()

    for content_json in responses:
        try:
            if content_json:
                # Build Dataframe
                cols_df = content_json['features'][0]['attributes'].keys()
                data_df = pd.DataFrame([feature['attributes'].values() for feature in content_json['features']], columns=cols_df)

                # Insertar data df en df consolidated
                # data_df.dropna(axis=0, how='all')
                #data_df.fillna('missing', inplace=True)
                df_consolidated = pd.concat([df_consolidated, data_df])
        
        except KeyError as e:
            print(f"Error de clave en el resultado: {e}")

        except Exception as e:
            print(f'Error al procesar el resultado: {e}')

    return df_consolidated.reset_index(drop=True)

In [9]:
def transform_date(dataset:pd.DataFrame, col_date:str):
    """
    """
    # Create Dataframe Aux
    df_aux = dataset.copy()

    # Date to replace NAs - Timestamp format
    date_for_na = datetime(1975, 1, 1, 1, 0).timestamp() * 1000

    # Replace NAs
    df_aux[col_date] = (df_aux[col_date].fillna(date_for_na) / 1000).map(lambda d: datetime.fromtimestamp(math.floor(d)))

    return df_aux


def transform_all_dates(dataset:pd.DataFrame):
    """
    """
    # Create Dataframe Aux
    df_aux = dataset.copy()

    # Get dates
    dates_dataset = [fecha for fecha in df_aux.columns if 'FECHA' in fecha]

    # Set each date in dataset
    for date in dates_dataset:
        df_aux = transform_date(df_aux, date)

    return df_aux

In [167]:
for i in range(6):
    print(fetch_total_nro_rows_of_the_layer(i))

473883
250182
8106
1679376
683654
1443037


In [23]:
from datetime import datetime

# Supongamos que tienes un timestamp
timestamp = 1688083200
timestamp = 1712014090
#timestamp = 1712012200.378  # Por ejemplo
#timestamp = 1615911282


# Convierte el timestamp a objeto datetime
fecha_hora = datetime.fromtimestamp(timestamp)

# Ahora puedes formatear la fecha y hora como desees
print("Fecha y hora:", fecha_hora)

Fecha y hora: 2024-04-01 18:28:10


In [19]:
1.71201e+09 * 1

1712010000.0

Extract data

In [8]:
# Extract df accidentes
df_accidente = extract_data_raw_service_v2(0)
print(f'Dimensiones dataset: {df_accidente.shape}')

Dimensiones dataset: (473883, 18)


In [11]:
df_accidente.head(4)

Unnamed: 0,OBJECTID,FORMULARIO,CODIGO_ACCIDENTE,FECHA_OCURRENCIA_ACC,HORA_OCURRENCIA_ACC,ANO_OCURRENCIA_ACC,MES_OCURRENCIA_ACC,DIA_OCURRENCIA_ACC,DIRECCION,GRAVEDAD,CLASE_ACC,LOCALIDAD,MUNICIPIO,FECHA_HORA_ACC,LATITUD,LONGITUD,CIV,PK_CALZADA
0,1,A000640275,4484660,1497225600000,05:30:00,2017,JUNIO,LUNES,AV AVENIDA BOYACA-CL 79 02,SOLO DANOS,CHOQUE,ENGATIVA,BOGOTA DC,1497245400000,4.693807,-74.090924,10006772.0,221236.0
1,2,A001515603,10583520,1667001600000,10:55:00,2022,OCTUBRE,SABADO,KR 111 A - CL 79 02,SOLO DANOS,CHOQUE,ENGATIVA,BOGOTA DC,1667040900000,4.717638,-74.119697,10000591.0,
2,3,A1241594,449558,1355529600000,20:30:00,2012,DICIEMBRE,SABADO,KR 4-CL 91 02,SOLO DANOS,CHOQUE,CHAPINERO,BOGOTA DC,1355603400000,4.669288,-74.040677,2002328.0,35683.0
3,4,A001516620,10583513,1667260800000,14:58:00,2022,NOVIEMBRE,MARTES,KR 72 - CL 148 02,CON HERIDOS,CHOQUE,SUBA,BOGOTA DC,1667314680000,4.737015,-74.066101,11005846.0,


In [12]:
df_new_accidente = transform_all_dates(df_accidente)

In [14]:
df_new_accidente.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 473883 entries, 0 to 473882
Data columns (total 18 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   OBJECTID              473883 non-null  int64         
 1   FORMULARIO            473883 non-null  object        
 2   CODIGO_ACCIDENTE      473883 non-null  int64         
 3   FECHA_OCURRENCIA_ACC  473883 non-null  datetime64[ns]
 4   HORA_OCURRENCIA_ACC   473883 non-null  object        
 5   ANO_OCURRENCIA_ACC    473883 non-null  int64         
 6   MES_OCURRENCIA_ACC    473883 non-null  object        
 7   DIA_OCURRENCIA_ACC    473883 non-null  object        
 8   DIRECCION             473883 non-null  object        
 9   GRAVEDAD              473880 non-null  object        
 10  CLASE_ACC             473743 non-null  object        
 11  LOCALIDAD             473833 non-null  object        
 12  MUNICIPIO             473883 non-null  object        
 13 

In [191]:
# Extract df LESIONADO
df_lesionado = extract_data_raw_service_v2(1)
print(f'Dimensiones dataset: {df_lesionado.shape}')

Dimensiones dataset: (250182, 16)


In [192]:
df_lesionado.head(4)

Unnamed: 0,OBJECTID,CODIGO_ACCIDENTADO,FORMULARIO,FECHA_OCURRENCIA_ACC,HORA_OCURRENCIA_ACC,ANO_OCURRENCIA_ACC,MES_OCURRENCIA_ACC,DIA_OCURRENCIA_ACC,FECHA_HORA_ACC,DIRECCION,CLASE_ACC,LOCALIDAD,CODIGO_VEHICULO,CONDICION,GENERO,EDAD
0,1,12806435,A001395442,1647561600000,22:40:00,2022,MARZO,VIERNES,1647643200000,CL 127 - KR 55 02,CHOQUE,SUBA,2.0,PASAJERO,MASCULINO,15.0
1,2,12806433,A001395442,1647561600000,22:40:00,2022,MARZO,VIERNES,1647643200000,CL 127 - KR 55 02,CHOQUE,SUBA,2.0,PASAJERO,MASCULINO,16.0
2,3,12806431,A001395442,1647561600000,22:40:00,2022,MARZO,VIERNES,1647643200000,CL 127 - KR 55 02,CHOQUE,SUBA,2.0,PASAJERO,FEMENINO,54.0
3,4,12806430,A001395442,1647561600000,22:40:00,2022,MARZO,VIERNES,1647643200000,CL 127 - KR 55 02,CHOQUE,SUBA,2.0,CONDUCTOR,MASCULINO,35.0


In [15]:
# Extract df muerto
df_muerto = extract_data_raw_service_v2(2)
print(f'Dimensiones dataset: {df_muerto.shape}')

Dimensiones dataset: (8106, 18)


In [16]:
df_muerto.head(4)

Unnamed: 0,OBJECTID,CODIGO_ACCIDENTADO,FORMULARIO,FECHA_OCURRENCIA_ACC,HORA_OCURRENCIA_ACC,ANO_OCURRENCIA_ACC,MES_OCURRENCIA_ACC,DIA_OCURRENCIA_ACC,FECHA_HORA_ACC,DIRECCION,CLASE_ACC,LOCALIDAD,CODIGO_VEHICULO,CONDICION,MUERTE_POSTERIOR,FECHA_POSTERIOR_MUERTE,GENERO,EDAD
0,221,12806662,A001446730,1648166400000,02:00:00,2022,MARZO,VIERNES,1648173600000,CL 47 S- KR 85 A 02,CHOQUE,KENNEDY,1.0,MOTOCICLISTA,S,1648512000000.0,MASCULINO,36.0
1,324,12806777,A001395879,1648339200000,05:32:00,2022,MARZO,DOMINGO,1648359120000,KR 10 - CL 2 02,ATROPELLO,SANTA FE,1.0,MOTOCICLISTA,N,,MASCULINO,24.0
2,426,12806885,A001446872,1648252800000,22:50:00,2022,MARZO,SABADO,1648335000000,KR 12 D - CL 19 S 02,CHOQUE,ANTONIO NARINO,2.0,MOTOCICLISTA,N,,MASCULINO,40.0
3,428,12806889,A001446857,1648166400000,23:04:00,2022,MARZO,VIERNES,1648249440000,KR 14 - CL 3 S 02,VOLCAMIENTO,ANTONIO NARINO,1.0,MOTOCICLISTA,S,1650413000000.0,MASCULINO,27.0


In [86]:
from datetime import datetime
import math

timestamp = math.floor(df_muerto['FECHA_POSTERIOR_MUERTE'][0] / 1000)
#timestamp = 1712014090
#timestamp = 1712012200.378


# Convierte el timestamp a objeto datetime
fecha_hora = datetime.fromtimestamp(timestamp)

# Ahora puedes formatear la fecha y hora como desees
print("Fecha y hora:", fecha_hora)

Fecha y hora: 2022-03-28 19:00:00


In [55]:
date_for_na = datetime(1975, 1, 1).timestamp() * 1000

In [140]:
df_aux = transform_all_dates(df_muerto)

In [141]:
df_aux.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8106 entries, 0 to 8105
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   OBJECTID                8106 non-null   int64         
 1   CODIGO_ACCIDENTADO      8106 non-null   object        
 2   FORMULARIO              8106 non-null   object        
 3   FECHA_OCURRENCIA_ACC    8106 non-null   datetime64[ns]
 4   HORA_OCURRENCIA_ACC     8106 non-null   object        
 5   ANO_OCURRENCIA_ACC      8106 non-null   int64         
 6   MES_OCURRENCIA_ACC      8106 non-null   object        
 7   DIA_OCURRENCIA_ACC      8106 non-null   object        
 8   FECHA_HORA_ACC          8106 non-null   datetime64[ns]
 9   DIRECCION               8106 non-null   object        
 10  CLASE_ACC               8104 non-null   object        
 11  LOCALIDAD               8105 non-null   object        
 12  CODIGO_VEHICULO         4206 non-null   float64 

In [88]:
date_for_na

315554400000.0

In [91]:
datetime.fromtimestamp(date_for_na / 1000)

datetime.datetime(1975, 1, 1, 1, 0)

In [94]:
datetime.fromtimestamp(data_test[0] / 1000)

datetime.datetime(2022, 3, 28, 19, 0)

In [None]:
data_test.map(lambda d: datetime.fromtimestamp(math.floor(d)))

In [7]:
# Extract df Actor Vial
df_actor_vial = extract_data_raw_service_v2(3)
print(f'Dimensiones dataset: {df_actor_vial.shape}')

Dimensiones dataset: (1679376, 14)


In [8]:
df_actor_vial.head(4)

Unnamed: 0,OBJECTID,FORMULARIO,CODIGO_ACCIDENTADO,CODIGO_VICTIMA,CODIGO_VEHICULO,CONDICION,ESTADO,MUERTE_POSTERIOR,FECHA_POSTERIOR_MUERTE,GENERO,FECHA_NACIMIENTO,EDAD,CODIGO,CONDICION_VEHICULO
0,1,A001395442,12806435,4,2.0,PASAJERO,HERIDO,N,,MASCULINO,1167419000000.0,15.0,10566396-2,PASAJERO
1,2,A001395442,12806433,3,2.0,PASAJERO,HERIDO,N,,MASCULINO,1134155000000.0,16.0,10566396-2,PASAJERO
2,3,A001395442,12806431,2,2.0,PASAJERO,HERIDO,N,,FEMENINO,-71211600000.0,54.0,10566396-2,PASAJERO
3,4,A001395442,12806430,1,2.0,CONDUCTOR,HERIDO,N,,MASCULINO,542790000000.0,35.0,10566396-2,CONDUCTOR
