In [34]:
import pandas as pd 
import requests
import re
from unicodedata import normalize
from IPython.display import clear_output
from datetime import date, datetime


def remove_tildes(string: str) -> str:
    string = re.sub(
        r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+", r"\1", 
        normalize("NFD", string), 0, re.I
    )
    string = normalize("NFC", string)
    return string

In [15]:
data1 = pd.read_csv(f'./raw/Procesos_en_Casas_de_Justicia_20241103.csv', engine='python')
data1

Unnamed: 0,IdSolicitud,NomEntidad,NomCasaJusticia,FechaSolicitud
0,481137,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,Casa de Justicia Cajicá,10/21/2019
1,3930874,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,Casa de Justicia Cajicá,2019-05-08T00:00:00.000
2,414466,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,Casa de Justicia Cajicá,09/16/2019
3,441614,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,Casa de Justicia Cajicá,09/30/2019
4,39309,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,Casa de Justicia Cajicá,2019-05-08T00:00:00.000
...,...,...,...,...
3737187,6998858,Conciliación en Equidad,Casa de Justicia Santa Marta,2024-09-30 18:32:12.7903092
3737188,6998861,Conciliación en Equidad,Casa de Justicia Santa Marta,2024-09-30 18:38:10.1276910
3737189,6998863,Conciliación en Equidad,Casa de Justicia Santa Marta,2024-09-30 18:59:42.8782731
3737190,6998867,Conciliación en Equidad,Casa de Justicia Santa Marta,2024-09-30 20:03:26.6302227


In [16]:
data1.isna().sum()

IdSolicitud           0
NomEntidad         1334
NomCasaJusticia       0
FechaSolicitud        0
dtype: int64

In [17]:
data2 = pd.read_csv(f"./processed/directorio_casas_de_justicia*.csv")
data2

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CASA DE JUSTICIA
0,AMAZONAS,LETICIA,CASA DE JUSTICIA LETICIA
1,ANTIOQUIA,AMALFI,CASA DE JUSTICIA AMALFI
2,ANTIOQUIA,ANORI,CASA DE JUSTICIA ANORI
3,ANTIOQUIA,APARTADO,CASA DE JUSTICIA APARTADO
4,ANTIOQUIA,BELLO,CASA DE JUSTICIA BELLO
...,...,...,...
153,BOGOTA,BOGOTA,CASA DE JUSTICIA BOGOTA USAQUEN
154,BOGOTA,BOGOTA,CASA DE JUSTICIA BOGOTA CALLE 45
155,BOGOTA,BOGOTA,CASA DE JUSTICIA BOGOTA ENGATIVA
156,SAN ANDRES,SAN ANDRES,CASA DE JUSTICIA SAN ANDRES


## Include longitude and latitude, and information about municipality and department

In [18]:
data1["NomCasaJusticia"] = data1["NomCasaJusticia"].apply(remove_tildes)
data1["NomCasaJusticia"] = data1["NomCasaJusticia"].apply(str.upper)
data1

Unnamed: 0,IdSolicitud,NomEntidad,NomCasaJusticia,FechaSolicitud
0,481137,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,10/21/2019
1,3930874,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-05-08T00:00:00.000
2,414466,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,09/16/2019
3,441614,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,09/30/2019
4,39309,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-05-08T00:00:00.000
...,...,...,...,...
3737187,6998858,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30 18:32:12.7903092
3737188,6998861,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30 18:38:10.1276910
3737189,6998863,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30 18:59:42.8782731
3737190,6998867,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30 20:03:26.6302227


### Include departments and municipality

In [19]:
df = pd.merge(data1, data2, left_on="NomCasaJusticia", right_on="CASA DE JUSTICIA")
del df["CASA DE JUSTICIA"]
df

Unnamed: 0,IdSolicitud,NomEntidad,NomCasaJusticia,FechaSolicitud,DEPARTAMENTO,MUNICIPIO
0,481137,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,10/21/2019,CUNDINAMARCA,CAJICA
1,3930874,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-05-08T00:00:00.000,CUNDINAMARCA,CAJICA
2,414466,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,09/16/2019,CUNDINAMARCA,CAJICA
3,441614,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,09/30/2019,CUNDINAMARCA,CAJICA
4,39309,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-05-08T00:00:00.000,CUNDINAMARCA,CAJICA
...,...,...,...,...,...,...
3607567,6998858,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30 18:32:12.7903092,MAGDALENA,SANTA MARTA
3607568,6998861,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30 18:38:10.1276910,MAGDALENA,SANTA MARTA
3607569,6998863,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30 18:59:42.8782731,MAGDALENA,SANTA MARTA
3607570,6998867,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30 20:03:26.6302227,MAGDALENA,SANTA MARTA


In [20]:
df.isna().sum()

IdSolicitud           0
NomEntidad         1310
NomCasaJusticia       0
FechaSolicitud        0
DEPARTAMENTO          0
MUNICIPIO             0
dtype: int64

### Include longitude and latitude

Temporarily is not being used, because some ideas changed so this has to be reformed

In [None]:
def get_coordinates(place_name: str) -> tuple[float, float] | None:
    url = 'https://nominatim.openstreetmap.org/search'
    params = {
        'q': str(place_name),      
        'format': 'json',      
        'addressdetails': 1,   
        'limit': 1             
    }

    headers = {
        'User-Agent': 'TuApp/1.0 (tucorreo@dominio.com)'
    }

    response = requests.get(url, params=params, headers=headers)
    if response.status_code != 200:
        return None

    data1 = response.json()
    if not data1:
        return None
    
    if data1[0]['address']['country_code'] != 'co':
        return None

    lat = data1[0]['lat']
    lon = data1[0]['lon']
    return lat, lon


In [None]:
df = data1.copy()
row = data1['NomCasaJusticia'].unique()

for index, place in enumerate(row):
    clear_output(wait=True)

    display(f'{index + 1} / {len(row)}: {place}')

    response = get_coordinates(place)
    if not response:
        df = df.drop(data1[data1['NomCasaJusticia'] == place].index)
        continue

    df.loc[df['NomCasaJusticia'] == place, ['lat', 'lon']] = response

df

In [10]:
df.isna().sum()

IdSolicitud          0
NomEntidad         413
NomCasaJusticia      0
FechaSolicitud       0
lat                  0
lon                  0
municipality         0
department           0
dtype: int64

## Fix date format

In [21]:
df['FechaSolicitud']

0                           10/21/2019
1              2019-05-08T00:00:00.000
2                           09/16/2019
3                           09/30/2019
4              2019-05-08T00:00:00.000
                      ...             
3607567    2024-09-30 18:32:12.7903092
3607568    2024-09-30 18:38:10.1276910
3607569    2024-09-30 18:59:42.8782731
3607570    2024-09-30 20:03:26.6302227
3607571    2024-09-30 20:06:36.7694749
Name: FechaSolicitud, Length: 3607572, dtype: object

In [None]:
def date_convert(fecha):
    formatos = [
        "%m/%d/%Y",              # formato MM/DD/YYYY
        "%Y-%m-%dT%H:%M:%S.%f",  # formato ISO con milisegundos
        "%Y-%m-%d %H:%M:%S.%f",  # formato con milisegundos y espacios
        "%Y-%m-%d",              # formato YYYY-MM-DD
        "%m/%d/%Y %H:%M:%S",     # formato MM/DD/YYYY HH:MM:SS
    ]
    
    for fmt in formatos:
        try:
            return pd.to_datetime(fecha, format=fmt)
        except ValueError:
            continue
    return pd.NaT

In [24]:
df['FechaSolicitud'] = df['FechaSolicitud'].apply(date_convert)
df['FechaSolicitud'] = df['FechaSolicitud'].dt.strftime('%Y-%m-%d')
invalid_dates = df['FechaSolicitud'].isna().sum()
print(f"Fechas no válidas encontradas después del intento de conversión: {invalid_dates}")

Fechas no válidas encontradas después del intento de conversión: 0


In [25]:
df

Unnamed: 0,IdSolicitud,NomEntidad,NomCasaJusticia,FechaSolicitud,DEPARTAMENTO,MUNICIPIO
0,481137,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-10-21,CUNDINAMARCA,CAJICA
1,3930874,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-05-08,CUNDINAMARCA,CAJICA
2,414466,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-09-16,CUNDINAMARCA,CAJICA
3,441614,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-09-30,CUNDINAMARCA,CAJICA
4,39309,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-05-08,CUNDINAMARCA,CAJICA
...,...,...,...,...,...,...
3607567,6998858,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30,MAGDALENA,SANTA MARTA
3607568,6998861,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30,MAGDALENA,SANTA MARTA
3607569,6998863,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30,MAGDALENA,SANTA MARTA
3607570,6998867,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30,MAGDALENA,SANTA MARTA


## Craft some extras features

In [51]:
days = []
months = []
years = []
day_of_week = []

for x in df["FechaSolicitud"].tolist():
    x = datetime.strptime(x, "%Y-%m-%d").date()
    
    days.append(x.day)
    months.append(x.month)
    years.append(x.year)
    day_of_week.append(x.isoweekday())


In [52]:
df["days"] = days
df["months"] = months
df["years"] = years
df["day_of_week"] = day_of_week

In [53]:
df

Unnamed: 0,IdSolicitud,NomEntidad,NomCasaJusticia,FechaSolicitud,DEPARTAMENTO,MUNICIPIO,days,months,years,day_of_week
0,481137,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-10-21,CUNDINAMARCA,CAJICA,21,10,2019,1
1,3930874,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-05-08,CUNDINAMARCA,CAJICA,8,5,2019,3
2,414466,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-09-16,CUNDINAMARCA,CAJICA,16,9,2019,1
3,441614,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-09-30,CUNDINAMARCA,CAJICA,30,9,2019,1
4,39309,UNIVERSIDAD FACULTAD DE DERECHO CONSULTORIOJ...,CASA DE JUSTICIA CAJICA,2019-05-08,CUNDINAMARCA,CAJICA,8,5,2019,3
...,...,...,...,...,...,...,...,...,...,...
3607567,6998858,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30,MAGDALENA,SANTA MARTA,30,9,2024,1
3607568,6998861,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30,MAGDALENA,SANTA MARTA,30,9,2024,1
3607569,6998863,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30,MAGDALENA,SANTA MARTA,30,9,2024,1
3607570,6998867,Conciliación en Equidad,CASA DE JUSTICIA SANTA MARTA,2024-09-30,MAGDALENA,SANTA MARTA,30,9,2024,1


In [54]:
df.to_csv("./processed/Procesos_casas_de_justicia.csv")