## Curso Python para Economistas
### Trabajo Práctico Nº 4

### Fecha de entrega:
Sábado 21/10 a las 18:00 hs

### Modalidad de entrega y trabajo
- Este TP es **grupal**. _Al definir los integrantes del grupo, tengan en cuenta los días de gracia disponibles que tiene cada uno_.
- Un miembro del grupo debe crear un repositorio **privado** en GitHub, y dar acceso a sus compañeros y a los 5 profesores.
- **Todos los miembros del grupo deben haber hecho al menos un commit con contribuciones sustanciales**. Tengan esto en cuenta especialmente si, por ejemplo, van a estar trabajando en una misma computadora.
- Corroborar que el nombre de usuario que tienen configurado para `git` es el mismo nombre de usuario de GitHub. Para hacer esto, se puede correr `git config --list` en `cmd` oterminal.
- Cuando hayan hecho ese último commit, copien la URL para clonar su repositorio y péguenla en
[este Google Sheet](https://docs.google.com/spreadsheets/d/1JmrvClRxxb3luzbDrzAMUC2cfQXyGIV0cev0JTi_Ff4/edit?usp=sharing), en la hoja del TP4. Agreguen los nombres de los integrantes del grupo. Al ser un repositorio privado, sólo los colaboradores habilitados podrán clonarlo.
- Al finalizar el trabajo práctico deben hacer un último commit y push en su repositorio de GitHub con el mensaje `"Entrega final del TP4"`. Antes de la fecha y hora de entrega pueden hacer cuantos cambios quieran en el repositorio, pero luego de la hora de corte no deben hacer más cambios. Si un commit con el mensaje anterior se realiza luego de la hora de entrega, se supondrá que la entrega tardía fue intencional y se utilizarán los días de gracia. La última versión en el repositorio es la que será evaluada. Para esto es importante que no completen el Google Sheet hasta que no hayan finalizado el TP, como tampoco hacer pushes posteriores a la entrega.

In [None]:
# Corrige: Agostina Zulli (agostinazulli@gmail.com)
#   Los comentarios están al final de cada ejercicio y/o bajo el prefijo ## CC:. Tip: pueden buscar con ctrl+F ## CC 
#   para buscar todos los comentarios.

#### NOTA TP: ---------------------------------------------------------------------------------------------------

# Parámetros
cant_ejercicios = 9
ponderacion = [0.1, 0.05, 0.05, 0.05, 0.05, 0.15, 0.15, 0.2, 0.2]
puntos = [10,10,10,10,9,10,9,9,7]

# Verifica que todo esté ok
assert cant_ejercicios == len(ponderacion), "La cantidad de ejercicios no es la misma que los ponderadores! Verificar..."
assert cant_ejercicios == len(puntos), "Falta la nota de algún ejercicio! Verificar..."
assert sum(ponderacion) == 1, "Los ponderadores no suman! Verificar..." 

# Imprime la nota

ptos_tot=0
for i in range(cant_ejercicios):
    print(f"Nota del ejercicio {i+1}: {puntos[i]}/10, que respresentan un {int(ponderacion[i]*100)}% de la nota total")
    ptos_tot += puntos[i]*ponderacion[i]

print(f"##########################################")
print(f"#####   La nota de este TP es {round(ptos_tot,3)}   #####")
print(f"##########################################")

### Ejercicios

En el siguiente trabajo vamos a trabajar con datos de domicilios (muy) malformados, que se encuentran en el archivo `Clase4/archivos/domicilios.csv` de este repositorio. 


Primero, leamos el contenido del archivo:

In [None]:
# Para correr este código como está debemos ubicarnos en
# el directorio Clase4 del repositorio, por ejemplo haciendo
# import os
# os.chdir("Clase4")

with open("domicilios.csv", encoding="latin1") as domicilios_f:
    domicilios = domicilios_f.readlines()
    header = domicilios.pop(0) # quitamos el encabezado (primera línea) del archivo

In [None]:
# Examinemos el contenido
domicilios

La mayoría de las líneas contienen el ID del domicilio, el nombre de un barrio, el número de manzana y el número de casa. Vamos a enfocarnos sólo en las que tienen estos campos. 

Notar que los nombres de los barrios suelen estar precedidos por `B`, `Bº` o similar; los códigos de manzana (que pueden ser letras, números o combinaciones) por `M`, `MZ`, `MZA` o similar (seguido de espacios, `.`, `:`, etc.); y los números de casa por `C`, `CS`, `CSA`, `CASA` o similar; pero hay una gran variedad.


Además, la manzana y la casa no aparecen siempre en ese orden.

El objetivo de este trabajo es utilizar expresiones regulares para _parsear_ estos strings y darles un formato estructurado. _Notar que no vamos a intentar parsear todos los domicilios. Esta sería una tarea imposible, porque están realmente muy malformados._ La idea es utilizar lo que aprendimos para parsear un buen número de ellos, con la ayuda de widgets.

### Consignas

1. Utilizar el método [`strip`](https://docs.python.org/3/library/stdtypes.html#str.strip) de `string`'s para quitar el salto de línea final (`"\n"`) de cada elemento de la lista. [Este link](https://j2logo.com/eliminar-espacios-en-blanco-string-strip-python/) puede ser de ayuda.

In [None]:
# Eliminar el salto de línea al final de cada elemento en la lista
domicilios = [linea.strip() for linea in domicilios]

# Verificar el resultado
for linea in domicilios:
    print(linea)

In [None]:
## CC. Excelente. 10/10

2. Separar el número que representa el ID del domicilio, del `string` que representa al domicilio en sí. El resultado debe ser una lista anidada, donde cada elemento de la lista maestra esté compuesto por estos dos componentes. Utilizar expresiones regulares y el método `group` para hacerlo.

In [None]:
import re

# Definir una expresión regular para capturar el ID del domicilio y el domicilio en sí
# Suponemos que el ID es un número al inicio de la cadena
domicilio_regex = re.compile(r'^(\d+)\s*(.*)')

# Crear una lista para almacenar los resultados
domicilios_separados = []

# Iterar sobre las líneas de domicilios
for linea in domicilios:
    # Buscar coincidencias con la expresión regular
    match = domicilio_regex.match(linea)
    
    # Si encontramos una coincidencia, agregarla a la lista de resultados
    if match:
        id_domicilio, direccion = match.groups()
        domicilios_separados.append([id_domicilio, direccion])
    else:
        # Si no encontramos una coincidencia, agregar la línea original para no perder información
        domicilios_separados.append([None, linea])

# Verificar el resultado
for domicilio in domicilios_separados:
    print(domicilio)

In [None]:
## CC 
# Muy bien. 10/10 

3. Crear un DataFrame, llamado `domicilios_df`, con las columnas `ID` y `string_crudo`. El contenido debe ser la lista anidada creada arriba. Recordar que se puede crear un DataFrame pasando al constructor `pd.DataFrame` directamente la lista anidada.

In [None]:
import pandas as pd

# Crear un DataFrame a partir de la lista anidada
domicilios_df = pd.DataFrame(domicilios_separados, columns=['ID', 'string_crudo'])

# Mostrar las primeras filas del DataFrame para verificar que se ha creado correctamente
print(domicilios_df.head())

In [None]:
## CC 
# 10/10

4. Agregar al `DataFrame` las columnas `barrio`, `manzana`, `casa`, `lote` (todas de tipo `string`), pero inicialmente vacías (es decir, con `None`). En los siguientes incisos vamos a poblar estos campos usando expresiones regulares para parsear la columna `string_crudo`.

In [None]:
# Agregar nuevas columnas con valores None
domicilios_df['barrio'] = None
domicilios_df['manzana'] = None
domicilios_df['casa'] = None
domicilios_df['lote'] = None

# Mostrar las primeras filas del DataFrame para verificar que las columnas se han agregado correctamente
print(domicilios_df.head())


In [None]:
## CC
# Muy bien. 10/10

5. Empecemos primero analizando un `string_crudo` particular: `"B° SAN LUIS XV(15);C: 03;;M: G;"`

Escribir una expresión regular que contenga grupos (sub-expresiones regulares escritas entre paréntesis) y permita extraer los campos `barrio`, `manzana`, `casa` y `lote` del `string_crudo` anterior. Usarla para extraer estos campos en un diccionario. El resultado debería ser `{"barrio": "SAN LUIS XV(15)", "manzana": "G", "casa": "03"}`.

In [None]:
import re

string_crudo = "B° SAN LUIS XV(15);C: 03;;M: G;"

# Definir la expresión regular con grupos para extraer barrio, manzana, casa y lote
pattern = re.compile(
    r'B[°º]?\s*([^;]*)(?:;C:\s*(\d+))?(?:;M:\s*([^;]*))?(?:;L:\s*([^;]*))?',
    re.IGNORECASE
)

# Buscar coincidencias en el string_crudo
match = pattern.match(string_crudo)
if match:
    # Extraer los grupos y crear el diccionario
    barrio, casa, manzana, lote = match.groups()
    resultado = {"barrio": barrio, "manzana": manzana, "casa": casa, "lote": lote}
    print(resultado)
else:
    print("No se encontraron coincidencias")

In [None]:
## CC 9/10

# Estuvieron muy cerca. Solamente les faltó recuperar la manzana. 
# Les dejo una propuesta de expresion regular:
# r'^(B[°]) (.*);([CASA]): (.*);;(M:) (.*);'

# Otro consejo, al usar la funcion groups() lo que estan haciendo es, a un string, dividirlo en las expresiones que ustedes definieron 
# entonces, indicando el numero de grupo, pueden reordenar a su gusto las expresiones regulares que extraigan y así 
# completar cada key con el elemento correspondiente. Les dejo un ejemplo:

In [None]:
resultado = {}

string_crudo = "B° SAN LUIS XV(15);C: 03;;M: G;"

# Definimos la expresión regular para obtener el barrio, la manzana y la casa del string creado 
regex = r"^(B[°]) (.*);([CASA]): (.*);;(M:) (.*);"
regex = re.compile(regex)

# Realizar la coincidencia
coincidencia = regex.match(string_crudo)

# Verificar si hay coincidencia
if coincidencia:
    resultado["barrio"] = coincidencia.group(2)
    resultado["manzana"] = coincidencia.group(6)
    resultado["casa"] = coincidencia.group(4)

    print(resultado)
else:
    print("No se encontró coincidencia.")


6. Dependiendo de cómo hayan escrito la expresión regular anterior, puede ser más o menos general. Vamos a determinar cuántos domicilios satisfacen la expresión regular que escribieron en 5).
Para eso, crear un widget tipo `Textarea` donde puedan escribir una expresión regular, y una función reactiva a este widget (usando `interact`) en que determine cuántos domicilios satisfacen la expresión regular e imprima este número.

In [None]:
import ipywidgets as widgets
from IPython.display import display
from ipywidgets import interact
import re

# Definir la función que se ejecutará cuando cambie el contenido del widget
def contar_domicilios(expr_reg):
    pattern = re.compile(expr_reg, re.IGNORECASE)
    count = 0
    for domicilio in domicilios_df['string_crudo']:
        if pattern.search(domicilio):
            count += 1
    print(f"Número de domicilios que satisfacen la expresión regular: {count}")

# Crear el widget Textarea
expr_reg_widget = widgets.Textarea(
    value='B[°º]?\\s*([^;]*)(?:;C:\\s*(\\d+))?(?:;M:\\s*([^;]*))?(?:;L:\\s*([^;]*))?',
    placeholder='Escribe aquí tu expresión regular',
    description='Expr. Reg.:',
    disabled=False,
    layout=widgets.Layout(width='100%', height='100px')
)

# Utilizar interact para crear una función reactiva vinculada al widget
interact(contar_domicilios, expr_reg=expr_reg_widget);


In [None]:
## Todo ok. 10/10

7. Crear una nueva función para `interact`, basada en la función del punto 6), pero que reciba un segundo argumento, dado por un segundo widget que tome un valor booleano. Dependiendo de este valor, la función decidirá mostrar las filas de `domicilios_df` para las cuales la columna `string_crudo` satisface a la expresión regular del primer widget, o las que no la cumplen. Deben mirar la documentación de widgets para determinar qué tipo de widget usar en este caso: https://ipywidgets.readthedocs.io/en/latest/examples/Widget%20List.html. Usar para los widgets una descripción adecuada.

In [None]:
# Definir la función para interact
def filtrar_y_mostrar_domicilios(expr_reg, mostrar_cumplen):
    pattern = re.compile(expr_reg, re.IGNORECASE)
    
    def cumple_expresion(domicilio):
        return bool(pattern.search(domicilio))
    
    if mostrar_cumplen:
        resultado = domicilios_df[domicilios_df['string_crudo'].apply(cumple_expresion)]
    else:
        resultado = domicilios_df[~domicilios_df['string_crudo'].apply(cumple_expresion)]
    
    if not resultado.empty:
        display(resultado)
    else:
        print("No se encontraron coincidencias")

# Crear los widgets
expr_reg_widget = widgets.Textarea(
    value='B[°º]?\\s*([^;]*)(?:;C:\\s*(\\d+))?(?:;M:\\s*([^;]*))?(?:;L:\\s*([^;]*))?',
    description='Expr. Reg.:',
    layout=widgets.Layout(width='100%', height='100px')
)

mostrar_cumplen_widget = widgets.Checkbox(
    value=True,
    description='Mostrar los que cumplen',
    disabled=False
)

# Crear la interacción
interact(filtrar_y_mostrar_domicilios, expr_reg=expr_reg_widget, mostrar_cumplen=mostrar_cumplen_widget);


In [None]:
## CC Muy bien. 9/10

## Recuerden que al definir una funcion es una buena práctica incluir docstrings 
# para documentar tu código y proporcionar información para una persona externa que este leyendo el código.

8. Crear una lista de unas 5 expresiones regulares que permitan parsear distintos domicilios del DataFrame. Para hacerlo pueden usar el widget del ejercicio anterior para, iterativamente, ir probando distintas expresiones regulares. Examinando los registros que _no_ matcheen, podrán entonces pensar en la siguiente expresión regular de la lista. Dejar la lista de expresiones regulares como comentario, y mencionar cuántos registros matchean en cada caso.

In [None]:
# Ejemplo de lista de expresiones regulares
expresiones_regulares = [
    r'B[°º]?[\s-]*(.*?);?M[ZNA]?[:.\s-]*(.*?);?C[A-Z]*[:.\s-]*(\d+)',  # B° Barrio Mz X Casa Y
    r'(?i)(?:manzana|mz)[.\s-]*(\d+)[.\s-]*(?:lote|lt)[.\s-]*(\d+)',   # Manzana X Lote Y
    r'(?i)(?:barrio|b)[.\s-]*(.*?);?C[A-Z]*[:.\s-]*(\d+)',              # Barrio X Casa Y
    r'(?i)(?:calle|c)[.\s-]*(.*?);?N[°.\s-]*(\d+)',                     # Calle X N° Y
    r'(?i)(?:lote|lt)[.\s-]*(\d+)[.\s-]*(?:manzana|mz)[.\s-]*(\d+)'     # Lote X Manzana Y
]

# Función para contar cuántos registros matchean con cada expresión regular
def contar_matches(expresiones, dataframe):
    for i, expr in enumerate(expresiones, start=1):
        pattern = re.compile(expr, re.IGNORECASE)
        matches = dataframe['string_crudo'].apply(lambda x: bool(pattern.search(x)))
        total_matches = matches.sum()
        print(f"Expresión regular {i}: {total_matches} registros matchean.")

# Llamar a la función con la lista de expresiones regulares y el DataFrame
contar_matches(expresiones_regulares, domicilios_df)


In [None]:
## CC Muy bien. 9/10
# Faltó incluir un docstring que describa la función y cuales son los imputs y output.

9. Ahora poblemos los campos faltantes del DataFrame `domicilios_df`. Para eso, vamos a crear una función para ser pasada al método `apply` de DataFrame's. Esta función debe ser tal que reciba una lista de expresiones regulares (como la `lista_regex` de arriba), pruebe las mismas una a una, y si alguna matchea con `string_crudo`, pueble los campos restantes del `domicilios_df` con la información extraída. Finalmente, utilizar esta función dentro de `apply` para poblar el DataFrame.

In [None]:
# Definir la función para aplicar a cada fila del DataFrame
def rellenar_campos(row, lista_regex):
    for expr in lista_regex:
        match = re.match(expr, row['string_crudo'])
        if match:
            # Suponiendo que los grupos de tu expresión regular se corresponden en orden con barrio, manzana, casa y lote
            row['barrio'] = match.group(1) if match.group(1) else None
            row['manzana'] = match.group(2) if match.group(2) else None
            row['casa'] = match.group(3) if match.group(3) else None
            row['lote'] = match.group(4) if match.group(4) else None
            break  # Si encuentras una coincidencia, no necesitas seguir buscando
    return row

# Aplicar la función a cada fila del DataFrame
domicilios_df = domicilios_df.apply(rellenar_campos, axis=1, lista_regex=expresiones_regulares)

# Verificar los resultados
print(domicilios_df)


In [None]:
## CC 7/10.
# La funcion no logra rellenar ninguna fila. 
# Faltó el docstring de la función. 
# Abajo les dejo una opción que rellena algunos campos y pueden verlos con el print 

In [None]:
lista_regex = ["^B°\s(.*);C:\s(\d+);(.*);M:\s(\w+)",
                "(B°)\s(.*);(\w+).(\d+);(\w).(\d+)",
                "(Bø) (.*):;(.*);(.*);();()"]
# Definir la función para aplicar a cada fila del DataFrame
def rellenar_campos(row):
    string_crudo = row['string_crudo']
    for campo in lista_regex:
        regex = re.compile(campo)
        match = re.search(campo, row['string_crudo'])
        if match:
            # Suponiendo que los grupos de tu expresión regular se corresponden en orden con barrio, manzana, casa y lote
            print(row.string_crudo)
            row['barrio'] = match.group(1), 
            row['manzana'] = match.group(2),
            row['casa'] = match.group(3),
            row['lote'] = match.group(4), 
        else:
            print("fila sin cambio")
    return row

# Aplicar la función a cada fila del DataFrame
domicilios_df = domicilios_df.apply(rellenar_campos, axis=1)

# Verificar los resultados
print(domicilios_df)