# Desafío

Aprendimos a manipular elementos textuales con el comando `str`. Luego, usamos expresiones regulares para limpiar elementos no deseados en el texto y, finalmente, transformamos el texto tratado en una lista, construyendo un token.

Durante las clases transformamos dos columnas `descripcion_local` y `comodidades` buscando la tokenización. Pero aún falta la columna `descripcion_vecindad`, que también merece la pena transformar.

Por lo tanto, en esta actividad te propongo realizar el proceso de tokenización para la columna `descripcion_vecindad` presente en el conjunto de datos `datos_hosting.json`.

No dudes en seguir los mismos pasos dados en clase o, si lo prefieres, realizar otras mejoras, como eliminar algunos caracteres o palabras vacías. En el apartado “Opinión del instructor” encontrarás una posible resolución para esta actividad.

## Datos anteriores

In [2]:
# Datos anteriores

import pandas as pd
import numpy as np

datos = pd.read_json("data/datos_hosting.json")
datos = pd.json_normalize(datos["info_inmuebles"])

columnas = list(datos.columns)

datos = datos.explode(columnas[3:])
datos.reset_index(inplace=True, drop=True)

datos["max_hospedes"] = datos["max_hospedes"].astype(np.int64)
datos[["cantidad_baños", "cantidad_cuartos", "cantidad_camas"]] = datos[
    ["cantidad_baños", "cantidad_cuartos", "cantidad_camas"]
].astype(np.int64)
datos["evaluacion_general"] = datos["evaluacion_general"].astype(np.float64)
datos.precio = datos.precio.apply(lambda x: x.replace("$", "").replace(",", "").strip())
datos["precio"] = datos["precio"].astype(np.float64)
datos[["cuota_deposito", "cuota_limpieza"]] = datos[
    ["cuota_deposito", "cuota_limpieza"]
].map(lambda x: x.replace("$", "").replace(",", "").strip())
datos[["cuota_deposito", "cuota_limpieza"]] = datos[
    ["cuota_deposito", "cuota_limpieza"]
].astype(np.float64)
datos["descripcion_local"] = datos["descripcion_local"].str.lower()
datos["descripcion_vecindad"] = datos["descripcion_vecindad"].str.lower()
datos["descripcion_local"] = datos["descripcion_local"].str.replace(
    r"[^a-zA-Z0-9\-\']", " ", regex=True
)
datos["descripcion_local"] = datos["descripcion_local"].str.replace(
    r"(?<!\w)-(?!\w)", " ", regex=True
)
datos["descripcion_local"] = datos["descripcion_local"].str.split()
datos["comodidades"] = datos["comodidades"].str.replace(r'\{|}|"', "", regex=True)
datos["comodidades"] = datos["comodidades"].str.split(",")

## Desarrollo

In [None]:
# eliminar caracteres extraños
datos["descripcion_vecindad"] = datos["descripcion_vecindad"].str.replace(r"[^a-zA-Z0-9\-\']",' ', regex=True)

# cuidar uso de guiones
datos["descripcion_vecindad"] = datos["descripcion_vecindad"].str.replace(r'(?<!\w)-(?!\w)', ' ', regex=True)

# transformar en lista
datos["descripcion_vecindad"] = datos["descripcion_vecindad"].str.split()

In [11]:
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c...",1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","[ballard, is, lovely, vibrant, and, one, of, t...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",[],1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",0.0,15.0,85.0


# Desafío 2

Pongamos nuevamente en práctica todo lo que aprendimos durante la clase. He puesto los 2 nuevos conjuntos de datos disponibles para descargar a continuación:

- Proyecto Desafío 1: Ventas Online - dados_vendas_clientes.json;
- Proyecto Desafío 2: Administración de Condominios - dados_locacao_imoveis.json.
Recuerda: Hay dos proyectos de tratamiento que se construirán durante el curso. Así que guarde su código de construcción para cada desafío para poder aplicarlo a desafíos posteriores.

Etapa 3

- Proyecto Desafío 1: Ventas Online
En el paso 2, trabajamos en la transformación de datos numéricos. Ahora podemos trabajar con valores textuales.

Debido a una inestabilidad en el sitio web de la empresa, tuvimos problemas con los nombres de los clientes durante el guardado. Esto resultó en una columna de nombres de clientes con una combinación de letras, mayúsculas y minúsculas, números y otros caracteres.

Sabiendo esto, manipula los textos de la columna `Cliente` para que el resultado sean los nombres de los clientes en letras minúsculas, con ausencia de caracteres especiales o números.

- Proyecto Desafío 2: Administración de Condominios
En el paso 2, trabajamos en transformar los datos numéricos. Ahora podemos trabajar con valores textuales.

Buscando explicar la organización de la identificación de los apartamentos, durante la creación del conjunto de datos se añadió el texto `(blocoAP)`. Este texto informa que los nombres de los apartamentos están organizados con la letra mayúscula seguida del número del apartamento. Sin embargo, esto no aporta ninguna información a nuestros datos, por lo que resulta interesante eliminar este texto del conjunto de datos.

Con esto, manipule los textos de la columna apartamento para eliminar el texto (blocoAP) del DataFrame.