<a href="https://colab.research.google.com/github/MiyoBran/Alura-ONE-G9/blob/main/formacion-Aprendiendo-a-hacer-ETL-G9-ONE/03-pandas-transformacion-manipulacion-datos/ETL_03_Pandas_Tratamiento_Manipulacion_Datos_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


#**PROBLEMA DE NEGOCIO**


---




Se trata de un algoritmo capaz de analizar las caracter√≠sticas de una propiedad -como comodidades, tama√±o, ocupaci√≥n del espacio en un per√≠odo determinado- y sugerir al anfitri√≥n un precio a cobrar por tarifas diarias que garantice ganancias en momentos de alta demanda.

##**1. Entendiendo el Problema**


---




### üßπ Data Wrangling: Ingesta de JSON Anidado

**El Problema T√©cnico (Datos Semi-Estructurados):**
A diferencia de un archivo CSV (que es inherentemente plano y tabular), el formato JSON soporta jerarqu√≠as profundas (diccionarios dentro de listas, dentro de diccionarios).

Al utilizar la funci√≥n base `pd.read_json()`, Pandas mapea el primer nivel del JSON a columnas. Si los valores internos son tambi√©n estructuras complejas, Pandas no las desglosa autom√°ticamente; las inserta como objetos tipo `dict` dentro de la celda de la columna. Esto hace que los datos sean inutilizables para an√°lisis matem√°tico o estad√≠stico directo, requiriendo un proceso posterior de **Normalizaci√≥n** (Flattening).

**Ejemplo del comportamiento por defecto:**
```python
import pandas as pd

# Lectura directa del archivo JSON crudo
ruta_archivo = '/content/datos_hosting.json'
datos = pd.read_json(ruta_archivo)

# Inspecci√≥n inicial: Revela diccionarios anidados en las celdas
display(datos.head())
```

In [2]:
import pandas as pd

In [3]:
#Los datos necesitan ser normalizados
datos = pd.read_json('/content/drive/MyDrive/Pandas/datos_hosting.json')
datos.head()

Unnamed: 0,info_inmuebles
0,"{'evaluacion_general': '10.0', 'experiencia_lo..."
1,"{'evaluacion_general': '10.0', 'experiencia_lo..."
2,"{'evaluacion_general': '10.0', 'experiencia_lo..."
3,"{'evaluacion_general': '10.0', 'experiencia_lo..."
4,"{'evaluacion_general': '10.0', 'experiencia_lo..."


### üóÇÔ∏è Aplanamiento Estructural: El M√©todo `json_normalize()`

**Concepto de Negocio (Integraci√≥n de APIs):**
Cuando un sistema se conecta a la AFIP o a una pasarela de pagos (MercadoPago, Stripe), la respuesta rara vez es una tabla plana. Suele llegar como un gran objeto JSON con diccionarios anidados (ej. `{'cliente': {'nombre': 'Juan', 'id': 123}}`). Para que Pandas o una Base de Datos SQL puedan procesar esto, necesitamos transformar esa jerarqu√≠a en columnas est√°ndar.

**La Soluci√≥n T√©cnica:**
El m√©todo `pd.json_normalize()` es el est√°ndar de la industria para el "aplanamiento" (Flattening) de diccionarios.
* **¬øQu√© hace?** Toma una columna entera que contiene diccionarios crudos y extrae cada "Llave" (Key) para convertirla en una nueva columna de nuestro DataFrame.
* **Limitaci√≥n Arquitect√≥nica:** Es excelente rompiendo diccionarios (`{}`), pero **no rompe listas** (`[]`). Si un valor dentro del diccionario era una lista de precios, la trasladar√° intacta a la nueva celda, requiriendo un paso posterior de limpieza (como `explode()`).

In [4]:
datos = pd.json_normalize(datos['info_inmuebles'])
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_ba√±os,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"


### 07-Desaf√≠o: trabajando en otros contextos

#### Trabajando en otros contextos

---

Ha llegado el momento de poner en pr√°ctica todo lo aprendido durante las clases. ¬°Prepar√© dos proyectos adicionales para que los desarrollemos durante el curso, para asegurarnos de que podamos practicar mucho! Para ello trabajaremos con 2 nuevos conjuntos de datos, pero esta vez ser√°n mucho m√°s peque√±os. Las bases de datos est√°n disponibles para descargar aqu√≠:


* [Proyecto Desaf√≠o 1: Ventas Online - dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json);
* [Proyecto Desaf√≠o 2: Administraci√≥n de Condominios - dados_locacao_imoveis.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json).

En cada clase desarrollaremos una etapa de los proyectos. As√≠ que guarde su c√≥digo de construcci√≥n para cada desaf√≠o para poder aplicarlo en los desaf√≠os posteriores.

---

#### **Etapa 1**

* **Proyecto Desaf√≠o 1: Ventas Online**


El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopil√≥ un conjunto de datos que contiene los clientes que m√°s gastaron en productos durante los 5 d√≠as de ventas, que es la duraci√≥n del evento. Este an√°lisis identificar√° al cliente con la mayor compra esta semana, quien recibir√° un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer m√°s clientes.

La base de datos utilizada en este an√°lisis es [dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json) y contiene informaci√≥n importante sobre los clientes, como el nombre registrado del cliente, el monto total pagado al momento de la compra y el d√≠a de la compra.

Sabiendo esta informaci√≥n, el desaf√≠o del proyecto 1: ventas online ser√° abrir la base de datos con Pandas y aplicar [json_normalize](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html).

---

* **Proyecto Desaf√≠o 2: Administraci√≥n de Condominios**


Administrar condominios es una tarea que requiere mucha atenci√≥n y organizaci√≥n. Entre las diversas responsabilidades de gesti√≥n se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede.


Teniendo esto en cuenta, propongo un desaf√≠o de procesamiento de datos con el objetivo de analizar el retraso en el pago del alquiler en el condominio de algunos residentes. Pongo a disposici√≥n la base de datos [dados_locacao_imoveis](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json).json, que contiene informaci√≥n sobre el departamento de los inquilinos, el d√≠a acordado para el pago del alquiler, el d√≠a en que se realiza el pago del alquiler y el monto del alquiler.


Con esta informaci√≥n, el desaf√≠o del proyecto 2: administraci√≥n del condominio ser√° similar al desaf√≠o del proyecto 1, abrir la base de datos con Pandas y aplicar [json_normalize](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html). al DataFrame.

* **Proyecto Desaf√≠o 1: Ventas Online**



```Python
# Import de pandas
import pandas as pd
# Leer el archivo json con read_json
datos = pd.read_json('/content/dados_vendas_clientes.json')
# Aplicar json_normalize en la columna dados_vendas
datos = pd.json_normalize(datos['dados_vendas'])
# Mostrar valores
datos
```
* **Projecto Desafio 2: Administraci√≥n de Condominios**


```Python
# Import de pandas
import pandas as pd
# Leer el archivo json con read_json
datos = pd.read_json('/content/dados_locacao_imoveis.json')
# Aplicar json_normalize en la columna dados_locacao
datos = pd.json_normalize(datos['dados_locacao'])
# Mostrar valores
datos
```




#**2. Datos num√©ricos**


---




In [5]:
columnas = list(datos.columns)
columnas

['evaluacion_general',
 'experiencia_local',
 'max_hospedes',
 'descripcion_local',
 'descripcion_vecindad',
 'cantidad_ba√±os',
 'cantidad_cuartos',
 'cantidad_camas',
 'modelo_cama',
 'comodidades',
 'cuota_deposito',
 'cuota_limpieza',
 'precio']

### üìñ Diccionario de Datos (`datos_hosting.json`)

**Importancia Estructural:**
Antes de aplicar transformaciones o *Type Casting* (conversi√≥n de tipos), es obligatorio definir la naturaleza de cada variable. Esto guiar√° qu√© columnas deben ser num√©ricas (para c√°lculos estad√≠sticos) y cu√°les categ√≥ricas o de texto.

* **`evaluacion_general`**: Puntuaci√≥n media otorgada al alojamiento. (Esperado: Num√©rico/Float).
* **`experiencia_local`**: Descripci√≥n de experiencias ofrecidas. (Esperado: Texto/String).
* **`max_hospedes`**: Capacidad m√°xima de personas. (Esperado: Num√©rico/Int).
* **`descripcion_local`**: Descripci√≥n general de la propiedad. (Esperado: Texto/String).
* **`descripcion_vecindad`**: Entorno o barrio de la propiedad. (Esperado: Texto/String).
* **`cantidad_ba√±os`**: Ba√±os disponibles. (Esperado: Num√©rico/Float o Int).
* **`cantidad_cuartos`**: Habitaciones disponibles. (Esperado: Num√©rico/Int).
* **`cantidad_camas`**: Camas disponibles. (Esperado: Num√©rico/Int).
* **`modelo_cama`**: Clasificaci√≥n del tipo de cama. (Esperado: Categ√≥rico/Texto).
* **`comodidades`**: Lista de servicios/amenities. (Esperado: Colecci√≥n/Texto).
* **`cuota_deposito`**: Tarifa de seguridad m√≠nima. (Esperado: Num√©rico/Float).
* **`cuota_limpieza`**: Cargo por servicio de limpieza. (Esperado: Num√©rico/Float).
* **`precio`**: Tarifa base diaria. (Esperado: Num√©rico/Float).

### üí£ Desanidamiento de Listas: El M√©todo `explode()`

**El Problema T√©cnico (Falta de Granularidad):**
Cuando consumimos APIs o archivos JSON, es com√∫n que propiedades m√∫ltiples (como "comodidades" o "precios hist√≥ricos") vengan empaquetadas en forma de listas de Python `[valor1, valor2, valor3]` dentro de una sola celda del DataFrame. Los motores de bases de datos y las funciones estad√≠sticas requieren valores **escalares** (un solo dato por celda).

**La Soluci√≥n de la Industria (`explode`):**
El m√©todo `explode()` toma una columna que contiene listas y "explota" sus elementos. Por cada elemento dentro de la lista, crea una nueva fila exacta en el DataFrame, copiando los valores de las dem√°s columnas y manteniendo el √çndice original para saber que todos esos datos proven√≠an del mismo registro.

**Ejemplo Te√≥rico Aislado:**
Imaginemos una factura con m√∫ltiples precios empaquetados.

```python
import pandas as pd

# 1. Recreamos el problema (Datos anidados en listas)
datos_dummy = pd.DataFrame({
    'ID_Factura': ['F-001', 'F-002'],
    'Cliente': ['Empresa A', 'Empresa B'],
    'Precios_Items': [[150, 200], [500, 50, 120]] # <--- El problema
})

print("‚ùå DataFrame Original (Precios atrapados en listas):")
display(datos_dummy)

# 2. Aplicamos la soluci√≥n arquitect√≥nica
# Usamos explode indicando qu√© columna queremos reventar
datos_granulares = datos_dummy.explode('Precios_Items')

print("\n‚úÖ DataFrame Granular (Un precio por fila, listos para sumar/promediar):")
display(datos_granulares)
```
Se puede ejecutar el codigo anterior en una celda de codigo temporal para ver y entender el ejemplo

In [6]:
# cuando visualizamos los datos previamente, vimos que desde la columna 4 (pos
# 3) en adelante es necesario hacer el explode , ya que son todas listas.
datos = datos.explode(columnas[3:])
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_ba√±os,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The ‚ÄúStudio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [7]:
# en el paso anterior todos los registros que fueron "explotados" aohra tienen
# el mismo indice ya que fue dividido el registro original en muchos, y para
# solucionar esto usamos el reset de los mismos.
datos.reset_index(inplace = True, drop = True)
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_ba√±os,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The ‚ÄúStudio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [8]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_ba√±os        3818 non-null   object
 6   cantidad_cuartos      3818 non-null   object
 7   cantidad_camas        3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


### üö® Diagn√≥stico de Tipos de Datos (`Dtype: object`)

**El Problema T√©cnico (Rendimiento y Vectorizaci√≥n):**
Tras ejecutar `datos.info()`, observamos que las 13 columnas tienen el tipo de dato `object`. En Pandas, `object` es un tipo de dato gen√©rico que generalmente representa cadenas de texto (Strings) o estructuras mixtas (punteros a bloques de memoria dispersos).

**Consecuencias de no realizar *Type Casting* (Conversi√≥n):**
1. **Fallo en Operaciones Matem√°ticas:** No podemos aplicar funciones estad√≠sticas (como `mean()`, `sum()`) sobre columnas como `precio` o `cantidad_ba√±os` porque el motor de Python las interpretar√° como concatenaci√≥n de texto o arrojar√° un `TypeError`.
2. **Consumo de Memoria:** El tipo `object` consume dr√°sticamente m√°s memoria RAM que los tipos num√©ricos nativos de C (como `int64` o `float64`), ya que no utiliza arreglos contiguos en memoria.

**Pr√≥ximo Paso L√≥gico (Data Cleaning):**
Debemos inspeccionar las columnas num√©ricas para identificar caracteres especiales (como `$`, `,` o `--`) que est√°n forzando a Pandas a clasificarlas como texto, limpiar esos caracteres y aplicar m√©todos de conversi√≥n (como `astype()`).

In [9]:
import numpy as np

In [10]:
datos['max_hospedes'] = datos['max_hospedes'].astype(np.int64)

In [11]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_ba√±os        3818 non-null   object
 6   cantidad_cuartos      3818 non-null   object
 7   cantidad_camas        3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: int64(1), object(12)
memory usage: 387.9+ KB


In [12]:
col_numericas = ['cantidad_ba√±os', 'cantidad_cuartos', 'cantidad_camas']

In [13]:
datos[col_numericas] = datos[col_numericas].astype(np.int64)

In [14]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_ba√±os        3818 non-null   int64 
 6   cantidad_cuartos      3818 non-null   int64 
 7   cantidad_camas        3818 non-null   int64 
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: int64(4), object(9)
memory usage: 387.9+ KB


In [15]:
datos['evaluacion_general'] = datos['evaluacion_general'].astype(np.float64)

In [16]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_ba√±os        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


### üîÑ Transformaci√≥n Estructural: *Type Casting* (Conversi√≥n de Tipos)

**El Proceso de Limpieza (Data Cleaning):**
Para que los datos sean utilizables anal√≠ticamente, debemos forzar su conversi√≥n del tipo gen√©rico `object` a tipos de datos optimizados de la librer√≠a **NumPy** (`np.int64` para enteros y `np.float64` para decimales).

**El Comportamiento de `astype()`:**
* **Caso de √âxito (Columnas Limpias):** Si la columna solo contiene n√∫meros en formato texto (ej. `"4"`), `astype(np.int64)` la convierte sin problemas, reduciendo el consumo de memoria y habilitando operaciones matem√°ticas.
* **Manejo de Nulos (El caso `--`):** Al convertir la columna `evaluacion_general` a `float64`, Pandas tradujo autom√°ticamente los caracteres extra√±os `--` a valores nulos verdaderos (`NaN`). Por ello, el conteo de registros no nulos baj√≥ de 3818 a 3162.
* **Caso de Fallo (Caracteres Cr√≠ticos):** Columnas como `precio` contienen s√≠mbolos monetarios (`$`) y comas separadoras de miles (`,`). `astype()` fallar√° con un `ValueError` al intentar convertir "$1,000.00" a float. **Requieren una limpieza de Strings previa a la conversi√≥n.**

### üíæ Arquitectura de Memoria: Precisi√≥n de Tipos Num√©ricos

**Concepto Gerencial (Optimizaci√≥n vs. Riesgo):**
Por defecto, Pandas utiliza una precisi√≥n de 64 bits (`int64` y `float64`), lo cual es computacionalmente seguro pero costoso en memoria RAM. Optimizar implica reducir (Downcasting) el tipo de dato para que ocupe menos bytes, evaluando estrictamente los l√≠mites m√°ximos permitidos por la regla de negocio para evitar un fallo cr√≠tico (Overflow).

**Matriz de Capacidad para Enteros (N√∫meros sin decimales):**

| Tipo de Dato (NumPy) | Consumo en RAM | L√≠mite M√≠nimo | L√≠mite M√°ximo | Caso de Uso Empresarial |
| :--- | :--- | :--- | :--- | :--- |
| `np.int8` | 1 Byte (8 bits) | -128 | 127 | Edades de clientes, cantidad de cuartos. |
| `np.int16` | 2 Bytes (16 bits) | -32.768 | 32.767 | A√±o de facturaci√≥n, cantidad de empleados. |
| `np.int32` | 4 Bytes (32 bits) | -2.147.483.648 | 2.147.483.647 | IDs de facturas, C√≥digos de producto. |
| `np.int64` | 8 Bytes (64 bits) | -9.223 Trillones | 9.223 Trillones | Big Data, IDs globales √∫nicos (UUID). |

**Precisi√≥n en Punto Flotante (N√∫meros Decimales):**
* **`np.float64` (Doble Precisi√≥n):** Ocupa 8 bytes. Soporta hasta 15 d√≠gitos decimales. Obligatorio para c√°lculos financieros precisos, coordenadas GPS exactas o variables cient√≠ficas.
* **`np.float32` (Precisi√≥n Simple):** Ocupa 4 bytes. Soporta hasta 7 d√≠gitos decimales. √ötil para promedios de encuestas o porcentajes estad√≠sticos menores.

In [17]:
#creamos nuestra funcion lambda que limpia
datos['precio'] = datos['precio'].apply(lambda x: x.replace('$','').replace(',','').strip())

In [18]:
datos['precio'] = datos['precio'].astype(np.float64)

In [19]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_ba√±os        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   float64
dtypes: float64(2), int64(4), object(7)
memory usage: 387.9+ KB


### üßπ Sanitizaci√≥n Financiera: Limpieza de Caracteres Especiales

**El Desaf√≠o de Negocio:**
Los sistemas de extracci√≥n de datos (Web Scraping o APIs) suelen traer los precios formateados para lectura humana (ej. `$1,250.00`). Para que un motor de base de datos o Pandas pueda realizar c√°lculos matem√°ticos, debemos eliminar los s√≠mbolos monetarios y los separadores de miles, dejando solo el n√∫mero puro y el punto decimal.

**La Soluci√≥n Est√°ndar (Vectorizaci√≥n con `.str`):**
En lugar de usar `apply(lambda)` que procesa fila por fila de forma lenta, utilizamos el "Acelerador de Strings" de Pandas (`.str`). Esto aplica las transformaciones a toda la columna simult√°neamente (Vectorizaci√≥n).

**Pasos de la Sanitizaci√≥n en Cascada:**
1. `.str.replace('$', '')`: Elimina el s√≠mbolo de la moneda.
2. `.str.replace(',', '')`: Elimina la coma separadora de miles (vital para que el n√∫mero no se fragmente).
3. `.str.strip()`: Elimina espacios en blanco accidentales al principio o al final de la celda.
4. `.astype(np.float64)`: Una vez que el texto est√° limpio, finalmente lo convertimos a formato decimal matem√°tico.


```Python
import numpy as np

# 1. Inspecci√≥n previa (Vemos la "basura" visual)
print("Antes de la limpieza:")
display(datos['precio'].head(3))

# 2. Aplicamos la limpieza vectorizada (Clean Code y Alto Rendimiento)
# Enlazamos los m√©todos de string uno tras otro
datos['precio'] = datos['precio'].str.replace('$', '', regex=False) \
                                 .str.replace(',', '', regex=False) \
                                 .str.strip()

# 3. Conversi√≥n al tipo de dato correcto (Type Casting)
datos['precio'] = datos['precio'].astype(np.float64)

# 4. Auditor√≠a final
print("\nDespu√©s de la limpieza y conversi√≥n:")
display(datos['precio'].head(3))
datos.info()
```



In [20]:
datos[['cuota_deposito', 'cuota_limpieza']] = datos[['cuota_deposito', 'cuota_limpieza']].applymap(lambda x: x.replace('$','').replace(',','').strip())

  datos[['cuota_deposito', 'cuota_limpieza']] = datos[['cuota_deposito', 'cuota_limpieza']].applymap(lambda x: x.replace('$','').replace(',','').strip())


In [21]:
datos[['cuota_deposito', 'cuota_limpieza']] = datos[['cuota_deposito', 'cuota_limpieza']].astype(np.float64)

In [22]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_ba√±os        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   float64
 11  cuota_limpieza        3818 non-null   float64
 12  precio                3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB


### üßπ Limpieza Masiva de Columnas: El M√©todo `applymap()`

**El Desaf√≠o T√©cnico:**
Ten√≠amos m√∫ltiples columnas financieras (`cuota_deposito` y `cuota_limpieza`) infectadas con caracteres especiales (`$`, `,`). Limpiarlas una por una genera c√≥digo repetitivo (rompe el principio *DRY - Don't Repeat Yourself*).

**La Soluci√≥n Estructural (`applymap`):**
En lugar de procesar una sola Serie (columna), filtramos el DataFrame para aislar todas las columnas financieras. Luego usamos `applymap()`, que recorre cada celda individual de esa matriz bidimensional y le aplica la funci√≥n lambda de sanitizaci√≥n (borrar `$`, borrar `,` y eliminar espacios).

**C√≥digo Implementado (Flujo de Trabajo):**
1. **Selecci√≥n M√∫ltiple:** `datos[['col1', 'col2']]`
2. **Transformaci√≥n Masiva:** `.applymap(lambda x: x.replace('$','').replace(',','').strip())`
3. **Type Casting Masivo:** `.astype(np.float64)`

*(Nota de Arquitectura: En versiones de Pandas 2.1+, el m√©todo `applymap()` ha sido renombrado a `map()` para mayor claridad sem√°ntica).*

### üìê Arquitectura Dimensional: Series vs DataFrames (`apply` vs `map`)

**Concepto Estructural:**
El error m√°s com√∫n en la limpieza de datos con Pandas surge de no identificar la dimensionalidad del objeto que estamos manipulando.

1. **`pd.Series` (Unidimensional - 1D):**
   * **Sintaxis:** Un solo corchete `datos['precio']`.
   * **Comportamiento:** Representa un vector (una sola columna).
   * **M√©todo de Iteraci√≥n:** `.apply(lambda x: ...)`. Aplica la funci√≥n `x` a cada valor escalar (celda) de la columna, de arriba hacia abajo.

2. **`pd.DataFrame` (Bidimensional - 2D):**
   * **Sintaxis:** Doble corchete `datos[['cuota_deposito', 'cuota_limpieza']]`.
   * **Comportamiento:** Representa una matriz o sub-tabla (m√∫ltiples columnas).
   * **M√©todo de Iteraci√≥n:** `.applymap(lambda x: ...)` (o `.map()` en Pandas 2.1+). Dise√±ado espec√≠ficamente para recorrer la cuadr√≠cula bidimensional, aplicando la funci√≥n `x` a cada celda individual de todas las columnas seleccionadas.
   * **El Error Com√∫n:** Intentar usar `.apply()` con una funci√≥n escalar sobre un DataFrame generar√° errores como `AttributeError`, ya que `.apply()` intentar√° pasar una Serie completa a la funci√≥n `lambda`, en lugar de un valor de celda.

### 09 Desaf√≠o: trabajando en otros contextos


Pongamos nuevamente en pr√°ctica todo lo que aprendimos durante la clase. He puesto los 2 nuevos conjuntos de datos disponibles para descargar a continuaci√≥n:

* Proyecto Desaf√≠o 1: Ventas Online - [dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json);
* Proyecto Desaf√≠o 2: Administraci√≥n de Condominios - [dados_locacao_imoveis.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json).

Recuerda: Hay dos proyectos de tratamiento que se construir√°n durante el curso. As√≠ que guarde su c√≥digo de construcci√≥n para cada desaf√≠o para poder aplicarlo a desaf√≠os posteriores.

Etapa 2

* Proyecto Desaf√≠o 1: Ventas Online

Le√≠mos la base de datos en el desaf√≠o anterior, ahora podemos seguir adelante con la transformaci√≥n de estos datos. As√≠, el nuevo desaf√≠o del proyecto 1 ser√° dividido en algunas metas:

* Eliminar datos en listas dentro del DataFrame;
* Verificar tipos de datos;
* Identificar columnas num√©ricas;
* Transformar la columna num√©rica a tipo num√©rico.
---

* Proyecto Desaf√≠o 2: Administraci√≥n de Condominios

Le√≠mos la base de datos en el desaf√≠o anterior, ahora podemos seguir adelante con la transformaci√≥n de estos datos. Entonces, de la misma manera que en el proyecto 1, el desaf√≠o del proyecto 2 est√° listado en algunas metas:

* Eliminar datos en listas dentro del DataFrame;
* Verificar tipos de datos;
* Identificar columnas num√©ricas;
* Transformar la columna num√©rica a tipo num√©rico.

Proyecto Desaf√≠o 1: Ventas Online


```
# Colectar los valores de las columnas y verificar
columnas = list(datos.columns)
columnas

# Destrincar las listas con explode
datos = datos.explode(columnas[1:])
# Resetear los index de las l√≠neas
datos.reset_index(drop=True,inplace=True)
# Observar el DataFrame
datos

# Verificar los tipos de datos con info
datos.info()

# La columna num√©rica es el 'Valor da compra'
datos['Valor da compra']

# Iniciar la transformaci√≥n
# Import de la biblioteca numpy
import numpy as np
# Remover los textos presentes en la base
# Cambiar las comas separadoras del decimal por punto
datos['Valor da compra'] = datos['Valor da compra'].apply(lambda x: x.replace('R$ ', '').replace(',','.').strip())
# Cambiar los tipo de datos para float
datos['Valor da compra'] = datos['Valor da compra'].astype(np.float64)
# Verificar la transformaci√≥n
datos.info()
```



Projecto Desafio 2: Administraci√≥n de Condominios



```
# Colectar los valores de las columnas y verificar
columnas = list(datos.columns)
columnas

# Destrincar las listas con explode
datos = datos.explode(columnas[1:])
# Resetear los index de las l√≠neas
datos.reset_index(drop=True,inplace=True)
# Observar el DataFrame
datos

# Verificar los tipos de datos con info
datos.info()

# La columna num√©rica es el 'valor_aluguel'
datos['valor_aluguel']

# Iniciar la transformaci√≥n
# Import de la biblioteca numpy
import numpy as np
# Remover los textos presentes en la base
# Cambiar las comas separadoras del decimal por punto
datos['valor_aluguel'] = datos['valor_aluguel'].apply(lambda x: x.replace('$ ', '').replace(' reais', '').replace(',','.').strip())
# Cambiar los tipos de datos para float
datos['valor_aluguel'] = datos['valor_aluguel'].astype(np.float64)
# Verificar la transformaci√≥n
datos.info()
```



#**3. Datos de texto**


---




In [23]:
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_ba√±os,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,The ‚ÄúStudio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


In [24]:
datos['descripcion_local'] = datos['descripcion_local'].str.lower()

In [25]:
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_ba√±os,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,this clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,our century old upper queen anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,very lovely and cozy room for one. convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,the ‚Äústudio at mibbett hollow' is in a beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


### üìù Procesamiento de Lenguaje Natural (NLP): Normalizaci√≥n y Tokenizaci√≥n

**El Valor de Negocio (Miner√≠a de Texto):**
Las variables de texto libre (como `descripcion_local`) esconden un inmenso valor predictivo. Palabras como "lujoso", "c√©ntrico" o "ruidoso" impactan directamente en el precio de un servicio o en la satisfacci√≥n de un cliente. Para que un algoritmo de Machine Learning pueda ponderar estas palabras, primero debemos estructurar el texto.

**Fase 1: Normalizaci√≥n (Min√∫sculas)**
Los lenguajes de programaci√≥n son *Case Sensitive* (sensibles a may√∫sculas). Para el motor anal√≠tico, "Casa", "CASA" y "casa" son tres entidades completamente distintas.
El primer paso de limpieza es la homogenizaci√≥n mediante el m√©todo vectorizado `.str.lower()`, el cual convierte todos los caracteres del DataFrame a min√∫sculas, unificando el vocabulario.

**Fase 2: Tokenizaci√≥n (Concepto Te√≥rico)**
Es el proceso de dividir una cadena de texto larga en unidades granulares m√°s peque√±as llamadas "tokens" (generalmente palabras individuales o frases cortas). Esto permite contar la frecuencia de aparici√≥n de cada token y asignarle un peso matem√°tico.

***Alternativa:***

```
df['experiencias_clientes'] = df['experiencias_clientes'].apply(lambda x: x.upper())
```



Se usa apply para aplicar una funci√≥n a cada elemento de una columna. En este caso, la funci√≥n lambda se utiliza para transformar todas las letras de la columna experiencias_clientes a may√∫sculas. Al usar la funci√≥n lambda dentro del m√©todo apply, estamos aplicando la funci√≥n elemento por elemento en la columna.

In [26]:
datos['descripcion_local'][3169]

"built, run and supported by seattle tech and start up veterans, grokhome's focus is to create a supportive environment for smart people working on interesting projects, start ups and more. this listing is an upper bunk, in a 2-person shared room. *note: this fall, there will be major renovations happening on one kitchen and bathroom at a time. there will always be two other working kitchens and two working bathrooms in the house. we'll work to minimize the impact these renovations have on your stay. **this listing is only available to those working in the tech/science space. live in a hacker house, and immerse yourself in the seattle tech scene. you can expect to be surrounded by smart people solving big problems or working on something fun. we have frequent demo nights, and love when our guests share something they are passionate about. if you're new to the city, our deep ties to the seattle tech scene can help you get involved. expand your network, develop your ideas, and learn some

In [27]:
#utilizamos regex para
datos['descripcion_local'] = datos['descripcion_local'].str.replace('[^a-zA-Z0-9\-\']',' ',regex=True)

  datos['descripcion_local'] = datos['descripcion_local'].str.replace('[^a-zA-Z0-9\-\']',' ',regex=True)


In [28]:
datos['descripcion_local'] = datos['descripcion_local'].str.replace('(?<!\w)-(?!\w)',' ',regex=True)

  datos['descripcion_local'] = datos['descripcion_local'].str.replace('(?<!\w)-(?!\w)',' ',regex=True)


In [29]:
datos['descripcion_local'].head()

Unnamed: 0,descripcion_local
0,this clean and comfortable one bedroom sits ri...
1,our century old upper queen anne house is loca...
2,cozy room in two-bedroom apartment along the l...
3,very lovely and cozy room for one convenientl...
4,the studio at mibbett hollow' is in a beautif...


### üßπ NLP Fase 2: Limpieza Quir√∫rgica con Regex (Expresiones Regulares)

**El Problema de los Caracteres Especiales:**
Los textos libres contienen "ruido" (signos de exclamaci√≥n, asteriscos, emojis) que confunden a los algoritmos de Machine Learning. Debemos limpiar este ruido conservando la estructura gramatical √∫til (como palabras compuestas: `wi-fi`).

**La Estrategia Regex (B√∫squeda por Patrones):**
Utilizamos el par√°metro `regex=True` dentro del m√©todo `.str.replace()` para indicarle a Pandas que no busque una palabra literal, sino un patr√≥n l√≥gico.

**Paso 1: Filtro de Negaci√≥n (`[^...]`)**
* **Patr√≥n:** `(?i)[^a-z0-9\-\']`
* **Explicaci√≥n:** El s√≠mbolo `^` al principio de los corchetes significa **NEGACI√ìN**. Le instruimos a Pandas: "Reemplaza cualquier car√°cter que **NO** sea una letra (`a-z`), un n√∫mero (`0-9`), un gui√≥n literal (`\-`) o una comilla simple (`\'`)".

**Paso 2: Filtro de Guiones Hu√©rfanos (`(?<!\w)-(?!\w)`)**
* **El Problema:** El paso 1 salv√≥ los guiones para conservar palabras como `pet-friendly`. Pero dej√≥ vivos guiones decorativos (` - `).
* **El Patr√≥n Lookaround:** `(?<!\w)-(?!\w)` busca un gui√≥n (`-`) PERO verifica que no tenga una letra/n√∫mero detr√°s (`(?<!\w)`) ni adelante (`(?!\w)`). Si el gui√≥n est√° aislado, lo destruye.



```Python
# ==============================================================================
# FASE 2: LIMPIEZA REGEX (Descripci√≥n Local)
# ==============================================================================

print("‚ùå Texto Original (Con ruido):")
display(datos['descripcion_local'].iloc[3169][:150]) # Vemos los primeros 150 caracteres del registro problem√°tico

# PASO 1: Eliminar todo excepto letras, n√∫meros, guiones y comillas simples
# Nota: (?i) hace que el regex ignore may√∫sculas/min√∫sculas por seguridad
datos['descripcion_local'] = datos['descripcion_local'].str.replace(r'(?i)[^a-z0-9\-\']', ' ', regex=True)

# PASO 2: Eliminar guiones "hu√©rfanos" (que no conectan palabras)
# \w significa "cualquier car√°cter alfanum√©rico".
datos['descripcion_local'] = datos['descripcion_local'].str.replace(r'(?<!\w)-(?!\w)', ' ', regex=True)

# PASO 3: Limpieza final de espacios sobrantes generados por los reemplazos
datos['descripcion_local'] = datos['descripcion_local'].str.strip()

print("\n‚úÖ Texto Limpio (Listo para Tokenizaci√≥n):")
display(datos['descripcion_local'].iloc[3169][:150])
```



Puedes crear una expresi√≥n regular con la ayuda del sitio web [regex101.com](https://regex101.com/). Si quieres saber m√°s sobre regex y su aplicaci√≥n en bases de datos, vale la pena leer el art√≠culo [Principales casos de uso de Regex para procesamiento de datos](https://www.alura.com.br/artigos/principais-casos-uso-regex-para-tratamento-dados), que muestra una aplicaci√≥n regex en banco de datos.

In [30]:
datos['descripcion_local'] = datos['descripcion_local'].str.split()
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_ba√±os,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


In [31]:
datos['comodidades'] = datos['comodidades'].str.replace('\{|}|\"','', regex=True)

  datos['comodidades'] = datos['comodidades'].str.replace('\{|}|\"','', regex=True)


In [32]:
datos['comodidades'] = datos['comodidades'].str.split(',')
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_ba√±os,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",0.0,15.0,85.0


### ‚úÇÔ∏è Tokenizaci√≥n Estructural: El M√©todo `.str.split()`

**El Concepto (De String a Lista):**
La tokenizaci√≥n convierte una cadena de texto continua (String) en una lista de Python `[...]`, donde cada elemento es un "Token" (generalmente una palabra). Esto permite contar frecuencias (ej. ¬øCu√°ntas veces aparece la palabra "Wifi" en los anuncios de Airbnb?).

**La Soluci√≥n Vectorizada:**
El m√©todo `.str.split(patr√≥n_separador)` recorre toda la columna y corta el texto cada vez que encuentra el patr√≥n indicado.
* **Separador por Defecto (Espacios):** Al usar `.str.split()` sin argumentos, Pandas asume que el separador es el espacio en blanco. Es ideal para tokenizar oraciones naturales (ej. "Casa hermosa" -> `['Casa', 'hermosa']`).
* **Separador Espec√≠fico (Comas):** Cuando los datos vienen como una enumeraci√≥n (ej. "TV,Wifi,Cocina"), indicamos expl√≠citamente el separador `.str.split(',')` para que no corte palabras compuestas separadas por espacios.

**Flujo de Trabajo (Columna `comodidades`):**
1. **Limpieza Regex:** `.str.replace(r'\{|\}|\"', '', regex=True)` destruye llaves y comillas usando el operador l√≥gico OR (`|`).

    * (Nota extra de Clean Code: se agrego la letra r antes de las comillas. En Python, eso significa "Raw String" (Cadena Cruda), y es la mejor pr√°ctica siempre que escribas un Regex para evitar que Python confunda los backslash \ con comandos propios del sistema).
2. **Tokenizaci√≥n:** `.str.split(',')` convierte el string resultante en una lista de Python real.





### üèóÔ∏è Refactorizaci√≥n Senior: Dos Paradigmas de Limpieza Textual (NLP)

**Paradigma 1: Encadenamiento de M√©todos (Method Chaining)**
Ideal para transformaciones lineales y espec√≠ficas de una sola columna. Al envolver el c√≥digo entre par√©ntesis `()`, le indicamos a Python que la instrucci√≥n contin√∫a en las siguientes l√≠neas. Esto elimina la necesidad de repetir el nombre de la variable (`datos['columna'] = ...`) m√∫ltiples veces, reduciendo el ruido visual, respetando el principio DRY y optimizando el uso de la memoria RAM.

**Paradigma 2: Modularizaci√≥n Vectorizada (Pipeline)**
Ideal para sistemas escalables. Creamos una funci√≥n (F√°brica) que recibe una Serie completa de Pandas y le aplica las transformaciones vectorizadas. Si ma√±ana necesitamos limpiar 10 columnas distintas, simplemente reutilizamos la funci√≥n, centralizando el mantenimiento del c√≥digo en un solo lugar.

In [33]:
# ==============================================================================
# PARADIGMA 1: METHOD CHAINING (Aplicado a 'descripcion_vecindad')
# ==============================================================================

# Al usar par√©ntesis externos, podemos tabular cada m√©todo de forma ordenada
datos['descripcion_vecindad'] = (
    datos['descripcion_vecindad']
    .str.lower()
    .str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)
    .str.replace(r'(?<!\w)-(?!\w)', '', regex=True)
    .str.split()
)

print("‚úÖ 'descripcion_vecindad' limpiada y tokenizada usando Method Chaining.")

‚úÖ 'descripcion_vecindad' limpiada y tokenizada usando Method Chaining.


In [43]:
# ==============================================================================
# PARADIGMA 2: MODULARIZACI√ìN BLINDADA (Defensive Programming)
# ==============================================================================

# 1. Definimos el "M√≥dulo" central de limpieza (Business Logic)
def limpiar_y_tokenizar_serie(serie_texto):
    """
    Recibe una Serie de Pandas (texto), la normaliza a min√∫sculas,
    rellena nulos para evitar colapsos, fuerza el tipo String,
    elimina caracteres especiales usando Regex, y la tokeniza.
    """
    serie_limpia = (
        serie_texto
        .fillna('')   # BLINDAJE 1: Transforma los nulos (NaN) en texto vac√≠o
        .astype(str)  # BLINDAJE 2: Fuerza a Pandas a tratar toda la columna como texto
        .str.lower()
        .str.replace(r'[^a-zA-Z0-9\-\']', ' ', regex=True)
        .str.replace(r'(?<!\w)-(?!\w)', '', regex=True)
        .str.split()
    )
    return serie_limpia

# 2. Aplicamos la funci√≥n a nuestra columna (o a cualquier otra en el futuro)
datos['experiencia_local'] = limpiar_y_tokenizar_serie(datos['experiencia_local'])

print("‚úÖ 'descripcion_local' limpiada y tokenizada usando Modularizaci√≥n Vectorizada.")

# ==============================================================================
# AUDITOR√çA FINAL
# ==============================================================================
display(datos[['descripcion_vecindad', 'experiencia_local']].head(3))

‚úÖ 'descripcion_local' limpiada y tokenizada usando Modularizaci√≥n Vectorizada.


Unnamed: 0,descripcion_vecindad,experiencia_local
0,"[lower, queen, anne, is, near, the, seattle, c...",[]
1,"[upper, queen, anne, is, a, really, pleasant, ...",[]
2,"[the, convenience, of, being, in, seattle, but...",[]


#**4. Datos de tiempo**


---




### ‚è±Ô∏è Cronolog√≠a de Datos: La Biblioteca Nativa `datetime`

**El Valor de Negocio (Aritm√©tica Temporal):**
En cualquier sistema transaccional, el tiempo es una magnitud matem√°tica, no un texto. La biblioteca est√°ndar `datetime` de Python nos permite calcular diferencias de d√≠as (para calcular intereses por mora) o proyectar fechas futuras (para establecer vencimientos).

**Clases Arquitect√≥nicas Principales:**
1. **`datetime.date`**: Estructura que maneja √∫nicamente la fecha (A√±o, Mes, D√≠a). Ideal para fechas de nacimiento, feriados o vencimientos de facturas.
   * *M√©todo clave:* `datetime.date.today()` (Obtiene la fecha actual del sistema operativo).
2. **`datetime.datetime`**: Estructura completa de Fecha + Hora (A√±o, Mes, D√≠a, Hora, Minutos, Segundos, Microsegundos). Crucial para *Logs* de auditor√≠a de software o *Timestamps* de transacciones bancarias.
   * *M√©todo clave:* `datetime.datetime.now()` (Obtiene la marca de tiempo exacta del instante de ejecuci√≥n).
3. **Operaciones (`timedelta`):** Python permite operaciones algebraicas directas. Al restar dos objetos de fecha (`fecha_b - fecha_a`), el motor devuelve autom√°ticamente la diferencia exacta en d√≠as y segundos.

**üìö Material de Referencia (Documentaci√≥n y Profundizaci√≥n):**
* [Documentaci√≥n Oficial de Python: Biblioteca `datetime`](https://docs.python.org/3/library/datetime.html)
* [Art√≠culo: Python datetime - ¬øC√≥mo configuro la fecha y la hora en Python?](https://www.alura.com.br/artigos/lidando-com-datas-e-horarios-no-python)

In [35]:
dt_data = pd.read_json('/content/drive/MyDrive/Pandas/inmuebles_disponibles.json')
dt_data.head()

Unnamed: 0,id,fecha,lugar_disponible,precio
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


In [36]:
dt_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   id                365000 non-null  int64 
 1   fecha             365000 non-null  object
 2   lugar_disponible  365000 non-null  bool  
 3   precio            270547 non-null  object
dtypes: bool(1), int64(1), object(2)
memory usage: 11.5+ MB


In [37]:
dt_data['fecha'] = pd.to_datetime(dt_data['fecha'])

### üóìÔ∏è Ingenier√≠a Temporal: Conversi√≥n a `datetime64`

**El Problema del Texto Crudo:**
Al importar archivos JSON o CSV, Pandas clasifica las fechas sistem√°ticamente como `object` (cadenas de texto). En este estado, es imposible realizar filtros cronol√≥gicos (ej. "filtrar ventas del √∫ltimo trimestre") o extraer componentes (d√≠a, mes, a√±o).

**La Soluci√≥n Vectorizada (`pd.to_datetime`):**
A diferencia de los n√∫meros est√°ndar donde usamos `.astype()`, el motor temporal requiere una funci√≥n anal√≠tica dedicada. `pd.to_datetime()` parsea el texto y lo convierte al tipo de dato `datetime64[ns]` (precisi√≥n de nanosegundos).

**Impacto Anal√≠tico:**
Una vez que la columna es formalmente una serie de tiempo, "desbloqueamos" el atributo `.dt` de Pandas, el cual nos permite extraer algor√≠tmicamente el d√≠a de la semana, el n√∫mero de mes, o calcular deltas de tiempo (d√≠as transcurridos entre dos fechas) sin necesidad de procesar el texto manualmente.

In [38]:
dt_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   id                365000 non-null  int64         
 1   fecha             365000 non-null  datetime64[ns]
 2   lugar_disponible  365000 non-null  bool          
 3   precio            270547 non-null  object        
dtypes: bool(1), datetime64[ns](1), int64(1), object(1)
memory usage: 11.5+ MB


In [39]:
dt_data.sample(10)

Unnamed: 0,id,fecha,lugar_disponible,precio
147340,1188,2016-09-05,False,
88379,1520,2016-02-22,True,$59.00
108061,3626,2016-01-25,False,
263315,2748,2016-06-02,False,
144102,701,2016-10-22,False,
310371,878,2016-05-04,True,$85.00
131625,2453,2016-08-16,True,$411.00
334176,766,2016-07-23,True,$200.00
309034,3103,2016-09-04,True,$90.00
189086,3354,2016-01-20,False,


In [40]:
dt_data['fecha'].dt.strftime('%Y-%m')

Unnamed: 0,fecha
0,2016-01
1,2016-01
2,2016-01
3,2016-01
4,2016-01
...,...
364995,2016-12
364996,2016-12
364997,2016-12
364998,2017-01


In [41]:
subset = dt_data.groupby(dt_data['fecha'].dt.strftime('%Y-%m'))['lugar_disponible'].sum()
subset

Unnamed: 0_level_0,lugar_disponible
fecha,Unnamed: 1_level_1
2016-01,16543
2016-02,20128
2016-03,23357
2016-04,22597
2016-05,23842
2016-06,23651
2016-07,22329
2016-08,22529
2016-09,22471
2016-10,23765


### üìà Inteligencia de Negocios: Agrupaci√≥n Temporal (`groupby` + `.dt`)

**El Valor Gerencial (An√°lisis de Estacionalidad):**
Las series de tiempo con datos diarios (ej. 365.000 registros) son imposibles de analizar visualmente. Para encontrar tendencias, necesitamos "enrollar" (Roll-up) los datos hacia una granularidad mayor, como meses o a√±os.

**El Motor Anal√≠tico: El atributo `.dt.strftime()`**
* El atributo `.dt` "despierta" las funciones de tiempo de la columna.
* El m√©todo `strftime` (String Format Time) extrae componentes espec√≠ficos y los formatea como texto.
* El patr√≥n `'%Y-%m'` le indica a Pandas: *"Extrae el A√±o con 4 d√≠gitos (`%Y`), pon un guion (`-`), y extrae el Mes con 2 d√≠gitos (`%m`)"*.

**El Motor de Agrupaci√≥n: `groupby()`**
Agrupa todas las filas que comparten el mismo mes y a√±o en un solo bloque. Es el equivalente exacto a una Tabla Din√°mica (Pivot Table) en Excel.

**El Truco Matem√°tico (Suma de Booleanos):**
Al aplicar `.sum()` sobre una columna Booleana (`True`/`False`), Pandas procesa cada `True` como un `1` y cada `False` como un `0`. El resultado matem√°tico es el conteo exacto de eventos positivos (lugares disponibles) en cada per√≠odo agrupado.

# Desaf√≠o: hazlo t√∫ mismo



En esta clase, aprendimos c√≥mo manipular datos temporales usando datetime. Entendimos c√≥mo transformar una columna a fecha y hora y luego manipular estos datos. Aun as√≠, no todos los datos del conjunto inmuebles_disponibles.json fueron tratados.

Durante las clases de este curso, descubrimos c√≥mo transformar y trabajar con valores num√©ricos, por ejemplo, eliminando valores num√©ricos dentro de un texto y transform√°ndolos en un tipo num√©rico, como int64 o float64.

Sabiendo esto, en esta actividad te propongo transformar los datos de la columna precio del conjunto de datos inmuebles_disponibles.json al tipo num√©rico float64. Recordando que, antes de hacer esto, debes llenar los valores vac√≠os de la columna con un valor. Una sugerencia: reemplazar con el string '0.0'.

No dudes en seguir los mismos pasos dados en clase o, si lo prefieres, realizar otras mejoras, como eliminar algunos caracteres o palabras vac√≠as. En el apartado ‚ÄúOpini√≥n del instructor‚Äù encontrar√°s una posible resoluci√≥n para esta actividad.

In [45]:
# importamos la biblioteca numpy
import numpy as np

# utilizamos el m√©todo fillna para llenar los elementos vac√≠os por '0.0'
# definimos el par√°metro de inplace para True para substituir en el DataFrame
dt_data['precio'].fillna('0.0', inplace = True)

# borramos el $ y las comas con apply lambda
dt_data['precio'] = dt_data['precio'].apply(lambda x: x.replace('$', '').replace(',',''))

# transformamos los tipos de datos para float64
dt_data['precio'] = dt_data['precio'].astype(np.float64)

# observamos el resultado final
dt_data

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dt_data['precio'].fillna('0.0', inplace = True)


Unnamed: 0,id,fecha,lugar_disponible,precio
0,857,2016-01-04,False,0.0
1,857,2016-01-05,False,0.0
2,857,2016-01-06,False,0.0
3,857,2016-01-07,False,0.0
4,857,2016-01-08,False,0.0
...,...,...,...,...
364995,3279,2016-12-29,True,140.0
364996,3279,2016-12-30,True,140.0
364997,3279,2016-12-31,True,140.0
364998,3279,2017-01-01,True,140.0


### üá¶üá∑ Sanitizaci√≥n Financiera: Localizaci√≥n Argentina (ARS)

**El Desaf√≠o de Negocio:**
Los sistemas y bancos en Argentina exportan los valores financieros utilizando el punto (`.`) para separar miles y la coma (`,`) para los decimales (Ej: `$1.250,50`). Python y NumPy utilizan el est√°ndar internacional inverso (Ej: `1250.50`).

**El Algoritmo de Conversi√≥n (El orden es estricto):**
1. `.str.replace('$', '')`: Eliminar s√≠mbolo de moneda.
2. `.str.replace('.', '')`: Eliminar separadores de miles para agrupar el entero.
3. `.str.replace(',', '.')`: Reemplazar la coma decimal por el punto de punto flotante de Python.
4. `.astype(np.float64)`: Conversi√≥n final a formato matem√°tico.

In [46]:
import pandas as pd
import numpy as np

# 1. Simulamos una extracci√≥n de datos de ventas de tu PyME (Formato AR)
df_pyme = pd.DataFrame({
    'factura_id': [1001, 1002, 1003],
    'total_facturado': ['$1.250,50', '$5.000,00', '$10.450,99']
})

print("‚ùå Datos Crudos (Texto con Localizaci√≥n Argentina):")
display(df_pyme)

# 2. Pipeline de Sanitizaci√≥n Financiera (Method Chaining)
df_pyme['total_facturado'] = (
    df_pyme['total_facturado']
    .str.replace('$', '', regex=False)   # Paso 1: Chau s√≠mbolo
    .str.replace('.', '', regex=False)   # Paso 2: Chau separador de miles
    .str.replace(',', '.', regex=False)  # Paso 3: Coma a Punto (Traducci√≥n a Python)
    .astype(np.float64)                  # Paso 4: Casting matem√°tico
)

# 3. Auditor√≠a Final
print("\n‚úÖ Datos Limpios (NumPy Float64 listos para operaciones):")
display(df_pyme)
print("\nTipos de Datos:")
print(df_pyme.dtypes)

‚ùå Datos Crudos (Texto con Localizaci√≥n Argentina):


Unnamed: 0,factura_id,total_facturado
0,1001,"$1.250,50"
1,1002,"$5.000,00"
2,1003,"$10.450,99"



‚úÖ Datos Limpios (NumPy Float64 listos para operaciones):


Unnamed: 0,factura_id,total_facturado
0,1001,1250.5
1,1002,5000.0
2,1003,10450.99



Tipos de Datos:
factura_id           int64
total_facturado    float64
dtype: object
