<a href="https://colab.research.google.com/github/DanielRaiicHu/datos_panda_transformacion_manipulacion/blob/main/datos_panda_transformacion_manipulacion.ipynb?forceRefresh=true">
  <img src="https://drive.google.com/uc?export=view&id=191Woxwut0iaIL2hCcCIeXRSB6oba_88H" alt="Abrir en Colab" width="120"/>
</a>

# **Problema de negocio**

Se trata de un algoritmo capaz de analizar las características de una propiedad –como comodidades, tamaño, ocupación del espacio en un período determinado– y sugerir al anfitrión un precio a cobrar por tarifas diarias que garantice ganancias en momentos de alta demanda.

## **1. Entendiendo el problema**

In [173]:
import pandas as pd

In [174]:
datos = pd.read_json('/content/drive/MyDrive/Pandas_3/datos_hosting.json')

In [175]:
datos.head()

Unnamed: 0,info_inmuebles
0,"{'evaluacion_general': '10.0', 'experiencia_lo..."
1,"{'evaluacion_general': '10.0', 'experiencia_lo..."
2,"{'evaluacion_general': '10.0', 'experiencia_lo..."
3,"{'evaluacion_general': '10.0', 'experiencia_lo..."
4,"{'evaluacion_general': '10.0', 'experiencia_lo..."


In [176]:
# Recibe un archivo JSON y lo normaliza
# Para devolver un DataFrame
# Sobreescribimos la variable datos, la cual almacenará un DataFrame
datos = pd.json_normalize(datos['info_inmuebles'])
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"


In [177]:
# Muestra que es un DataFrame y sus columnas
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70 entries, 0 to 69
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    70 non-null     object
 1   experiencia_local     70 non-null     object
 2   max_hospedes          70 non-null     object
 3   descripcion_local     70 non-null     object
 4   descripcion_vecindad  70 non-null     object
 5   cantidad_baños        70 non-null     object
 6   cantidad_cuartos      70 non-null     object
 7   cantidad_camas        70 non-null     object
 8   modelo_cama           70 non-null     object
 9   comodidades           70 non-null     object
 10  cuota_deposito        70 non-null     object
 11  cuota_limpieza        70 non-null     object
 12  precio                70 non-null     object
dtypes: object(13)
memory usage: 7.2+ KB


## **2. Datos numéricos**

In [178]:
columnas = list(datos.columns)
columnas

['evaluacion_general',
 'experiencia_local',
 'max_hospedes',
 'descripcion_local',
 'descripcion_vecindad',
 'cantidad_baños',
 'cantidad_cuartos',
 'cantidad_camas',
 'modelo_cama',
 'comodidades',
 'cuota_deposito',
 'cuota_limpieza',
 'precio']

### **.explode**

In [179]:
# Expande todas las columnas desde la posición 4 en adelante (columnas[3:]),
# separando listas en múltiples filas para facilitar el análisis individual de sus elementos.
datos = datos.explode(columnas[3:])
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


### **.reset_index(), drop, inplace**

In [180]:
# Reinicia el índice del DataFrame y elimina el índice anterior para mantener un orden limpio y consecutivo.
# inplace=True aplica el cambio directamente al DataFrame sin necesidad de reasignar.
# drop=True evita que el índice anterior se convierta en una nueva columna.
datos.reset_index(inplace = True, drop = True)
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [181]:
# Nos damos cuenta que el tipo de datos resultantes para cada columna es tipo object, lo cual no es correcto
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_baños        3818 non-null   object
 6   cantidad_cuartos      3818 non-null   object
 7   cantidad_camas        3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


### **.astype()**

In [182]:
# Se importa la biblioteca numpy para trabajar con valores numéricos
import numpy as np

In [183]:
# Cambia el tipo de dato de la columna 'max_hospedes' a entero (int64)
# Para asegurarse de que todos los valores sean numéricos y se puedan usar en operaciones matemáticas.
datos['max_hospedes'] = datos['max_hospedes'].astype(np.int64)

In [184]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_baños        3818 non-null   object
 6   cantidad_cuartos      3818 non-null   object
 7   cantidad_camas        3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: int64(1), object(12)
memory usage: 387.9+ KB


In [185]:
# Define las columnas que deben tener valores enteros (cantidad de baños, cuartos y camas).
columnas_numericas = ['cantidad_baños', 'cantidad_cuartos', 'cantidad_camas' ]

In [186]:
# Luego convierte esas columnas al tipo de dato int64 para asegurar consistencia numérica.
datos[columnas_numericas] = datos[columnas_numericas].astype(np.int64)

In [187]:
# Muestra la estructura del DataFrame para verificar los tipos de datos.
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_baños        3818 non-null   int64 
 6   cantidad_cuartos      3818 non-null   int64 
 7   cantidad_camas        3818 non-null   int64 
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: int64(4), object(9)
memory usage: 387.9+ KB


In [188]:
# Convierte la columna 'evaluacion_general' al tipo float64
# Para asegurarse de que todos los valores sean números decimales (flotantes)
datos['evaluacion_general'] = datos['evaluacion_general'].astype(np.float64)

In [189]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


In [190]:
# Mostramos la columna 'precio' y vemos que valores con un signo peso al comienzo
datos['precio'].head()

Unnamed: 0,precio
0,$110.00
1,$45.00
2,$55.00
3,$52.00
4,$85.00


### **.apply(), replace, strip**

CUANDO TRABAJAMOS CON UNA COLUMNA, se les llama SERIE.

.apply solo sirve para una serie.

In [191]:
# apply(lambda x: ...): aplica una función a cada fila de la columna precio.
# .replace('$',''): elimina el símbolo $.
# .replace(',',''): elimina las comas de los miles (ej. $1,000.00 → 1000.00).
# .strip(): elimina espacios en blanco al principio o final del valor.
datos['precio'] = datos['precio'].apply(lambda x: x.replace('$','').replace(',','').strip())

In [192]:
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,110.0
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,45.0
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,55.0
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,52.0
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,85.0


In [193]:
# Convierte la columna 'precio' al tipo float64,
# permitiendo trabajar con los valores monetarios como números decimales.
datos['precio'] = datos['precio'].astype(np.float64)

In [194]:
# Para ver los cambios. Precio ahora es tipo float64
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   float64
dtypes: float64(2), int64(4), object(7)
memory usage: 387.9+ KB


### **.applymap()**



CUANDO TRABAJAMOS CON MÁS DE UNA COLUMNA, se le llama DATAFRAME.

.applymap sirve para un DataFrame

In [195]:
# [['col1', 'col2']]: selecciona varias columnas (cuota_deposito y cuota_limpieza).
# applymap(): aplica una función a cada celda individual dentro del DataFrame seleccionado.
# lambda x: ...: elimina el símbolo $, las comas y espacios, igual que antes.
datos[['cuota_deposito','cuota_limpieza']] = datos[['cuota_deposito','cuota_limpieza']].applymap(lambda x: x.replace('$','').replace(',','').strip())

  datos[['cuota_deposito','cuota_limpieza']] = datos[['cuota_deposito','cuota_limpieza']].applymap(lambda x: x.replace('$','').replace(',','').strip())


In [196]:
# Convierte las columnas 'cuota_deposito' y 'cuota_limpieza' a tipo numérico decimal (float64)
datos[['cuota_deposito','cuota_limpieza']] = datos[['cuota_deposito','cuota_limpieza']].astype(np.float64)

In [197]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   float64
 11  cuota_limpieza        3818 non-null   float64
 12  precio                3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB


## **3. Datos de texto**

In [198]:
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


### **Tokenización, .str, .lower()**

In [199]:
# Para ver una SERIE de 'descripcion_local'
datos['descripcion_local']

Unnamed: 0,descripcion_local
0,This clean and comfortable one bedroom sits ri...
1,Our century old Upper Queen Anne house is loca...
2,Cozy room in two-bedroom apartment along the l...
3,Very lovely and cozy room for one. Convenientl...
4,The “Studio at Mibbett Hollow' is in a Beautif...
...,...
3813,Beautiful craftsman home in the historic Wedgw...
3814,Located in a very easily accessible area of Se...
3815,This home is fully furnished and available wee...
3816,This business-themed modern home features: *H...


In [200]:
# datos['descripcion_local'] = datos['descripcion_local'].apply(lambda x: x.lower()) -> otra forma???
# Es más recomendable usar la siguiente: (ver código de abajo)

In [201]:
# Primer paso para una tokenización, es llevar el texto a minúsculas
datos['descripcion_local'] = datos['descripcion_local'].str.lower()

In [202]:
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,this clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,our century old upper queen anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,very lovely and cozy room for one. convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,the “studio at mibbett hollow' is in a beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


In [203]:
datos['descripcion_local'][3169]

"built, run and supported by seattle tech and start up veterans, grokhome's focus is to create a supportive environment for smart people working on interesting projects, start ups and more. this listing is an upper bunk, in a 2-person shared room. *note: this fall, there will be major renovations happening on one kitchen and bathroom at a time. there will always be two other working kitchens and two working bathrooms in the house. we'll work to minimize the impact these renovations have on your stay. **this listing is only available to those working in the tech/science space. live in a hacker house, and immerse yourself in the seattle tech scene. you can expect to be surrounded by smart people solving big problems or working on something fun. we have frequent demo nights, and love when our guests share something they are passionate about. if you're new to the city, our deep ties to the seattle tech scene can help you get involved. expand your network, develop your ideas, and learn some

### **regex**

In [204]:
# ^ negación
# entonces, reemplaza todo, menos las letras de a-z, A-Z, números de 0-9
# \- -> guión \' -> comilla simple
datos['descripcion_local'] = datos['descripcion_local'].str.replace('[^a-zA-Z0-9\-\']',' ',regex=True)

In [205]:
# Reemplaza guiones aislados (que no están entre letras o números) por espacios,
# para mejorar la legibilidad en las descripciones
datos['descripcion_local'] = datos['descripcion_local'].str.replace('(?<!\w)-(?!\w)',' ',regex=True)

In [206]:
datos['descripcion_local'] .head()

Unnamed: 0,descripcion_local
0,this clean and comfortable one bedroom sits ri...
1,our century old upper queen anne house is loca...
2,cozy room in two-bedroom apartment along the l...
3,very lovely and cozy room for one convenientl...
4,the studio at mibbett hollow' is in a beautif...


### **Tokenización**

In [207]:
# Tokenización: divide cada texto de la columna 'descripcion_local' en una lista de palabras (tokens),
# separando por espacios en blanco (comportamiento por defecto de .split()).
# El resultado es una lista de palabras por fila en lugar de una cadena de texto continua.
datos['descripcion_local'] = datos['descripcion_local'].str.split()
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


In [235]:
# Sustuimos por un espacio sin nada lo siguiente:
# \{ -> abre corchete | -> y } -> cierra corchete | -> y \" -> comilla doble
datos['comodidades'] = datos['comodidades'].str.replace('\{|}|\"','', regex=True)

In [236]:
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"Internet,Wireless Internet,Kitchen,Free Parkin...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"TV,Internet,Wireless Internet,Kitchen,Free Par...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"TV,Internet,Wireless Internet,Kitchen,Free Par...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"Internet,Wireless Internet,Kitchen,Free Parkin...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"Wireless Internet,Kitchen,Free Parking on Prem...",0.0,15.0,85.0


In [238]:
# Transforma la cadena de caracteres en una lista, separadas por comas (,)
datos['comodidades'] = datos['comodidades'].str.split(',')
datos.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",0.0,15.0,85.0


# **Desafíos: Trabajando en otros contextos**

**Trabajando en otros contextos**

Ha llegado el momento de poner en práctica todo lo aprendido durante las clases. ¡Preparé dos proyectos adicionales para que los desarrollemos durante el curso, para asegurarnos de que podamos practicar mucho! Para ello trabajaremos con 2 nuevos conjuntos de datos, pero esta vez serán mucho más pequeños. Las bases de datos están disponibles para descargar aquí:

* Proyecto Desafío 1: Ventas Online – https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json  
* Proyecto Desafío 2: Administración de Condominios – https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json

En cada clase desarrollaremos una etapa de los proyectos. Así que guarde su código de construcción para cada desafío para poder aplicarlo en los desafíos posteriores.

## **Proyecto Desafío 1: Ventas Online**

* El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online.
* Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento.
* Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda.
* Posteriormente puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

La base de datos utilizada en este análisis es [dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json)

Enlace de los datos:  
https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json

### **Desafío 1 - Etapa 1**

* El desafío del proyecto 1: ventas online será abrir la base de datos con Pandas y aplicar [json_normalize](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html).

In [208]:
import pandas as pd

In [209]:
datos_desafio_1 = pd.read_json('/content/drive/MyDrive/Pandas_3/dados_vendas_clientes.json')

In [210]:
datos_desafio_1

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [211]:
# Normalizo y sobreescribo en datos_desafio_1
datos_desafio_1 = pd.json_normalize(datos_desafio_1['dados_vendas'])

In [212]:
datos_desafio_1

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


### **Desafío 1 - Etapa 2**

Leímos la base de datos en el desafío anterior, ahora podemos seguir adelante con la transformación de estos datos. Así, el nuevo desafío del proyecto 1 será dividido en algunas metas:

* Eliminar datos en listas dentro del DataFrame;
* Verificar tipos de datos;
* Identificar columnas numéricas;
* Transformar la columna numérica a tipo numérico.

In [213]:
datos_desafio_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    5 non-null      object
 1   Cliente          5 non-null      object
 2   Valor da compra  5 non-null      object
dtypes: object(3)
memory usage: 252.0+ bytes


In [214]:
# Convierte el índice de columnas del DataFrame 'datos_desafio_1' en una lista de nombres de columnas
columnas_d1 = list(datos_desafio_1.columns)
columnas_d1

['Data de venda', 'Cliente', 'Valor da compra']

In [215]:
type(columnas_d1)

list

In [216]:
# Expande todas las columnas desde la posición 1 en adelante (columnas_d1[1:]),
# separando listas en múltiples filas para facilitar el análisis individual de sus elementos.
datos_desafio_1 = datos_desafio_1.explode(columnas_d1[1:])
datos_desafio_1.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [217]:
# Reinicia el índice del DataFrame y elimina el índice anterior para mantener un orden limpio y consecutivo.
datos_desafio_1.reset_index(inplace = True, drop = True)
datos_desafio_1.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [218]:
# Reemplaza carácteres en '', reemplaza las ',' por espacios en blanco,  y elimina todos los '' existentes antes y despues.
datos_desafio_1['Valor da compra'] = datos_desafio_1['Valor da compra'].apply(lambda x: x.replace('$','').replace('R','').replace(',','').strip())

In [219]:
datos_desafio_1.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,8365
1,06/06/2022,DieGO ARMANDIU 210,57333
2,06/06/2022,DieGO ARMANDIU 210,3928
3,06/06/2022,DieGO ARMANDIU 210,51234
4,07/06/2022,Isabely JOanes 738,82531


In [220]:
# Convierte la columna 'precio' al tipo float64,
# permitiendo trabajar con los valores monetarios como números decimales.
datos_desafio_1['Valor da compra'] = datos_desafio_1['Valor da compra'].astype(np.float64)

In [221]:
datos_desafio_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


## **Proyecto Desafío 2: Administración de Condominios**

* Administrar condominios es una tarea que requiere mucha atención y organización.
* Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos.
* Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual.
* Teniendo esto en cuenta, propongo un desafío de procesamiento de datos con el objetivo de analizar el retraso en el pago del alquiler.

La base de datos es [dados_locacao_imoveis.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json)

Enlace de los datos:  
https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json

### **Desafío 2 - Etapa 1**

* Con esta información, el desafío del proyecto 2 será similar al del proyecto 1: abrir la base de datos con Pandas y aplicar [json_normalize](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html) al DataFrame.

In [222]:
import pandas as pd

In [223]:
datos_desafio_2 = pd.read_json('/content/drive/MyDrive/Pandas_3/dados_locacao_imoveis.json')

In [224]:
datos_desafio_2.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [225]:
# Normalizo y sobreescribo en datos_desafio_2
datos_desafio_2 = pd.json_normalize(datos_desafio_2['dados_locacao'])

In [226]:
datos_desafio_2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


### **Desafío 2 - Etapa 2**

Leímos la base de datos en el desafío anterior, ahora podemos seguir adelante con la transformación de estos datos. Entonces, de la misma manera que en el proyecto 1, el desafío del proyecto 2 está listado en algunas metas:

* Eliminar datos en listas dentro del DataFrame;
* Verificar tipos de datos;
* Identificar columnas numéricas;
* Transformar la columna numérica a tipo numérico.

In [227]:
datos_desafio_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 15 non-null     object
 1   datas_combinadas_pagamento  15 non-null     object
 2   datas_de_pagamento          15 non-null     object
 3   valor_aluguel               15 non-null     object
dtypes: object(4)
memory usage: 612.0+ bytes


In [228]:
# Convierte el índice de columnas del DataFrame 'datos_desafio_2' en una lista de nombres de columnas
columnas_d2 = list(datos_desafio_2.columns)
columnas_d2

['apartamento',
 'datas_combinadas_pagamento',
 'datas_de_pagamento',
 'valor_aluguel']

In [229]:
# Expande todas las columnas desde la posición 1 en adelante (columnas_d2[1:]),
# separando listas en múltiples filas para facilitar el análisis individual de sus elementos.
datos_desafio_2 = datos_desafio_2.explode(columnas_d2[1:])
datos_desafio_2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
0,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
1,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
1,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
2,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [230]:
# Reinicia el índice del DataFrame y elimina el índice anterior para mantener un orden limpio y consecutivo.
datos_desafio_2.reset_index(inplace = True, drop = True)
datos_desafio_2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [231]:
# Reemplaza carácteres en '', reemplaza las ',' por espacios en blanco,  y elimina todos los '' existentes antes y despues.
datos_desafio_2['valor_aluguel'] = datos_desafio_2['valor_aluguel'].apply(lambda x: x.replace('R','').replace('reais','').replace('$','').replace(',','').strip())

In [232]:
# Convierte la columna 'valor_aluguel' al tipo float64,
# permitiendo trabajar con los valores monetarios como números decimales.
datos_desafio_2['valor_aluguel'] = datos_desafio_2['valor_aluguel'].astype(np.float64)

In [233]:
datos_desafio_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.1+ KB
