<a href="https://colab.research.google.com/github/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/blob/main/cuaderno_clases.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pandas transformación y manipulación de datos
En este curso se aprendió a usar Pandas para procesar y manipular datos de diversos tipos. Se trabajó en un proyecto de fijación de precios inteligentes para alojamientos inmobiliarios donde se trataron datos numéricos, de texto y de tiempo.
La herramienta que se utilizó fue Google Colab. Finalmente, el instructor recomendó tener conocimientos básicos de Pandas, lectura de archivos JSON, selección y agrupación de datos.

In [1]:
#Importamos la biblioteca pandas.
import pandas as pd

##Conociendo el problema
El enfoque principal del curso es preparar, transformar y manipular los datos para que sean adecuados para el análisis y la creación de la solución de tarificación inteligente. No se realizará el análisis en sí en este curso.

Una solución de tarificación inteligente analiza las características de una propiedad (comodidades, tamaño, ubicación, demanda, etc.) para sugerir un precio de alquiler diario que maximice las ganancias del anfitrión, especialmente en momentos de alta demanda.

###Importación de archivo json

In [48]:
#Almacenamos en una variable global la URL del archivo json.
url_1 = 'https://github.com/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/raw/refs/heads/main/datos/datos_hosting.json'

#Leemos los datos con la función pd.read_json y lo almacenamos en un dataframe.
hosting_df = pd.read_json(url_1)
hosting_df.head()

Unnamed: 0,info_inmuebles
0,"{'evaluacion_general': '10.0', 'experiencia_lo..."
1,"{'evaluacion_general': '10.0', 'experiencia_lo..."
2,"{'evaluacion_general': '10.0', 'experiencia_lo..."
3,"{'evaluacion_general': '10.0', 'experiencia_lo..."
4,"{'evaluacion_general': '10.0', 'experiencia_lo..."


###Normalizando los datos

In [49]:
#Se convierten los datos anidados en columnas con pd.json_normalize, que recibe como input una lista de diccionarios o un diccionario.
hosting_normalizado_df = pd.json_normalize(hosting_df['info_inmuebles'])
hosting_normalizado_df.head(3)

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]


###Desafío del aula 1
Para los desafíos trabajaremos con 2 nuevos conjuntos de datos, pero esta vez serán mucho más pequeños. Las bases de datos están disponibles para descargar aquí:
- Proyecto Desafío 1: [Ventas Online](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json)

  El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

- Proyecto Desafío 2: [Administración de condominios](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json)

  Administrar condominios es una tarea que requiere mucha atención y organización. Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede.

####Proyecto Desafío 1: Ventas Online

In [50]:
#URL del archivo JSON.
url_desafio1 = 'https://github.com/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/raw/refs/heads/main/desafio/dados_vendas_clientes.json'

#Dataframe original
ventas_df = pd.read_json(url_desafio1)
ventas_df.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [51]:
#Dataframe normalizado
ventasnorm_df = pd.json_normalize(ventas_df['dados_vendas'])
ventasnorm_df.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


####Proyecto Desafío 2: Administración de condominios

In [52]:
#URL del archivo JSON.
url_desafio2 = 'https://github.com/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/raw/refs/heads/main/desafio/dados_locacao_imoveis.json'

#Dataframe original
condominios_df = pd.read_json(url_desafio2)
condominios_df.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [53]:
#Dataframe normalizado
condominiosnorm_df = pd.json_normalize(condominios_df['dados_locacao'])
condominiosnorm_df.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


##Datos numéricos

###Explosión de datos
Antes, se normalizo, y descomprimió una columna en más columnas. Ahora, con el método `.explode()` se descomprimieron la listas de cada registro en más registros.

In [54]:
'''
Explode recibe el nombre de las columnas cuyos registros son listas. Entonces,
se pasará una lista que contenga el nombre de todas las columnas y con slice
notation se seleccionará las que contienen registros anidados. De acuerdo a los
registros del dataframe, se aprecia que los registros están anidados desde la
columna 4 en adelante.
'''
#Se crea la lista con los nombres de columnas
columnas = list(hosting_normalizado_df.columns)
columnas

['evaluacion_general',
 'experiencia_local',
 'max_hospedes',
 'descripcion_local',
 'descripcion_vecindad',
 'cantidad_baños',
 'cantidad_cuartos',
 'cantidad_camas',
 'modelo_cama',
 'comodidades',
 'cuota_deposito',
 'cuota_limpieza',
 'precio']

In [55]:
#Se emplea el método explode para descomprimir registros en más registros
hosting_normalizado_df = hosting_normalizado_df.explode(columnas[3:])
hosting_normalizado_df.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [56]:
#Se resetea el índice y elimina el viejo indice, aplicando los cambios sobre el dataframe original.
hosting_normalizado_df.reset_index(drop=True, inplace=True)
hosting_normalizado_df.sample(5)

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
1299,10.0,--,4,You are renting basement 2 bedroom apartment w...,--,1,1,2,Real Bed,"{TV,""Wireless Internet"",""Free Parking on Premi...",$100.00,$75.00,$60.00
3679,,--,4,The Maple is a 5 unit renovated classic brick ...,Situated on the eastern bench of downtown our ...,1,1,2,Real Bed,"{TV,""Cable TV"",""Wireless Internet"",Kitchen,""Fr...",$0,$50.00,$89.00
2670,9.0,--,3,"Updated, corner-unit condo in the heart of Cap...",Capitol Hill is easily the most fun and centra...,1,1,1,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""W...",$0,$0,$150.00
3217,,--,1,About Io House: This listing is for the top bu...,--,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,Heating,...",$350.00,$35.00,$62.00
3423,,--,2,"Enjoy a small getaway with views of the Sound,...",--,1,0,1,Real Bed,"{TV,""Cable TV"",""Wireless Internet"",""Buzzer/Wir...",$0,$10.00,$100.00


###Convirtiendo los datos numéricos
Aprendimos a cambiar tipos de datos numéricos en Pandas usando Numpy. Convertimos columnas a enteros (**int64**) y decimales (**float64**) con `astype()`.

Si hay caracteres no numéricos, la conversión falla, así que hay que limpiarlos primero.

In [57]:
#Inspeccionamos los tipos que tiene actualmente el df.
hosting_normalizado_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   evaluacion_general    3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descripcion_local     3818 non-null   object
 4   descripcion_vecindad  3818 non-null   object
 5   cantidad_baños        3818 non-null   object
 6   cantidad_cuartos      3818 non-null   object
 7   cantidad_camas        3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  cuota_deposito        3818 non-null   object
 11  cuota_limpieza        3818 non-null   object
 12  precio                3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


In [58]:
#Corroboramos si la columna "experiencia_local" contiene valores numéricos.
hosting_normalizado_df['experiencia_local'].unique() #No contiene valores numéricos.

array(['--'], dtype=object)

In [59]:
#Importamos la biblioteca Numpy para usar su tipos de datos por ser más eficientes en el uso de memoria.
import numpy as np

In [60]:
#Creamos una lista con el nombre de las columnas que contienen datos enteros.
columnas_enteros = ['max_hospedes', 'cantidad_baños', 'cantidad_cuartos', 'cantidad_camas']
hosting_normalizado_df[columnas_enteros] = hosting_normalizado_df[columnas_enteros].astype(np.int64)

#Convertimos la columna "evaluacion_general" a tipo flotante, por ser la única sin caracterés especiales.
hosting_normalizado_df['evaluacion_general'] = hosting_normalizado_df['evaluacion_general'].astype(np.float64)

In [61]:
#Corroboramos los cambios de tipo.
hosting_normalizado_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


###Numeros en string
En clase, usando **apply** y **lambda**, se limpiaron todos los datos numéricos en formato texto del dataframe. Con el método `replace()` se eliminaron los símbolos como el dólar y comas, mientras que con el método `strip()` se quitaron los espacios en blanco a cada registro de la columna "ingresos". Finalmente, se cambió el tipo de dato a ***float*** para que Pandas interprete los valores como números decimales.

In [62]:
hosting_normalizado_df['precio'].head(3)

Unnamed: 0,precio
0,$110.00
1,$45.00
2,$55.00


In [63]:
#Mediante el método apply, se aplicó una función lambda que permitió limpiar los datos numéricos en 'precio'.
hosting_normalizado_df['precio'] = hosting_normalizado_df['precio'].apply(lambda x: x.replace('$', '').replace(',', '').strip())
hosting_normalizado_df['precio'].head(3)

Unnamed: 0,precio
0,110.0
1,45.0
2,55.0


In [64]:
#Mediante el método astype, se cambió el tipo de datos de la columna 'precio'.
hosting_normalizado_df['precio'] = hosting_normalizado_df['precio'].astype(np.float64)
hosting_normalizado_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   object 
 11  cuota_limpieza        3818 non-null   object 
 12  precio                3818 non-null   float64
dtypes: float64(2), int64(4), object(7)
memory usage: 387.9+ KB


###Transformación en múltiples columnas
En contraste a `apply`, usado para aplicar una función a lo largo de un eje de un Dataframe o una única serie, `map` se usa para aplicar una función a cada elemento de un DataFrame (dos o más series).

En clase, se transformó múltiples columnas numéricas en un DataFrame usando `map` para eliminar **símbolos** y **comas**, convirtiéndolas a tipo **float64**.

Se usó `map`, debido a que `applymap` está deprecado.

In [65]:
#Con applymap, se aplica la función lambda para limpiar los registros de dos series del df.
columnas_float = ['cuota_deposito', 'cuota_limpieza']
hosting_normalizado_df[columnas_float] = hosting_normalizado_df[columnas_float].map(lambda x: x.replace('$', '').replace(',', '').strip())

In [66]:
#Mediante el método astype, se cambió el tipo de datos de la columna 'precio'.
hosting_normalizado_df[columnas_float] = hosting_normalizado_df[columnas_float].astype(np.float64)
hosting_normalizado_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   evaluacion_general    3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descripcion_local     3818 non-null   object 
 4   descripcion_vecindad  3818 non-null   object 
 5   cantidad_baños        3818 non-null   int64  
 6   cantidad_cuartos      3818 non-null   int64  
 7   cantidad_camas        3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  cuota_deposito        3818 non-null   float64
 11  cuota_limpieza        3818 non-null   float64
 12  precio                3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB


###Desafío del aula 2
Los dos proyectos adicionales deben prepararse de igual forma que los datos en clase:
- Eliminar datos en listas dentro del DataFrame;
- Verificar tipos de datos;
- Identificar columnas numéricas;
- Transformar la columna numérica a tipo numérico.

####Proyecto Desafío 1: Ventas Online

In [67]:
#Se descomprimen listas en registros.
colcomprimidas_ventas = ['Cliente','Valor da compra']
ventasnorm_df = ventasnorm_df.explode(colcomprimidas_ventas)
ventasnorm_df.reset_index(drop=True, inplace=True)

In [68]:
ventasnorm_df.head(3)

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"


In [69]:
#Se identifican las columnas numéricas, transformando sus registros a un tipo numérico.
ventasnorm_df['Valor da compra'] = ventasnorm_df['Valor da compra'].apply(lambda x: x.replace('R$', '').replace('.','').replace(',','.').strip())
ventasnorm_df['Valor da compra'] = ventasnorm_df['Valor da compra'].astype(np.float64)

In [70]:
#Se verifica los tipos de datos.
ventasnorm_df.info

####Proyecto Desafío 2: Administración de condominios

In [71]:
#Se descomprimen listas en registros.
colcomprimidas_condominios = ['datas_combinadas_pagamento', 'datas_de_pagamento', 'valor_aluguel']
condominiosnorm_df = condominiosnorm_df.explode(colcomprimidas_condominios)
condominiosnorm_df.reset_index(drop=True, inplace=True)

In [72]:
condominiosnorm_df.head(3)

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"


In [73]:
#Se identifican las columnas numéricas, transformando sus registros a un tipo numérico.
condominiosnorm_df['valor_aluguel'] = condominiosnorm_df['valor_aluguel'].apply(lambda x: x.replace('$','').replace('.','').replace(',','.').replace('reais','').strip())
condominiosnorm_df['valor_aluguel'] = condominiosnorm_df['valor_aluguel'].astype(np.float64)

In [74]:
#Se verifica los tipos de datos.
condominiosnorm_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.1+ KB


##Datos de texto
Utilizar datos de texto, como las descripciones de propiedades, para mejorar un algoritmo de precios. Se explica que las características no numéricas también pueden influir en el precio de un alojamiento.

Para trabajar con texto, se introduce el concepto de "***tokenización***", que es la división del texto en unidades más pequeñas llamadas "***tokens***". En este caso, se separará el texto en palabras individuales.

In [75]:
hosting_normalizado_df.head(3)

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0


###Pasos iniciales
Los pasos iniciales para preparar el texto incluyen convertirlo a minúsculas y eliminar caracteres extraños.

In [76]:
#Mediante los métodos str y lower convertirmos los registros de texto en minúsculas.
#Realizamos la operación en las columnas "descripcion_local" y "descripcion_vecindad".
hosting_normalizado_df['descripcion_local'] = hosting_normalizado_df['descripcion_local'].str.lower()
hosting_normalizado_df['descripcion_vecindad'] = hosting_normalizado_df['descripcion_vecindad'].str.lower()

###Eliminando caracteres con Regex
Se limpió texto en Pandas con ***regex***, eliminando caracteres innecesarios como signos de puntuación, pero conservando guiones en palabras compuestas. También se eliminó guiones aislados, preparando el texto para un análisis de datos más efectivo.

In [77]:
#Se selecciona un registro de texto al azar para analizar que caracteres se mantendrán.
hosting_normalizado_df['descripcion_local'][3068]

"quiet, yet urban town home features living space on the main floor and two bedrooms and two bathrooms on the upper floor. there is a private patio with bbq and a designated parking space. the town home is less than 2 minutes from the freeway this urban retreat is quiet and well appointed. all linens included, full washer and dryer in the unit along with fully stocked kitchen cupboards. guests will enjoy cable tv, wifi, all linens, pots, pans, board games...all in a cozy and private setting. i'm available by phone, email or text any time. i have backup numbers in case you can't get ahold of me. the town home is conveniently located close to all amenities, parks, and midway between downtown and the airport. the neighborhood is easy walking to trader joes, plenty of parks. it's a short drive to alki beach and downtown. bus routes are half a block away on fauntleroy ave sw, north goes directly to downtown, south takes you to lincoln park and the vashon ferry. you can also head north to ad

In [78]:
hosting_normalizado_df['descripcion_vecindad'][3068]

"the town home is conveniently located close to all amenities, parks, and midway between downtown and the airport. the neighborhood is easy walking to trader joes, plenty of parks. it's a short drive to alki beach and downtown."

In [79]:
#Expresión regular 1
'''
Expresión regex para detectar cualquier carácter que NO sea una letra, número,
guion o comilla simple
'''
'[^a-zA-Z0-9\-\']'

#Expresión regular 2
'''
Expresión regex para detectar un guion medio (-) aislado, sin letras o números
a los lados
'''
'(?<!\w)-(?!\w)'

'(?<!\\w)-(?!\\w)'

In [80]:
#Aplicamos la primera expresión regular a los registros de texto en la columna.
hosting_normalizado_df['descripcion_local'] = hosting_normalizado_df['descripcion_local'].str.replace('[^a-zA-Z0-9\-\']',' ', regex=True)
hosting_normalizado_df['descripcion_vecindad'] = hosting_normalizado_df['descripcion_vecindad'].str.replace('[^a-zA-Z0-9\-\']',' ', regex=True)

#Aplicamos la segunda expresión regular.
hosting_normalizado_df['descripcion_local'] = hosting_normalizado_df['descripcion_local'].str.replace('(?<!\w)-(?!\w)',' ', regex=True)
hosting_normalizado_df['descripcion_vecindad'] = hosting_normalizado_df['descripcion_vecindad'].str.replace('(?<!\w)-(?!\w)',' ', regex=True)

In [81]:
hosting_normalizado_df[['descripcion_local','descripcion_vecindad']].head()

Unnamed: 0,descripcion_local,descripcion_vecindad
0,this clean and comfortable one bedroom sits ri...,lower queen anne is near the seattle center s...
1,our century old upper queen anne house is loca...,upper queen anne is a really pleasant unique ...
2,cozy room in two-bedroom apartment along the l...,the convenience of being in seattle but on the...
3,very lovely and cozy room for one convenientl...,ballard is lovely vibrant and one of the most...
4,the studio at mibbett hollow' is in a beautif...,


###Tokenización de strings
Se aprendió a tokenizar strings con Pandas, transformando frases en listas de palabras usando `split()`. También se limpió datos eliminando caracteres no deseados con regex y `replace()`.

In [82]:
#Se tokeniza los registros tipo texto en lista de palabras con split.
hosting_normalizado_df['descripcion_local'] = hosting_normalizado_df['descripcion_local'].str.split()
hosting_normalizado_df['descripcion_vecindad'] = hosting_normalizado_df['descripcion_vecindad'].str.split()

In [83]:
hosting_normalizado_df[['descripcion_local','descripcion_vecindad']]

Unnamed: 0,descripcion_local,descripcion_vecindad
0,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c..."
1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ..."
2,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but..."
3,"[very, lovely, and, cozy, room, for, one, conv...","[ballard, is, lovely, vibrant, and, one, of, t..."
4,"[the, studio, at, mibbett, hollow', is, in, a,...",[]
...,...,...
3813,"[beautiful, craftsman, home, in, the, historic...",[]
3814,"[located, in, a, very, easily, accessible, are...","[quiet, dead, end, street, near, i-5, the, pro..."
3815,"[this, home, is, fully, furnished, and, availa...",[]
3816,"[this, business-themed, modern, home, features...","[your, hosts, made, madison, valley, their, ho..."


In [None]:
#Expresión regular 3
'''
Expresión regex para detectar llaves y comillas dobles.
'''
'\{|}|\"'

In [84]:
#Se detecta caraterés no deseados en la columna "comodidades".
hosting_normalizado_df['comodidades'] = hosting_normalizado_df['comodidades'].str.replace('\{|}|\"', '', regex=True)

#Se tokeniza los registros tipo texto en lista de palabras con split.
hosting_normalizado_df['comodidades'] = hosting_normalizado_df['comodidades'].str.split(',')

In [86]:
hosting_normalizado_df.head(3)

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c...",1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0


###Desafío del aula 3
Los dos proyectos adicionales deben prepararse de igual forma que los datos en clase: trabajar con valores textuales.

####Proyecto Desafío 1: Ventas Online
Debido a una inestabilidad en el sitio web de la empresa, tuvimos problemas con los nombres de los clientes durante el guardado. Esto resultó en una columna de nombres de clientes con una combinación de letras, mayúsculas y minúsculas, números y otros caracteres.

Sabiendo esto, manipula los textos de la columna Cliente para que el resultado sean los nombres de los clientes en letras minúsculas, con ausencia de caracteres especiales o números.

In [93]:
ventasnorm_df['Cliente'] = ventasnorm_df['Cliente'].str.lower()
ventasnorm_df['Cliente'] = ventasnorm_df['Cliente'].str.replace('[^a-zA-Z]',' ',regex=True)
ventasnorm_df['Cliente'] = ventasnorm_df['Cliente'].apply(lambda x: x.strip())

In [94]:
ventasnorm_df.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31


In [None]:
#Solución del instructor
'''
Realizar la substitución de los datos en la columna textual
datos['Cliente'] = datos['Cliente'].str.replace('[^a-z ]', '', regex=True).str.strip()
'''

####Proyecto Desafío 2: Administración de condominios
Buscando explicar la organización de la identificación de los apartamentos, durante la creación del conjunto de datos se añadió el texto (blocoAP). Este texto informa que los nombres de los apartamentos están organizados con la letra mayúscula seguida del número del apartamento. Sin embargo, esto no aporta ninguna información a nuestros datos, por lo que resulta interesante eliminar este texto del conjunto de datos.

Con esto, manipule los textos de la columna apartamento para eliminar el texto (blocoAP) del DataFrame.

In [103]:
condominiosnorm_df['apartamento'] = condominiosnorm_df['apartamento'].str.replace('(blocoAP)',' ')
condominiosnorm_df['apartamento'] = condominiosnorm_df['apartamento'].apply(lambda x: x.strip())

In [104]:
condominiosnorm_df.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
1,A101,01/07/2022,03/07/2022,2500.0
2,A102,02/06/2022,02/06/2022,1100.0
3,A102,02/07/2022,06/07/2022,2600.0
4,B201,03/06/2022,07/06/2022,1200.0


In [None]:
#Solución del instructor
'''
Realizar la substitución de los datos en la columna textual
datos['apartamento'] = datos['apartamento'].str.replace(' \(blocoAP\)', '')
'''