<a href="https://colab.research.google.com/github/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/blob/main/cuaderno_clases.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pandas transformación y manipulación de datos
En este curso se aprendió a usar Pandas para procesar y manipular datos de diversos tipos. Se trabajó en un proyecto de fijación de precios inteligentes para alojamientos inmobiliarios donde se trataron datos numéricos, de texto y de tiempo.
La herramienta que se utilizó fue Google Colab. Finalmente, el instructor recomendó tener conocimientos básicos de Pandas, lectura de archivos JSON, selección y agrupación de datos.

In [1]:
#Importamos la biblioteca pandas.
import pandas as pd

##Conociendo el problema
El enfoque principal del curso es preparar, transformar y manipular los datos para que sean adecuados para el análisis y la creación de la solución de tarificación inteligente. No se realizará el análisis en sí en este curso.

Una solución de tarificación inteligente analiza las características de una propiedad (comodidades, tamaño, ubicación, demanda, etc.) para sugerir un precio de alquiler diario que maximice las ganancias del anfitrión, especialmente en momentos de alta demanda.

###Importación de archivo json

In [2]:
#Almacenamos en una variable global la URL del archivo json.
url_1 = 'https://github.com/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/raw/refs/heads/main/datos/datos_hosting.json'

#Leemos los datos con la función pd.read_json y lo almacenamos en un dataframe.
hosting_df = pd.read_json(url_1)
hosting_df.head()

Unnamed: 0,info_inmuebles
0,"{'evaluacion_general': '10.0', 'experiencia_lo..."
1,"{'evaluacion_general': '10.0', 'experiencia_lo..."
2,"{'evaluacion_general': '10.0', 'experiencia_lo..."
3,"{'evaluacion_general': '10.0', 'experiencia_lo..."
4,"{'evaluacion_general': '10.0', 'experiencia_lo..."


###Normalizando los datos

In [3]:
#Se convierten los datos anidados en columnas con pd.json_normalize, que recibe como input una lista de diccionarios o un diccionario.
hosting_normalizado_df = pd.json_normalize(hosting_df['info_inmuebles'])
hosting_normalizado_df.head(3)

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]


###Desafío del aula 1
Para los desafíos trabajaremos con 2 nuevos conjuntos de datos, pero esta vez serán mucho más pequeños. Las bases de datos están disponibles para descargar aquí:
- Proyecto Desafío 1: [Ventas Online](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json)

  El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

- Proyecto Desafío 2: [Administración de condominios](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json)

  Administrar condominios es una tarea que requiere mucha atención y organización. Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede.

####Proyecto Desafío 1: Ventas Online

In [None]:
#URL del archivo JSON.
url_desafio1 = 'https://github.com/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/raw/refs/heads/main/desafio/dados_vendas_clientes.json'

#Dataframe original
ventas_df = pd.read_json(url_desafio1)
ventas_df.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [None]:
#Dataframe normalizado
ventasnorm_df = pd.json_normalize(ventas_df['dados_vendas'])
ventasnorm_df.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


####Proyecto Desafío 2: Administración de condominios

In [None]:
#URL del archivo JSON.
url_desafio2 = 'https://github.com/JLuceroVasquez/pandas-manipulacion-transformacion-de-datos/raw/refs/heads/main/desafio/dados_locacao_imoveis.json'

#Dataframe original
condominios_df = pd.read_json(url_desafio2)
condominios_df.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [None]:
#Dataframe normalizado
condominiosnorm_df = pd.json_normalize(condominios_df['dados_locacao'])
condominiosnorm_df.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


##Datos numéricos

###Explosión de datos
Antes, se normalizo, y descomprimió una columna en más columnas. Ahora, con el método `.explode()` se descomprimieron la listas de cada registro en más registros.

In [6]:
'''
Explode recibe el nombre de las columnas cuyos registros son listas. Entonces,
se pasará una lista que contenga el nombre de todas las columnas y con slice
notation se seleccionará las que contienen registros anidados. De acuerdo a los
registros del dataframe, se aprecia que los registros están anidados desde la
columna 4 en adelante.
'''
#Se crea la lista con los nombres de columnas
columnas = list(hosting_normalizado_df.columns)
columnas

['evaluacion_general',
 'experiencia_local',
 'max_hospedes',
 'descripcion_local',
 'descripcion_vecindad',
 'cantidad_baños',
 'cantidad_cuartos',
 'cantidad_camas',
 'modelo_cama',
 'comodidades',
 'cuota_deposito',
 'cuota_limpieza',
 'precio']

In [7]:
#Se emplea el método explode para descomprimir registros en más registros
hosting_normalizado_df = hosting_normalizado_df.explode(columnas[3:])
hosting_normalizado_df.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [10]:
#Se resetea el índice y elimina el viejo indice, aplicando los cambios sobre el dataframe original.
hosting_normalizado_df.reset_index(drop=True, inplace=True)
hosting_normalizado_df.head()

Unnamed: 0,evaluacion_general,experiencia_local,max_hospedes,descripcion_local,descripcion_vecindad,cantidad_baños,cantidad_cuartos,cantidad_camas,modelo_cama,comodidades,cuota_deposito,cuota_limpieza,precio
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
