In [1]:
import pandas as pd
import numpy as np

### Análisis de datos exploratorio

El primer conjunto de datos que vamos a analizar, es obtenido de la página web https://www.realtor.com/research/data/ .

Los datos de esta biblioteca de Realtor.com se basan en la base de datos de viviendas en venta que figuran en la MLS de la industria. Los archivos están estructurados para su uso en bases de datos y contienen múltiples métricas para diferentes niveles geográficos hasta el nivel del código postal.

Las variables que contiene son las siguientes:  

**month_date_yyyymm**: La fecha en el formato AAAAMM que representa el mes y el año.  
**state**: El nombre del estado.  
**state_id:** Un identificador único para cada estado.  
**median_listing_price:** El precio medio de venta de las viviendas en el estado especificado.  
**median_listing_price_mm:** La variación porcentual intermensual del precio medio de venta.  
**median_listing_price_yy:** La variación porcentual interanual del precio medio de venta.  
**active_listing_count:** El recuento de anuncios activos en el estado especificado.  
**active_listing_count_mm:** El cambio porcentual intermensual en el recuento de anuncios activos.  
**active_listing_count_yy:** Variación porcentual interanual del número de anuncios activos.  
**median_days_on_market:** El número medio de días que una propiedad está en el mercado antes de ser vendida.  
**median_days_on_market_mm**: Variación porcentual intermensual de la mediana de días en el mercado.  
**median_days_on_market_yy**: La variación porcentual interanual de la mediana de días en el mercado.  
**new_listing_count:** El recuento de nuevos listados en el estado especificado.  
**new_listing_count_mm**: El cambio porcentual intermensual en el recuento de nuevos anuncios.  
**new_listing_count_yy:** La variación porcentual interanual en el recuento de nuevos anuncios.  
**price_increased_count:** El recuento de listados en los que el precio ha aumentado.  
**price_increased_count_mm:** El cambio porcentual mes a mes en el recuento de precios incrementados. **price_increased_count_yy:** La variación porcentual interanual en el recuento de precios incrementados.  
**price_reduced_count:** El recuento de listados en los que se ha reducido el precio.  
**price_reduced_count_mm:** El cambio porcentual mes a mes en el recuento de precios reducidos.  
**price_reduced_count_yy:** La variación porcentual interanual en el recuento de precios reducidos.  
**pending_listing_count:** El recuento de listados que están pendientes (bajo contrato).  
**pending_listing_count_mm:** La variación porcentual intermensual en el recuento de anuncios pendientes.
**pending_listing_count_yy:** Variación porcentual interanual del número de anuncios pendientes.
**median_listing_price_per_square_foot:** El precio medio de venta por pie cuadrado.
**median_listing_price_per_square_foot_mm:** La variación porcentual intermensual del precio medio de venta por pie cuadrado.
**median_listing_price_per_square_foot_yy:** La variación porcentual interanual del precio medio de venta por pie cuadrado.
**median_square_feet:** El tamaño medio de las viviendas anunciadas.
**median_square_feet_mm:** La variación porcentual intermensual de la mediana de pies cuadrados.
**median_square_feet_yy:** La variación porcentual interanual de la mediana de pies cuadrados.
**average_listing_price:** El precio medio de venta de las viviendas.
**average_listing_price_mm:** El cambio porcentual en el precio promedio de cotización con respecto al mes anterior.  
**average_listing_price_yy:** El cambio porcentual en el precio promedio de cotización con respecto al mismo mes del año anterior.  
**total_listing_count:** El total de listados activos y pendientes dentro de la geografía especificada durante el mes especificado. Esta es una medida instantánea de cuántos listados totales se pueden esperar en un día determinado del mes especificado.  



In [16]:
df_historical_data = df = pd.read_csv('RDC_Inventory_Core_Metrics_State_History.csv', encoding='utf-8', sep=',')
df_historical_data.head()

Unnamed: 0,month_date_yyyymm,state,state_id,median_listing_price,median_listing_price_mm,median_listing_price_yy,active_listing_count,active_listing_count_mm,active_listing_count_yy,median_days_on_market,...,average_listing_price,average_listing_price_mm,average_listing_price_yy,total_listing_count,total_listing_count_mm,total_listing_count_yy,pending_ratio,pending_ratio_mm,pending_ratio_yy,quality_flag
0,202401,Utah,UT,595950.0,0.0022,0.0328,7993.0,-0.0951,-0.0294,76.0,...,1023805.0,0.0443,0.0865,12082.0,-0.0631,-0.0204,0.5156,0.0646,0.0183,0.0
1,202401,Tennessee,TN,429995.0,0.0,0.0361,19217.0,-0.0917,0.0912,65.0,...,628155.0,-0.0047,0.0687,26409.0,-0.0745,0.0661,0.3761,0.0248,-0.0556,0.0
2,202401,Texas,TX,359945.0,-0.0138,-0.0138,83696.0,-0.0544,0.1558,71.0,...,511711.0,-0.0209,0.013,110309.0,-0.0443,0.104,0.3186,0.0125,-0.064,0.0
3,202401,Connecticut,CT,491419.0,0.0029,0.0071,3167.0,-0.1028,-0.1222,59.0,...,1042967.0,0.0072,-0.0573,6752.0,-0.1381,-0.1119,1.1336,-0.0897,0.0235,0.0
4,202401,New Hampshire,NH,554950.0,0.009,0.0278,1477.0,-0.1724,0.0307,64.0,...,739152.0,-0.0173,0.0212,2135.0,-0.1672,0.0267,0.4504,0.0115,-0.0016,0.0


In [17]:
df_historical_data.tail()

Unnamed: 0,month_date_yyyymm,state,state_id,median_listing_price,median_listing_price_mm,median_listing_price_yy,active_listing_count,active_listing_count_mm,active_listing_count_yy,median_days_on_market,...,average_listing_price,average_listing_price_mm,average_listing_price_yy,total_listing_count,total_listing_count_mm,total_listing_count_yy,pending_ratio,pending_ratio_mm,pending_ratio_yy,quality_flag
4637,201607,Nebraska,NE,190000.0,,,4975.0,,,50.0,...,252894.0,,,8691.0,,,0.7381,,,
4638,201607,Arkansas,AR,161400.0,,,17573.0,,,77.0,...,220630.0,,,20357.0,,,0.1626,,,
4639,201607,Kansas,KS,159000.0,,,10809.0,,,60.0,...,237786.0,,,12311.0,,,0.1381,,,
4640,201607,Oregon,OR,359000.0,,,17214.0,,,47.0,...,480484.0,,,19019.0,,,0.1075,,,
4641,quality_flag = 1: year-over-year figures may ...,please contact economics@realtor.com for more...,,,,,,,,,...,,,,,,,,,,


In [4]:
df_historical_data.shape

(4642, 40)

### Creamos un nuevo dataset filtrando los datos del estado California

Para continuar con el análisis exploratorio

In [10]:
df_california = df_historical_data[df_historical_data['state'] == 'California']

In [11]:
df_california.shape

(91, 40)

De California solo disponemos de 91 filas y mantenemos las 40 columnas.

In [14]:
df_california['month_date_yyyymm'].unique()

array(['202401', '202312', '202311', '202310', '202309', '202308',
       '202307', '202306', '202305', '202304', '202303', '202302',
       '202301', '202212', '202211', '202210', '202209', '202208',
       '202207', '202206', '202205', '202204', '202203', '202202',
       '202201', '202112', '202111', '202110', '202109', '202108',
       '202107', '202106', '202105', '202104', '202103', '202102',
       '202101', '202012', '202011', '202010', '202009', '202008',
       '202007', '202006', '202005', '202004', '202003', '202002',
       '202001', '201912', '201911', '201910', '201909', '201908',
       '201907', '201906', '201905', '201904', '201903', '201902',
       '201901', '201812', '201811', '201810', '201809', '201808',
       '201807', '201806', '201805', '201804', '201803', '201802',
       '201801', '201712', '201711', '201710', '201709', '201708',
       '201707', '201706', '201705', '201704', '201703', '201702',
       '201701', '201612', '201611', '201610', '201609', '2016

Observamos que los datos que obtemos es desde julio del 2016 hasta enero del 2024

In [12]:
df_california.info()

<class 'pandas.core.frame.DataFrame'>
Index: 91 entries, 48 to 4616
Data columns (total 40 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   month_date_yyyymm                        91 non-null     object 
 1   state                                    91 non-null     object 
 2   state_id                                 91 non-null     object 
 3   median_listing_price                     91 non-null     float64
 4   median_listing_price_mm                  79 non-null     float64
 5   median_listing_price_yy                  79 non-null     float64
 6   active_listing_count                     91 non-null     float64
 7   active_listing_count_mm                  79 non-null     float64
 8   active_listing_count_yy                  79 non-null     float64
 9   median_days_on_market                    91 non-null     float64
 10  median_days_on_market_mm                 79 non-null  

Podemos observar que tenemos 3 variables que son tipo 'object' estas variables se consideran variables categóricas:  

El resto de variables son numérica tipo 'float64' (decimales)  

Variables relacionadas con precios:

**median_listing_price**  
*Variables con sufijo _mm para cambios porcentuales mes a mes en precios.*  
*Variables con sufijo _yy para cambios porcentuales año tras año en precios.*  

Variables relacionadas con recuentos y días en el mercado:

**active_listing_count**  
**median_days_on_market**  
*Variables con sufijo _mm para cambios porcentuales mes a mes en recuentos y días en el mercado.*  
*Variables con sufijo _yy para cambios porcentuales año tras año en recuentos y días en el mercado.*

**new_listing_count**  
**price_increased_count**  
**price_reduced_count**  
**total_listing_count**  

Variables relacionadas con precios por pie cuadrado y tamaños de viviendas:

**median_listing_price_per_square_foot**  
**median_square_feet**  

Variables relacionadas con precios promedio y recuentos totales:

**average_listing_price**  
**total_listing_count**  

Variable relacionada con la proporción de listados pendientes:

**pending_ratio**  

Variable de calidad o confiabilidad:

**quality_flag**

### Análisis estadístico

In [13]:
df_california.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
median_listing_price,91.0,634066.9,96083.832533,485000.0,549225.0,599000.0,722250.0,777000.0
median_listing_price_mm,79.0,0.003568354,0.023433,-0.0408,-0.01045,-0.0029,0.01885,0.0696
median_listing_price_yy,79.0,0.06225696,0.076889,-0.0366,0.0231,0.0431,0.061,0.2914
active_listing_count,91.0,55509.37,17953.589697,22698.0,40096.5,55937.0,70664.5,86992.0
active_listing_count_mm,79.0,-0.003801266,0.09464,-0.2088,-0.0635,0.0046,0.04805,0.3707
active_listing_count_yy,79.0,-0.03974177,0.305672,-0.4446,-0.2633,-0.1318,0.1526,0.7678
median_days_on_market,91.0,44.78022,9.833957,27.0,37.5,44.0,50.0,69.0
median_days_on_market_mm,79.0,0.01477722,0.125703,-0.3556,-0.0392,0.0323,0.0845,0.2473
median_days_on_market_yy,79.0,0.02004557,0.24306,-0.4386,-0.15595,-0.0244,0.1938,0.8276
new_listing_count,91.0,36423.34,8529.903905,14892.0,29968.0,37622.0,43042.0,49628.0


Las conclusiones que podemos extraer del análisis estadístico son:  

**Median Listing Price**:  

La mediana del precio de listado de viviendas en California oscila alrededor de $599,000 a $722,250.  
El rango intercuartílico (IQR) sugiere que la mayoría de los precios de listado se encuentran entre $549,225 y $722,250.  

**Monthly Changes in Median Listing Price:**  

Los cambios mensuales en el precio de listado son relativamente pequeños, con un promedio de alrededor del 0.36%.  

**Yearly Changes in Median Listing Price:**  

Los cambios anuales en el precio de listado tienen un promedio del 6.23%.  

**Active Listing Count:**  

La mediana del recuento de listados activos es de aproximadamente 55,937.  
El IQR sugiere que la mayoría de los meses tienen un recuento de listados activos entre 40,096 y 70,664.  

**Monthly Changes in Active Listing Count:**  

Se observan pequeñas variaciones mensuales en el recuento de listados activos, con una media cercana a cero.  

**Yearly Changes in Active Listing Count:**  

Los cambios anuales en el recuento de listados activos tienen una media de alrededor del -3.97%.  

**Median Days on Market:**  

La mediana de los días en el mercado es de aproximadamente 44 días.  
La mayoría de los datos se encuentran entre 37 y 50 días.  

**Monthly Changes in Median Days on Market:**  

Las variaciones mensuales en los días en el mercado son relativamente pequeñas, con un promedio del 1.48%.  

**Yearly Changes in Median Days on Market:**  

Los cambios anuales en los días en el mercado tienen un promedio del 2.00%.  

**New Listing Count:**  

La mediana del recuento de nuevos listados es de aproximadamente 37,622.  

**Monthly Changes in New Listing Count:**  

Se observan pequeñas variaciones mensuales en el recuento de nuevos listados, con un promedio del 0.75%.  

**Yearly Changes in New Listing Count:**  

Los cambios anuales en el recuento de nuevos listados tienen un promedio del -5.08%.  

**Price Increased Count:**  

La mediana del recuento de aumentos de precio es de aproximadamente 2,508.  

**Monthly Changes in Price Increased Count:**  

Las variaciones mensuales en el recuento de aumentos de precio son relativamente pequeñas, con un promedio del -1.05%.  

**Yearly Changes in Price Increased Count:**

Los cambios anuales en el recuento de aumentos de precio tienen un promedio del -8.33%.  

**Price Reduced Count:**  

La mediana del recuento de reducciones de precio es de aproximadamente 15,248.  

**Monthly Changes in Price Reduced Count:**  

Las variaciones mensuales en el recuento de reducciones de precio son relativamente pequeñas, con un promedio del 1.11%.  

**Yearly Changes in Price Reduced Count:**

Los cambios anuales en el recuento de reducciones de precio tienen un promedio del 5.20%.  

**Pending Listing Count:**  

La mediana del recuento de listados pendientes es de aproximadamente 34,237.  

**Monthly Changes in Pending Listing Count:**

Se observan pequeñas variaciones mensuales en el recuento de listados pendientes, con un promedio cercano a cero.  

**Yearly Changes in Pending Listing Count:**

Los cambios anuales en el recuento de listados pendientes tienen un promedio del -1.25%.  

**Median Listing Price Per Square Foot:**

La mediana del precio de listado por pie cuadrado está alrededor de $328.  

**Monthly Changes in Median Listing Price Per Square Foot:** 

Las variaciones mensuales en el precio de listado por pie cuadrado son relativamente pequeñas, con un promedio del 0.52%.  

**Yearly Changes in Median Listing Price Per Square Foot:**

Los cambios anuales en el precio de listado por pie cuadrado tienen un promedio del 8.01%.  

**Median Square Feet:**

La mediana del tamaño cuadrado medio de las viviendas es de aproximadamente 1,829 pies cuadrados.  

**Monthly Changes in Median Square Feet:**

Se observan pequeñas variaciones mensuales en el tamaño cuadrado medio, con un promedio cercano a cero.  

**Yearly Changes in Median Square Feet:**

Los cambios anuales en el tamaño cuadrado medio tienen un promedio del -0.69%.  

**Average Listing Price:**

La mediana del precio de listado promedio es de aproximadamente $1,202,921.  

**Monthly Changes in Average Listing Price:**

Se observan pequeñas variaciones mensuales en el precio de listado promedio, con un promedio del 0.51%.  

**Yearly Changes in Average Listing Price:**  

Los cambios anuales en el precio de listado promedio tienen un promedio del 7.87%.  

**Total Listing Count:**

La mediana del recuento total de listados es de aproximadamente 89,468.  

**Monthly Changes in Total Listing Count:**

Se observan pequeñas variaciones mensuales en el recuento total de listados, con un promedio cercano a cero.  

**Yearly Changes in Total Listing Count:**

Los cambios anuales en el recuento total de listados tienen un promedio del -5.88%.  

**Pending Ratio:**

La mediana de la proporción de listados pendientes es de aproximadamente 0.72.  

**Monthly Changes in Pending Ratio:**

Las variaciones mensuales en la proporción de listados pendientes son relativamente pequeñas, con un promedio del 0.00014.  

**Yearly Changes in Pending Ratio:**

Los cambios anuales en la proporción de listados pendientes tienen un promedio del 2.64%.  

**Quality Flag:**

La variable de calidad flag tiene todos sus valores iguales a cero, lo que indica posiblemente que no hay problemas de calidad en los datos.


Estos datos nos pueden servir de "guia", a la hora que hagamos el análisis de las propiedades vendidas, por el momento este dataset lo dejamos apartado.