In [56]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from utils import bootcampviztools as bt
from utils import toolbox_ML as tl

Link de Kaggle modelo predictivo: https://www.kaggle.com/datasets/harlfoxem/housesalesprediction/data

Fuente oficial de los datos: https://geodacenter.github.io/data-and-lab/KingCounty-HouseSales2015/

#### OBJETIVO DE DE ESTE PROYECTO

El objetivo de es proyecto es predecir el precio de los pisos teniendo en cuenta una serie de características como el número de camas, año de construcción, número de plantas, ... Los datos con los que se entrenarán al modelo han sido obtenidos de un dataset de **Kaggle**. Los datos contienen información sobre casas vendidas del condado de King, Washington durante 2014 - 2015. El modelo propuesto consistirá en un ``modelo de regresión supervisado``.

#### Carga de los datos

In [57]:
df = pd.read_csv('./data/kc_house_data.csv')

In [58]:
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [59]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

El df no contiene ningún valor nulo

In [60]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,21613.0,4580302000.0,2876566000.0,1000102.0,2123049000.0,3904930000.0,7308900000.0,9900000000.0
price,21613.0,540088.1,367127.2,75000.0,321950.0,450000.0,645000.0,7700000.0
bedrooms,21613.0,3.370842,0.9300618,0.0,3.0,3.0,4.0,33.0
bathrooms,21613.0,2.114757,0.7701632,0.0,1.75,2.25,2.5,8.0
sqft_living,21613.0,2079.9,918.4409,290.0,1427.0,1910.0,2550.0,13540.0
sqft_lot,21613.0,15106.97,41420.51,520.0,5040.0,7618.0,10688.0,1651359.0
floors,21613.0,1.494309,0.5399889,1.0,1.0,1.5,2.0,3.5
waterfront,21613.0,0.007541757,0.0865172,0.0,0.0,0.0,0.0,1.0
view,21613.0,0.2343034,0.7663176,0.0,0.0,0.0,0.0,4.0
condition,21613.0,3.40943,0.650743,1.0,3.0,3.0,4.0,5.0


In [61]:
'''Variable target'''

target = 'price'

Tabla con información de las variables 

| Variable        | Tipo    | Descripción | Notas |
|---------------|--------|-------------|-------|
| id            | int64  | Identificador único de la vivienda | Puede no ser relevante para el análisis |
| date          | object | Fecha de venta de la vivienda | Formato de fecha puede requerir conversión |
| price         | float64| Precio de venta de la vivienda en dólares | Variable objetivo para predicción de precios |
| bedrooms      | int64  | Número de habitaciones en la vivienda | Puede incluir dormitorios pequeños |
| bathrooms     | float64| Número de baños en la vivienda | Considerado medios baños como 0.5 (los que no tienen ducha) |
| sqft_living   | int64  | Metros cuadrados de la vivienda habitable | Relacionado con el precio |
| sqft_lot      | int64  | Metros cuadrados del terreno | Incluye jardín y otros espacios exteriores |
| floors        | float64| Número de pisos de la vivienda | Puede ser decimal si hay entrepisos |
| waterfront    | int64  | 1 si la vivienda tiene vista al agua, 0 si no | Variable categórica binaria |
| view          | int64  | Puntuación de la vista de la vivienda (0-4) | 0 indica sin vista, 4 es la mejor vista |
| condition     | int64  | Estado general de la vivienda (1-5) | 1 es malo, 5 es excelente |
| grade         | int64  | Calidad de la construcción y acabados (1-13) | Basado en estándares de construcción |
| sqft_above    | int64  | Metros cuadrados de la parte sobre el suelo | Excluye sótano |
| sqft_basement | int64  | Metros cuadrados del sótano | 0 si no tiene sótano |
| yr_built      | int64  | Año de construcción de la vivienda | Puede influir en el precio y estado |
| yr_renovated  | int64  | Año de la última renovación, 0 si nunca ha sido renovada | Puede afectar el valor de la vivienda |
| zipcode       | int64  | Código postal de la ubicación | Puede utilizarse para análisis geoespacial |
| lat           | float64| Latitud de la vivienda | Coordenada geográfica |
| long          | float64| Longitud de la vivienda | Coordenada geográfica |
| sqft_living15 | int64  | Metros cuadrados promedio de las viviendas cercanas | Indicador del valor del vecindario |
| sqft_lot15    | int64  | Metros cuadrados promedio del terreno en la zona | Puede influir en el precio |

#### Tipo de feature, cardinalidad, porcentaje de nulos y valores únicos

In [62]:
tl.describe_df(df)

Unnamed: 0,columna,tipo,%_nulos,valores_unicos,%_cardinalidad
0,id,int64,0.0,21436,99.18
1,date,object,0.0,372,1.72
2,price,float64,0.0,4028,18.64
3,bedrooms,int64,0.0,13,0.06
4,bathrooms,float64,0.0,30,0.14
5,sqft_living,int64,0.0,1038,4.8
6,sqft_lot,int64,0.0,9782,45.26
7,floors,float64,0.0,6,0.03
8,waterfront,int64,0.0,2,0.01
9,view,int64,0.0,5,0.02


La columna id no contiene un 100% de la cardinalidad, pero se queda muy próximo. Esto indica que hay algunos índices que están duplicados en el df algo que no es común ya que el id debería de ser un identificador único.

In [63]:
df['id'].duplicated().value_counts()

id
False    21436
True       177
Name: count, dtype: int64

In [64]:
df['id'].duplicated().value_counts(normalize=True)

id
False    0.99181
True     0.00819
Name: proportion, dtype: float64

Las instancias con 'id' duplicado suponen menos de un 1%

In [65]:
df.loc[df['id'].duplicated(keep = False)].sort_values(by = 'id', ascending=False).head(20)

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
1085,9834200885,20140717T000000,360000.0,4,2.5,2080,4080,1.0,0,0,...,7,1040,1040,1962,0,98144,47.572,-122.29,1340,4080
1086,9834200885,20150420T000000,550000.0,4,2.5,2080,4080,1.0,0,0,...,7,1040,1040,1962,0,98144,47.572,-122.29,1340,4080
15199,9834200305,20140716T000000,350000.0,3,1.0,1790,3876,1.5,0,0,...,7,1090,700,1904,0,98144,47.575,-122.288,1360,4080
15200,9834200305,20150210T000000,615000.0,3,1.0,1790,3876,1.5,0,0,...,7,1090,700,1904,0,98144,47.575,-122.288,1360,4080
6345,9828200460,20140627T000000,260000.0,2,1.0,700,4800,1.0,0,0,...,7,700,0,1922,0,98122,47.6147,-122.3,1440,4800
6346,9828200460,20150106T000000,430000.0,2,1.0,700,4800,1.0,0,0,...,7,700,0,1922,0,98122,47.6147,-122.3,1440,4800
4922,9809000020,20140513T000000,1895000.0,5,2.25,3120,16672,2.0,0,0,...,9,3120,0,1969,0,98004,47.6458,-122.219,3740,17853
4923,9809000020,20150313T000000,1940000.0,5,2.25,3120,16672,2.0,0,0,...,9,3120,0,1969,0,98004,47.6458,-122.219,3740,17853
2493,9407110710,20141107T000000,195000.0,3,1.75,1510,8400,1.0,0,0,...,7,980,530,1979,0,98045,47.4476,-121.771,1500,10125
2494,9407110710,20150226T000000,322000.0,3,1.75,1510,8400,1.0,0,0,...,7,980,530,1979,0,98045,47.4476,-121.771,1500,10125


Viendo los valores que tienen un id duplicado se observa que los únicos valores que cambian son el precio de venta de la casa y la fecha de venta. Esto indica que hay casas que han sido vendidas más de una vez.

In [66]:
df['ventas'] = df.groupby('id')['id'].transform('count')
df[df['ventas'] > 1]
df.ventas.value_counts()

ventas
1    21260
2      350
3        3
Name: count, dtype: int64

In [67]:
df.loc[df['ventas']==3]

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,ventas
17602,795000620,20140924T000000,115000.0,3,1.0,1080,6250,1.0,0,0,...,1080,0,1950,0,98168,47.5045,-122.33,1070,6250,3
17603,795000620,20141215T000000,124000.0,3,1.0,1080,6250,1.0,0,0,...,1080,0,1950,0,98168,47.5045,-122.33,1070,6250,3
17604,795000620,20150311T000000,157000.0,3,1.0,1080,6250,1.0,0,0,...,1080,0,1950,0,98168,47.5045,-122.33,1070,6250,3


Hay un total de 350 casas que han sido vendidas 2 veces y 3 casas han sido vendidas 3 veces.

Como nuestro objetivo principal consiste en predecir el precio de una casa de manera inicial nos quedaremos con el primer registro de la venta de la casa y eliminaremos el resto ya que las futuras ventas han sido condicionadas por el precio anterior de la misma.

In [68]:
df = df.drop_duplicates(subset=['id'], keep='first')

In [69]:
df.ventas.value_counts()

ventas
1    21260
2      175
3        1
Name: count, dtype: int64

In [70]:
df.loc[df['ventas']==3]

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,ventas
17602,795000620,20140924T000000,115000.0,3,1.0,1080,6250,1.0,0,0,...,1080,0,1950,0,98168,47.5045,-122.33,1070,6250,3


In [71]:
'''Cambiar formato de la fecha de venta'''
df = df.rename({'date':'sale_date'}, axis = 1)
df['sale_date'] = pd.to_datetime(df['sale_date'], yearfirst=True)

In [72]:
df.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
id,21436.0,4580765328.177878,1000102.0,2123700078.75,3904921185.0,7308675062.5,9900000190.0,2876589633.67309
sale_date,21436.0,2014-10-28 05:22:26.893076992,2014-05-02 00:00:00,2014-07-21 00:00:00,2014-10-15 00:00:00,2015-02-13 00:00:00,2015-05-27 00:00:00,
price,21436.0,540529.28718,75000.0,322150.0,450000.0,645000.0,7700000.0,367689.296471
bedrooms,21436.0,3.371571,0.0,3.0,3.0,4.0,33.0,0.929205
bathrooms,21436.0,2.117349,0.0,1.75,2.25,2.5,8.0,0.769913
sqft_living,21436.0,2082.704936,290.0,1430.0,1920.0,2550.0,13540.0,919.146469
sqft_lot,21436.0,15135.637852,520.0,5040.0,7614.0,10696.25,1651359.0,41538.620606
floors,21436.0,1.496198,1.0,1.0,1.5,2.0,3.5,0.540388
waterfront,21436.0,0.007604,0.0,0.0,0.0,0.0,1.0,0.086871
view,21436.0,0.235118,0.0,0.0,0.0,0.0,4.0,0.767092


Tambien se puede ver que el valor máximo de `bedrooms` es 33, mientras que el 75% de los valores se encuentran por debajo de 4. Veamos cuantas viviendas tienen esa cantidad de habitaciones.

In [73]:
df.loc[df['bedrooms'] == 33]

Unnamed: 0,id,sale_date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,ventas
15870,2402100895,2014-06-25,640000.0,33,1.75,1620,6000,1.0,0,0,...,1040,580,1947,0,98103,47.6878,-122.331,1330,4700,1


Como solo es una vivienda, eliminaremos esta instancia.

In [74]:
bedrooms_33 = df[df['bedrooms'] == 33].index
df = df.drop(bedrooms_33)

In [75]:
df = df.set_index('sale_date')

In [76]:
df_limpio = df.to_csv('./data/df_limpio.csv')