# Exploración inicial

In [179]:
from jutils.data import DataUtils
from pathlib import Path
import pandas as pd
from pandas import DataFrame
from numpy import nan
import numpy as np
from sklearn.model_selection import train_test_split
from pandas_profiling import ProfileReport

In [180]:
# Cargando dataset
du = DataUtils(Path(r'../data').resolve(), 'kc_house_dataDS.csv')
df: DataFrame = pd.read_csv(du.input_file_path, index_col=0, decimal='.')

## Identificación de tipos de columnas

In [181]:
df.head()

Unnamed: 0,index,zipcode,grade,sqft_basement,view,bathrooms,bedrooms,sqft_above,sqft_living15,lat,...,yr_renovated,yr_built,long,jhygtf,sqft_lot,price,condition,wertyj,sqft_lot15,sqft_living
0,7286,98199.0,7.0,1250.0,0.0,2.5,874456765456.0,1320.0,1460.0,47.6417,...,0.0,1961.0,874456765456.0,0.0,5500.0,654000.0,4.0,876543,6250.0,2570.0
1,21061,98028.0,7.0,??,0.0,??,3.0,1490.0,1750.0,47.7607,...,0.0,2009.0,-122233.0,0.0,4539.0,??,??,876543,4667.0,1490.0
2,17854,98006.0,8.0,1600.0,0.0,-54323456765.0,-54323456765.0,-54323456765.0,-54323456765.0,47.5701,...,0.0,1957.0,-122124.0,0.0,23400.0,610000.0,4.0,876543,12400.0,3490.0
3,17376,98118.0,874456765456.0,0.0,3.0,2.5,3.0,874456765456.0,2230.0,47558.0,...,0.0,874456765456.0,-122265.0,0.0,7200.0,836500.0,3.0,876543,7200.0,874456765456.0
4,9156,??,7.0,860.0,0.0,??,??,??,1340.0,47.5563,...,1970.0,1911.0,-122393.0,1970.0,6400.0,??,3.0,876543,6144.0,2900.0


In [182]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 131994 entries, 0 to 131993
Data columns (total 23 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   index          131994 non-null  int64 
 1   zipcode        127587 non-null  object
 2   grade          127517 non-null  object
 3   sqft_basement  127488 non-null  object
 4   view           127654 non-null  object
 5   bathrooms      127489 non-null  object
 6   bedrooms       127529 non-null  object
 7   sqft_above     127512 non-null  object
 8   sqft_living15  127614 non-null  object
 9   lat            127531 non-null  object
 10  waterfront     127530 non-null  object
 11  floors         127591 non-null  object
 12  date           127544 non-null  object
 13  yr_renovated   127528 non-null  object
 14  yr_built       127512 non-null  object
 15  long           127560 non-null  object
 16  jhygtf         127528 non-null  object
 17  sqft_lot       127563 non-null  object
 18  pric

Se identifica que el dataset contiene 23 columnas, 22 de las cuales deberían contener únicamente números, y se tiene 1 columna tipo date.

Como limpieza inicial se convertirán en nulos todos los valores de las columnas que deben tener únicamente números, y la columna date se almacenará como texto para un procesamiento posterior.

In [183]:
columnas_numericas = [column for column in df.columns if column != 'date' ]

In [184]:
total_filas = df.shape[0]
for columna_numerica in columnas_numericas:
    if not pd.api.types.is_numeric_dtype(df[columna_numerica]):
        son_numericos = df[columna_numerica].apply(pd.api.types.is_number)
        cant = son_numericos.sum()
        print(f'La columna {columna_numerica} tiene {cant} valores no numéricos, {cant/total_filas:.2%}, se reemplazarán por nan.')
        df[columna_numerica] = pd.to_numeric(df[columna_numerica] ,errors='coerce')

La columna zipcode tiene 4407 valores no numéricos, 3.34%, se reemplazarán por nan.
La columna grade tiene 4477 valores no numéricos, 3.39%, se reemplazarán por nan.
La columna sqft_basement tiene 4506 valores no numéricos, 3.41%, se reemplazarán por nan.
La columna view tiene 4340 valores no numéricos, 3.29%, se reemplazarán por nan.
La columna bathrooms tiene 4505 valores no numéricos, 3.41%, se reemplazarán por nan.
La columna bedrooms tiene 4465 valores no numéricos, 3.38%, se reemplazarán por nan.
La columna sqft_above tiene 4482 valores no numéricos, 3.40%, se reemplazarán por nan.
La columna sqft_living15 tiene 4380 valores no numéricos, 3.32%, se reemplazarán por nan.
La columna lat tiene 4463 valores no numéricos, 3.38%, se reemplazarán por nan.
La columna waterfront tiene 4464 valores no numéricos, 3.38%, se reemplazarán por nan.
La columna floors tiene 4403 valores no numéricos, 3.34%, se reemplazarán por nan.
La columna yr_renovated tiene 4466 valores no numéricos, 3.38%, s

In [185]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 131994 entries, 0 to 131993
Data columns (total 23 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   index          131994 non-null  int64  
 1   zipcode        118787 non-null  float64
 2   grade          118717 non-null  float64
 3   sqft_basement  118688 non-null  float64
 4   view           118854 non-null  float64
 5   bathrooms      118689 non-null  float64
 6   bedrooms       118729 non-null  float64
 7   sqft_above     118712 non-null  float64
 8   sqft_living15  118814 non-null  float64
 9   lat            118731 non-null  float64
 10  waterfront     118730 non-null  float64
 11  floors         118791 non-null  float64
 12  date           127544 non-null  object 
 13  yr_renovated   118728 non-null  float64
 14  yr_built       118712 non-null  float64
 15  long           118760 non-null  float64
 16  jhygtf         118728 non-null  float64
 17  sqft_lot       118763 non-nul

In [193]:
# Almacenar dataframe como parquet para conservar los tipos
df.to_parquet(du.interim_path.joinpath(du.input_file_name).with_suffix('.parquet'))