## Pasos a seguir para entrenar un modelo de regresión

- Tipos de variables y forma de la tabla de datos
 - .info()
 - .shape
 - .head() / .tail() / .sample()
 - .columns

- Búsqueda y corrección de valores perdidos (missing)
 - .info()
 - .isnull()
 - .isna()
 - .fillna() / .bfill() / .ffill()
 - .dropna()

- Búsqueda valores extremos(outlier): Ver si alguna de nuestras variables toma valores por encima de los normal
 - .boxplot()
 - .scatterplot()
 - .describe(percentiles=[ ])

- Corrección valores variables: valores extraños (!, @, #, %...) y Homogeneización valores variables, como en el caso de GENDER (female, Female, Fem...)
 - .split()
 - .str.replace()
 - .loc / .iloc[ ]
 - .astype()
 - .drop_duplicates()
 - .drop(axis=1)
 - .ceil() / .floor()

- Análisis exploratorio: Ver cómo son nuestras variables, su distribución (Librerías seaborn, matplotlib y plotly)
 - .describe()
 - .groupby()
 - .pivot_table()
 - .boxplot()
 - .scatterplot()
 - .histplot()
 - .boxplot()
 - .barplot()


## Importar librerias

In [20]:
# Para dataframes
import pandas as pd
import numpy as np

# Para visualizaciones
import seaborn as sns
sns.set() # Embellecer gráficos
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
import keplergl
import geopandas as gpd

# pd.set_option('display.max_columns',None)      # Ver todas las columnas
# plt.style.use('dark_background')               # fondo de las visualizaciones

# Para extraccion de datos Web
import requests
from bs4 import BeautifulSoup
from selenium import webdriver

# Datetimes
import datetime as dt

# Eliminar warnings
import warnings
warnings.filterwarnings("ignore")


### Importamos datos penguins para ver ejemplos durante la guía

In [23]:
penguins = sns.load_dataset("penguins")

In [21]:
df = pd.read_csv('../../Data/House Pricing.csv', sep = ';')
df

Unnamed: 0,id,date,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,...,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,price,coord
0,7895500070,2/13/15,4,1.00,1220,8075,1.0,0,0,2,...,330,1969,0,98001,47.3341,-122.282,1290,7800,240000,"(47.3341,-122.282)"
1,3717000160,10/09/2014,4,2.50,2240,4648,2.0,0,0,3,...,0,2005,0,98001,47.3378,-122.257,2221,4557,287000,"(47.3378,-122.257)"
2,8961960160,10/28/14,4,2.50,3230,16171,2.0,0,3,3,...,710,2001,0,98001,47.3183,-122.253,2640,8517,480000,"(47.3183,-122.253)"
3,4014400292,1/14/15,3,2.50,2714,17936,2.0,0,0,3,...,0,2005,0,98001,47.3185,-122.275,2590,18386,465000,"(47.3185,-122.275)"
4,1115450240,10/22/14,4,2.50,2160,9528,2.0,0,0,3,...,0,1992,0,98001,47.3341,-122.255,2280,9937,360000,"(47.3341,-122.255)"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21592,2770601912,04/02/2015,3,3.25,1550,1280,2.0,0,0,3,...,330,2013,0,98199,47.6493,-122.384,1550,1579,570000,"(47.6493,-122.384)"
21593,1070000180,10/15/14,4,3.50,3660,4760,2.0,0,0,3,...,820,2014,0,98199,47.6482,-122.409,3210,4640,1110000,"(47.6482,-122.409)"
21594,7010700308,11/12/2014,4,3.25,3610,4000,2.0,0,0,3,...,970,2007,0,98199,47.6580,-122.396,1980,4000,1010000,"(47.658,-122.396)"
21595,2770601782,08/01/2014,3,2.50,1510,1618,2.5,0,0,3,...,180,2011,0,98199,47.6515,-122.384,1350,1397,453000,"(47.6515,-122.384)"


## Tipos de variables y forma de la tabla de datos

 - .info()
 - .shape
 - .head() / .tail() / .sample()
 - .columns

In [24]:
penguins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [6]:
penguins.shape

(344, 7)

In [7]:
penguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [8]:
penguins.columns

Index(['species', 'island', 'bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'sex'],
      dtype='object')

## Búsqueda y corrección de valores perdidos (missing)

 - .info() obtenemos la información general del df: número de filas y columnas, tipo de columnas, y cuenta de valores no-nulos
 - .isnull() devuelve True/False si la observación es Null
 - .isna()
 - .fillna() / .bfill() / .ffill(): Rellenamos Nulls usando diferentes métodos
 - .dropna(): Elimina si encuentra Null

In [13]:
# A continuación obtenemos la suma de los valores perdidos en una variable en concreto
print(penguins['bill_length_mm'].isnull().sum())
print(penguins['bill_length_mm'].isna().sum())

2
2


In [15]:
# Habiendo rellenado por 0, ya no quedan Nulls
print(penguins['bill_length_mm'].fillna(0).isnull().sum())

0


In [None]:
# Rellenamos usando la media
print(penguins['bill_length_mm'].fillna(penguins['bill_length_mm'].mean()).isnull().sum())

In [16]:
# Usando bfill (backfill) el valor de la observación 4 lo imputamos en la 3
penguins['bill_length_mm'].bfill().head()

0    39.1
1    39.5
2    40.3
3    36.7
4    36.7
Name: bill_length_mm, dtype: float64

In [17]:
# Usando fbfill (forwardfill) el valor de la observación 2 lo imputamos en la 3
penguins['bill_length_mm'].ffill().head()

0    39.1
1    39.5
2    40.3
3    40.3
4    36.7
Name: bill_length_mm, dtype: float64

## Búsqueda valores extremos(outlier): 

Ver si alguna de nuestras variables toma valores por encima de los normal
 - .boxplot()
 - .scatterplot()
 - .describe(percentiles=[ ])

## Corrección valores variables: 

valores extraños (!, @, #, %...) y Homogeneización valores variables, como en el caso de GENDER (female, Female, Fem...)
 - .split()
 - .str.replace()
 - .loc / .iloc[ ]
 - .astype()
 - .drop_duplicates()
 - .drop(axis=1)
 - .ceil() / .floor()

## Análisis exploratorio: 

Ver cómo son nuestras variables, su distribución (Librerías seaborn, matplotlib y plotly)
 - .describe()
 - .groupby()
 - .pivot_table()
 - .boxplot()
 - .scatterplot()
 - .histplot()
 - .boxplot()
 - .barplot()

## Ingeniería de variables

Una vez hemos corregido, homogeneizado, aclarado... los valores de nuestras variables, podemos buscar cómo optimizarlas, creando combinaciones entre ellas, categorizaciones... Aplicando, también, algunas de las funciones y métodos arriba utilizados.

Definir:
 - Tamaño casa: grande, pequeña...Teniendo en cuenta no solo la variable sqft
 - Tamaño vs veciondario
 - categoria precio: cara, barata... 
 
 `pd.qcut(df['precio'], q=4, labels=['Bajo', 'Medio', 'Alto', 'Muy Alto'])` 
 
 `pd.cut(df['precio'], bins=bins, labels=labels, include_lowest=True)`

 - Precio comparado con condition/grade
 - Definir si es apartamento, casa, casa con jardín... en función de si tiene basement, floors...

