# House Sales in King County, USA


Este conjunto de datos contiene los precios de venta de viviendas para el condado de King, que incluye Seattle. Incluye viviendas vendidas entre mayo de 2014 y mayo de 2015.

| Variable      | Descripción                                                                                                 |
| ------------- | ----------------------------------------------------------------------------------------------------------- |
| id            | La notación unica para cada casa                                                                                       |
| date          | Fecha en la que la casa fue vendida.                                                                                        |
| price         | El precio es el objetivo de predicción.                                                                                  |
| bedrooms      | Numero de cuartos.                                                                                          |
| bathrooms     | Numero de baños.                                                                                         |
| sqft_living   | Superficie de la vivienda.                                                                                  |
| sqft_lot      | Superficie del terreno en metros cuadrados.                                                                                  |
| floors        | Total de pisos (niveles) en la casa.                                                                               |
| waterfront    | Casa con vistas al mar.                           |
| view          | Ha sido visto.                                                                                              |
| condition     | ¿Qué tan bueno es el estado en general?.                                                                           |
| grade         | Calificación general otorgada a la unidad de vivienda, basada en el sistema de calificación del condado de King.                                |
| sqft_above    | Superficie de la casa sin incluir el sótano.                                                                 |
| sqft_basement | Metros cuadrados del sótano.                                                                             |
| yr_built      | Año de construcción.                                                                                                  |
| yr_renovated  | Año de renovacion de la casa.                                                                               |
| zipcode       | Codigo Zip.                                                                                                    |
| lat           | Coordenadas en latitud.                                                                                        |
| long          | Coordenadas en longitud.                                                                                        |
| sqft_living15 | Área de sala de estar en 2015 (implica algunas renovaciones). Esto podría haber afectado o no al tamaño del lote.           |
| sqft_lot15    | Superficie del lote en 2015 (implica algunas renovaciones).                                                            |


Si ejecuta el laboratorio localmente usando Anaconda, puede cargar la biblioteca y las versiones correctas descomentando lo siguiente:


In [7]:
# All Libraries required for this lab are listed below. The libraries pre-installed on Skills Network Labs are commented.
# !mamba install -qy pandas==1.3.4 numpy==1.21.4 seaborn==0.9.0 matplotlib==3.5.0 scikit-learn==0.20.1
# Note: If your environment doesn't support "!mamba install", use "!pip install"

In [8]:
import sys 
print(sys.executable)

c:\Users\luisc\Documents\Tareas\.venv\Scripts\python.exe


In [9]:
 # Surpress warnings:
def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn

Necesitarás las siguientes bibliotecas:

In [10]:
import piplite
await piplite.install(['pandas','matplotlib','scikit-learn','seaborn', 'numpy'])


ModuleNotFoundError: No module named 'piplite'

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler,PolynomialFeatures
from sklearn.linear_model import LinearRegression
%matplotlib inline

ModuleNotFoundError: No module named 'pandas'

# Módulo 1: Importación de Conjuntos de Datos


Las funciones siguientes descargarán el conjunto de datos en tu navegador:

In [None]:
from pyodide.http import pyfetch

async def download(url, filename):
    response = await pyfetch(url)
    if response.status == 200:
        with open(filename, "wb") as f:
            f.write(await response.bytes())

ModuleNotFoundError: No module named 'pyodide'

In [None]:
file_name='https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-SkillsNetwork/labs/FinalModule_Coursera/data/kc_house_data_NaN.csv'

Necesitarás descargar el conjunto de datos; si estás ejecutando localmente, por favor comenta el siguiente código:


In [None]:
await download(file_name, "kc_house_data_NaN.csv")
file_name="kc_house_data_NaN.csv"

Utilice el método de Pandas <code> read_csv()</code> para cargar los datos desde la dirección web.


In [None]:
df = pd.read_csv(file_name)

Usamos el método <code>head</code> para mostrar las primeras 5 columnas del dataframe.


In [None]:
df.head()

### Pregunta 1

Muestra los tipos de datos de cada columna usando la función <code>dtypes</code>, luego toma una captura de pantalla y súbela; incluye tu código en la imagen.


In [None]:
print(df.dtypes)

Usamos el método describe para obtener un resumen estadístico del dataframe.


In [None]:
df.describe()

# Modulo 2: Manipulación de datos


### Pregunta 2

Elimina las columnas <code>"id"</code> y <code>"Unnamed: 0"</code> del eje 1 usando el método <code>drop()</code>, luego usa el método <code>describe()</code> para obtener un resumen estadístico de los datos. Toma una captura de pantalla y envíala, asegúrate de que el parámetro <code>inplace</code> esté configurado como <code>True</code>


In [None]:
df=pd.read_csv(file_name)

df.drop(["id", "Unnamed: 0"], axis=1, inplace = True)

df.describe()

Podemos ver que tenemos valores faltantes en las columnas <code>bedrooms</code> y <code>bathrooms</code>


In [None]:
print("number of NaN values for the column bedrooms :", df['bedrooms'].isnull().sum())
print("number of NaN values for the column bathrooms :", df['bathrooms'].isnull().sum())


Podemos reemplazar los valores faltantes de la columna <code>'bedrooms'</code> con la media de la columna <code>'bedrooms'</code> usando el método <code>replace()</code>. No olvides configurar el parámetro <code>inplace</code> como <code>True</code>


In [None]:
mean=df['bedrooms'].mean()
df['bedrooms'].replace(np.nan,mean, inplace=True)

También reemplazamos los valores faltantes de la columna <code>'bathrooms'</code> con la media de la columna <code>'bathrooms'</code> usando el método <code>replace()</code>. No olvides configurar el parámetro <code>inplace</code> como <code>True</code>


In [None]:
mean=df['bathrooms'].mean()
df['bathrooms'].replace(np.nan,mean, inplace=True)

In [None]:
print("number of NaN values for the column bedrooms :", df['bedrooms'].isnull().sum())
print("number of NaN values for the column bathrooms :", df['bathrooms'].isnull().sum())

# Módulo 3: Análisis Exploratorio de Datos


### Pregunta 3

Usa el método <code>value_counts</code> para contar el número de casas con valores únicos de pisos, usa el método <code>.to_frame()</code> para convertirlo en un dataframe.

In [None]:
df['floors'].value_counts()

df['floors'].value_counts().to_frame()

### Pregunta 4

Usa la función <code>boxplot</code> de la biblioteca seaborn para determinar si las casas con vista al mar o sin vista al mar tienen más valores atípicos en el precio.


In [None]:
sns.boxplot(x="waterfront", y="price", data=df)

### Pregunta 5
Use la función <code>regplot</code> de la biblioteca seaborn para determinar si la característica <code>sqft_above</code> está correlacionada negativa o positivamente con el precio.


In [None]:
sns.regplot(x="sqft_above", y="price", data=df)
plt.ylim(0,)

Podemos usar el método <code>corr()</code> de Pandas para encontrar la característica que está más correlacionada con el precio, además del precio mismo.


In [None]:
df.corr()['price'].sort_values()

# Módulo 4: Desarrollo del Modelo


Podemos ajustar un modelo de regresión lineal usando la característica de longitud <code>'long'</code> y calcular el R^2.

In [None]:
X = df[['long']]
Y = df['price']
lm = LinearRegression()
lm.fit(X,Y)
lm.score(X, Y)

### Pregunta 6
Ajusta un modelo de regresión lineal para predecir el <code>'price'</code> usando la característica <code>'sqft_living'</code>, luego calcula el R^2. Toma una captura de pantalla de tu código y del valor R^2.


In [None]:
X = df[['sqft_living']]
Y = df['price']
lm.fit(X,Y)
lm.score(X, Y)

### Pregunta 7
Ajusta un modelo de regresión lineal para predecir el <code>'price'</code> usando la siguiente lista de características:


In [None]:
features =["floors", "waterfront","lat" ,"bedrooms" ,"sqft_basement" ,"view" ,"bathrooms","sqft_living15","sqft_above","grade","sqft_living"]     

Luego calcula el R^2. Toma una captura de pantalla de tu código.


In [None]:
lm.fit(df[features], Y)
lm.score(df[features], Y)

### Esto ayudará con la Pregunta 8

Crea una lista de tuplas; el primer elemento de cada tupla contiene el nombre del estimador:

<code>'scale'</code>

<code>'polynomial'</code>

<code>'model'</code>

El segundo elemento de la tupla contiene el constructor del modelo:

<code>StandardScaler()</code>

<code>PolynomialFeatures(include_bias=False)</code>

<code>LinearRegression()</code>

In [None]:
Input=[('scale',StandardScaler()),('polynomial', PolynomialFeatures(include_bias=False)),('model',LinearRegression())]

### Pregunta 8
Usa la lista para crear un objeto pipeline para predecir el 'price', ajusta el objeto usando las características en la lista <code>features</code>, y calcula el R^2.


In [None]:
Pipe = Pipeline(Input)
Pipe.fit(df[features],Y)
Pipe.score(df[features],Y)

# Módulo 5: Evaluación y Refinamiento del Modelo


Importa los módulos necesarios:

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
print("done")

Dividiremos los datos en conjuntos de entrenamiento y prueba:

In [None]:
features =["floors", "waterfront","lat" ,"bedrooms" ,"sqft_basement" ,"view" ,"bathrooms","sqft_living15","sqft_above","grade","sqft_living"]    
X = df[features]
Y = df['price']

x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.15, random_state=1)


print("number of test samples:", x_test.shape[0])
print("number of training samples:",x_train.shape[0])

### Pregunta 9
Crea y ajusta un objeto de regresión Ridge usando los datos de entrenamiento, establece el parámetro de regularización en 0.1, y calcula el R^2 usando los datos de prueba.


In [None]:
from sklearn.linear_model import Ridge

In [None]:
RM = Ridge(alpha = 0.1)
RM.fit(x_train,y_train)
RM.score(x_test,y_test)

### Pregunta 10
Realiza una transformación polinomial de segundo orden tanto en los datos de entrenamiento como en los de prueba. Crea y ajusta un objeto de regresión Ridge usando los datos de entrenamiento, establece el parámetro de regularización en 0.1, y calcula el R^2 utilizando los datos de prueba proporcionados. Toma una captura de pantalla de tu código y del R^2.


In [None]:
pr = PolynomialFeatures(degree = 2)
x_train_pr = pr.fit_transform(x_train[features])
x_test_pr = pr.fit_transform(x_test[features])

RM = Ridge(alpha = 0.1)
RM.fit(x_train_pr, y_train)
RM.score(x_test_pr, y_test)

<p>Una vez que completes tu notebook tendrás que compartirlo. Selecciona el icono en la parte superior derecha marcado en rojo en la imagen de abajo, se abrirá un cuadro de diálogo, y selecciona la opción todo el contenido excluyendo las celdas de código sensible.</p>
        <p><img width="600" src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-SkillsNetwork/labs/FinalModule_Coursera/images/share_notebook.png" alt="share notebook" style="display: block; margin-left: auto; margin-right: auto;"></p>
        <p></p>
        <p>Luego puedes compartir el notebook vía una URL desplazándote hacia abajo como se muestra en la imagen siguiente:</p>
        <p style="text-align: center;"><img width="600" src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-SkillsNetwork/labs/FinalModule_Coursera/images/url_notebook.png" alt="HTML" style="display: block; margin-left: auto; margin-right: auto;"></p>
        <p>&nbsp;</p>
