<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/c_2/c_2_github.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table> 

# [Cuaderno en GitHub del Capítulo 2 de Geron](https://github.com/ageron/handson-ml3/blob/main/02_end_to_end_machine_learning_project.ipynb)

## Capítulo 2: Proyecto de aprendizaje automático de extremo a extremo

Este cuaderno contiene todo el código de ejemplo y las soluciones a los ejercicios del capítulo 2.

In [None]:
print("Bienvenidos ingenieros Agropecuarios al curso de Métodos Numéricos!")

Este proyecto requiere Python 3.7 o superior:

## Sobre el módulo sys de python  

Parámetros y funciones específicos del sistema.  

Módulo sys
El módulo sys se importa como
import sys
El módulo provee acceso a funciones y objetos mantenidos por del intérprete.


In [None]:
import sys

sys.version

También requiere Scikit-Learn ≥ 1.0.1:

In [None]:
import sklearn
sklearn.__version__ >= '1.0.1'

## Obtener los datos

¡Bienvenido a Machine Learning Housing Corp.!   

* Su tarea es predecir el precio medio de las viviendas en los distritos de California, dada una serie de atributos de estos distritos.

## Descargar los datos

In [None]:
import pandas as pd

def load_housing_data():
    url = 'https://raw.githubusercontent.com/marco-canas/didactica_ciencia_datos/main/datasets/vivienda/vivienda.csv'
    return pd.read_csv(url)

v = load_housing_data()

In [None]:
v

# Eche un vistazo rápido a la estructura de datos

In [None]:
v.head()

In [None]:
v.info()

In [None]:
v["proximidad"].value_counts()

In [None]:
v.describe()

La siguiente celda tampoco se muestra en el libro.

Define la función `save_fig()` que se usa a través de este cuaderno para guardar las figuras en alta resolución para el libro.

In [None]:
# código adicional: código para guardar las figuras como PNG de alta resolución para el libro

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = f"{fig_id}.{fig_extension}"
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

In [None]:
import matplotlib.pyplot as plt

# extra code – the next 5 lines define the default font sizes
plt.rc('font', size=14)
plt.rc('axes', labelsize=14, titlesize=14)
plt.rc('legend', fontsize=14)
plt.rc('xtick', labelsize=10)
plt.rc('ytick', labelsize=10)

v.hist(bins=50, figsize=(12, 8))
save_fig("Trazo_de_histogramas_de_atributos")  # extra code
plt.show()

# Crear un conjunto de prueba

In [None]:
import numpy as np

def shuffle_and_split_data(data, test_ratio):
    shuffled_indices = np.random.permutation(len(data))
    test_set_size = int(len(data) * test_ratio)
    test_indices = shuffled_indices[:test_set_size]
    train_indices = shuffled_indices[test_set_size:]
    return data.iloc[train_indices], data.iloc[test_indices]

In [None]:
train_set, test_set = shuffle_and_split_data(v, 0.2)
len(train_set) 

In [None]:
len(test_set)

Para asegurarnos de que los resultados de este cuaderno sigan siendo los mismos cada vez que lo ejecutamos, debemos establecer la semilla aleatoria:

In [None]:
np.random.seed(42)

Lamentablemente, esto no garantizará que este portátil produzca exactamente los mismos resultados que en el libro, ya que existen otras posibles fuentes de variación. 

El más importante es el hecho de que los algoritmos se modifican con el tiempo cuando las bibliotecas evolucionan. Entonces, tolere algunas diferencias menores: con suerte, la mayoría de los resultados deberían ser los mismos.

In [None]:
from sklearn.model_selection import train_test_split

train_set, test_set = train_test_split(v, test_size=0.2, random_state=42)

In [None]:
v.info() 

In [None]:
test_set["dormitorios"].isnull().sum()

Para encontrar la probabilidad de que una muestra aleatoria de 1000 personas contenga menos del 48,5 % de mujeres o más del 53,5 % de mujeres cuando la proporción de mujeres de la población es del 51,1 %, usamos la distribución binomial.

# La distribución binomial

Una distribución binomial es una distribución de probabilidad discreta que describe el número de éxitos al realizar $n$ experimentos independientes entre sí, acerca de una variable aleatoria.

Existen una gran diversidad de experimentos o sucesos que pueden ser caracterizados bajo esta distribución de probabilidad. Imaginemos el lanzamiento de una moneda en el que definimos el suceso “sacar cara” como el éxito. Si lanzamos 5 veces la moneda y contamos los éxitos (sacar cara) que obtenemos, nuestra distribución de probabilidades se ajustaría a una distribución binomial.

El método `cdf()` de la distribución binomial nos da la probabilidad de que el número de hembras sea igual o menor que el valor dado.

In [None]:
from scipy.stats import binom

sample_size = 1000
ratio_female = 0.511
proba_too_small = binom(sample_size, ratio_female).cdf(485 - 1)
proba_too_large = 1 - binom(sample_size, ratio_female).cdf(535)
print(proba_too_small + proba_too_large)

Si prefiere las simulaciones a las matemáticas, así es como podría obtener aproximadamente el mismo resultado:

In [None]:
# código adicional: muestra otra forma de estimar la probabilidad de una muestra incorrecta

np.random.seed(42)

samples = (np.random.rand(100_000, sample_size) < ratio_female).sum(axis=1)
((samples < 485) | (samples > 535)).mean()

In [None]:
v["ingresos_cat"] = pd.cut(v["ingresos"], bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1, 2, 3, 4, 5])

In [None]:
v["ingresos_cat"].value_counts().sort_index().plot.bar(rot=0, grid=True)
plt.xlabel("Categoría de ingresos")
plt.ylabel("Número de distritos")
save_fig("housing_income_cat_bar_plot")  # extra code
plt.show()



In [None]:
from sklearn.model_selection import StratifiedShuffleSplit

splitter = StratifiedShuffleSplit(n_splits=10, test_size=0.2, random_state=42)
strat_splits = []
for train_index, test_index in splitter.split(v, v["ingresos_cat"]):
    strat_train_set_n = v.loc[train_index]
    strat_test_set_n = v.loc[test_index]
    strat_splits.append([strat_train_set_n, strat_test_set_n])

In [None]:
strat_train_set, strat_test_set = strat_splits[0]

Es mucho más corto obtener una sola división estratificada:

In [None]:
strat_train_set, strat_test_set = train_test_split( v, test_size=0.2, stratify=v["ingresos_cat"], random_state=42)

In [None]:
strat_test_set["ingresos_cat"].value_counts() / len(strat_test_set)

In [None]:
# extra code – computes the data for Figure 2–10

def income_cat_proportions(data):
    return data["ingresos_cat"].value_counts() / len(data)

train_set, test_set = train_test_split(v, test_size=0.2, random_state=42)

compare_props = pd.DataFrame({
    "Overall %": income_cat_proportions(v),
    "Stratified %": income_cat_proportions(strat_test_set),
    "Random %": income_cat_proportions(test_set),
}).sort_index()
compare_props.index.name = "Income Category"
compare_props["Strat. Error %"] = (compare_props["Stratified %"] /
                                   compare_props["Overall %"] - 1)
compare_props["Rand. Error %"] = (compare_props["Random %"] /
                                  compare_props["Overall %"] - 1)
(compare_props * 100).round(2)

In [None]:
for set_ in (strat_train_set, strat_test_set):
    set_.drop("income_cat", axis=1, inplace=True)

# Descubra y visualice los datos para obtener información

In [None]:
v_train = strat_train_set.copy()

## Visualizing Geographical Data

In [None]:
v.plot(kind="scatter", x="longitud", y="latitud", grid=True)
save_fig("bad_visualization_plot")  # extra code
plt.show()

In [None]:
v.plot(kind="scatter", x="longitud", y="latitud", grid=True, alpha=0.2)
save_fig("better_visualization_plot")  # extra code
plt.show()

In [None]:
v_train.plot(kind="scatter", x="longitud", y="latitud", grid=True,
             s=v_train["población"] / 100, label="población",
             c="precio", cmap="jet", colorbar=True,
             legend=True, sharex=False, figsize=(10, 7))
save_fig("housing_prices_scatterplot")  # extra code
plt.show()



El argumento sharex=False corrige un error de visualización: sin él, los valores del eje x y la etiqueta no se muestran (consulte: https://github.com/pandas-dev/pandas/issues/10611).

La siguiente celda genera la primera figura del capítulo (este código no está en el libro). Es solo una versión embellecida de la figura anterior, con una imagen de California agregada en el fondo, nombres de etiquetas más agradables y sin cuadrícula.


In [None]:
# código adicional: esta celda genera la primera cifra del capítulo

# Descarga la imagen de California
import matplotlib.pyplot as plt 
import urllib
from PIL import Image

url = "https://github.com/ageron/handson-ml3/raw/main/images/end_to_end_project/california.png"


from PIL import Image
import requests
from io import BytesIO

response = requests.get(url)
img = Image.open(BytesIO(response.content))



v.plot(kind="scatter", x="longitud", y="latitud",
             s=v["población"] / 100, label="población",
             c="precio", cmap="jet", colorbar=True,
             legend=True, sharex=False, figsize=(10, 7))

california_img = plt.imread(url)
axis = -124.55, -113.95, 32.45, 42.05
plt.axis(axis)
plt.imshow(california_img, extent=axis)

save_fig("Gráfico_del_precio_de_vivienda_en_California")
plt.show()

# Buscando Correlaciones

In [None]:
corr_matrix = v_train.corr()

In [None]:
corr_matrix["precio"].sort_values(ascending=False)

In [None]:
v_train

In [None]:
from pandas.plotting import scatter_matrix

attributes = ["precio", "ingresos", "habitaciones",
              "antiguedad"]
scatter_matrix(v[attributes], figsize=(12, 8))
save_fig("Trazo de Matriz de diagramas de dispersión")  # extra code
plt.show()

In [None]:
v_train.plot(kind="scatter", x="ingresos", y="precio",
             alpha=0.1, grid=True)
save_fig("Ingresos_vs_Precio_scatterplot")  # extra code
plt.show()

# Experimenting with Attribute Combinations

In [None]:
v["rooms_per_house"] = housing["total_rooms"] / housing["households"]
housing["bedrooms_ratio"] = housing["total_bedrooms"] / housing["total_rooms"]
housing["people_per_house"] = housing["population"] / housing["households"]

In [None]:
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

# Prepare the Data for Machine Learning Algorithms

Let's revert to the original training set and separate the target (note that strat_train_set.drop() creates a copy of strat_train_set without the column, it doesn't actually modify strat_train_set itself, unless you pass inplace=True):

In [None]:
housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"].copy()

# Data Cleaning

In the book 3 options are listed to handle the NaN values:

In [None]:
housing.dropna(subset=["total_bedrooms"], inplace=True)    # option 1

housing.drop("total_bedrooms", axis=1)       # option 2

median = housing["total_bedrooms"].median()  # option 3
housing["total_bedrooms"].fillna(median, inplace=True)

For each option, we'll create a copy of housing and work on that copy to avoid breaking housing. We'll also show the output of each option, but filtering on the rows that originally contained a NaN value.

In [None]:
null_rows_idx = housing.isnull().any(axis=1)
housing.loc[null_rows_idx].head()

## Referentes  

* Cuederno del segundo capítulo de Hands on machine learning de Aurelien Geron: https://github.com/ageron/handson-ml3/blob/main/02_end_to_end_machine_learning_project.ipynb