# Pasos de un proyecto de ML

Todo proceso de ML tiene pasos bien definidos, que se pueden seguir para la mayoría de los casos que se nos presenten. Estos pasos son:

1. Entender el problema.
2. Obtener los datos.
3. Analizar y visualizar los datos para obtener ideas.
4. Preparar los datos para los algoritmos de ML.
5. Seleccionar un modelo y entrenarlo.
6. Ajustar el modelo.
7. Presentar tu solución.
8. Lanzar, monitorear y mantener tu sistema.

## Trabajar con datos reales

Los datos reales presentan desafíos que no se ven en datos generados de forma sintética, por lo que es importante, aun en una etapa de aprendizaje, utilizar datasets que provengan de fuentes reales.

En internet hay una serie de fuentes de datos que nos pueden servir para tal propósito, entre ellos podemos considerar:

- El [Repositorio de ML de la Universidad de Irvine](http://archive.ics.uci.edu/ml/).
- Los datasets en [Kaggle](https://www.kaggle.com/datasets).
- Los datasets de [Amazon AWS](https://registry.opendata.aws/).
- Lista de [Wikipedia](http://homl.info/9) de datasets para ML.
- Lista de [Quora](http://homl.info/10) de datasets públicos para ML.
- Hilos sobre datasets en [Reddit](https://www.reddit.com/r/datasets).
- Portales donde se listan datos públicos como [http://dataportals.org](http://dataportals.org), [http://opendatamonitor.eu](http://opendatamonitor.eu) o [http://quandl.com](http://quandl.com).

Para comenzar a trabajar tomaremos el dataset _California Housing Prices_ del repositorio _Statlib_ que se basa en los datos del censo de 1990 de EEUU.

## 1. Entender el problema

1. Definir los objetivos del negocio.
2. ¿Para que será usada tu solución?
3. ¿Como es la solución actual? (si existe)
4. ¿Como atacaremos el problema? (supervisado/no-supervisado, online/offline, etc)
5. ¿Como se mide la performance de mi solución?
6. ¿Esta mi medida de performance alineada con los objetivos del negocio?
7. ¿Cual es el mínimo aceptable para cumplir con los objetivos del negocio?
8. ¿Existen problemas similares?¿Puedo reusar experiencia o herramientas?
9. ¿Tengo a disposición expertos humanos?
10. ¿Como se resuelve el problema manualmente?
11. Haz una lista de tus suposiciones o las de otros respecto al problema.
12. Verifica las suposiciones si es posible.

Nuestro problema actual se define en función de una corredora de propiedades de California que desea saber el precio promedio en cada distrito, para saber cuando es conveniente invertir en la compra de un inmueble. Un distrito es la unidad mínima en los censos de EEUU y representa un bloque/cuadra donde viven entre 600 a 3000 personas. Para este problema, se considera nuestra solución como la entrada de otro sistema que estima las oportunidades de inversión. Actualmente estas estimaciones se hacen a mano por expertos humanos, lo que es costoso en tiempo y dinero, siendo además los resultados poco satisfactorios porque muchas veces las estimaciones tienen un error de más del 10%.

A partir de los datos presentados, podrías estimar si el problema es:

- ¿Supervisado, no-supervisado o reforzado?
- ¿Es un problema de clasificación, de regresión u otra cosa?
- ¿Necesitamos una técnica de aprendizaje online u offline?

### Seleccionar las medidas de performance

Raiz del error cuadrático medio (Root Mean Square Error): 
$$RMSE(X,h)=\sqrt{\frac{1}{m} \sum_{i=1}^m{(h(x^i)-y^i)}^2}$$
Donde:

- $m$ es el número de instancias.
- $x^i$ son las variables independientes.
- $y^i$ son las variables dependientes.
- $h(x^i)$ es la función de predicción evaluada en $x^i$.

Si bien esta medida de performance es de las preferidas para problemas de regresión, tiene problemas cuando existen muchos _outliers_.

Para ese caso, también vamos a calcular el Error absoluto medio (Mean Absolute Error):
$$MAE(X,h)=\frac{1}{m} \sum_{i=1}^m{\lvert h(x^i)-y^i \rvert}$$

Ambas medidas son maneras de medir la distancia entre dos vectores, el vector de predicciones y el de objetivos.

# 2. Obtener los datos

1. Haz un listado de los datos que necesitas y su importancia.
2. Busca y documenta de donde puedes obtener los datos.
3. Revisa cuanto espacio van a ocupar.
4. Revisa las obligaciones legales y pide los permisos necesarios.
5. Obten permisos de acceso.
6. Crea un espacio de trabajo (environment) con suficiente espacio.
7. Obten los datos.
8. Convierte los datos a un formato facil de manipular.
9. Asegurate que la información sensible es borrada o está protegida.
10. Revisa el tamaño y el tipo de los datos.
11. Crea un set de prueba, dejalo aparte y no lo veas jamás.

En un entorno real los datos se encuentran en bases de datos, planillas de cálculo, tablas, documentos de texto, etc. Con fines didácticos nuestro trabajo es mucho mas simple, los datos se encuentran en un archivo comprimido (_housing.tgz_), que contiene un archivo CSV con los datos del censo (_housing.csv_). Todos estos se encuentran dentro del repositorio github de [handsom_ml](https://github.com/ageron/handson-ml), bajo el directorio _datasets/housing_.

In [4]:
import os
import tarfile

HOUSING_PATH=os.path.join("datasets", "housing")

def fetch_housing_data(housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        print("Error: Directorio no encontrado.")
        return -1
    
    tgz_path=os.path.join(housing_path, "housing.tgz")
    housing_tgz=tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
    

In [5]:
import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path=os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

In [9]:
!rm datasets/housing/housing.csv
!ls datasets/housing

fetch_housing_data()

!ls datasets/housing

housing=load_housing_data()
housing.head()

README.md   housing.tgz
README.md   housing.csv housing.tgz


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


### Tarea

A partir de los datos rescatados en el dataframe _housing_ obtenga la cantidad de elementos no-nulos para cada columna, los estadísticos descriptivos y un histograma que integre todas las columnas numéricas. Para ello se le proporciona un formulario de la librería Pandas que puede descargar <a href="files/Pandas_Cheat_Sheet.pdf">AQUI</a>.