# Exploracion de datos

El primer paso en cualquier proyecto de aprendizaje automático es explorar los datos que usará para entrenar un modelo. El objetivo de esta exploración es intentar comprender las relaciones entre sus atributos; en particular, cualquier correlación aparente entre las características y la etiqueta que su modelo intentará predecir. Esto puede requerir algo de trabajo para detectar y corregir problemas en los datos (como tratar con valores perdidos, errores o valores atípicos), derivar nuevas columnas de características al transformar o combinar características existentes (un proceso conocido como ingeniería de características), normalizar características numéricas (valores que puede medir o contar) para que estén en una escala similar y codificar características categóricas (valores que representan categorías discretas) como indicadores numéricos.

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns

- **instant:** un identificador de fila único
- **dteday:** la fecha en la que se observaron los datos; en este caso, los datos se recopilaron diariamente; por lo que hay una fila por fecha.
- **season:** un valor codificado numéricamente que indica la temporada (1: primavera, 2: verano, 3: otoño, 4: invierno)
- **yr:** el año del estudio en el que se realizó la observación (el estudio se llevó a cabo durante dos años; el año 0 representa 2011 y el año 1 representa 2012)
- **mnth:** El mes calendario en el que se realizó la observación (1: enero ... 12: diciembre)
- **holiday:** un valor binario que indica si la observación se realizó o no en un feriado público)
- **weekday:** el día de la semana en el que se realizó la observación (0: domingo ... 6: sábado)
- **workingday:** un valor binario que indica si el día es o no un día laborable (no un fin de semana o feriado)
- **weathersit:** Un valor categórico que indica la situación meteorológica (1: despejado, 2: niebla / nube, 3: lluvia ligera / nieve, 4: lluvia intensa / granizo / nieve / niebla)
- **temp:** La temperatura en grados Celsius (normalizada)
- **atemp:** La temperatura aparente ("se siente como") en grados Celsius (normalizada)
- **hum:** el nivel de humedad (normalizado)
- **windspeed:** la velocidad del viento (normalizada)
- **rentals:** el número de alquileres de bicicletas registrados.

En este conjunto de datos, **alquileres** representa la etiqueta (el valor *y*) que nuestro modelo debe estar capacitado para predecir. Las otras columnas son características potenciales (valores *x*).

Como se mencionó anteriormente, puede realizar alguna *ingeniería de funciones* para combinar o derivar nuevas funciones. Por ejemplo, agreguemos una nueva columna llamada **día** al marco de datos extrayendo el componente de día de la columna **dteday** existente. La nueva columna representa el día del mes del 1 al 31.

In [5]:
bike_data = pd.read_csv("./datasets/daily-bike-share.csv")
bike_data.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,rentals
0,1,1/1/2011,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331
1,2,1/2/2011,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131
2,3,1/3/2011,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120
3,4,1/4/2011,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108
4,5,1/5/2011,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82


Bien, comencemos nuestro análisis de los datos examinando algunas estadísticas descriptivas clave. Podemos usar el método de descripción del marco de datos para generarlos para las características numéricas, así como para la columna de etiquetas de alquileres.

# Regression

Las técnicas de aprendizaje automático supervisado implican entrenar un modelo para operar en un conjunto de características y predecir una etiqueta utilizando un conjunto de datos que incluye algunos valores de etiqueta ya conocidos. El proceso de entrenamiento ajusta las características a las etiquetas conocidas para definir una función general que se puede aplicar a las nuevas características para las que las etiquetas son desconocidas y predecirlas. Puede pensar en esta función de esta manera, en la que **y** representa la etiqueta que queremos predecir y **x** representa las características que usa el modelo para predecirlo.

$$y = f(x)$$

En la mayoría de los casos, **x** es en realidad un **vector** que consta de múltiples valores de características, por lo que, para ser un poco más precisos, la función podría expresarse así:

$$y = f([x_1, x_2, x_3, ...])$$

El objetivo de entrenar el modelo es encontrar una función que realice algún tipo de cálculo de los valores **x** que produzca el resultado **y**. Hacemos esto aplicando un **algoritmo** de aprendizaje automático que intenta ajustar los valores **x** a un cálculo que produce **y** con una precisión razonable para todos los casos en el conjunto de datos de entrenamiento.

Hay muchos algoritmos de aprendizaje automático para el aprendizaje supervisado y se pueden dividir en dos tipos:

- **Algoritmos de regresión**: Algoritmos que predicen un valor **y** que es un valor numérico, como el precio de una casa o el número de transacciones de venta.
- **Algoritmos de clasificación**: Algoritmos que predicen a qué categoría, o **clase**, pertenece una observación. El valor **y** en un modelo de clasificación es un vector de valores de probabilidad entre 0 y 1, uno para cada clase, que indica la probabilidad de que la observación pertenezca a cada clase.

> **Citation**: The data used in this exercise is derived from [Capital Bikeshare](https://www.capitalbikeshare.com/system-data) and is used in accordance with the published [license agreement](https://www.capitalbikeshare.com/data-license-agreement).
<br>
<br>
<img src="LR.png" height = "500" width = "500">

## Train a Model

Existen conceptos clave que sientan las bases para una mejor comprensión del ML. Aprenderemos la nomenclatura (términos estándar) que se utiliza para describir los datos, así como los términos utilizados para describir el aprendizaje y el modelado.

<br>
<img src="tabla1.png" height = "700" width = "700">
<br>
<br>
<img src="train_test.png" height = "500" width = "500">

* **Instancia:** A una sola fila de datos se le llama instancia. También se le conoce como una observación del dominio.
* **Característica (Feature, labels):** A una sola columna de datos se le llama característica. Es un componente de una observación y también se denomina atributo de una instancia de datos (La característica se suele asociar con el atributo y su valor, aunque la mayoría de las veces se usa atributo y característica indistintamente). Algunas características pueden ser entradas a un modelo (predictores) y otras pueden ser salidas o las características a predecir (también llamadas *labels*).
* **Target (salida)**: es nuestra variable a predecir la cual tambien se conoce como variable target, salida, y_predict y entre otros. LA variable de salida del dataset siempre dependerá de que buscamos predecir, de un solo dataset pueden resultar distaintas variables de salidad y según sea nuestro objetivo escogeremos una variable u otra a predecir.
* **Datos de entrenamiento**: Conjunto de datos que introducimos a nuestro algoritmo para entrenar nuestro modelo.
* **Datos de prueba**: Conjunto de datos que utilizamos para validar la precisión de nuestro modelo pero que no se utiliza para entrenarlo. Puede llamarse conjunto de datos de validación.

### Tener en cuenta:

* **Cantidad insuficiente de datos de entrenamiento**: Se necesitan muchos datos para que la mayoría de los algoritmos de ML funcionen correctamente. Incluso para problemas muy simples, generalmente se necesitan miles de ejemplos, y para problemas complejos como el reconocimiento de imágenes o de voz puede necesitarse millones de ejemplos. 

* **Datos de entrenamiento no representativos**: Para generalizar bien, es crucial que los datos de entrenamiento sean representativos de los nuevos casos que desea generalizar. Al usar un conjunto de entrenamiento no representativo, entrenamos un modelo con el cual es poco probable obtener predicciones precisas. Incluso muestras muy grandes pueden no ser representativas si el método de muestreo es defectuoso (sesgo en el muestreo).

* **Datos de baja calidad**: Obviamente, si los datos de entrenamiento están llenos de errores, valores atípicos y ruido (por ejemplo, debido a mediciones de baja calidad), será más difícil para el algoritmo detectar los patrones subyacentes, por lo que es menos probable que funcione bien. ¡Siempre vale la pena dedicar tiempo a limpiar los datos de entrenamiento!

* **Características irrelevantes**: El sistema solo será capaz de aprender si los datos de entrenamiento contienen suficientes características relevantes y no demasiadas irrelevantes. Una parte fundamental del éxito de un proyecto de ML es crear un buen conjunto de características para el entrenamiento. Este proceso se conoce como ingeniería de características. 

## Introducción a Sckit Learn

Hay varias bibliotecas de Python que proporcionan implementaciones sólidas de una variedad de algoritmos de ML. Uno de los más conocidos es Scikit-Learn, un paquete que proporciona versiones eficientes de una gran cantidad de algoritmos comunes. Scikit-Learn se caracteriza por ser una API limpia, uniforme y optimizada, así como por una documentación en línea muy útil y completa. La API de Scikit-Learn está notablemente bien diseñada. Los principales principios de diseño son:

* **Estimadores**: Cualquier objeto que pueda estimar algunos parámetros basados en un conjunto de datos se llama *estimador*. La estimación en sí misma se realiza mediante el método `fit()`, y solo toma un conjunto de datos como parámetro (o dos para algoritmos de aprendizaje supervisados; el segundo conjunto de datos contiene las etiquetas). Cualquier otro parámetro necesario para guiar el proceso de estimación se considera un hiperparámetro
* **Parámetros del modelo**: Son aquellos que pertenecen al modelo utilizado para realizar el procedimiento de ajuste
* **Hiperparámetros**: Es un parámetro de un algoritmo de aprendizaje (no del
modelo). Como tal, no se ve afectado por el algoritmo de aprendizaje en sí; debe establecerse antes
al entrenamiento y permanece constante durante el entrenamiento.
* **Métrica**: Medida cuantitativa usada para evaluar el rendimiento del algoritmo.

- Documentación de Scikit Learn: https://scikit-learn.org/stable/

Después de separar el conjunto de datos, ahora tenemos numerosas matrices llamadas **X** que contienen las características y **y** que contienen las etiquetas.

*Podríamos* entrenar un modelo usando todos los datos; pero es una práctica común en el aprendizaje supervisado dividir los datos en dos subconjuntos; un conjunto (normalmente más grande) con el que entrenar el modelo y un conjunto de "retención" más pequeño con el que validar el modelo entrenado. Esto nos permite evaluar qué tan bien se desempeña el modelo cuando se usa con el conjunto de datos de validación comparando las etiquetas predichas con las etiquetas conocidas. Es importante dividir los datos *al azar* (en lugar de decir, tomar el primer 70% de los datos para el entrenamiento y guardar el resto para la validación). Esto ayuda a garantizar que los dos subconjuntos de datos sean estadísticamente comparables (por lo que validamos el modelo con datos que tienen una distribución estadística similar a los datos sobre los que se entrenó).

Para dividir aleatoriamente los datos, usaremos la función **train_test_split** en la biblioteca **scikit-learn**. Esta biblioteca es uno de los paquetes de aprendizaje automático más utilizados para Python.

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from mpl_toolkits.mplot3d import Axes3D

In [8]:
bike_data.drop(["dteday"], inplace = True, axis = 1)

In [20]:
X = bike_data.drop(["rentals"], axis = 1).values
y = bike_data[["rentals"]].values

In [78]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.8,  random_state = 3534534)
X_train

array([[4.59000e+02, 2.00000e+00, 1.00000e+00, ..., 4.61483e-01,
        3.96667e-01, 1.00133e-01],
       [5.65000e+02, 3.00000e+00, 1.00000e+00, ..., 7.45583e-01,
        5.77083e-01, 1.37442e-01],
       [2.62000e+02, 3.00000e+00, 0.00000e+00, ..., 5.29675e-01,
        6.90000e-01, 1.51742e-01],
       ...,
       [5.58000e+02, 3.00000e+00, 1.00000e+00, ..., 6.50271e-01,
        6.33333e-01, 1.51733e-01],
       [6.19000e+02, 3.00000e+00, 1.00000e+00, ..., 5.65654e-01,
        5.03750e-01, 2.58713e-01],
       [2.58000e+02, 3.00000e+00, 0.00000e+00, ..., 5.53671e-01,
        7.09167e-01, 2.71146e-01]])

Ahora tenemos los siguientes cuatro conjuntos de datos:

- **X_train**: los valores de características que usaremos para entrenar el modelo
- **y_train**: Las etiquetas correspondientes que usaremos para entrenar el modelo
- **X_test**: los valores de características que usaremos para validar el modelo
- **y_test**: Las etiquetas correspondientes que usaremos para validar el modelo

Ahora estamos listos para entrenar un modelo ajustando un algoritmo de regresión adecuado a los datos de entrenamiento. Usaremos un algoritmo de *regresión lineal*, un punto de partida común para la regresión que funciona tratando de encontrar una relación lineal entre los valores *X* y la etiqueta *y*. El modelo resultante es una función que define conceptualmente una línea en la que se cruzan todas las posibles combinaciones de valores de X e y.

En Scikit-Learn, los algoritmos de entrenamiento están encapsulados en *estimadores*, y en este caso usaremos el estimador **LinearRegression** para entrenar un modelo de regresión lineal.

In [82]:
LR = LinearRegression(normalize = True)
LR

In [83]:
LR_model = LR.fit(X_train, y_train)
LR_model

If you wish to scale the data, use Pipeline with a StandardScaler in a preprocessing stage. To reproduce the previous behavior:

from sklearn.pipeline import make_pipeline

model = make_pipeline(StandardScaler(with_mean=False), LinearRegression())

If you wish to pass a sample_weight parameter, you need to pass it as a fit parameter to each step of the pipeline as follows:

kwargs = {s[0] + '__sample_weight': sample_weight for s in model.steps}
model.fit(X, y, **kwargs)




In [85]:
bike_data.drop(["rentals"], axis = 1)

Unnamed: 0,instant,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed
0,1,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446
1,2,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539
2,3,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309
3,4,1,0,1,0,2,1,1,0.200000,0.212122,0.590435,0.160296
4,5,1,0,1,0,3,1,1,0.226957,0.229270,0.436957,0.186900
...,...,...,...,...,...,...,...,...,...,...,...,...
726,727,1,1,12,0,4,1,2,0.254167,0.226642,0.652917,0.350133
727,728,1,1,12,0,5,1,2,0.253333,0.255046,0.590000,0.155471
728,729,1,1,12,0,6,0,2,0.253333,0.242400,0.752917,0.124383
729,730,1,1,12,0,0,0,1,0.255833,0.231700,0.483333,0.350754


In [86]:
x_pred = np.array([1,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446])
x_pred

array([1.      , 1.      , 0.      , 1.      , 0.      , 6.      ,
       0.      , 2.      , 0.344167, 0.363625, 0.805833, 0.160446])

In [91]:
predictions = LR_model.predict(x_pred.reshape(1, -1))
predictions

array([[998.89061765]])

In [92]:
predictions = LR_model.predict(X_test)
predictions

array([[ 1.61714832e+03],
       [ 1.19975182e+03],
       [ 9.74410513e+02],
       [ 4.34000821e+02],
       [ 5.40951978e+02],
       [ 8.60006059e+02],
       [ 1.89146282e+02],
       [ 1.08568106e+03],
       [ 3.46482123e+02],
       [ 4.91315646e+02],
       [ 3.81302062e+02],
       [ 3.12378254e+02],
       [ 4.43225539e+02],
       [ 1.29927308e+03],
       [-4.43806424e+01],
       [ 1.28574663e+03],
       [ 6.53981077e+02],
       [ 3.52086040e+02],
       [ 5.18978096e+02],
       [ 3.79855018e+02],
       [ 1.68879999e+03],
       [ 1.55342275e+03],
       [ 1.39548577e+03],
       [-3.21901127e+02],
       [ 8.70822146e+01],
       [ 5.82025374e+02],
       [ 3.72645831e+01],
       [ 1.21338957e+03],
       [ 2.24079739e+03],
       [ 1.09562874e+03],
       [ 4.97769945e+02],
       [ 1.08308663e+03],
       [-2.22589098e+00],
       [ 2.08134168e+03],
       [ 4.56515364e+02],
       [-1.15798568e+02],
       [ 1.60691002e+03],
       [-1.37275972e+02],
       [ 9.9

In [94]:
# Metricas de evaluacion del modelo
mse = mean_squared_error(y_test, predictions)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, predictions)

print(f"MSE: {mse}")
print(f"RMSE: {rmse}")
print(f"R2: {r2}")

MSE: 185992.52696099083
RMSE: 431.2685091227863
R2: 0.6398448250573752


# Taller

- Escoger un dataset (que tenga tanto variables numericas como categoricas)
-  Cargar el dataset y convertirlo a archivo parquet, Json, CSV
-  Cargar con los diferentes formatos con Pyspark, utilizar las dos formas de caragr un dataset
-  Definir el schema de todas las columnas
- Calcular medidas de tendencia central (media, mediana y moda) con Pyspark y SparkSQL mínimo para la mitad de las variables
-  Calcular medidas de dispersion (varianza, desviacion estandard y Coeficiente de variacion), consultar como hacerlo
- Realizar mínimo 5 groupbys con Pyspark y con SparkSQL crear una tabla temporar para realizar lo mismo, y mínimo uno con pandas
-  Buscar un dataset que incluya diferentes tablas, y con pyspark realizar un inner join, left join y right join, realizarlo tambien con SparkSQL y con Pandas
-  realizar distinct count de cada columna categorica
-  realizar mínimo 5 conclusiones de las medidas de tendencia central y de dispersion calculadas previamente

Nota: siempre que pueda utilice clases y objetos

2 semanas