<center>
<p><img src="https://www.gob.mx/cms/uploads/image/file/179499/outstanding_quienes-somos.jpg" width="300">
</p>



# Curso *Machine Learning con uso de pandas, scikit learn y libretas jupyter*

# Uso de pandas en datos numéricos y temporales


<p> Julio Waissman Vilanova </p>
<p>
<img src="https://identidadbuho.unison.mx/wp-content/uploads/2019/06/letragrama-cmyk-72.jpg" width="80">
</p>
</center>



In [None]:
import pandas as pd

## Leyendo y revisando los datos

Para ejemplificar el uso de columnas numéricas, horas y fechas vamos a utilizar un conjunto de datos que puso generosamente a nuestra disposición [Hector Alberto Gutierrez Ibarra](hector.gutierrez@cenace.gob.mx) de la gerencia noroeste.

Vamos primero pegandole un ojo a los datos:

In [None]:
df = pd.read_csv("datos/caso_zc_hmo.csv.zip")
df

In [None]:
df.info()

Lo primero que tenemos que hacer es convertir la variable `Date`en un formato de fechas. En este caso es muy fácil porque la tabla está muy bien formateada, pero suele no ser tan sencillo.

In [None]:
df['Date'] = pd.to_datetime(df.Date, format="%d/%m/%Y %H:%M")

df

In [None]:
df.info()

In [None]:
df.describe()

¿Cuantos días tenemos en esta base? ¿Cual es el primer día y el último?

In [None]:
print(f"Inicia el {df.Date.min()} y termina el {df.Date.max()}")
print(f"Con una duración de {df.Date.max() - df.Date.min()}")

Hay que tener cuidado porque hay dos tipos fundamentales de formatos de tiempo, y suelen no mesclarse bien en algunas operaciones.

In [None]:
type(df.Date.min()), type(df.Date.max() - df.Date.min())

Para facilitar el uso de pandas, vamos a pasar la fecha como el indice del dataframe

In [None]:
df.index = df.Date
df.drop(columns='Date', inplace=True)
df

## Gráficas rápidas y furiosas desde pandas

Pandas trae incluidas facilidades para la graficación con el fin de hacer análisis rápidos de nuestras variables, así que vamos aprovechando y haciendo una inspección visual

In [None]:
ax = df.Demand.plot()

In [None]:
ax = df.plot(figsize=(12, 20), subplots=True)

In [None]:
ax = df.WindSpeed.plot.box()

In [None]:
ax = df.plot.scatter(
    x='Humidity',
    y='Temperature',
    c='Demand',
    figsize=(12,8)
)

# Generando nuevas variables a partir de las variables conocidas

Generar nuevas variables es relativamente simple, pero hay algunas cosas que son diferentes con numpy y por las cuales hay que tener cuidado.

In [None]:
df['farenheit'] = (df.Temperature * 9/5) + 32

In [None]:
df['refri'] = 0
df['refri'] = df.refri.where(df.Temperature < 30, 1)
df.describe()

In [None]:
df['DiaSemana'] = df.index.day_name(locale='es_ES')
df

In [None]:
df.rename(
    columns={
        'Demand': 'Demanda',
        'Temperature': 'Temperatura',
        'PrecipIntensity': 'Precipitación',
        'Humidity': 'Humedad',
        'WinSpeed': 'VelocidadViento',
    },
    inplace=True
)
df

## Analizando con regrupamientos

En particular, es interesante poder hacer algun análisis exploratorio utilizando las facilidades que da el uso del manejo de la información temporal que ofrece pandas. En espacial cuando se combina con `groupby` y diferentes funciones de agregación.

Vamos a empezar por ver la demanda promedio por día de la semana:

In [None]:
ax = df[['Demanda']].groupby(df.DiaSemana).boxplot(subplots=False, rot=90)

In [None]:
df_semana = df.groupby('DiaSemana').agg(
    {
        'Demanda': ['min', 'max', 'mean', 'median', 'std', 'mad']
    }
)
df_semana

Ahora vamos a ver que pasa en forma mensual

In [None]:
ax = df[['Demanda']].groupby(df.index.month).boxplot(subplots=False, rot=90, figsize=(12, 7))

In [None]:
ax = df[['Temperatura']].groupby(df.index.month).boxplot(subplots=False, rot=90, figsize=(12, 7))

O inclusive por hora del día

In [None]:
ax = df[['Demanda']].groupby(df.index.hour).boxplot(subplots=False, rot=90, figsize=(12, 7))

In [None]:
df_hora = df[['Demanda', 'Temperatura']].groupby([df.index.hour, df.index.month_name()]).mean().unstack()
df_hora

In [None]:
ax = df_hora.Demanda.plot(style='o', figsize=(15,7))

In [None]:
ax = df_hora.Temperatura.plot(style='o', figsize=(15,7))