---
# Caso Superstore: Series de tiempo

En esta guía vamos a revisar algunas técnicas para el análisis combinando wrangling y análisis visual.





In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

#### 1. Lectura y Wrangling Inicial

In [None]:
# lectura con parseo de fechas
# nótese que las fechas son reconocidas como datetime64
df = pd.read_csv('Superstore.csv', encoding='windows-1252', parse_dates=['Order Date','Ship Date'])

In [None]:
# eliminamos columnas que no serán de utilidad
df.drop(['Row ID', 'Postal Code'], axis=1, inplace=True)

In [None]:
# estructura del dataframe
df.info()

In [None]:
# algunos registros de ejemplo
df.sample(4).T

#### 2. Análisis del tiempo de entrega

En esta sección, vamos a analizar los tiempos de entrega de los pedidos. Para esto, vamos a crear una columna nueva que contenga la diferencia de tiempo entre la fecha de la orden y la fecha de delivery

In [None]:
# Crear una nueva columna llamada "tiempo entrega" que contenga la diferencia entre la fecha de delivery y la fecha de la orden

df["tiempo entrega"] = 

In [None]:
# verifique el tipo de dato de la nueva columna ¿Qué tipo de datos es?



In [None]:
# imprima los primeros registros para verificar cómo se despliega el tiempo de entrega


Como se puede apreciar, la nueva columna es del tipo Timedelta, el cual representa una duración, es decir, la diferencia entre dos fechas. Acá hay un link a la documentación oficial:

https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html


Sin embargo, para nuestro análisis necesitamos convertir la columna con tipo de dato Timedelta a un valor numérico que represente la cantidad de días. Para eso, vamos a utilizar una propiedad de los objetos de tipo Timedelta que despliega la cantidad de dias. Observar este link:

https://stackoverflow.com/questions/2119472/convert-a-timedelta-to-days-hours-and-minutes



In [None]:
# cree una nueva columna que contenga la cantidad de dias del tiempo de entrega
df["dias entrega"] = 

Ahora vamos a analizar los tiempos medios de entrega (en dias) para cada tipo de despacho (Ship Mode). Construya un gráfico que muestre el tiempo medio de entrega (en días) para cada medio de despacho. Como se puede observar, los tipos de despacho son consistentes con los tiempos promedios desplegados.

Sugerencia: usar seaborn barplot

El gráfico anterior despliega un promedio, sin embargo nos gustaría saber qué tan dispersos son los tiempos en cada caso. Construya un gráfico donde se despliegue la desviación standard para cada medio de despacho. ¿Cuál es el medio de despacho que tiene mayor variabilidad?

Sugerencia: revisar parametro estimator

Una grilla de gráficos con la distribución de días de entrega para cada tipo de despacho sería una buena forma de comparar las dispersiones.

Sugerencia: usar FacetGrid

También podría servir una visualización de boxplot de dias de duración por modalidad de despacho

Sugerencia: seaborn boxplot

#### 3. Analisis Series de Tiempo

El análisis de series de tiempo es una técnica estadística utilizada para analizar datos que se recopilan, registran o generan secuencialmente a lo largo del tiempo. Estos datos se organizan en intervalos regulares, como horas, días, semanas, meses o años, y se utilizan para estudiar la evolución y el comportamiento de una variable o fenómeno a lo largo del tiempo.

El objetivo del análisis de series de tiempo es comprender y modelar la estructura subyacente de los datos temporales, identificar patrones, tendencias y ciclos, así como también realizar pronósticos o predicciones futuras basadas en el comportamiento observado en el pasado.

#### Preparación del set de datos

Para hacer análisis de series de tiempo, necesitamos dos cosas:
- Contar una columna de tipo Datetime
- Utilizar esa columna como indice del frame de datos

En este caso, ya contamos con la columna Order Date que contiene la fecha de la orden y que es de tipo datetime

In [None]:
# setee la columna Order Date para que quede como indice



In [None]:
# verifique el dataframe desplegando las primeras filas



#### Diagrama de evolución de la cantidad de ordenes

Para contabilizar la cantidad de ordenes diarias, la siguiente instrucción puede ser de utilidad.


    df['Order ID'].resample('D').count()


El método resample agrupa los datos en una ventana de tiempo determinado, en este caso, se han acumulado por día y se han contado. Más información en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html

In [None]:
# ejecute la instrucción de resample y observe el resultado



Si la serie de datos anterior se grafica, entonces se obtiene una visualización muy adecuada para describir una serie de tiempo.

    df['Order ID'].resample('D').count().plot( figsize=(12,4) )

Como se puede observar, la ventana diaria de agregación no es apropiada para visualizar la evolución de las ventas. Pruebe con ventanas tales como:

- 'W': weekly
- 'M': monthly
- 'Q': quarter
- 'Y': yearly

seleccione la visualización con la ventana de tiempo que permita una mejor visualización de la serie de tiempo.

¿Qué ventana de tiempo permite apreciar un patrón? ¿Qué patrón se observa?

In [None]:
# responda acá




#### Medias móviles

La media móvil es una técnica utilizada en el análisis de series de tiempo para suavizar las fluctuaciones a corto plazo y resaltar las tendencias a largo plazo o los ciclos subyacentes en los datos. Consiste en calcular la media de un cierto número de observaciones consecutivas en una serie temporal y utilizar ese valor promedio como una estimación del valor en un punto dado.

La idea básica detrás de la media móvil es que al promediar múltiples observaciones adyacentes, se puede reducir el efecto de la variabilidad aleatoria en los datos, lo que permite identificar mejor las tendencias y patrones subyacentes. Esto puede ser útil para suavizar la serie de tiempo y hacer que sea más fácil identificar patrones de comportamiento a largo plazo.

La siguiente instrucción calcula una media movil de 20 días sobre la cantidad de ordenes por dias que calculamos en el punto anterior.

    df['Order ID'].resample('D').count().rolling(window=20).mean()


In [None]:
# ejecute la instrucción y verifique el resultado


Si a la instrucción anterior la graficamos con un diagrama de lineas, obtenemos una visualización interesante.

    df['Order ID'].resample('D').count().rolling(window=20).mean().plot( figsize=(12,4) )


In [None]:
# ejecute la instrucción anterior para visualizar la serie de datos



Pruebe con distintos valores de la ventana móvil. Una ventana más grante, muestra la tendencia de largo plazo (por ejemplo, 100 o 200 días). Pruebe distintas ventanas (200, 100, 50, 10 días)

#### Conclusiones

¿Qué se observa? ¿Qué diferencia hay entre resample y rolling? ¿Qué patrones se observan?

In [None]:
# responda acá







---