# Ejercicio análisis time series
Para este ejercicio vas a trabajar con el histórico de valores en bolsa de una empresa que se dedica a vender muebles. Se pide
1. Importa los datos 'df_furniture.csv'
2. Trata la fecha como texto. Crea una columna para el año, mes y dia, y a partir de esas columnas crea la de fecha, en formato datetime de pandas
3. ¿De qué fecha a qué fecha va el histórico?
4. ¿Cómo es la serie temporal? ¿Tiene tendencia? ¿Aprecias alguna estacionalidad?
5. ¿Podrías demostrar de dos maneras estadísticas que la serie no es stationary?
6. Parece que hay una tendencia, pero no se aprecia bien con tanto pico en la serie. ¿Conoces algún método para representar mejor la tendencia?
7. Estaría bien visualizar todos los componentes de la serie temporal por separado
8. Demuestra mediante una gráfica de autocorrelación que la serie es estacional
9. ¿Qué dependencia tiene cada instante de sus ultimos 5 lags? Demuéstralo mediante una matriz de correlación. ¿Esto es bueno para los modelos?
10. Ya hemos visto que hay seasonality. ¿Cada cuántos instantes se cumple ese patrón?
11. Para un futuro modelado de los datos necesitaremos eliminar la tendencia. ¿Cómo hacemos esto?

In [141]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1. Cargamos los datos

In [142]:
df = pd.read_csv("data/df_furniture.csv")
df

Unnamed: 0,Month,furniture_price_adjusted
0,1992-01-01,2073.432724
1,1992-02-01,2114.485812
2,1992-03-01,2260.570891
3,1992-04-01,2255.103236
4,1992-05-01,2331.414618
...,...,...
326,2019-03-01,9718.107698
327,2019-04-01,9248.814254
328,2019-05-01,10001.305304
329,2019-06-01,9431.337229


## 2. Tratar la fecha como texto y parsear

In [143]:
df["Year"] = df["Month"].str.split("-", expand=True)[0]
df["Day"] = df["Month"].str.split("-", expand=True)[2]
df["Month"] = df["Month"].str.split("-", expand=True)[1]
df

Unnamed: 0,Month,furniture_price_adjusted,Year,Day
0,01,2073.432724,1992,01
1,02,2114.485812,1992,01
2,03,2260.570891,1992,01
3,04,2255.103236,1992,01
4,05,2331.414618,1992,01
...,...,...,...,...
326,03,9718.107698,2019,01
327,04,9248.814254,2019,01
328,05,10001.305304,2019,01
329,06,9431.337229,2019,01


In [144]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 331 entries, 0 to 330
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Month                     326 non-null    object 
 1   furniture_price_adjusted  331 non-null    float64
 2   Year                      326 non-null    object 
 3   Day                       326 non-null    object 
dtypes: float64(1), object(3)
memory usage: 10.5+ KB


In [145]:
#miramos donde están los nulos
df[df["Year"].isnull()]

Unnamed: 0,Month,furniture_price_adjusted,Year,Day
15,,2457.704334,,
21,,2715.938414,,
39,,2857.008678,,
40,,3086.648631,,
60,,3298.628987,,


In [146]:
#observamos la situación de 1 nulo
df.iloc[14:17]

Unnamed: 0,Month,furniture_price_adjusted,Year,Day
14,3.0,2449.195623,1993.0,1.0
15,,2457.704334,,
16,5.0,2552.87495,1993.0,1.0


In [158]:
# cambiamos los nulos
#TODO arreglar los nulos de la columna año


df["Month"] = df["Month"].fillna(df["Month"].bfill().astype(int).add(1)).astype(int).replace(13,1)
df["Day"] =df["Day"].fillna(1).astype(int)
df["Year"] =df["Year"].fillna(df.groupby("Month")["Year"].apply(lambda x: x.ffill() if x.iloc[0] == 1 else x.bfill())).astype(int)
df

ValueError: Buffer dtype mismatch, expected 'Python object' but got 'long'

In [155]:
df.describe()

Unnamed: 0,Month,furniture_price_adjusted,Day
count,331.0,331.0,331.0
mean,6.444109,5975.765787,1.0
std,3.453464,2092.867819,0.0
min,1.0,2073.432724,1.0
25%,3.0,4280.088499,1.0
50%,6.0,6075.405272,1.0
75%,9.0,7381.403461,1.0
max,12.0,10833.501852,1.0


## 3. ¿De qué fecha a qué fecha va el histórico?

La serie va desde enero de 1992 a julio de 2019

In [None]:
df.describe()

## 4. ¿Cómo es la serie temporal? ¿Tiene tendencia? ¿Aprecias alguna estacionalidad?

Se ve que tiene una clara tendencia al alza, a pesar de una pequeña bajada en als acciones en el 2007.

También apreciamos estacionalidad, al cumplirse cierto patrón a lo largo del tiempo

## 5. ¿Podrías demostrar de dos maneras estadísticas que la serie no es stationary?

## 6. ¿Conoces algún método para representar mejor la tendencia?

## 7. Estaría bien visualizar todos los componentes de la serie temporal por separado

## 8. Demuestra mediante una gráfica de autocorrelación que la serie es estacional

## 9. ¿Qué dependencia tiene cada instante de sus ultimos 5 lags? Demuestralo mediante una matriz de correlación.

## 10. Ya hemos visto que hay seasonality. ¿Cada cuántos instantes se cumple ese patrón?

## 11. Para un futuro modelado de los datos necesitaremos eliminar la tendencia. ¿Cómo hacemos esto?