# Panel Data

Ya hemos visto cómo se predicen diferentes series temporales basadas en un único elemento de estudio, es decir, una serie temporal. Sin embargo, ¿cómo podemos hacer para predecir más de un elemento a la vez, es decir, cómo podemos predecir Panel Data?

Pues la solución pasa por utilizar algoritmos de Machine Learning. Podemos utilizar estos algoritmos para detectar los patrones en base a sus últimos datos, aunque también ayudaría si tenemos datos característicos de cada individuo, de modo que le podamos proveer de más información al modelo.

Cabe destacar, que estos modelos se suelen utilizar para predecir el siguiente punto, no para hacer forecast de varios puntos.

A continuación, te reto a que intentes predecir valores de un panel data, en este caso, deberemos predecir ``quantity``. Para ello:
1. Lee el dataframe de los mercados
2. Modifica el DataFrame para quedarte con los mercados que tengan todos los datos desde enero de 2010 hasta diciembre de 2015


In [1]:
import pandas as pd
import numpy as np

In [2]:
#1
df = pd.read_csv("data/MarketArrivals.csv")
df['date'] = pd.to_datetime(df['date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10227 entries, 0 to 10226
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   market    10227 non-null  object        
 1   month     10227 non-null  object        
 2   year      10227 non-null  int64         
 3   quantity  10227 non-null  int64         
 4   priceMin  10227 non-null  int64         
 5   priceMax  10227 non-null  int64         
 6   priceMod  10227 non-null  int64         
 7   state     10227 non-null  object        
 8   city      10227 non-null  object        
 9   date      10227 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(4)
memory usage: 799.1+ KB


In [3]:
df = df[(df['date'] >= '2010-01-01') & (df['date'] <= '2015-12-01')]
df

Unnamed: 0,market,month,year,quantity,priceMin,priceMax,priceMod,state,city,date
2,ABOHAR(PB),January,2010,790,1283,1592,1460,PB,ABOHAR,2010-01-01
3,ABOHAR(PB),January,2011,245,3067,3750,3433,PB,ABOHAR,2011-01-01
4,ABOHAR(PB),January,2012,1035,523,686,605,PB,ABOHAR,2012-01-01
5,ABOHAR(PB),January,2013,675,1327,1900,1605,PB,ABOHAR,2013-01-01
6,ABOHAR(PB),January,2014,440,1025,1481,1256,PB,ABOHAR,2014-01-01
...,...,...,...,...,...,...,...,...,...,...
10222,YEOLA(MS),December,2011,131326,282,612,526,MS,YEOLA,2011-12-01
10223,YEOLA(MS),December,2012,207066,485,1327,1136,MS,YEOLA,2012-12-01
10224,YEOLA(MS),December,2013,215883,472,1427,1177,MS,YEOLA,2013-12-01
10225,YEOLA(MS),December,2014,201077,446,1654,1456,MS,YEOLA,2014-12-01


In [4]:
reg_mercados = df['market'].value_counts()
reg_mercados

JALGAON(MS)           72
GUWAHATI              72
JAIPUR                72
MALEGAON(MS)          72
DELHI                 72
                      ..
JALGAON(WHITE)         1
MEERUT(UP)             1
CHALLAKERE(KNT)        1
SRIGANGANAGAR(RAJ)     1
NEEMUCH(MP)            1
Name: market, Length: 115, dtype: int64

In [5]:
mercados = list(reg_mercados[reg_mercados==72].index)
mercados

['JALGAON(MS)',
 'GUWAHATI',
 'JAIPUR',
 'MALEGAON(MS)',
 'DELHI',
 'LUCKNOW',
 'LASALGAON(MS)',
 'LONAND(MS)',
 'PUNE(MS)',
 'JAMMU',
 'AGRA(UP)',
 'HUBLI(KNT)',
 'SURAT(GUJ)',
 'DHULIA(MS)',
 'SOLAPUR(MS)',
 'MANMAD(MS)',
 'DEVALA(MS)',
 'AHMEDABAD(GUJ)',
 'MUMBAI',
 'JODHPUR(RAJ)',
 'SHRIRAMPUR(MS)',
 'YEOLA(MS)',
 'PIMPALGAON(MS)',
 'CHENNAI',
 'KOLKATA',
 'BIJAPUR(KNT)',
 'INDORE(MP)',
 'BANGALORE',
 'BELGAUM(KNT)',
 'DHAVANGERE(KNT)']

In [6]:
df = df[df['market'].isin(mercados)].reset_index(drop=True)
df

Unnamed: 0,market,month,year,quantity,priceMin,priceMax,priceMod,state,city,date
0,AGRA(UP),January,2010,45430,1249,1366,1308,UP,AGRA,2010-01-01
1,AGRA(UP),January,2011,27385,2893,3141,3005,UP,AGRA,2011-01-01
2,AGRA(UP),January,2012,59900,661,755,715,UP,AGRA,2012-01-01
3,AGRA(UP),January,2013,64940,1238,1349,1292,UP,AGRA,2013-01-01
4,AGRA(UP),January,2014,143920,1102,1246,1200,UP,AGRA,2014-01-01
...,...,...,...,...,...,...,...,...,...,...
2155,YEOLA(MS),December,2011,131326,282,612,526,MS,YEOLA,2011-12-01
2156,YEOLA(MS),December,2012,207066,485,1327,1136,MS,YEOLA,2012-12-01
2157,YEOLA(MS),December,2013,215883,472,1427,1177,MS,YEOLA,2013-12-01
2158,YEOLA(MS),December,2014,201077,446,1654,1456,MS,YEOLA,2014-12-01


### Función rolling

Antes de proseguir, vamos a ver la función ``rolling`` para hacer ventanas temporales. Esta función cobra especial sentido en estos modelos, pues nos ayudará a darle más contexto al algoritmo para predecir. Básicamente, consiste en llevar una ventana de un tamaño determinado desde diferentes puntos temporales, aplicando filtros particulares para cada una.

Veamos cómo funciona para calcular el precio máximo de los 6 meses anteriores, y del precio mínimo los 3 meses anteriores:

In [7]:
# Ordenamos los datos en base al mercado y a la fecha:
df2 = df.copy()
df2 = df2.sort_values(by=['market', 'date'], ascending=True)
df2 = df2.reset_index(drop=True)
df2.tail()

Unnamed: 0,market,month,year,quantity,priceMin,priceMax,priceMod,state,city,date
2155,YEOLA(MS),August,2015,55819,1565,4841,4184,MS,YEOLA,2015-08-01
2156,YEOLA(MS),September,2015,25374,1606,4621,4044,MS,YEOLA,2015-09-01
2157,YEOLA(MS),October,2015,15593,1046,3537,2886,MS,YEOLA,2015-10-01
2158,YEOLA(MS),November,2015,62522,1003,2460,1996,MS,YEOLA,2015-11-01
2159,YEOLA(MS),December,2015,223315,609,1446,1126,MS,YEOLA,2015-12-01


In [8]:
df2.groupby("market")['priceMax'].rolling(6).max().reset_index(drop=True)

0          NaN
1          NaN
2          NaN
3          NaN
4          NaN
         ...  
2155    4841.0
2156    4841.0
2157    4841.0
2158    4841.0
2159    4841.0
Name: priceMax, Length: 2160, dtype: float64

In [9]:
# Precio máximo para 6 meses:
df2_pricemax_6 = df2.groupby("market")['priceMax'].rolling(6).max().reset_index()
df2_pricemax_6 = df2_pricemax_6.drop(['level_1', 'market'], axis=1)
df2_pricemax_6 = df2_pricemax_6.rename({'priceMax': 'price_max_6'}, axis=1)
df2_pricemax_6.head(10)

Unnamed: 0,price_max_6
0,
1,
2,
3,
4,
5,1366.0
6,1321.0
7,1254.0
8,1272.0
9,1492.0


In [10]:
# Precio mínimo para 3 meses:
df2_pricemin_3 = df2.groupby("market")['priceMin'].rolling(3).min().reset_index()
df2_pricemin_3 = df2_pricemin_3.drop(['level_1', 'market'], axis=1)
df2_pricemin_3 = df2_pricemin_3.rename({'priceMin': 'price_min_3'}, axis=1)
df2_pricemin_3.head(5)

Unnamed: 0,price_min_3
0,
1,
2,1163.0
3,714.0
4,568.0


In [11]:
# Juntamos todos los df auxiliares que nos hemos creado:
df_aux = df2_pricemax_6.join(df2_pricemin_3)
df_aux

Unnamed: 0,price_max_6,price_min_3
0,,
1,,
2,,1163.0
3,,714.0
4,,568.0
...,...,...
2155,4841.0,486.0
2156,4841.0,857.0
2157,4841.0,1046.0
2158,4841.0,1003.0


In [12]:
# Tras crear nuestro df auxiliar, lo unimos a los datos originales y eliminamos aquellos con nulos:
df_new = df2.join(df_aux).dropna()
df_new = df_new.reset_index(drop=True)
df_new

Unnamed: 0,market,month,year,quantity,priceMin,priceMax,priceMod,state,city,date,price_max_6,price_min_3
0,AGRA(UP),June,2010,86710,626,714,680,UP,AGRA,2010-06-01,1366.0,568.0
1,AGRA(UP),July,2010,72110,772,888,846,UP,AGRA,2010-07-01,1321.0,568.0
2,AGRA(UP),August,2010,67390,818,942,891,UP,AGRA,2010-08-01,1254.0,626.0
3,AGRA(UP),September,2010,43055,1147,1272,1213,UP,AGRA,2010-09-01,1272.0,772.0
4,AGRA(UP),October,2010,38920,1327,1492,1411,UP,AGRA,2010-10-01,1492.0,818.0
...,...,...,...,...,...,...,...,...,...,...,...,...
2005,YEOLA(MS),August,2015,55819,1565,4841,4184,MS,YEOLA,2015-08-01,4841.0,486.0
2006,YEOLA(MS),September,2015,25374,1606,4621,4044,MS,YEOLA,2015-09-01,4841.0,857.0
2007,YEOLA(MS),October,2015,15593,1046,3537,2886,MS,YEOLA,2015-10-01,4841.0,1046.0
2008,YEOLA(MS),November,2015,62522,1003,2460,1996,MS,YEOLA,2015-11-01,4841.0,1003.0


In [20]:
# Nos quedaríamos con las columnas que utilizaremos para predecir en nuestro dataset:
df2_end = df_new[['market', 'city', 'quantity', 'year', 'month', 'price_max_6', 'price_min_3', 'date']]
df2_end

Unnamed: 0,market,city,quantity,year,month,price_max_6,price_min_3,date
0,AGRA(UP),AGRA,86710,2010,June,1366.0,568.0,2010-06-01
1,AGRA(UP),AGRA,72110,2010,July,1321.0,568.0,2010-07-01
2,AGRA(UP),AGRA,67390,2010,August,1254.0,626.0,2010-08-01
3,AGRA(UP),AGRA,43055,2010,September,1272.0,772.0,2010-09-01
4,AGRA(UP),AGRA,38920,2010,October,1492.0,818.0,2010-10-01
...,...,...,...,...,...,...,...,...
2005,YEOLA(MS),YEOLA,55819,2015,August,4841.0,486.0,2015-08-01
2006,YEOLA(MS),YEOLA,25374,2015,September,4841.0,857.0,2015-09-01
2007,YEOLA(MS),YEOLA,15593,2015,October,4841.0,1046.0,2015-10-01
2008,YEOLA(MS),YEOLA,62522,2015,November,4841.0,1003.0,2015-11-01


Ahora que ya conoces cómo utilizar esta función, aprovéchala para realizar los siguientes apartados:

Hemos reducido el DataFrame a los mercados que nos interesan, ahora nos queda adaptar los datos para predecir:
1. Construye un DataFrame con los diferentes lags para cada mercado. En algunos casos, cuando trabajamos con Panel Data, además de poner lags, se suelen poner agrupaciones de otras variables en base a diferentes ventanas temporales hacia atrás → función ``rolling`` de Pandas. Calcula el máximo del precio máximo de los últimos 3, 6 y 12 meses, así como la media de ``quantity`` en esas mismas ventanas temporales
2. Separa en train y test, basándote en el eje temporal, dejando el último mes para test
3. Prueba diferentes modelos de Machine Learning replicando la metodología vista para una serie temporal, pero con diferentes individuos, representando gráficamente los mejores resultados
  * Si utilizas un GridSearchCV, separa los CV en base a ``TimeSeriesSplit`` (de ``sklearn.model_selection``)

In [47]:
df2_end.pivot_table(index='date', columns='market', values='quantity').corr().apply(lambda x: max(x[x<1])).sort_values()

market
JAIPUR             0.328332
SHRIRAMPUR(MS)     0.328332
DHAVANGERE(KNT)    0.369849
CHENNAI            0.397117
KOLKATA            0.482657
BIJAPUR(KNT)       0.494894
GUWAHATI           0.511338
JODHPUR(RAJ)       0.518598
AGRA(UP)           0.532004
AHMEDABAD(GUJ)     0.534797
DEVALA(MS)         0.549828
JAMMU              0.556457
DELHI              0.565562
SURAT(GUJ)         0.565562
DHULIA(MS)         0.565932
INDORE(MP)         0.565932
MALEGAON(MS)       0.588046
PIMPALGAON(MS)     0.600410
MUMBAI             0.601578
BELGAUM(KNT)       0.615592
SOLAPUR(MS)        0.640219
JALGAON(MS)        0.640219
LUCKNOW            0.650609
LONAND(MS)         0.743620
PUNE(MS)           0.743620
HUBLI(KNT)         0.760935
BANGALORE          0.760935
LASALGAON(MS)      0.797625
MANMAD(MS)         0.820453
YEOLA(MS)          0.820453
dtype: float64

In [31]:
df_new.groupby(['state'])['market'].apply(lambda x: np.unique(x))

state
ASM                                           [GUWAHATI]
DEL                                              [DELHI]
GUJ                         [AHMEDABAD(GUJ), SURAT(GUJ)]
JK                                               [JAMMU]
KNT    [BANGALORE, BELGAUM(KNT), BIJAPUR(KNT), DHAVAN...
MP                                          [INDORE(MP)]
MS     [DEVALA(MS), DHULIA(MS), JALGAON(MS), LASALGAO...
RAJ                               [JAIPUR, JODHPUR(RAJ)]
TN                                             [CHENNAI]
UP                                   [AGRA(UP), LUCKNOW]
WB                                             [KOLKATA]
Name: market, dtype: object