## La previsión de la demanda.
La previsión de la demanda es la técnica que consiste en estimar la demanda futura de los consumidores durante un determinado periodo de tiempo utilizando datos e información históricos.

El cliente nos proporciona un libro de excel con determinado numero de hojas donde se encuentra la actividad de la empresa en los ultimos 5 años. Nos solicita la previsión de la demanda de una semana futura.

In [18]:
#importamos pandas despues de instalarlo con !pip install pandas
#guardamos el excel e una variable juntando toda la información junta.

import pandas as pd
df = pd.concat(pd.read_excel('Peski.xlsx', sheet_name = None ), ignore_index = True )

In [24]:
df

Unnamed: 0,Manifest Date,From StationCode,To StationCode,Connote #
0,2018-01-01 06:25:11,GB7103,ES0960,710310154455
1,2018-01-01 09:55:09,GB7103,ES0960,710310153744
2,2018-01-01 10:40:06,GB7103,ES0960,710310154820
3,2018-01-01 10:40:09,GB7103,ES0960,710310154831
4,2018-01-01 10:55:10,GB7103,ES0960,710310154864
...,...,...,...,...
404724,2022-10-31 12:25:25,GB7103,ES0960,710314529901
404725,2022-10-31 12:26:02,SKYRTN,ES0960,720134964975
404726,2022-10-31 12:40:39,SKYRTN,ES0960,720134965222
404727,2022-10-31 12:41:25,GB7103,ES0960,710314529912


## Tratamos los datos.
Es el momento de pedir información a nuestro DataFrame y filtrar lo que necesitamos. Los graficos es una buena manera de visualizar estos datos.

In [25]:
# vemos una columna datetime 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 404729 entries, 0 to 404728
Data columns (total 4 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   Manifest Date     404729 non-null  datetime64[ns]
 1   From StationCode  404729 non-null  object        
 2   To StationCode    404729 non-null  object        
 3   Connote #         404729 non-null  object        
dtypes: datetime64[ns](1), object(3)
memory usage: 12.4+ MB


Podemos observar 404728 filas y 4 columnas. 

In [21]:
# vemos dos estaciones de destino, una con el doble de trabajo.
df['To StationCode'].value_counts()

ES0160    275742
ES0960    128987
Name: To StationCode, dtype: int64

In [26]:
# agregamos dos columnas mas a nuestro DataFame con la fecha y la horas separadas
df['new_date'] = [d.date() for d in df['Manifest Date']]
df['new_time'] = [d.time() for d in df['Manifest Date']]
df

Unnamed: 0,Manifest Date,From StationCode,To StationCode,Connote #,new_date,new_time
0,2018-01-01 06:25:11,GB7103,ES0960,710310154455,2018-01-01,06:25:11
1,2018-01-01 09:55:09,GB7103,ES0960,710310153744,2018-01-01,09:55:09
2,2018-01-01 10:40:06,GB7103,ES0960,710310154820,2018-01-01,10:40:06
3,2018-01-01 10:40:09,GB7103,ES0960,710310154831,2018-01-01,10:40:09
4,2018-01-01 10:55:10,GB7103,ES0960,710310154864,2018-01-01,10:55:10
...,...,...,...,...,...,...
404724,2022-10-31 12:25:25,GB7103,ES0960,710314529901,2022-10-31,12:25:25
404725,2022-10-31 12:26:02,SKYRTN,ES0960,720134964975,2022-10-31,12:26:02
404726,2022-10-31 12:40:39,SKYRTN,ES0960,720134965222,2022-10-31,12:40:39
404727,2022-10-31 12:41:25,GB7103,ES0960,710314529912,2022-10-31,12:41:25


In [28]:
# separamos los datos de las dos estaciones para trabajar por separado.
es0160 = df["To StationCode"] ==  'ES0160'
df_160 = df[es0160]
df_160

Unnamed: 0,Manifest Date,From StationCode,To StationCode,Connote #,new_date,new_time
15861,2018-04-09 20:00:00,GB0064,ES0160,56466208400,2018-04-09,20:00:00
16041,2018-04-10 20:00:00,GB0064,ES0160,6486915536,2018-04-10,20:00:00
16078,2018-04-11 16:00:00,GB0064,ES0160,56466335402,2018-04-11,16:00:00
16079,2018-04-11 16:00:00,GB0064,ES0160,56466334385,2018-04-11,16:00:00
16080,2018-04-11 16:00:00,GB0064,ES0160,56466328085,2018-04-11,16:00:00
...,...,...,...,...,...,...
404645,2022-10-28 23:00:00,IT0073,ES0160,007391116430,2022-10-28,23:00:00
404646,2022-10-28 23:00:00,IT0073,ES0160,007391116513,2022-10-28,23:00:00
404692,2022-10-30 15:00:00,GB0064,ES0160,006454273814,2022-10-30,15:00:00
404709,2022-10-31 09:51:39,BG0129,ES0160,012990024512,2022-10-31,09:51:39


In [29]:
es0960 = df["To StationCode"] ==  'ES0960'
df_960 = df[es0960]
df_960

Unnamed: 0,Manifest Date,From StationCode,To StationCode,Connote #,new_date,new_time
0,2018-01-01 06:25:11,GB7103,ES0960,710310154455,2018-01-01,06:25:11
1,2018-01-01 09:55:09,GB7103,ES0960,710310153744,2018-01-01,09:55:09
2,2018-01-01 10:40:06,GB7103,ES0960,710310154820,2018-01-01,10:40:06
3,2018-01-01 10:40:09,GB7103,ES0960,710310154831,2018-01-01,10:40:09
4,2018-01-01 10:55:10,GB7103,ES0960,710310154864,2018-01-01,10:55:10
...,...,...,...,...,...,...
404724,2022-10-31 12:25:25,GB7103,ES0960,710314529901,2022-10-31,12:25:25
404725,2022-10-31 12:26:02,SKYRTN,ES0960,720134964975,2022-10-31,12:26:02
404726,2022-10-31 12:40:39,SKYRTN,ES0960,720134965222,2022-10-31,12:40:39
404727,2022-10-31 12:41:25,GB7103,ES0960,710314529912,2022-10-31,12:41:25


In [33]:
print(len(df['new_date'].value_counts()))
print(len(df_160['new_date'].value_counts()))
print(len(df_960['new_date'].value_counts()))

1765
1332
1764


## Conclusiones iniciales
El nodo 160 se abrio mas tarde que el 960 pero le supero en volumen de trabajo llegando a doblar su actividad.
Ahora tenemos 3 DataFrames. El primero con la actividad total, y otros dos divididos por estaciones de destino. Los tres tienen columnas añadidas, data y time.