# Desafío Spike
## Francisca Palacios

### 1. Costos marginales

In [1]:
import pandas as pd
import numpy as np

#### Importamos los archivos:

In [115]:
costo_marginal_real = 'Data/costo_marginal_real.csv'
costo_marginal_real_df = pd.read_csv(costo_marginal_real)

costo_marginal_real_df = costo_marginal_real_df.sample(frac=0.01)
costo_marginal_real_df.head()

Unnamed: 0,barra_mnemotecnico,barra_referencia_mnemotecnico,fecha,hora,costo_en_dolares,costo_en_pesos,nombre
3950455,BA07R002SE040R002,BA02T002SE032T002,2019-01-23,22,98.49,66.22665,BA S/E SAN BERNARDO 12KV BA1
1849557,BA02T005SE084T005,BA02T002SE032T002,2019-03-18,11,67.47,45.24673,BA S/E PADRE LAS CASAS 66KV BT1
3647873,BA03R019SE003R019,BA02T002SE032T002,2019-03-21,21,80.62,53.59456,BA S/E CABRERO 13.2KV
3601094,BA01R019SE010R019,BA02T002SE032T002,2019-02-02,21,70.35,46.27693,BA S/E LOS SAUCES 66KV
4206553,BA01G306SE001G306,BA02T002SE032T002,2019-04-10,24,47.08,31.21451,BA S/E CERRO DOMINADOR 220KV BP


In [116]:
costo_marginal_programado = 'Data/costo_marginal_programado.csv'
costo_marginal_programado_df = pd.read_csv(costo_marginal_programado)

costo_marginal_programado_df = costo_marginal_programado_df.sample(frac=0.01)
costo_marginal_programado_df.head()

Unnamed: 0,mnemotecnico_barra,nombre_barra,fecha,hora,costo
759439,BA97G216SE106G216,BA S/E MEJILLONES 220KV,2019-05-15,13,44.900813
199248,BA03T002SE014T002,BA S/E DIEGO DE ALMAGRO 220KV SECCIÓN 1,2019-02-05,1,79.673594
717870,BA84L120SE050L120,BA S/E CHIMBORAZO 220KV BP,2019-05-08,12,50.051775
303943,BA01T001SE001T001,BA S/E SAN LUIS 220KV BP1,2019-02-23,8,50.416542
515241,BA31L120SE065L120,BA S/E DOMEYKO 220KV - BP1,2019-04-02,10,50.414403


#### Merge de los archivos a nivel de barra:

In [117]:
# Cambiamos primero el nombre de la columna de join para que sea igual en ambos archivos.
costo_marginal_programado_df.rename(columns={'mnemotecnico_barra': 'barra_mnemotecnico'}, inplace=True)

In [118]:
costo_marginal = pd.merge(costo_marginal_real_df, costo_marginal_programado_df, on='barra_mnemotecnico', how='inner')

#### Ahora hacemos un análisis exploratorio de la base resultante:

In [119]:
# Intersección
costo_marginal['barra_mnemotecnico'].value_counts()

BA01T002SE036T002    3774
BA01T002SE057T002    3300
BA02T003SE004T003    3053
BA35G010SE010G010    3016
BA01T002SE038T002    2970
                     ... 
BA36T027SE067G216     777
BA01T038SE001G130     770
BA01T005SE284T005     748
BA01G004SE035G004     735
BA38T005SE282T005     546
Name: barra_mnemotecnico, Length: 220, dtype: int64

In [120]:
# Unión
pd.merge(costo_marginal_real_df, costo_marginal_programado_df, on='barra_mnemotecnico', how='outer')['barra_mnemotecnico'].value_counts()

BA01T002SE036T002    3774
BA01T002SE057T002    3300
BA02T003SE004T003    3053
BA35G010SE010G010    3016
BA01T002SE038T002    2970
                     ... 
BA42G216SE187G216      10
BA87T005SE275T005       7
BA01G460SE002G460       7
BA56T005SE276T005       7
BA65T005SE277T005       7
Name: barra_mnemotecnico, Length: 1039, dtype: int64

Con esto vemos que el costo se programa para 220 barras (intersección), del total de 1039 barras (unión). Es decir, el costo se programa usando un 21.17% de los valores únicos de barra.

** Como estamos usando un subconjunto aleatorio de las bases de datos, estos valores pueden cambiar.

### 2. Construcción de variables

In [121]:
costo_marginal['desviación'] = costo_marginal['costo_en_dolares'] - costo_marginal['costo']

In [122]:
costo_marginal['desviación_pct'] = (costo_marginal['costo_en_dolares'] - costo_marginal['costo'])*100/costo_marginal['costo_en_dolares']

In [123]:
costo_marginal['desviacion_cat'] = 0
costo_marginal.loc[(abs(costo_marginal['desviación_pct']) > 15), 'desviacion_cat'] = 1

In [212]:
costo_marginal.head()

Unnamed: 0,barra_mnemotecnico,barra_referencia_mnemotecnico,fecha_x,hora_x,costo_en_dolares,costo_en_pesos,nombre,nombre_barra,fecha_y,hora_y,costo,desviación,desviación_pct,desviacion_cat
0,BA01G306SE001G306,BA02T002SE032T002,2019-04-10,24,47.08,31.21451,BA S/E CERRO DOMINADOR 220KV BP,BA S/E CERRO DOMINADOR 220KV BP,2019-01-15,2,79.498894,-32.418894,-68.859164,1
1,BA01G306SE001G306,BA02T002SE032T002,2019-04-10,24,47.08,31.21451,BA S/E CERRO DOMINADOR 220KV BP,BA S/E CERRO DOMINADOR 220KV BP,2019-04-24,13,64.563588,-17.483588,-37.135913,1
2,BA01G306SE001G306,BA02T002SE032T002,2019-04-10,24,47.08,31.21451,BA S/E CERRO DOMINADOR 220KV BP,BA S/E CERRO DOMINADOR 220KV BP,2019-01-27,7,52.560398,-5.480398,-11.640607,0
3,BA01G306SE001G306,BA02T002SE032T002,2019-04-10,24,47.08,31.21451,BA S/E CERRO DOMINADOR 220KV BP,BA S/E CERRO DOMINADOR 220KV BP,2019-04-24,17,42.847442,4.232558,8.99014,0
4,BA01G306SE001G306,BA02T002SE032T002,2019-04-10,24,47.08,31.21451,BA S/E CERRO DOMINADOR 220KV BP,BA S/E CERRO DOMINADOR 220KV BP,2019-01-03,21,61.213021,-14.133021,-30.019161,1


In [213]:
costo_marginal.fecha_x = pd.to_datetime(costo_marginal.fecha_x, format='%Y-%m-%d')
costo_marginal.fecha_y = pd.to_datetime(costo_marginal.fecha_y, format='%Y-%m-%d')

In [215]:
one_df=costo_marginal[costo_marginal['desviacion_cat']==1]
cero_df=costo_marginal[costo_marginal['desviacion_cat']==0]

In [223]:
x = one_df['desviacion_cat'].groupby([one_df['fecha_x'].dt.year, one_df['fecha_x'].dt.month]).count()
y = cero_df['desviacion_cat'].groupby([cero_df['fecha_x'].dt.year, cero_df['fecha_x'].dt.month]).count()
print(x,y)

fecha_x  fecha_x
2019     1          37088
         2          35025
         3          38516
         4          36825
         5          40720
         6          35176
Name: desviacion_cat, dtype: int64 fecha_x  fecha_x
2019     1          31967
         2          27152
         3          29638
         4          24175
         5          24909
         6          30811
Name: desviacion_cat, dtype: int64


In [227]:
x-y

fecha_x  fecha_x
2019     1           5121
         2           7873
         3           8878
         4          12650
         5          15811
         6           4365
Name: desviacion_cat, dtype: int64

Con esto notamos que la diferencia porcentual entre el costo real y el costo programado aumenta entre abril y mayo.

### 3. Visualización de datos