# Mentoría
## Análisis y predicción de distribución troncal de energía

### Introducción

##### Análisis y Visualización
En la siguiente notebook, realizaremos la carga del dataset que utilizarán para el práctico de la materia. Para ello, comenzaremos con las importaciones pertinentes.
Posteriormente, se detallarán las consignas a seguir para la elaboración del informe.


In [4]:
# Importación de las librerías necesarias
import numpy as np
import pandas as pd
import matplotlib as mpl
mpl.get_cachedir()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import datetime as dt
import warnings

In [5]:
pd.set_option('display.max_columns', 150)
pd.set_option('display.max_rows', 150)
pd.set_option('max_colwidth', 151)
warnings.filterwarnings('ignore')

## Revisión general de los datos

In [10]:
#Parsing auxiliar
dateparse = lambda x: dt.datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

In [38]:
# _ds_energía
_ds_energia = pd.read_csv('https://raw.githubusercontent.com/alaain04/diplodatos/master/data/distribucion.csv',
                          dtype={'Amper fase T-A': float},
                          parse_dates=['Fecha'],
                          date_parser=dateparse,
                          float_precision='round_trip')

### DS Energía

In [40]:
_ds_energia.head(5)

Unnamed: 0,Fecha,Amper fase T-A,Amper fase S-A,Amper fase R-A,Vab,Vca,Vbc,Kwatts 3 fases,Factor de Poten-A
0,2019-12-03 20:45:00,11.0,11.0,12.0,2147483.65,42.16,40.94,-2147484000.0,0.0
1,2019-12-03 20:45:00,11.0,11.0,12.0,2147483.65,42.16,40.94,-2147484000.0,0.0
2,2019-12-03 20:45:00,11.0,11.0,12.0,2147483.65,42.16,40.94,-2147484000.0,0.0
3,2019-12-03 20:45:00,11.0,11.0,12.0,2147483.65,42.16,40.94,-2147484000.0,0.0
4,2019-12-03 20:45:00,11.0,11.0,12.0,2147483.65,42.16,40.94,-2147484000.0,0.0


In [28]:
data_types = _ds_energia.dtypes
data_types = pd.DataFrame(data_types)
data_types = data_types.rename(columns = {0:'ReadingDataType'})
data_types.index.names = ['FieldName']
data_types

Unnamed: 0_level_0,ReadingDataType
FieldName,Unnamed: 1_level_1
Fecha,datetime64[ns]
Amper fase T-A,float64
Amper fase S-A,float64
Amper fase R-A,float64
Vab,float64
Vca,float64
Vbc,float64
Kwatts 3 fases,float64
Factor de Poten-A,float64


In [43]:
# Descripción
_ds_energia.describe(include = 'all')

Unnamed: 0,Fecha,Amper fase T-A,Amper fase S-A,Amper fase R-A,Vab,Vca,Vbc,Kwatts 3 fases,Factor de Poten-A
count,83518,83518.0,83517.0,83500.0,74523.0,74523.0,74523.0,82654.0,83408.0
unique,27434,,,,,,,,
top,2019-12-26 10:20:00,,,,,,,,
freq,8,,,,,,,,
first,2019-12-03 20:45:00,,,,,,,,
last,2020-05-07 11:10:00,,,,,,,,
mean,,6.549163,6.595879,6.823796,351360.3,352975.2,353435.4,-317185200.0,-0.339098
std,,7.545152,7.569962,7.749175,794373.0,795837.0,796254.8,761936200.0,0.779093
min,,0.0,0.0,0.0,0.0,0.0,0.0,-2147484000.0,-0.98
25%,,0.0,0.0,0.0,35.27,36.35,35.57,-5272.0,-0.93


#### Aclaraciones
* Features
    * **Fecha**: Dia/hora de la medición.
    * **Amper fase T-A, Amper fase S-A, Amper fase R-A**: Corrientes en cada una de las fases.
    * **Vab, Vca, Vbc**: Tensión relativa entre las fases.
    * **Kwatts 3 fases**: Potencia total.
    * **Factor de Potencia**: Constante.
    
* Términos
    * Corriente = intensidad [Amperes] 
    * Voltaje = tensión [Volts]
    * Potencia total [Kw]
    * Factor de potencia = Φ
    * Corriente total = Promedio de corrientes entre fases.
    * Tensión total = Promedio de tensiones entre fases.
    

### DS Energía

In [42]:
# _ds_clima
_ds_clima = pd.read_csv('https://github.com/alaain04/diplodatos/raw/master/data/clima.csv',
                        parse_dates=['time'],
                        date_parser=dateparse)

In [34]:
_ds_clima.head(5)

Unnamed: 0,time,temperature,dewpoint,humidity,precipitation,precipitation_3,precipitation_6,snowdepth,windspeed,peakgust,winddirection,pressure,condition
0,2019-11-01 00:00:00,20.1,18.0,88,,,,,6.1,,125.0,1014.3,
1,2019-11-01 01:00:00,19.5,17.8,90,,,,,5.4,,106.0,1014.9,
2,2019-11-01 02:00:00,19.2,17.7,91,,,,,4.3,,83.0,1015.6,
3,2019-11-01 03:00:00,18.7,17.7,94,,,,,4.3,,87.0,1015.7,
4,2019-11-01 04:00:00,18.0,17.0,94,,,,,6.1,,91.0,1016.2,


In [35]:
data_types = _ds_clima.dtypes
data_types = pd.DataFrame(data_types)
data_types = pd.DataFrame(data_types)
data_types = data_types.rename(columns = {0:'ReadingDataType'})
data_types.index.names = ['FieldName']
data_types

Unnamed: 0_level_0,ReadingDataType
FieldName,Unnamed: 1_level_1
time,datetime64[ns]
temperature,float64
dewpoint,float64
humidity,int64
precipitation,float64
precipitation_3,float64
precipitation_6,float64
snowdepth,float64
windspeed,float64
peakgust,float64


In [44]:
_ds_clima.describe(include = 'all')

Unnamed: 0,time,temperature,dewpoint,humidity,precipitation,precipitation_3,precipitation_6,snowdepth,windspeed,peakgust,winddirection,pressure,condition
count,3001,3001.0,3001.0,3001.0,0.0,0.0,0.0,0.0,2999.0,0.0,2999.0,3001.0,0.0
unique,3001,,,,,,,,,,,,
top,2020-01-30 12:00:00,,,,,,,,,,,,
freq,1,,,,,,,,,,,,
first,2019-11-01 00:00:00,,,,,,,,,,,,
last,2020-05-13 21:00:00,,,,,,,,,,,,
mean,,23.018294,15.841353,67.565811,,,,,6.595599,,144.830944,1012.926891,
std,,5.485819,4.508826,19.787111,,,,,3.795323,,88.453037,4.166595,
min,,4.7,1.1,18.0,,,,,0.4,,1.0,1001.1,
25%,,19.7,12.6,53.0,,,,,3.6,,87.0,1010.2,


#### Aclaraciones
* API: https://api.meteostat.net
* Features
    * **time**: Día/hora de la medición. 
    * **temperature**: Temperatura [Celcius]
    * **dewpoint**: Punto de rocío [mm]
    * **humedity**: Humedad.
    * **precipitation, precipitation_3, precipitation_6**: Precipitación [mm]
    * **snowdepth**: Nieve caida [mm]
    * **winddirection**: Dirección del viento [Grados]
    * **pressure**: Presión atmosférica [mmHg]
    * **condition**: Condición [string]


###### Extra Tip
Pandas permite indexar el dataframe con el tipo PeriodIndex, el cual podemos utilizarlos para agrupar registros según la frecuancia definida (en este ejemplo 30 minutos).

```_data.index = pd.PeriodIndex(list(_data['Fecha']), freq='T')
_pt_period_mean = _data['Kwatts 3 fases'].resample('30T').mean()```

## Análisis y Visualización - Consigna

### General
Se propone la elaboración de un informe que deberá entregarse en formato html, pdf o markdown y deberá apuntar a un público técnico, pero sin conocimientos específicos en el tema. Añadir gráficos y conclusiones obtenidas durante el desarrollo del práctico.

### Análisis descriptivo
- Entender qué tipos de features poseen los dataset, cómo se relacionan entre ellos.
- Identificar features objetivo. 

### Análisis estadístico
- Ordenar temporalmente los dataset.
- Seleccionar al menos 3 features relevantes para el problema. Utilizar los gráficos y cálculos que le parezcan más apropiados para llegar a las conclusiones.

    - ¿Existen outliers para estos features?
    - ¿Hay valores faltantes?
    - ¿Hay valores negativos?
    - ¿Que decisión tomarían para completar o eliminar estos outliers y faltantes?
    - ¿Cómo es la distribución de las variables en el dataset?
    - ¿Se observa alguna estacionalidad?

- ¿Existe correlación entre las variables?
- ¿Que variables se correlacionan más con la potencia distribuida?

- Calidad del servicio: 
    - Frecuencia de corte del suministro. 
    - Duración de los cortes.
    - Franjas temporales con mayores cortes.
- Causas de corte de servicio:
    - Analizar que sucede con los demás features al momento de una corte.
    - Se observa alguna relación con la temperatura y velocidad/dirección del viento en estos períodos?
     
- Analizar el comportamiento de la distribución semalmente, es comparable mes a mes? La distribución de potencia, ¿se asemeja a alguna conocida?


### Preguntas adicionales
- ¿Cómo se comporta la distribución de energía ? ¿Qué relaciones observamos con los usos y costumbres del lugar? ¿Y con las condiciones atmosféricas?
- ¿Por qué se generan cortes en la distribución? ¿Se observa algún comportamiento anterior que nos anticipen estas caídas? 
- ¿Existen factores estacionales que influyen en las cargas de distribución? ¿Hubo algún cambio del comportamiento de consumo debido a la pandemia o en fechas festivas(navidad, año nuevo, etc)?
- ¿Qué información podemos incorporar a la planificación de mantenimientos de la línea?
