# **Mentoría**
## **Análisis y predicción de distribución troncal de energía**


- Gabriel Moyano
- Leonardo Rebola
- Pablo Leiva


### **Introducción**

En la siguiente notebook, se presentará la consigna a seguir para el segundo práctico de la materia Exploración y Curación de datos. El objetivo consiste en identificar e implementar los pasos necesarios para la limpieza y unificación de los datasets de Energía y Clima, así como también analizar cruces de datos con mayor profundidad y validando el sentido lógico. Para ello, comenzaremos con las importaciones pertinentes.



## Consigna para Curación y Exploración del Dataset
### I. Rutina de Curación

Inicialmente, con el objetivo de preparar los datos que alimentarán futuros modelos de aprendizaje automático (ML), se propone seguir la siguiente [checklist](https://dimewiki.worldbank.org/wiki/Checklist:_Data_Cleaning) para la limpieza de los datos de nuestro proyecto. Esta checklist es la misma que utilizaron en el primer práctico de la materia y nos será de utilidad como guía para curar el dataset. A modo de ayuda, en esta notebook encontrarán una especie de template que sigue la checklist y que deberán ir completando.

Cada decisión tomada deberá quedar registrada de manera explícita y clara. Luego de pasar por todos los puntos de la checklist propuesta, deberán almacenar en un nuevo archivo los datos resultantes. 

A los fines de realizar este práctico, se utilizarán los dataset original, pero descartando todas aquellas columnas que se hayan calculado en base a features preexistentes, ya que éstas están relacionadas a decisiones que adoptaremos más adelante, como por ejemplo, sobre si es necesario crear nuevas features y si incluirlas o no. Recuerden que la ciencia de datos es un proceso circular, continuo y no lineal. Es decir, si los datos requieren de mayor procesamiento para satisfacer las necesidades de algoritmos de ML (cualesquiera de ellos), vamos a volver a la etapa inicial para, por ejemplo, crear nuevas features, tomar decisiones diferentes sobre valores faltantes o valores atípicos (outliers), descartar features, entre otras.

### II. Análisis en Profundidad del Contenido

Una vez aplicada la Checklist, lo que vamos a hacer es profundizar aún más el análisis y tomar decisiones que se consideren pertinentes, si es que no lo han hecho aún en el desarrollo del primer apartado. Por supuesto, se deberán registrar todas las decisiones que tomen al respecto.

Al finalizar con el práctico, las preguntas listadas a continuación deberán quedar respondidas, mientras que si ya lo hicieron durante el desarrollo de la ´checklist´, el objetivo es que se replanteen las decisiones tomadas al respecto:

1. La potencia total de las 3 fases esta dada por una fórmula en la que participan la tensión y corriente media de las fases. 

  1.a. Comparar los campos de tensiones. ¿Poseen la misma información? ¿Qué deberíamos hacer al respecto? 

  1.b. Comparar los campos de corrientes. ¿Poseen la misma información? ¿Qué deberíamos hacer al respecto? 
  
2.   Si la medición de potencia está invertida(negativa) el factor de potencia debería serlo también. Validar que esto ocurra en todos los casos. ¿Qué hacer en los que no?

3.   ¿Existe algun feture que pueda ser negativo? Reemplazar los negativos por su valor absoluto.

4.   ¿Existen valores faltantes? Definir e implementar estrategia para completarlos o descartarlos.

5.   Los datasets poseen diferentes frecuencia de medición. Definir una misma frecuencia y generar un único set de datos.


Esta lista es extensa e intenta abarcar todas las posibles irregularidades en los datos, pero puede no ser exhaustiva. Cualquier análisis adicional de consistencia que deseen agregar porque lo consideran pertinente, será bienvenido y valorado.


### Entregables

El entregable de este práctico consiste en esta misma Notebook, pero con la checklist realizada y el análisis de contenido completo, explicando las decisiones tomadas en cada etapa. Además, deberán generar un script (.py) que contenga una función para curar nuevos datos con la misma estructura. Finalmente, deberán actualizar la metadata.


# Resolución
## I. Rutina de Curación
### 1. Importación de Datos

**1.1. Verificación de inexistencia en problemas en la importación de los datasets**

**1.2. Asegurar la existencia de IDs o claves únicas**

El siguiente paso implica chequear que no existen datos duplicados y que las claves, si existen, son únicas.

**1.3. Despersonalizar datos y guardarlos en un nuevo archivo**

Aplica?

**1.4. Nunca modificar los dDatos crudos u originales**

Al finalizar la limpieza, deberán guardar el dataset resultante, para asegurarse de no modificar los datos originales.


### 2. Pasos de Limpieza Necesarios
**2.1. Etiquetas de variables y problemas de codificación/encoding**

Verificar que las etiquetas y valores de features no posean problemas de codificación. 

**2.2. Tratamiento de valores faltantes**

Para analizar los valores faltantes, primero deberán saber cuántos existen por campo y cuánto representan del total. 

Detallar estrategias para completar los features faltantes o eliminar el registro completo.

**2.3. Codificación de variables categóricas**

Aplica?

**2.4. No cambiar los nombres de las variables de la fuente de origen**


**2.5. Verificación de consistencia de datos**

Este es el paso más analítico, en donde se deben aplicar reglas de integridad.


**2.6. Identificar y documentar valores atípicos/outliers**

Calcular estadísticos. 

Detallar estrategias para completar los features con outliers o eliminar el registro completo.


**2.7. Evaluar cómo comprimir los datos para su almacenamiento más eficiente**

**2.8. Guardar el set de datos con un nombre informativo**


### 3. Pasos de Limpieza Deseables
**3.1. Ordenar variables/columnas**


**3.2. Quitar variables/columnas irrelevantes**

Existen features irrelevantes, que no aportan información?

**3.3. Agregar metadata a los datos**

Cuando y como fueron obtenidos, limpieza realizada, decisiones implementadas, asunciones, etc.



---

# Resolución
## I. Rutina de Curación
### 1. Importación de Datos
**1.1. Verificación de Inexistencia de Problemas en la Importación**

Para comenzar, importamos los datos que vamos a procesar:


In [1]:
# Importación de las librerías necesarias
import numpy as np
import pandas as pd
# Puede que nos sirvan también
import matplotlib as mpl
mpl.get_cachedir()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import datetime as dt
from datetime import datetime
import os
import warnings
from zipfile import ZipFile

  import pandas.util.testing as tm


In [2]:
pd.set_option('display.max_columns', 150)
pd.set_option('display.max_rows', 150)
pd.set_option('max_colwidth', 151)

In [3]:
#Parsing auxiliar
dateparse = lambda x: dt.datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

# para que los numeros flotantes me los muestre solo con dos decimales
pd.options.display.float_format = '{:.2f}'.format

In [4]:
df_logs = pd.DataFrame(columns=['datetime', 'message'])

def log(message):
    global df_logs
    log_time = datetime.today().strftime('%Y-%m-%d %H:%M:%S')
    print('{} {}'.format(log_time, message))
    df_logs = df_logs.append({'datetime':log_time, 'message':message}, ignore_index=True)

In [5]:
# Información del ultimo dataset.
# Esta información es utilizada para saber que no se esta importando un dataset con menor cantidad de registros.

ENERGIA_FILAS=44363
ENERGIA_COLUMNAS=9
ENERGIA_DIAS=154

CLIMA_FILAS=3001
CLIMA_COLUMNAS=3
CLIMA_DIAS=194

In [6]:
# _ds_energía
_ds_energia = pd.read_csv('https://raw.githubusercontent.com/alaain04/diplodatos/master/data/distribucion.csv',
                          dtype={'Amper fase T-A': float},
                          parse_dates=['Fecha'],
                          date_parser=dateparse,
                          float_precision='round_trip')

# nombres de columnas originales
energia_origin_col_names = ['Fecha', 'Amper fase T-A', 'Amper fase S-A', 'Amper fase R-A', 'Vab', 'Vca', 'Vbc', 'Kwatts 3 fases', 'Factor de Poten-A']
# nombre de columnas para trabajar el dataset de forma mas simple
energia_work_col_names = ['fecha','ta','sa','ra','vab','vca','vbc','kwatts','potencia']
# mapeo de nombre de columnas de trabajo y las originales. Pandas no tiene un "alias" para las variables.
energia_origin_col_names_dic = {'fecha':'Fecha', 'ta':'Amper fase T-A', 'sa':'Amper fase S-A', 'ra':'Amper fase R-A', 'vab':'Vab', 'vca':'Vca', 'vbc':'Vbc', 'kwatts':'Kwatts 3 fases', 'potencia':'Factor de Poten-A'}
# columnas de interes
interesting_col = ['ta','sa','ra','vab','vca','vbc','kwatts','potencia']
# asignacion de nombres para trabajar
_ds_energia.columns = energia_work_col_names

In [7]:
# cargo el ds del clima y me quedo con las columnas de fechas, temperatura y velocidad de viento
_ds_clima = pd.read_csv('https://github.com/alaain04/diplodatos/raw/master/data/clima.csv',parse_dates=['time'],date_parser=dateparse)

_ds_clima = _ds_clima.sort_values(by='time').reset_index()
_ds_clima = _ds_clima[['time','temperature','windspeed']]
_ds_clima.columns =['fecha','temperature','windspeed']

clima_origin_col_names_dic = {'fecha':'time', 'temperature':'temperature','windspeed':'windspeed'}

# Resolución

## 1. Importación de Datos
### 1.1. Verificación de inexistencia en problemas en la importación de los datasets

In [8]:
def energia_check_date_and_rows():
    is_valid = True
    
    # el dataset inicial tiene 155 días de registros. Por lo cual se verifica que no se reduzca esa cantidad
    if (_ds_energia.fecha.max() - _ds_energia.fecha.min()).days < ENERGIA_DIAS:
        is_valid = False
        log('Error: Hay menos días ({}) que lo esperado ({})'.format((_ds_energia.fecha.max() - _ds_energia.fecha.min()).days), ENERGIA_DIAS)
    
    # el dataset inicial tiene 44363 filas. Por lo cual se verifica que no se reduzca esa cantidad
    if _ds_energia.shape[0] < ENERGIA_FILAS:
        is_valid = False
        log('Error: Hay menos filas ({}) de las esperadas ({})'.format(_ds_energia.shape[0]), ENERGIA_FILAS)
    
    return is_valid
        
def energia_is_num_cols_rows_valid():
    if len(_ds_energia.columns) < ENERGIA_COLUMNAS:
        log('Error: Faltan columnas')
        return False
    elif len(_ds_energia.columns) > ENERGIA_COLUMNAS:
        log('Error: Hay mas cantidad de columnas')
        return False
    
    if _ds_energia.shape[0] < 1:
        log('Error: No hay filas')
        return False
    
    return True
    

def energia_is_valid_types():
    is_valid_types = True

    if _ds_energia.dtypes.fecha != np.dtype('datetime64[ns]'):
        is_valid_types = False
        log('Tipo de dato no esperado para: Fecha -> {}'.format(_ds_energia.fecha.dtype))


    if _ds_energia.dtypes.ta != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Amper fase T-A -> {}'.format(_ds_energia.dtypes.ta))

    if _ds_energia.dtypes.sa != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Amper fase S-A -> {}'.format(_ds_energia.dtypes.sa))

    if _ds_energia.dtypes.ra != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Amper fase R-A -> {}'.format(_ds_energia.dtypes.ra))


    if _ds_energia.dtypes.vab != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Vab -> {}'.format(_ds_energia.dtypes.vab))
    if _ds_energia.dtypes.vca != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Vca -> {}'.format(_ds_energia.dtypes.vca))
    if _ds_energia.dtypes.vbc != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Vbc -> {}'.format(_ds_energia.dtypes.vbc))


    if _ds_energia.dtypes.kwatts != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Kwatts 3 fases -> {}'.format(_ds_energia.dtypes.kwatts))

    if _ds_energia.dtypes.potencia != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Factor de Poten-A -> {}'.format(_ds_energia.dtypes.potencia))
        
    return is_valid_types


if energia_is_num_cols_rows_valid() & energia_is_valid_types() & energia_check_date_and_rows():
    log('Dataset Energía importado correctamente')

2020-07-29 03:17:45 Dataset Energía importado correctamente


In [9]:
def clima_check_date_and_rows():
    is_valid = True
    
    # el dataset inicial tiene 155 días de registros. Por lo cual se verifica que no se reduzca esa cantidad
    if (_ds_clima.fecha.max() - _ds_clima.fecha.min()).days < CLIMA_DIAS:
        is_valid = False
        log('Error: Hay menos días ({}) que lo esperado ({})'.format((_ds_clima.fecha.max() - _ds_energia.fecha.min()).days), CLIMA_DIAS)
    
    # el dataset inicial tiene 3001 filas. Por lo cual se verifica que no se reduzca esa cantidad
    if _ds_clima.shape[0] < CLIMA_FILAS:
        is_valid = False
        log('Error: Hay menos filas ({}) de las esperadas ({})'.format(_ds_clima.shape[0]), CLIMA_FILAS)
    
    return is_valid

def clima_is_num_cols_rows_valid():
    if len(_ds_clima.columns) < CLIMA_COLUMNAS:
        log('Error: Faltan columnas')
        return False
    elif len(_ds_clima.columns) > CLIMA_COLUMNAS:
        log('Error: Hay mas cantidad de columnas')
        return False
    
    if _ds_clima.shape[0] < 1:
        log('Error: No hay filas')
        return False
    
    return True

def clima_is_valid_types():
    is_valid_types = True

    if _ds_clima.dtypes.fecha != np.dtype('datetime64[ns]'):
        is_valid_types = False
        log('Tipo de dato no esperado para: Fecha -> {}'.format(_ds_clima.fecha.dtype))

    if _ds_clima.dtypes.temperature != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Temperature -> {}'.format(_ds_clima.dtypes.temperature))

    if _ds_clima.dtypes.windspeed != np.float64:
        is_valid_types = False
        log('Tipo de dato no esperado para: Windspeed -> {}'.format(_ds_clima.dtypes.windspeed))
    
    return is_valid_types

if clima_is_valid_types() & clima_is_num_cols_rows_valid() & clima_check_date_and_rows():
    log('Dataset Clima importado correctamente')

2020-07-29 03:17:46 Dataset Clima importado correctamente


## 1.2. Asegurar la existencia de IDs o claves únicas
### El siguiente paso implica chequear que no existen datos duplicados y que las claves, si existen, son únicas.

In [10]:
def exist_datetimes_duplicates(ds):
    if len(ds[ds.fecha.duplicated()]) == 0:
        return False
    else:
        return True

if exist_datetimes_duplicates(_ds_energia) & exist_datetimes_duplicates(_ds_clima):
    log('Verificacion de Fecha y Hora únicas: Hay duplicados.')
else:
    log('Verificacion de Fecha y Hora únicas: OK')

2020-07-29 03:17:50 Verificacion de Fecha y Hora únicas: OK


## 1.3. Despersonalizar datos y guardarlos en un nuevo archivo

Para este dataset no aplica porque no hay datos que identifiquen una persona fisica o juridica.

## 1.4. Nunca modificar los dDatos crudos u originales
### Al finalizar la limpieza, deberán guardar el dataset resultante, para asegurarse de no modificar los datos originales.

El nuevo dataset se guardará en otro archivo csv con fecha y hora de la generación.

#2. Pasos de Limpieza Necesarios

## 2.1. Etiquetas de variables y problemas de codificación/encoding
### Verificar que las etiquetas y valores de features no posean problemas de codificación.

En este dataset solo tenemos valores númericos que no deberian tener problemas de encoding. Pero si eso ocurré, la importación del archivo fallaria dando un mensaje de error al usuario.

## 2.2. Tratamiento de valores faltantes
### Para analizar los valores faltantes, primero deberán saber cuántos existen por campo y cuánto representan del total. 
### Detallar estrategias para completar los features faltantes o eliminar el registro completo.

Aqui solo mostramos un resumen del estado de NaN en el dataset. Posteriormente se tratarán los valores faltantes en los features realizando una interpolación de los mismos.

In [11]:
def summary_na_values_pct(ds, interesting_col):
    count_total_rows = ds.shape[0]
    count_total_cols = ds.shape[1]
    count_total_na = ds.isna().sum()
    
    for col in interesting_col:
        if count_total_cols > 3:
            real_col_name = energia_origin_col_names_dic[col]
        else:
            real_col_name = clima_origin_col_names_dic[col]
            
        log('Cantidad de valores nulos en la columna: {:_<30} {:_<10} {}%'
            .format(real_col_name, ds[col].isnull().sum(), round(((100 * ds[col].isnull().sum()) / count_total_rows), 2)))

    
log('Resumen de valores nulos para dataset Clima')
summary_na_values_pct(_ds_clima, ['fecha','temperature','windspeed'])
print('')
log('Resumen de valores nulos para dataset Energia')
summary_na_values_pct(_ds_energia, interesting_col)

2020-07-29 03:17:54 Resumen de valores nulos para dataset Clima
2020-07-29 03:17:54 Cantidad de valores nulos en la columna: time__________________________ 0_________ 0.0%
2020-07-29 03:17:54 Cantidad de valores nulos en la columna: temperature___________________ 0_________ 0.0%
2020-07-29 03:17:54 Cantidad de valores nulos en la columna: windspeed_____________________ 2_________ 0.07%

2020-07-29 03:17:54 Resumen de valores nulos para dataset Energia
2020-07-29 03:17:54 Cantidad de valores nulos en la columna: Amper fase T-A________________ 0_________ 0.0%
2020-07-29 03:17:54 Cantidad de valores nulos en la columna: Amper fase S-A________________ 1_________ 0.0%
2020-07-29 03:17:54 Cantidad de valores nulos en la columna: Amper fase R-A________________ 18________ 0.04%
2020-07-29 03:17:54 Cantidad de valores nulos en la columna: Vab___________________________ 9032______ 20.36%
2020-07-29 03:17:54 Cantidad de valores nulos en la columna: Vca___________________________ 9032______ 20.36%

## 2.3. Codificación de variables categóricas
No tenemos variables categóricas

## 2.4. No cambiar los nombres de las variables de la fuente de origen

El resultado del script se escribirá en un archivo nuevo sin alterar el archivo input original y se escribiran las columnas con el nombre original de las variables.

## 2.5 Verificación de consistencia de datos
### Este es el paso más analítico, en donde se deben aplicar reglas de integridad.

In [12]:
def validar_potencia(ds):
    
    validate = False
    
    if ds[(ds['potencia'].abs() > 1) | (ds['potencia'].abs() < 0)].shape[0] > 0:
        log('Error: La potencia es un valor entre 0 y 1.')
    else:
        validate = True
    
    return validate

if validar_potencia(_ds_energia):
    log('El rango de valores de la potencia es correcto.')
    
def validar_negativos(ds):
    
    ambos_negativos = len(ds[((ds.kwatts < 0) & (ds.potencia < 0)) == True])
    kwatts_pos_potencia_neg = len(ds[((ds.kwatts >= 0) & (ds.potencia < 0)) == True])
    kwatts_neg_potencia_pos = len(ds[((ds.kwatts < 0) & (ds.potencia >= 0)) == True])

    if (ambos_negativos > 0) | (kwatts_pos_potencia_neg > 0) | (kwatts_neg_potencia_pos > 0):
        log('Hay valores negativos. Se los tratará posteriormente')

    log('Potencia negativa y factor de potencia negativo: {}'.format(ambos_negativos))
    log('Potencia positiva y factor de potencia negativo: {}'.format(kwatts_pos_potencia_neg))
    log('Potencia negativa y factor de potencia positiva: {}'.format(kwatts_neg_potencia_pos))
    
validar_negativos(_ds_energia)

2020-07-29 03:17:58 El rango de valores de la potencia es correcto.
2020-07-29 03:17:58 Hay valores negativos. Se los tratará posteriormente
2020-07-29 03:17:58 Potencia negativa y factor de potencia negativo: 8739
2020-07-29 03:17:58 Potencia positiva y factor de potencia negativo: 62
2020-07-29 03:17:58 Potencia negativa y factor de potencia positiva: 5705


## 2.6. Identificar y documentar valores atípicos/outliers
### Calcular estadísticos.
### Detallar estrategias para completar los features con outliers o eliminar el registro completo.


Pimero consideramos los valores positivos de los datos, suponiendo que todas estas variables son siempre positivas y si se encuentran valores negativos es devido a un error de medición.

Luego buscamos outliers en la variable de la potencia calculando los que se encuentran a unas distancia mayor a 1.5*CI de la mediana donde CI es el intervalo entre el primer y el tercer cuartiles.

- En caso de ser mayores al valor mediana + 1.5*CI eliminamos el registo
- En caso de ser menores al valor mediana - 1.5*CI reemplazamos el valor por 0



In [13]:
### Cargar el dataset _ds_energia
### Renombrar las columnas como energia_work_col_names y definir las columnas intersting_col

### energia_work_col_names = ['fecha','ta','sa','ra','vab','vca','vbc','kwatts','potencia']
### interesting_col = ['ta','sa','ra','vab','vca','vbc','kwatts','potencia']

### Cargar el dataset _ds_clima
### Seleccionar las columnas ['time','temperature','windspeed']
### Renombrar las columnas como ['fecha','temperature','windspeed']


### Se genera el dataset _ds_total, limpiando outliers de ambos ds y agregando 
### las columnas del ds clima al ds energía además de completar datos de estas
### columnas 

_ds_energia_tomerge = _ds_energia

log('Se convierten todos los valores en positivos')
### limpieza de los valores del ds de energía
_ds_energia_tomerge[interesting_col] = np.abs(_ds_energia[interesting_col])

log('Se completan datos faltantes en el dataset de energia en caso de tener un valor NaN entre 2 valores numéricos')
# completo datos faltantes en el dataset de energia en caso de tener un valor NaN entre 2 valores numéricos
for col in interesting_col:
  _ds_energia_tomerge[col].interpolate(method='linear',inplace=True,limit=1,limit_area='inside')


log('Se reemplazan outliers en el dataset de Energia:')
log('En caso de ser mayores al valor mediana + 1.5*CI eliminamos el registo')
log('En caso de ser menores al valor mediana - 1.5*CI reemplazamos el valor por 0')
# reemplazo outliers
for col in interesting_col:
  CI =  (_ds_energia_tomerge[col].quantile(0.75)-_ds_energia_tomerge[col].quantile(0.25))
  _ds_energia_tomerge[col] = _ds_energia_tomerge[col].mask((_ds_energia_tomerge[col] - _ds_energia_tomerge[col].median()) > 1.5*CI , np.nan)
  _ds_energia_tomerge[col] = _ds_energia_tomerge[col].mask((_ds_energia_tomerge[col].median() - _ds_energia_tomerge[col]) > 1.5*CI , 0)

#### limpieza de los valores del ds de clima

log('Se reemplazan outliers en el dataset de Clima:')
# reemplazo outliers
_ds_clima_tomerge = _ds_clima
CI =  (_ds_clima_tomerge['temperature'].quantile(0.75)-_ds_clima_tomerge['temperature'].quantile(0.25))
_ds_clima_tomerge['temperature'] = _ds_clima_tomerge['temperature'].mask(abs((_ds_clima_tomerge['temperature'] - _ds_clima_tomerge['temperature'].median())) > 2*CI , np.nan)
CI =  (_ds_clima['windspeed'].quantile(0.75)-_ds_clima['windspeed'].quantile(0.25))
_ds_clima_tomerge['windspeed'] = _ds_clima_tomerge['windspeed'].mask(abs((_ds_clima_tomerge['windspeed'] - _ds_clima_tomerge['windspeed'].median())) > 2*CI , np.nan)

log('Se ordenan por fecha los datasets')
# ordeno por fecha los ds
_ds_energia_tomerge = _ds_energia_tomerge.sort_values(by='fecha').reset_index()
_ds_clima_tomerge = _ds_clima_tomerge.sort_values(by='fecha').reset_index()
_ds_energia_tomerge.drop(columns=['index'], inplace=True)
_ds_clima_tomerge.drop(columns=['index'], inplace=True)

log('Se unen ambos datasets agregando las mediciones del dataset clima al dataset energia')
# uno los 2 ds, agregando las mediciones del dataset clima al dataset energia
_ds_total = pd.merge(_ds_energia_tomerge,_ds_clima_tomerge,on='fecha',how='left')

log('Se completan datos faltantes interpolando las mediciones de temperature y windspeed')
# completo datos faltantes interpolando las mediciones de temperature y windspeed
_ds_total['temperature'].interpolate(method='pchip',inplace=True,limit_direction='forward')
_ds_total['windspeed'].interpolate(method='pchip',inplace=True,limit_direction='forward')

_ds_total = _ds_total.rename(columns=energia_origin_col_names_dic)

2020-07-29 03:18:03 Se convierten todos los valores en positivos
2020-07-29 03:18:03 Se completan datos faltantes en el dataset de energia en caso de tener un valor NaN entre 2 valores numéricos
2020-07-29 03:18:04 Se reemplazan outliers en el dataset de Energia:
2020-07-29 03:18:04 En caso de ser mayores al valor mediana + 1.5*CI eliminamos el registo
2020-07-29 03:18:04 En caso de ser menores al valor mediana - 1.5*CI reemplazamos el valor por 0
2020-07-29 03:18:04 Se reemplazan outliers en el dataset de Clima:
2020-07-29 03:18:04 Se ordenan por fecha los datasets
2020-07-29 03:18:04 Se unen ambos datasets agregando las mediciones del dataset clima al dataset energia
2020-07-29 03:18:04 Se completan datos faltantes interpolando las mediciones de temperature y windspeed


**2.7. Evaluar cómo comprimir los datos para su almacenamiento más eficiente**
- A continuacióón se comprime en .zip ya que es mas estandar para los sistemas operativos

**2.8. Guardar el set de datos con un nombre informativo**


In [14]:
def create_dir(directory):
    if not os.path.exists(directory):
        os.makedirs(directory)

def create_zip(zip_filepath, ds_filepath, logs_filepath):
    
    # create a ZipFile object
    zipObj = ZipFile(zip_filepath, 'w')
    
    # Add multiple files to the zip
    zipObj.write(ds_filepath, os.path.basename(ds_filepath))
    zipObj.write(logs_filepath, os.path.basename(logs_filepath))
    
    # close the Zip File
    zipObj.close()


def guardar_dataset(ds, prefix):
    
    date = datetime.today().strftime('%Y%m%d')
    time = datetime.today().strftime('%H%M%S')

    dir = os.path.join('generated_out', date)
    create_dir(dir)
    
    filename = prefix + date + '_' + time
    ds_filepath = os.path.join(dir, filename + '.csv')
    logs_filepath = os.path.join(dir, filename + '.log')
    zip_filepath = os.path.join(dir, filename + '.zip')
    
    ds.to_csv(ds_filepath, index = False, header=True, encoding='utf-8', float_format='%.2f')
    df_logs.to_csv(logs_filepath, index = False, header=False, encoding='utf-8')

    create_zip(zip_filepath, ds_filepath, logs_filepath)

    os.remove(ds_filepath)
    os.remove(logs_filepath)
    
    print('Dataset y registro de cambios guardado en: {}'.format(zip_filepath))

guardar_dataset(_ds_total, 'ds_energia_clima_')


Dataset y registro de cambios guardado en: generated_out/20200729/ds_energia_clima_20200729_031809.zip


### 3. Pasos de Limpieza Deseables

**3.1. Ordenar variables/columnas**

- Lo hemos realizado en el ítem 2.6

**3.2. Quitar variables/columnas irrelevantes**

Existen features irrelevantes, que no aportan información?

- En esta etapa hemos decidido quitar las tensiones y amperajes dejando la potencia y el factor de potencia como features de interés.

**3.3. Agregar metadata a los datos**

Cuando y como fueron obtenidos, limpieza realizada, decisiones implementadas, asunciones, etc.

- Dejaremos registros de estas acciones en el archivo de log que se crea junto al archivo csv que contiene el nuevo dataset.

### II. Análisis en Profundidad del Contenido

**1. La potencia total de las 3 fases esta dada por una fórmula en la que participan la tensión y corriente media de las fases.**

  1.a. Comparar los campos de tensiones. ¿Poseen la misma información? ¿Qué deberíamos hacer al respecto? 

  1.b. Comparar los campos de corrientes. ¿Poseen la misma información? ¿Qué deberíamos hacer al respecto? 

- Todos los campos de las variables son numéricos. En el caso de las variables de corrientes no hay datos en todas las mediciones, aunque los valores son coherentes. En el caso de las variables de tensiones, hay el mismo número de datos en las tres variables pero son menores al número de mediciones. Además se observan algunos valores de magnitud muy alejados de la mediana.
- Las mediciones en las corrientes y tensiones representan valores de cada fase por lo cual no es la misma información.

In [None]:
print('Tipos de variables:')
display(_ds_energia[['vab','vca','vbc','ta','ra','sa']].dtypes)

print('Estadísticos de las variables de tensiones:')
display(_ds_energia[['vab','vca','vbc']].describe())

print('Estadísticos de las variables de corrientes:')
display(_ds_energia[['ta','ra','sa']].describe())

Tipos de variables:


vab    float64
vca    float64
vbc    float64
ta     float64
ra     float64
sa     float64
dtype: object

Estadísticos de las variables de tensiones:


Unnamed: 0,vab,vca,vbc
count,28192.0,28464.0,28114.0
mean,37.17,39.1,37.62
std,4.86,4.99,4.49
min,0.0,0.0,0.0
25%,35.28,37.14,36.08
50%,35.88,38.0,36.79
75%,38.5,40.65,38.65
max,50.86,52.29,49.65


Estadísticos de las variables de corrientes:


Unnamed: 0,ta,ra,sa
count,43260.0,43394.0,43203.0
mean,8.05,8.4,8.09
std,9.27,9.59,9.32
min,0.0,0.0,0.0
25%,0.0,0.0,0.0
50%,0.0,0.0,0.0
75%,16.0,17.0,16.0
max,28.0,29.0,28.0


**2.   Si la medición de potencia está invertida(negativa) el factor de potencia debería serlo también. Validar que esto ocurra en todos los casos. ¿Qué hacer en los que no?**

- Se observa que hay casos donde ambas mediciones son negativas y otros donde alguna de las 2 es negativa. En las mediciones con factor de potencia negativo y potencia no negativa (que son los que menos suceden) el valor de la potencia es 0 muy bajo. En los casos de mediciones de factor de potencia no negativo y potencia negativa hay valores de la potencia con valor absoluto muy grande. Debería observarse este conjunto de valores una vez realizada la limpieza de outliers.

In [None]:

print('Cantidad de mediciones donde la potencia negativa y el factor de potencia negativo:')
print(len(_ds_energia[((_ds_energia.kwatts < 0) & (_ds_energia.potencia < 0)) == True]))
print('Cantidad de mediciones donde la potencia es no negativa y el factor de potencia negativo:')
print(len(_ds_energia[((_ds_energia.kwatts >= 0) & (_ds_energia.potencia < 0)) == True]))
print('Cantidad de mediciones donde la potencia es negativa y el factor de potencia no negativo:')
print(len(_ds_energia[((_ds_energia.kwatts < 0) & (_ds_energia.potencia >= 0)) == True]))

print('')
print('Estadísticos donde la potencia es no negativa y el factor de potencia negativo:')
display(_ds_energia[((_ds_energia.kwatts >= 0) & (_ds_energia.potencia < 0)) == True].describe())
print('')
print('Estadísticos donde la potencia es negativa y el factor de potencia no negativo:')
display(_ds_energia[((_ds_energia.kwatts < 0) & (_ds_energia.potencia >= 0)) == True].describe())

Cantidad de mediciones donde la potencia negativa y el factor de potencia negativo:
0
Cantidad de mediciones donde la potencia es no negativa y el factor de potencia negativo:
0
Cantidad de mediciones donde la potencia es negativa y el factor de potencia no negativo:
0

Estadísticos donde la potencia es no negativa y el factor de potencia negativo:


Unnamed: 0,ta,sa,ra,vab,vca,vbc,kwatts,potencia
count,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,,,,,,,,
std,,,,,,,,
min,,,,,,,,
25%,,,,,,,,
50%,,,,,,,,
75%,,,,,,,,
max,,,,,,,,



Estadísticos donde la potencia es negativa y el factor de potencia no negativo:


Unnamed: 0,ta,sa,ra,vab,vca,vbc,kwatts,potencia
count,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,,,,,,,,
std,,,,,,,,
min,,,,,,,,
25%,,,,,,,,
50%,,,,,,,,
75%,,,,,,,,
max,,,,,,,,


**3. ¿Existe algun faeture que pueda ser negativo? Reemplazar los negativos por su valor absoluto.**

- Por lo que entendemos todos los valores del dataset de energía deberían ser no negativos. Decidimos tomar los valores absolutos en caso de tener valores negativos suponiendo que estos valores corresponden a un error de signo en la medición.


**4. ¿Existen valores faltantes? Definir e implementar estrategia para completarlos o descartarlos.**

- Encontramos valores faltantes en ambos dataset. 

- En el dataset de energía decidimos completar valores faltantes aislados entre 2 valores numéricos por medio de una interpolación lineal y en caso de tener una sucesión de valores faltantes dejarlos como NaN. 

- En el dataset de clima, en relación al próximo item se decidió utilizar la frecuencia del set de datos de energía, por lo cual al momento de unir ambos datasets se competarán valores faltante, que teniendo en cuenta que ambas variables son continuas derivadas de un fenómeno natural, la temperatura y velocidad del viento se interpolarán las mediciones mediante el método de "pchip".

- En el ítem 2.2 se sumarizan los valores faltantes

**5.   Los datasets poseen diferentes frecuencia de medición. Definir una misma frecuencia y generar un único set de datos.**

- Generamos un nuevo dataset con la frecuencia y fechas del dataset de energía (ítem 2.6).