# **Mentoría**
## **Análisis y predicción de distribución troncal de energía**

### **Introducción**

En la siguiente notebook, se presentará la consigna a seguir para el segundo práctico de la materia Exploración y Curación de datos. El objetivo consiste en identificar e implementar los pasos necesarios para la limpieza y unificación de los datasets de Energía y Clima, así como también analizar cruces de datos con mayor profundidad y validando el sentido lógico. Para ello, comenzaremos con las importaciones pertinentes.


### Importaciones

In [5]:
# Importación de las librerías necesarias
import numpy as np
import pandas as pd
# Puede que nos sirvan también
import matplotlib as mpl
mpl.get_cachedir()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import datetime as dt
import warnings

In [2]:
pd.set_option('display.max_columns', 150)
pd.set_option('display.max_rows', 150)
pd.set_option('max_colwidth', 151)


## Consigna para Curación y Exploración del Dataset
### I. Rutina de Curación

Inicialmente, con el objetivo de preparar los datos que alimentarán futuros modelos de aprendizaje automático (ML), se propone seguir la siguiente [checklist](https://dimewiki.worldbank.org/wiki/Checklist:_Data_Cleaning) para la limpieza de los datos de nuestro proyecto. Esta checklist es la misma que utilizaron en el primer práctico de la materia y nos será de utilidad como guía para curar el dataset. A modo de ayuda, en esta notebook encontrarán una especie de template que sigue la checklist y que deberán ir completando.

Cada decisión tomada deberá quedar registrada de manera explícita y clara. Luego de pasar por todos los puntos de la checklist propuesta, deberán almacenar en un nuevo archivo los datos resultantes. 

A los fines de realizar este práctico, se utilizarán los dataset original, pero descartando todas aquellas columnas que se hayan calculado en base a features preexistentes, ya que éstas están relacionadas a decisiones que adoptaremos más adelante, como por ejemplo, sobre si es necesario crear nuevas features y si incluirlas o no. Recuerden que la ciencia de datos es un proceso circular, continuo y no lineal. Es decir, si los datos requieren de mayor procesamiento para satisfacer las necesidades de algoritmos de ML (cualesquiera de ellos), vamos a volver a la etapa inicial para, por ejemplo, crear nuevas features, tomar decisiones diferentes sobre valores faltantes o valores atípicos (outliers), descartar features, entre otras.

### II. Análisis en Profundidad del Contenido

Una vez aplicada la Checklist, lo que vamos a hacer es profundizar aún más el análisis y tomar decisiones que se consideren pertinentes, si es que no lo han hecho aún en el desarrollo del primer apartado. Por supuesto, se deberán registrar todas las decisiones que tomen al respecto.

Al finalizar con el práctico, las preguntas listadas a continuación deberán quedar respondidas, mientras que si ya lo hicieron durante el desarrollo de la ´checklist´, el objetivo es que se replanteen las decisiones tomadas al respecto:

1. La potencia total de las 3 fases esta dada por una fórmula en la que participan la tensión y corriente media de las fases. 

  1.a. Comparar los campos de tensiones. ¿Poseen la misma información? ¿Qué deberíamos hacer al respecto? 

  1.b. Comparar los campos de corrientes. ¿Poseen la misma información? ¿Qué deberíamos hacer al respecto? 
  
2.   Si la medición de potencia está invertida(negativa) el factor de potencia debería serlo también. Validar que esto ocurra en todos los casos. ¿Qué hacer en los que no?

3.   ¿Existe algun feture que pueda ser negativo? Reemplazar los negativos por su valor absoluto.

4.   ¿Existen valores faltantes? Definir e implementar estrategia para completarlos o descartarlos.

5.   Los datasets poseen diferentes frecuencia de medición. Definir una misma frecuencia y generar un único set de datos.


Esta lista es extensa e intenta abarcar todas las posibles irregularidades en los datos, pero puede no ser exhaustiva. Cualquier análisis adicional de consistencia que deseen agregar porque lo consideran pertinente, será bienvenido y valorado.



### Entregables

El entregable de este práctico consiste en esta misma Notebook, pero con la checklist realizada y el análisis de contenido completo, explicando las decisiones tomadas en cada etapa. Además, deberán generar un script (.py) que contenga una función para curar nuevos datos con la misma estructura. Finalmente, deberán actualizar la metadata.


# Resolución
## I. Rutina de Curación
### 1. Importación de Datos
**1.1. Verificación de Inexistencia de Problemas en la Importación**

Para comenzar, importamos los datos que vamos a procesar:


In [3]:
#Parsing auxiliar
dateparse = lambda x: dt.datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

In [6]:
# _ds_energía
_ds_energia = pd.read_csv('https://raw.githubusercontent.com/alaain04/diplodatos/master/data/distribucion.csv',
                          dtype={'Amper fase T-A': float},
                          parse_dates=['Fecha'],
                          date_parser=dateparse,
                          float_precision='round_trip')

Recuerden que la variable Target constituye nuestro objetivo de predicción. Es la etiqueta de los datos de acuerdo al nivel de pobreza del hogar que habitan, según la siguiente escala o clases

# Resolución
## I. Rutina de Curación
### 1. Importación de Datos

**1.1. Verificación de inexistencia en problemas en la importación de los datasets**

**1.2. Asegurar la existencia de IDs o claves únicas**

El siguiente paso implica chequear que no existen datos duplicados y que las claves, si existen, son únicas.

**1.3. Despersonalizar datos y guardarlos en un nuevo archivo**

Aplica?

**1.4. Nunca modificar los dDatos crudos u originales**

Al finalizar la limpieza, deberán guardar el dataset resultante, para asegurarse de no modificar los datos originales.


### 2. Pasos de Limpieza Necesarios
**2.1. Etiquetas de variables y problemas de codificación/encoding**

Verificar que las etiquetas y valores de features no posean problemas de codificación. 

**2.2. Tratamiento de valores faltantes**

Para analizar los valores faltantes, primero deberán saber cuántos existen por campo y cuánto representan del total. 

Detallar estrategias para completar los features faltantes o eliminar el registro completo.

**2.3. Codificación de variables categóricas**

Aplica?

**2.4. No cambiar los nombres de las variables de la fuente de origen**


**2.5. Verificación de consistencia de datos**

Este es el paso más analítico, en donde se deben aplicar reglas de integridad.


**2.6. Identificar y documentar valores atípicos/outliers**

Calcular estadísticos. 

Detallar estrategias para completar los features con outliers o eliminar el registro completo.


**2.7. Evaluar cómo comprimir los datos para su almacenamiento más eficiente**

**2.8. Guardar el set de datos con un nombre informativo**


### 3. Pasos de Limpieza Deseables
**3.1. Ordenar variables/columnas**


**3.2. Quitar variables/columnas irrelevantes**

Existen features irrelevantes, que no aportan información?

**3.3. Agregar metadata a los datos**

Cuando y como fueron obtenidos, limpieza realizada, decisiones implementadas, asunciones, etc.



### II. Análisis en Profundidad del Contenido

1. La potencia total de las 3 fases esta dada por una fórmula en la que participan la tensión y corriente media de las fases. 

  1.a. Comparar los campos de tensiones. ¿Poseen la misma información? ¿Qué deberíamos hacer al respecto? 

  1.b. Comparar los campos de corrientes. ¿Poseen la misma información? ¿Qué deberíamos hacer al respecto? 
  
2.   Si la medición de potencia está invertida(negativa) el factor de potencia debería serlo también. Validar que esto ocurra en todos los casos. ¿Qué hacer en los que no?

3.   ¿Existe algun feture que pueda ser negativo? Reemplazar los negativos por su valor absoluto.

4.   ¿Existen valores faltantes? Definir e implementar estrategia para completarlos o descartarlos.

5.   Los datasets poseen diferentes frecuencia de medición. Definir una misma frecuencia y generar un único set de datos.