# Exploración de Dataset: Balance Energético

## Importación de librerías y seteo de variables

In [None]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import openpyxl as pyxl
from __future__ import print_function
from __future__ import unicode_literals
# matplotlib defaults
%matplotlib inline
matplotlib.style.use("ggplot")
import os

In [None]:
FICHEROS = {"microdatos": "datos/Datos Abiertos Series V2a Original.xlsx",
            "sintesis": "datos/Resumen de los Datos.xlsx",
            "poblacion": "datos/serie_poblacion.csv",
            "nodos": "datos/listado-nodos.csv"
}

## Carga de datos

### Serie de población

In [None]:
df_pobl = pd.read_csv(FICHEROS["poblacion"],index_col="anio")
poblacion = pd.Series(data=df_pobl["poblacion"], index=df_pobl.index)

In [None]:
poblacion.plot(figsize=(14, 7))

### Parseo de microdatos de energía

A partir de la planilla de microdatos de Balance Energético, se genera un Panel de datos con los siguientes ejes:
* Items axis (**0**, DataFrames por año): 1960 to 2015
* Major_axis axis (**1**, Índice por Energía): ACEITES VEGETALES to SOLAR
* Minor_axis axis (**2**, Columnas por Uso): PROD to INDUS

In [None]:
wb = pyxl.load_workbook(FICHEROS["microdatos"], data_only=True)

In [None]:
def sheet_to_df(ws):
    raw_data = ws.values
    # La celda A1 tiene el nombre de la energía de la planilla
    name = next(raw_data)[0]
    cols = next(raw_data)
    rows = list(raw_data)[:56] # Luego de 56 filas de años, algunas sheets tienen aclaraciones
    df = pd.DataFrame.from_records(rows, columns=cols)
    # Asigno índice y corrijo el nombre
    df = df.set_index("KTEP")
    df.index = df.index.rename("anio")
    # Elimino las columnas vacías
    df = df.drop(None, axis=1)
    # Relleno None y NaN con ceros
    df = df.fillna(0)
    return df, name

In [None]:
ENERGIAS = {}
for ws in wb.worksheets:
    df, energia = sheet_to_df(ws)
    ENERGIAS[energia] = df

In [None]:
pan_crudo = pd.Panel(ENERGIAS)
pan_crudo = pan_crudo.transpose(1, 0, 2)
pan_crudo

### Cálculo del consumo final por año y energía

In [None]:
pan_crudo.loc[:,:,"CONSUMO TOTAL"] = reduce(
    pd.DataFrame.add, [pan_crudo[:,:,uso] for uso in ['NO ENER', 'RESID', 'COMER', 'TRANS', 'AGROP', 'INDUS']])

In [None]:
pan_crudo.loc[:, "TODAS LAS ENERGIAS", :] = reduce(
    pd.DataFrame.add, [pan_crudo[:, energia, :] for energia in pan_crudo.major_axis])

In [None]:
consumo_total = pan_crudo[:,"TODAS LAS ENERGIAS", "CONSUMO TOTAL"]

In [None]:
consumo_per_capita = consumo_total / poblacion.dropna()

In [None]:
consumo_per_capita.plot(xlim=(1960,2015), figsize=(14,7))

In [None]:
import networkx as nx
import matplotlib.pyplot
import unicodecsv as csv

In [None]:
csv_nodos = csv.DictReader(open(FICHEROS["nodos"]))
nodos = list(csv_nodos)

In [None]:
dg = nx.DiGraph(data=[(e["NOMBRE"], e["PADRE"]) for e in nodos])

In [None]:
pos = {x["NOMBRE"]: (int(x["NIVEL"]), random.randint(1,50)) for x in nodos}

In [None]:
pos[""]= (4,10)

In [None]:
nx.draw_networkx_nodes(dg, pos)
nx.draw_networkx_edges(dg, pos, arrows=True)
nx.draw_networkx_labels(dg, pos, labes=dg.nodes())

plt.figure(figsize=(14,7))

nx.draw(dg, pos, node_size=60, font_size=8)

In [None]:
import random

In [None]:
random.randint(1,100)

In [None]:
energias = pan_crudo.major_axis
usos = pan_crudo.minor_axis
nombres = pd.Series(energias.append(usos))

In [None]:
nombres.to_csv("conversor_final.csv", encoding="utf-8")

In [None]:
nombres.to