In [7]:
from __future__ import print_function
from unicodecsv import DictReader
import pandas as pd
from paths import DATASETS_DIR, DUMPS_DIR
from pprint import pprint
from data import generate_dump
import os
from collections import OrderedDict
# import mysql.connector
from sqlalchemy import create_engine
import pyodbc

In [2]:
dump_path = os.path.join(DUMPS_DIR, "series-tiempo.{}")

## Genero dataframe con el dump

In [3]:
%time df = generate_dump()

CPU times: user 29.3 s, sys: 1.9 s, total: 31.2 s
Wall time: 31.6 s


In [4]:
drop_cols = ["distribucion_indice_tiempo", "valor"]
index_cols = ["dataset_id", "distribucion_id", "serie_id"]
series_cols = df.columns.drop(drop_cols)
series_group = df.groupby(index_cols)

In [5]:
df_series = df.drop(drop_cols, axis=1).drop_duplicates().set_index(index_cols)

In [6]:
df_series["distribucion_indice_inicio"] = series_group["distribucion_indice_tiempo"].min()
df_series["distribucion_indice_final"] = series_group["distribucion_indice_tiempo"].max()
df_series["valor_ultimo"] = series_group.apply(lambda x: x.loc[x.distribucion_indice_tiempo.argmax(), "valor"])

In [8]:
df_series.to_excel("series-tiempo-resumen.xlsx", "resumen", index=True, index_label=True, merge_cells=False)

## Genero distribuciones de distintos formatos

In [11]:
%%time
# CSV
path = dump_path.format("csv")
df.to_csv(path, encoding="utf-8", sep=",", index=False)
print("{}MB".format(os.path.getsize(path) / 1000000))

335MB
CPU times: user 40.9 s, sys: 528 ms, total: 41.4 s
Wall time: 41.4 s


In [6]:
%%time 
# EXCEL
path = dump_path.format("xlsx")
writer = pd.ExcelWriter(path, engine='xlsxwriter')
df.to_excel(writer, "data", merge_cells=False, encoding="utf-8", index=False)
writer.save()
print("{}MB".format(os.path.getsize(path) / 1000000))

36MB
CPU times: user 3min 44s, sys: 2.91 s, total: 3min 47s
Wall time: 3min 47s


In [11]:
%%time 
# SQLITE
path = dump_path.format("db")
engine = create_engine('sqlite:///{}'.format(path), echo=True)
df.to_sql("series_tiempo", engine, index=False, if_exists="replace")
print("{}MB".format(os.path.getsize(path) / 1000000))

2017-08-15 14:58:50,791 INFO sqlalchemy.engine.base.Engine SELECT CAST('test plain returns' AS VARCHAR(60)) AS anon_1


08/15/2017 02:58:50 [INFO]: SELECT CAST('test plain returns' AS VARCHAR(60)) AS anon_1


2017-08-15 14:58:50,793 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,796 INFO sqlalchemy.engine.base.Engine SELECT CAST('test unicode returns' AS VARCHAR(60)) AS anon_1


08/15/2017 02:58:50 [INFO]: SELECT CAST('test unicode returns' AS VARCHAR(60)) AS anon_1


2017-08-15 14:58:50,798 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,801 INFO sqlalchemy.engine.base.Engine PRAGMA table_info("series_tiempo")


08/15/2017 02:58:50 [INFO]: PRAGMA table_info("series_tiempo")


2017-08-15 14:58:50,803 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,806 INFO sqlalchemy.engine.base.Engine PRAGMA table_info("series_tiempo")


08/15/2017 02:58:50 [INFO]: PRAGMA table_info("series_tiempo")


2017-08-15 14:58:50,808 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,811 INFO sqlalchemy.engine.base.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name


08/15/2017 02:58:50 [INFO]: SELECT name FROM sqlite_master WHERE type='table' ORDER BY name


2017-08-15 14:58:50,813 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,818 INFO sqlalchemy.engine.base.Engine PRAGMA table_info("series_tiempo")


08/15/2017 02:58:50 [INFO]: PRAGMA table_info("series_tiempo")


2017-08-15 14:58:50,820 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,825 INFO sqlalchemy.engine.base.Engine SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = 'series_tiempo' AND type = 'table'


08/15/2017 02:58:50 [INFO]: SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = 'series_tiempo' AND type = 'table'


2017-08-15 14:58:50,828 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,831 INFO sqlalchemy.engine.base.Engine PRAGMA foreign_key_list("series_tiempo")


08/15/2017 02:58:50 [INFO]: PRAGMA foreign_key_list("series_tiempo")


2017-08-15 14:58:50,832 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,834 INFO sqlalchemy.engine.base.Engine SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = 'series_tiempo' AND type = 'table'


08/15/2017 02:58:50 [INFO]: SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = 'series_tiempo' AND type = 'table'


2017-08-15 14:58:50,836 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,839 INFO sqlalchemy.engine.base.Engine PRAGMA index_list("series_tiempo")


08/15/2017 02:58:50 [INFO]: PRAGMA index_list("series_tiempo")


2017-08-15 14:58:50,841 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,844 INFO sqlalchemy.engine.base.Engine PRAGMA index_list("series_tiempo")


08/15/2017 02:58:50 [INFO]: PRAGMA index_list("series_tiempo")


2017-08-15 14:58:50,847 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,850 INFO sqlalchemy.engine.base.Engine SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = 'series_tiempo' AND type = 'table'


08/15/2017 02:58:50 [INFO]: SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = 'series_tiempo' AND type = 'table'


2017-08-15 14:58:50,853 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:50,857 INFO sqlalchemy.engine.base.Engine 
DROP TABLE series_tiempo


08/15/2017 02:58:50 [INFO]: 
DROP TABLE series_tiempo


2017-08-15 14:58:50,861 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:50 [INFO]: ()


2017-08-15 14:58:51,690 INFO sqlalchemy.engine.base.Engine COMMIT


08/15/2017 02:58:51 [INFO]: COMMIT


2017-08-15 14:58:51,696 INFO sqlalchemy.engine.base.Engine 
CREATE TABLE series_tiempo (
	dataset_id TEXT, 
	distribucion_id TEXT, 
	serie_id TEXT, 
	distribucion_indice_tiempo DATETIME, 
	distribucion_indice_frecuencia TEXT, 
	valor FLOAT, 
	serie_titulo TEXT, 
	serie_unidades TEXT, 
	serie_descripcion TEXT, 
	distribucion_titulo TEXT, 
	distribucion_descripcion TEXT, 
	dataset_responsable TEXT, 
	dataset_fuente TEXT, 
	dataset_titulo TEXT, 
	dataset_descripcion TEXT
)




08/15/2017 02:58:51 [INFO]: 
CREATE TABLE series_tiempo (
	dataset_id TEXT, 
	distribucion_id TEXT, 
	serie_id TEXT, 
	distribucion_indice_tiempo DATETIME, 
	distribucion_indice_frecuencia TEXT, 
	valor FLOAT, 
	serie_titulo TEXT, 
	serie_unidades TEXT, 
	serie_descripcion TEXT, 
	distribucion_titulo TEXT, 
	distribucion_descripcion TEXT, 
	dataset_responsable TEXT, 
	dataset_fuente TEXT, 
	dataset_titulo TEXT, 
	dataset_descripcion TEXT
)




2017-08-15 14:58:51,698 INFO sqlalchemy.engine.base.Engine ()


08/15/2017 02:58:51 [INFO]: ()


2017-08-15 14:58:51,701 INFO sqlalchemy.engine.base.Engine COMMIT


08/15/2017 02:58:51 [INFO]: COMMIT


2017-08-15 14:58:52,166 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)


08/15/2017 02:58:52 [INFO]: BEGIN (implicit)


2017-08-15 14:59:08,257 INFO sqlalchemy.engine.base.Engine INSERT INTO series_tiempo (dataset_id, distribucion_id, serie_id, distribucion_indice_tiempo, distribucion_indice_frecuencia, valor, serie_titulo, serie_unidades, serie_descripcion, distribucion_titulo, distribucion_descripcion, dataset_responsable, dataset_fuente, dataset_titulo, dataset_descripcion) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)


08/15/2017 02:59:08 [INFO]: INSERT INTO series_tiempo (dataset_id, distribucion_id, serie_id, distribucion_indice_tiempo, distribucion_indice_frecuencia, valor, serie_titulo, serie_unidades, serie_descripcion, distribucion_titulo, distribucion_descripcion, dataset_responsable, dataset_fuente, dataset_titulo, dataset_descripcion) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)


2017-08-15 14:59:08,259 INFO sqlalchemy.engine.base.Engine ((u'1', u'1.1', u'1.1_OGI_D_1993_A_25', '1993-01-01 00:00:00.000000', u'R/P1Y', 22027.5999938, u'oferta_global_importacion', u'Millones de pesos a precios de 1993', u'Importaciones desestacionalizadas, en millones de pesos de 1993 y valores trimestrales', u'Oferta y Demanda Globales a precios de 1993: Datos desestacionalizados en valores anuales [Base 1993]', u'Oferta y Demanda Globales por componente, a precios de comprador, en millones de pesos de 1993 y valores anuales desestacionalizados.', u'Ministerio de Hacienda. Instituto Nacional de Estad\xedsticas y Censos. Direcci\xf3n Nacional de Cuentas Nacionales.', u'Ministerio de Hacienda. Instituto Nacional de Estad\xedsticas y Censos. Direcci\xf3n Nacional de Cuentas Nacionales.', u'Oferta y Demanda Globales: Datos desestacionalizados [Base 1993]', u'Componentes desestacionalizados de la oferta y demanda globales a precios de 1993.'), (u'1', u'1.1', u'1.1_DGCP_D_1993_A_27', '1

08/15/2017 02:59:08 [INFO]: ((u'1', u'1.1', u'1.1_OGI_D_1993_A_25', '1993-01-01 00:00:00.000000', u'R/P1Y', 22027.5999938, u'oferta_global_importacion', u'Millones de pesos a precios de 1993', u'Importaciones desestacionalizadas, en millones de pesos de 1993 y valores trimestrales', u'Oferta y Demanda Globales a precios de 1993: Datos desestacionalizados en valores anuales [Base 1993]', u'Oferta y Demanda Globales por componente, a precios de comprador, en millones de pesos de 1993 y valores anuales desestacionalizados.', u'Ministerio de Hacienda. Instituto Nacional de Estad\xedsticas y Censos. Direcci\xf3n Nacional de Cuentas Nacionales.', u'Ministerio de Hacienda. Instituto Nacional de Estad\xedsticas y Censos. Direcci\xf3n Nacional de Cuentas Nacionales.', u'Oferta y Demanda Globales: Datos desestacionalizados [Base 1993]', u'Componentes desestacionalizados de la oferta y demanda globales a precios de 1993.'), (u'1', u'1.1', u'1.1_DGCP_D_1993_A_27', '1993-01-01 00:00:00.000000', u'R

2017-08-15 14:59:13,411 INFO sqlalchemy.engine.base.Engine COMMIT


08/15/2017 02:59:13 [INFO]: COMMIT


412MB
CPU times: user 21 s, sys: 1.6 s, total: 22.6 s
Wall time: 23.3 s


In [8]:
%%time 
# ACCESS
# set up some constants
DRV = '{Microsoft Access Driver (*.mdb)}'; PWD = 'pw'

# connect to db
path = dump_path.format("mdb")
con = pyodbc.connect('DRIVER={};DBQ={};PWD={}'.format(DRV, path, PWD))
cur = con.cursor()

df.to_sql("series_tiempo", con, index=False, if_exists="replace")
print("{}MB".format(os.path.getsize(path) / 1000000))

Error: ('01000', "[01000] [unixODBC][Driver Manager]Can't open lib 'Microsoft Access Driver (*.mdb)' : file not found (0) (SQLDriverConnect)")

In [None]:
%%time 
# SQL
# la gracia acá es hacer bien las tablas con sus índices y pensar si MySQL, Postgresql o SQLite
path = dump_path.format("sql")
df.to_sql(path, "data", merge_cells=False, encoding="utf-8", index=False)
print("{}MB".format(os.path.getsize(path) / 1000000))

In [9]:
%%time 
# DTA
# hay que ver cómo manejar el límite de caracteres
path = dump_path.format("dta")
df.to_stata(path, write_index=False)
print("{}MB".format(os.path.getsize(path) / 1000000))

ValueError: 
Fixed width strings in Stata .dta files are limited to 244 (or fewer)
characters.  Column 'distribucion_descripcion' does not satisfy this restriction.


In [6]:
df.head()

Unnamed: 0,dataset_id,distribucion_id,serie_id,indice_tiempo,indice_frecuencia,valor,serie_titulo,serie_unidades,serie_descripcion,dataset_titulo,dataset_descripcion,dataset_responsable,dataset_fuente,distribucion_titulo,distribucion_descripcion
0,1,1.1,1.1_OGI_D_1993_A_25,1993-01-01,R/P1Y,22027.5999938,oferta_global_importacion,Millones de pesos a precios de 1993,"Importaciones desestacionalizadas, en millones...",Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
1,1,1.1,1.1_DGCP_D_1993_A_27,1993-01-01,R/P1Y,31952.717001,demanda_global_consumo_priv,Millones de pesos a precios de 1993,"Consumo privado desestacionalizado, en millone...",Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
2,1,1.1,1.1_DGI_D_1993_A_19,1993-01-01,R/P1Y,45069.4134803,demanda_global_ibif,Millones de pesos a precios de 1993,Inversion bruta interna fija desestacionalizad...,Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
3,1,1.1,1.1_OGP_D_1993_A_17,1993-01-01,R/P1Y,236520.033577,oferta_global_pbi,Millones de pesos a precios de 1993,"PIB desestacionalizado, en millones de pesos d...",Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
4,1,1.1,1.1_DGCP_D_1993_A_30,1993-01-01,R/P1Y,163675.543497,demanda_global_consumo_publico,Millones de pesos a precios de 1993,"Consumo publico desestacionalizado, en millone...",Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
5,1,1.1,1.1_DGE_D_1993_A_26,1993-01-01,R/P1Y,16340.9597519,demanda_global_exportacion,Millones de pesos a precios de 1993,"Exportaciones desestacionalizadas, en millones...",Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
6,1,1.1,1.1_OGI_D_1993_A_25,1994-01-01,R/P1Y,26682.25975,oferta_global_importacion,Millones de pesos a precios de 1993,"Importaciones desestacionalizadas, en millones...",Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
7,1,1.1,1.1_DGCP_D_1993_A_27,1994-01-01,R/P1Y,32094.804,demanda_global_consumo_priv,Millones de pesos a precios de 1993,"Consumo privado desestacionalizado, en millone...",Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
8,1,1.1,1.1_DGI_D_1993_A_19,1994-01-01,R/P1Y,51231.4255,demanda_global_ibif,Millones de pesos a precios de 1993,Inversion bruta interna fija desestacionalizad...,Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
9,1,1.1,1.1_OGP_D_1993_A_17,1994-01-01,R/P1Y,250307.886,oferta_global_pbi,Millones de pesos a precios de 1993,"PIB desestacionalizado, en millones de pesos d...",Oferta y Demanda Globales: Datos desestacional...,Componentes desestacionalizados de la oferta y...,Ministerio de Hacienda. Instituto Nacional de ...,Ministerio de Hacienda. Instituto Nacional de ...,Oferta y Demanda Globales a precios de 1993: D...,"Oferta y Demanda Globales por componente, a pr..."
