## Importación de los modulos y definición de variables

In [2]:
import requests
import pandas as pd
import os
import datetime
import numpy as np

In [3]:
año = datetime.date.today().year
mes = datetime.date.today().month
dia = datetime.date.today().day

In [4]:
MESES = {1:'enero',
        2:'febrero',
        3:'marzo',
        4:'abril',
        5:'mayo',
        6:'junio',
        7:'julio',
        8:'agosto',
        9:'septiembre',
        10:'octubre',
        11:'noviembre',
        12:'diciembre'}

## Extracción y guardado de las tablas

In [5]:
urls = {
    'museos':'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/4207def0-2ff7-41d5-9095-d42ae8207a5d/download/museos.csv',
    'salas_de_cine':'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/392ce1a8-ef11-4776-b280-6f1c7fae16ae/download/cine.csv',
    'biblotecas_populares':'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/01c6c048-dbeb-44e0-8efa-6944f73715d7/download/biblioteca_popular.csv'
    }

In [6]:
for key in urls:
    url = urls[key]
    r = requests.get(url)
    
    año_mes_ruta = f'{key}/{año}-{MESES[mes]}'
    if not os.path.exists(año_mes_ruta):
        os.mkdir(año_mes_ruta)
        
    if os.path.isfile(f'{key}-{dia}-{mes}-{año}.csv') == True:
        remove(f'{key}-{dia}-{mes}-{año}.csv')
        
    open(f'{key}/{año}-{MESES[mes]}/{key}-{dia}-{mes}-{año}.csv', 'wb').write(r.content)

In [7]:
dfs = {}
dfs['museos'] = pd.read_csv(f'museos/{año}-{MESES[mes]}/museos-{dia}-{mes}-{año}.csv', encoding='ISO 8859-1')
dfs['salas_de_cine'] = pd.read_csv(f'salas_de_cine/{año}-{MESES[mes]}/salas_de_cine-{dia}-{mes}-{año}.csv')
dfs['biblotecas_populares'] = pd.read_csv(f'biblotecas_populares/{año}-{MESES[mes]}/biblotecas_populares-{dia}-{mes}-{año}.csv')

## Normalización de las tablas

### Tabla museos

In [8]:
dfs['museos']['id_departamento'] = np.nan
dfs['museos']['categoría'] = 'Museos'

In [9]:
df_museos = dfs['museos'][['localidad_id','provincia_id','id_departamento','categoría','provincia','localidad','nombre',
              'direccion','codigo_postal','telefono','mail','web','fuente']]

df_museos = df_museos.rename(columns = {'localidad_id':'cod_localidad',
                                        'provincia_id':'id_provincia',
                                        'direccion':'domicilio',
                                        'telefono':'número_de_telefono',
                                        'codigo_postal':'código_postal'}, inplace = False)

### Tabla salas_de_cine

In [10]:
df_salas_de_cine = dfs['salas_de_cine'][['Cod_Loc','IdProvincia','IdDepartamento','Categoría','Provincia','Localidad','Nombre',
              'Dirección','CP','Teléfono','Mail','Web','Fuente']]

df_salas_de_cine = df_salas_de_cine.rename(columns = {'Cod_Loc':'cod_localidad',
                                      'IdProvincia':'id_provincia',
                                      'IdDepartamento':'id_departamento',
                                      'Categoría':'categoría',
                                      'Provincia':'provincia',
                                      'Localidad':'localidad',
                                      'Nombre':'nombre',
                                      'Dirección':'domicilio',
                                      'CP':'código_postal',
                                      'Teléfono':'número_de_telefono',
                                      'Mail':'mail',
                                      'Web':'web',
                                      'Fuente':'fuente'}, inplace = False)

### Tabla biblotecas

In [11]:
df_biblotecas = dfs['biblotecas_populares'][['Cod_Loc','IdProvincia','IdDepartamento','Categoría','Provincia','Localidad','Nombre',
              'Domicilio','CP','Teléfono','Mail','Web','Fuente']]
df_biblotecas = df_biblotecas.rename(columns = {'Cod_Loc':'cod_localidad',
                                      'IdProvincia':'id_provincia',
                                      'IdDepartamento':'id_departamento',
                                      'Categoría':'categoría',
                                      'Provincia':'provincia',
                                      'Localidad':'localidad',
                                      'Nombre':'nombre',
                                      'Domicilio':'domicilio',
                                      'CP':'código_postal',
                                      'Teléfono':'número_de_telefono',
                                      'Mail':'mail',
                                      'Web':'web',
                                      'Fuente':'fuente'}, inplace = False)

### Tabla normalizada

In [12]:
df_normalizada = df_biblotecas.append(df_salas_de_cine).append(df_museos)
df_normalizada = df_normalizada.replace('s/d',np.nan)
df_normalizada = df_normalizada.replace('',np.nan)
df_normalizada = df_normalizada.astype(object)
df_normalizada['conteo'] = 1

## Generación de las tablas requeridas

### Cantidad de registros totales por categoría

In [13]:
df_registros_totales = df_normalizada.groupby('categoría').sum(['conteo'])
df_registros_totales

Unnamed: 0_level_0,conteo
categoría,Unnamed: 1_level_1
Bibliotecas Populares,2017
Museos,1048
Salas de cine,329


### Cantidad de registros totales por provincia y categoría

In [14]:
df_provincia_categoría = df_normalizada.groupby(['provincia','categoría']).sum(['conteo'])
df_provincia_categoría

Unnamed: 0_level_0,Unnamed: 1_level_0,conteo
provincia,categoría,Unnamed: 2_level_1
Buenos Aires,Bibliotecas Populares,543
Buenos Aires,Museos,146
Buenos Aires,Salas de cine,106
Catamarca,Bibliotecas Populares,38
Catamarca,Museos,30
...,...,...
Tierra del Fuego,Salas de cine,3
"Tierra del Fuego, Antártida e Islas del Atlántico Sur",Museos,14
Tucumán,Bibliotecas Populares,37
Tucumán,Museos,25


### Cantidad de registros totales por fuente

In [15]:
df_fuente = df_normalizada.groupby(['fuente']).sum(['conteo'])
df_fuente

Unnamed: 0_level_0,conteo
fuente,Unnamed: 1_level_1
CONABIP,2010
DNPyM,1048
Gob. Pcia.,1
INCAA / SInCA,329
Secretaria de Cultura Provincial,6


### Cantidad de pantallas, butacas y espacios INCAA por provincia

In [16]:
df_cines_suma = dfs['salas_de_cine'][['Provincia','Pantallas','Butacas','espacio_INCAA']].convert_dtypes()
df_cines_suma = df_cines_suma.rename(columns = {'Pantallas':'pantallas',
                                               'Butacas':'butacas',
                                               'Provincia':'provincia'},inplace = False)

In [17]:
df_cines_suma1 = df_cines_suma.groupby(['provincia']).sum(['pantallas','butacas'])
df_cines_suma2 = df_cines_suma[['provincia','espacio_INCAA']].replace('',np.nan).groupby(['provincia']).count()
df_cines_suma1['espacio_INCAA'] = df_cines_suma2
df_cines_suma1

Unnamed: 0_level_0,pantallas,butacas,espacio_INCAA
provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Buenos Aires,358,93112,20
Catamarca,12,3200,2
Chaco,14,2469,1
Chubut,10,2682,4
Ciudad Autónoma de Buenos Aires,153,31386,3
Corrientes,17,3370,1
Córdoba,105,20799,2
Entre Ríos,17,4086,2
Formosa,4,1184,1
Jujuy,5,2277,2


### Reiniciando los indices

In [18]:
df_cines_suma1 = df_cines_suma1.reset_index()
df_provincia_categoría = df_provincia_categoría.reset_index()
df_registros_totales = df_registros_totales.reset_index()
df_fuente = df_fuente.reset_index()

## Exportando las tablas a psql con SQLalchemy

In [19]:
from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
from sqlalchemy import Column, Integer, String, DateTime
from datetime import datetime

In [20]:
Base = declarative_base()

class provincia_categoria_conteo(Base):
    __tablename__ = 'provincia_categoria_conteo'
    
    provincia = Column(String(), primary_key=True)
    categoria = Column(String(), primary_key=True)
    conteo = Column(Integer())
    fecha_carga = Column(DateTime(), default=datetime.now())

class registros_totales(Base):
    __tablename__ = 'registros_totales'
    
    categoria = Column(String(), primary_key=True)
    conteo = Column(Integer())
    fecha_carga = Column(DateTime(), default=datetime.now())
    
class fuentes_conteo(Base):
    __tablename__ = 'fuentes_conteo'
    
    fuente = Column(String(), primary_key=True)
    conteo = Column(Integer())
    fecha_carga = Column(DateTime(), default=datetime.now())

class cines_suma(Base):
    __tablename__ = 'cines_suma'
    
    provincia = Column(String(), primary_key=True)
    pantallas = Column(Integer())
    butacas = Column(Integer())
    espacio_INCAA = Column(Integer())
    fecha_carga = Column(DateTime(), default=datetime.now())

engine = create_engine('postgresql://postgres:1234@localhost/alkemy')
Session = sessionmaker(engine)
session = Session()

Base.metadata.drop_all(engine)
Base.metadata.create_all(engine)

for i in df_registros_totales.index:
    session.add(registros_totales(categoria=df_registros_totales['categoría'][i],
                                  conteo=int(df_registros_totales['conteo'][i])))
                
for i in df_provincia_categoría.index:
    session.add(provincia_categoria_conteo(provincia=df_provincia_categoría['provincia'][i],
                                           categoria=df_provincia_categoría['categoría'][i],
                                           conteo=int(df_provincia_categoría['conteo'][i])))

for i in df_fuente.index:
    session.add(fuentes_conteo(fuente=df_fuente['fuente'][i],
                               conteo=int(df_fuente['conteo'][i])))

for i in df_cines_suma1.index:
    session.add(cines_suma(provincia=df_cines_suma1['provincia'][i],
                           pantallas=int(df_cines_suma1['pantallas'][i]),
                           butacas=int(df_cines_suma1['butacas'][i]),
                           espacio_INCAA=int(df_cines_suma1['espacio_INCAA'][i])))
                           
session.commit()
session.close()