In [1]:
import os
import requests
from datetime import datetime
import pandas as pd
import numpy as np
import logging
from sqlalchemy import create_engine

In [2]:
logging.basicConfig(level = logging.INFO,
                    format='%(asctime)s: %(levelname)s - %(message)s')

In [3]:
current_date = datetime.today().strftime("%d-%m-%Y")

In [4]:
logging.info('Generación de csv')

2022-05-20 11:18:24,954: INFO - Generación de csv


In [5]:
#Almacenamos los urls de las bases de datos
url_museos = 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/4207def0-2ff7-41d5-9095-d42ae8207a5d/download/museos_datosabiertos.csv'
url_salas_cines = 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/392ce1a8-ef11-4776-b280-6f1c7fae16ae/download/cine.csv'
url_bibliotecas = 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/01c6c048-dbeb-44e0-8efa-6944f73715d7/download/biblioteca_popular.csv'

In [6]:
def obtencion_organizacion(url, categoria):
    ''' 
    esta función toma como parametro un url y la categoria (en string) de una base de datos, la almacena localmente 
    y organizar los archivos en rutas “categoría\año-mes\categoria-dia-mes-año.csv”
    '''
    datos = requests.get(url)
    #almacenamiento
    os.makedirs(categoria + '/2022-abril')
    #organizacion
    open(categoria +
         '/2022-abril/' +
         categoria +
         '-' +
         current_date +
         '.csv', 'wb').write(datos.content)



In [7]:
#Ejecutamos la funcion para cada base de datos
obtencion_organizacion(url_museos, 'museos')
obtencion_organizacion(url_salas_cines, 'salas_cines')
obtencion_organizacion(url_bibliotecas, 'bibliotecas')

#### Preprocesamiento de Datos

In [8]:
logging.info('Normalizacion y procesamiento de los datos')

2022-05-20 11:18:32,167: INFO - Normalizacion y procesamiento de los datos


In [9]:
#Podria estandarizar esto (reemplazar la fecha por current_date')
df_museos = pd.read_csv('museos/2022-abril/museos-'+ current_date + '.csv', encoding='UTF-8')
df_salas_cines = pd.read_csv('salas_cines/2022-abril/salas_cines-'+ current_date + '.csv', encoding='UTF-8')
df_bibliotecas = pd.read_csv('bibliotecas/2022-abril/bibliotecas-'+ current_date + '.csv', encoding='UTF-8')

In [10]:
#creo una variable con las columnas de interés
cols_interes = ['cod_localidad', 'id_provincia', 'id_departamento',
'categoría', 'provincia', 'localidad', 'nombre',
'domicilio', 'código postal', 'número de teléfono',
'mail', 'web']

In [11]:
#Reemplazo los nombres de las columnas de df_museos segun lo solicitado (solo de las columnas a utilizar para la tabla unica)
df_museos.rename(columns = {'Cod_Loc' : 'cod_localidad', 'IdProvincia' : 'id_provincia',
                            'IdDepartamento' : 'id_departamento', 'categoria' : 'categoría',
                            'direccion' : 'domicilio', 'CP' : 'código postal',
                            'telefono' : 'número de teléfono', 'Mail' : 'mail','Web' : 'web'},
                 inplace = True)

In [12]:
# Hacemos lo mismo con df_salas_cines
df_salas_cines.rename(columns = {'Cod_Loc' : 'cod_localidad', 'IdProvincia' : 'id_provincia',
                                 'IdDepartamento' : 'id_departamento', 'Categoría' : 'categoría', 
                                 'Provincia' : 'provincia', 'Localidad' : 'localidad', 'Nombre' : 'nombre',
                                 'Domicilio' : 'domicilio', 'CP' : 'código postal', 'Fuente':'fuente',
                                 'Teléfono' : 'número de teléfono', 'Mail' : 'mail','Web' : 'web'},
                      inplace = True)

In [13]:
# Hacemos lo mismo con df_bibliotecas
df_bibliotecas.rename(columns = {'Cod_Loc' : 'cod_localidad', 'IdProvincia' : 'id_provincia',
                                 'IdDepartamento' : 'id_departamento', 'Categoría' : 'categoría', 
                                 'Provincia' : 'provincia', 'Localidad' : 'localidad', 'Nombre' : 'nombre',
                                 'Domicilio' : 'domicilio', 'CP' : 'código postal', 'Fuente':'fuente',
                                 'Teléfono' : 'número de teléfono', 'Mail' : 'mail','Web' : 'web'},
                      inplace = True)

In [14]:
# data frame con el total de columnas
tabla_unica_tot = pd.concat([df_museos, df_salas_cines, df_bibliotecas])

#data frame solo con las columnas de interes a normaliza
tabla_unica = tabla_unica_tot.loc[:, cols_interes]    #contiene solo las columnas de interes a normalizar
tabla_unica['fecha_de_carga'] = current_date

In [15]:
#Cantidad de registros totales por categoría

total_categoria = tabla_unica.groupby(['categoría']).size().to_frame(name = 'Total por categoría')
#total_categoria = tabla_unica['categoría'].value_counts().to_frame('Total por categoría')

In [16]:
#Cantidad de registros totales por fuente
total_fuentes = tabla_unica_tot.groupby(['categoría','fuente']).size().to_frame(name = 'Total por fuente')

#total_fuentes = tabla_unica_tot[['categoría', 'fuente']].value_counts().to_frame('Total por fuente')

In [17]:
#Cantidad de registros por provincia y categoría

total_provincias_categorias = tabla_unica[['categoría', 'provincia']].value_counts().to_frame('Cantidad de registros por provincia y categoría')

In [18]:
#Creo tabla 2 que une Cantidad de registros totales por categoría, #Cantidad de registros totales por fuente, #Cantidad de registros por provincia y categoría
tabla2 = total_categoria.merge(total_fuentes, how='outer', left_index=True, right_index=True)
tabla2= tabla2.merge(total_provincias_categorias, how='outer', left_index=True, right_index=True)
tabla2['fecha_de_carga'] = current_date

In [19]:
tabla2

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Total por categoría,Total por fuente,Cantidad de registros por provincia y categoría,fecha_de_carga
categoría,fuente,provincia,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Bibliotecas Populares,CONABIP,Buenos Aires,2017,2010,543,20-05-2022
Bibliotecas Populares,CONABIP,Santa Fe,2017,2010,272,20-05-2022
Bibliotecas Populares,CONABIP,Córdoba,2017,2010,185,20-05-2022
Bibliotecas Populares,CONABIP,La Pampa,2017,2010,72,20-05-2022
Bibliotecas Populares,CONABIP,Chaco,2017,2010,70,20-05-2022
...,...,...,...,...,...,...
Salas de cine,INCAA / SInCA,Catamarca,329,329,4,20-05-2022
Salas de cine,INCAA / SInCA,Jujuy,329,329,4,20-05-2022
Salas de cine,INCAA / SInCA,San Luis,329,329,4,20-05-2022
Salas de cine,INCAA / SInCA,Tierra del Fuego,329,329,3,20-05-2022


In [20]:
#tabla de cines Provincia con: Cantidad de pantallas, Cantidad de butacas, Cantidad de espacios INCAA

tabla_cine = df_salas_cines.loc[:, ['provincia', 'Pantallas', 'Butacas', 'espacio_INCAA']].copy()
funciones = {'Pantallas': 'sum', 'Butacas': 'sum','espacio_INCAA' : 'sum'}
tabla_cine['fecha_de_carga'] = current_date

#df = tabla_cine.groupby('provincia')['espacio_INCAA'].count()
si la col de espacio incaa la dejo en cantidad entonces hago lo de arriba, sino para dejarla en categorica uso np.where donde si tiene si, va 

In [22]:
#engine = create_engine('postgresql://postgres:4321@localhost:1234/alkemy')

In [23]:
#engine

NameError: name 'engine' is not defined

In [None]:
#tabla_unica.to_sql('tabla_unica', con = engine, if_exists = 'replace')