In [1]:
import requests
from datetime import datetime
import os
import logging
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy.orm import scoped_session
import psycopg2
from decouple import Config
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy_utils import database_exists, create_database
import pandas as pd
import numpy as np

In [2]:
logging.basicConfig(
filename = 'app.log',
level = logging.DEBUG,
format ="%(asctime)s:%(levelname)s:%(message)s")

In [3]:
urlmuseums = 'https://datos.gob.ar/dataset/cultura-mapa-cultural-espacios-culturales/archivo/cultura_4207def0-2ff7-41d5-9095-d42ae8207a5d'
urlcinemas = 'https://datos.gob.ar/dataset/cultura-mapa-cultural-espacios-culturales/archivo/cultura_392ce1a8-ef11-4776-b280-6f1c7fae16ae'
urllibraries ='https://datos.gob.ar/dataset/cultura-mapa-cultural-espacios-culturales/archivo/cultura_01c6c048-dbeb-44e0-8efa-6944f73715d7'

In [4]:
# generate date variables
day = datetime.today().strftime('%d')
month = datetime.today().strftime('%B')
year = datetime.today().strftime('%Y')
date = datetime.now().strftime('%d:%m:%y')

In [5]:
# Creating the directories

try:
    os.makedirs(f'museums/{year}-{month}', exist_ok = True)
    os.makedirs(f'cinemas/{year}-{month}', exist_ok = True)
    os.makedirs(f'libraries/{year}-{month}', exist_ok = True)
    logging.debug('The directories has been created')
except Exception as e:
        logging.exception(f'There has been an error{e}')

In [6]:
# Download files

try:
    if os.path.isfile(f'museums-{day}-{month}-{year}.csv') is True:
        os.remove(f'museums-{day}-{month}-{year}.csv')
    
    if os.path.isfile(f'cinemas-{day}-{month}-{year}.csv') is True:
        os.remove(f'museums-{day}-{month}-{year}.csv')

    if os.path.isfile(f'libraries-{day}-{month}-{year}.csv') is True:
        os.remove(f'museums-{day}-{month}-{year}.csv')

    logging.debug('The file has not been found')
except Exception as e:
    logging.debug(f'There has been found an expection: {e}')
try:
    
    museums = requests.get(urlmuseums)
    open(f'museums/{year}-{month}/ museums-{day}-{month}-{year}.csv''wb').write(rMuseum.content)
    
    cinemas = requests.get(urlcinemas)
    open(f'museums/{year}-{month}/ cinemas-{day}-{month}-{year}.csv''wb').write(rCinemas.content)

    libraries = requests.get(urllibraries)
    open(f'libraries/{year}-{month}/ libraries-{day}-{month}-{year}.csv''wb').write(rLibraries.content)
    logging.debug('There has been found an exception: {e}')
except Exception as e:
    logging.exception(f'There has been an exception: {e}')


In [7]:
# connection with de db
postgres = {
    'DB_USER':Config('DB_USER'),
    'BD_PASSWORD':Config('BD_PASSWARD'),
    'BD_HOST':Config('BD_HOST'),
    'DB_PORT':Config('BD_PORT'),
    'DB_NAME':Config('DB_NAME')
}

try:
    engine = create_engine('postgresql://postgres:123@localhost:5432/ChallengeAlkemy')
    logging.debug("Connection succesfull :)")
except IOError:
    logging.exception("Connection fail :(")
SessionLocal = sessionmaker(autocommit=False, autoflush=False, blind=engine)
Base = declarative_base()

In [8]:
#Data normalization
#museums
dfmuseums = pd.read_csv(r'/home/frank/Escritorio/PythonAlkemy/venv/proyecto/museos2022-March/museos_datosabiertos.csv', encoding='UTF-8', header=None,engine='python')
print(dfmuseums.iloc[0])
dfmuseums = dfmuseums[[0,1,2,4,6,7,8,9,11,13,14,15,20]]
dfmuseums

0                 Cod_Loc
1             IdProvincia
2          IdDepartamento
3           Observaciones
4               categoria
5            subcategoria
6               provincia
7               localidad
8                  nombre
9               direccion
10                   piso
11                     CP
12               cod_area
13               telefono
14                   Mail
15                    Web
16                Latitud
17               Longitud
18    TipoLatitudLongitud
19         Info_adicional
20                 fuente
21           jurisdiccion
22       año_inauguracion
23          actualizacion
Name: 0, dtype: object


Unnamed: 0,0,1,2,4,6,7,8,9,11,13,14,15,20
0,Cod_Loc,IdProvincia,IdDepartamento,categoria,provincia,localidad,nombre,direccion,CP,telefono,Mail,Web,fuente
1,06588100,06,06588,Espacios de Exhibición Patrimonial,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,B6500EVL,425 279,archivoymuseo@yahoo.com.ar,www.portaldel9.com.ar,DNPyM
2,06077010,06,06077,Espacios de Exhibición Patrimonial,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,B2740FMJ,452 931,museoarrecifes@hotmail.com,,DNPyM
3,06035010,06,06035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Histórico-Sacro Hno. Rogelio Scortegagna,Calle 11 (Av. San Martín) Nº 830,S3561AKT,481 200,,,DNPyM
4,06035010,06,06035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Municipal De Artes Plásticas De Avellaneda,"Sarmiento 101, 1 º Piso",B1870CBC,4205 9567,,,DNPyM
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1178,90098040,90,90098,Espacios de Exhibición Patrimonial,Tucumán,Tafí del Valle,Museo Histórico Y Arqueológico Jesuítico La Banda,La Banda S/N,4000,421 685,,,DNPyM
1179,90105080,90,90105,Espacios de Exhibición Patrimonial,Tucumán,Tafí Viejo,Mac-Museo Arqueológico El Cadillal,Centro Principal el Cadillal,,,,,DNPyM
1180,90105080,90,90105,Espacios de Exhibición Patrimonial,Tucumán,Tafí Viejo,Museo Ferroviario De Los Talleres De Tafí Viejo,Avda. Pte. Roque Sáenz Peña 234,4103,461 4335,,,DNPyM
1181,90105070,90,90105,Espacios de Exhibición Patrimonial,Tucumán,Villa El Cadillal,Museo Arqueológico Dr. Ernesto Padilla,Ernesto Padilla S/N,4101,422 2199,,,DNPyM


In [25]:
#cinemas
dfcinemas = pd.read_csv(r'/home/frank/Escritorio/PythonAlkemy/venv/proyecto/cines2022-March/cine.csv', encoding='UTF-8', header=None,engine='python')
print(dfcinemas.iloc[0])
dfcinemas = dfcinemas[[0,1,2,4,5,6,7,8,9,11,13,14,15,20,22,23,24]]
dfcinemas

0                   Cod_Loc
1               IdProvincia
2            IdDepartamento
3             Observaciones
4                 Categoría
5                 Provincia
6              Departamento
7                 Localidad
8                    Nombre
9                 Dirección
10                     Piso
11                       CP
12                 cod_area
13                 Teléfono
14                     Mail
15                      Web
16    Información adicional
17                  Latitud
18                 Longitud
19      TipoLatitudLongitud
20                   Fuente
21             tipo_gestion
22                Pantallas
23                  Butacas
24            espacio_INCAA
25        año_actualizacion
Name: 0, dtype: object


Unnamed: 0,0,1,2,4,5,6,7,8,9,11,13,14,15,20,22,23,24
0,Cod_Loc,IdProvincia,IdDepartamento,Categoría,Provincia,Departamento,Localidad,Nombre,Dirección,CP,Teléfono,Mail,Web,Fuente,Pantallas,Butacas,espacio_INCAA
1,10049030,10,10049,Salas de cine,Catamarca,Capital,Catamarca,Cinemacenter,Intendente Mamerto Medina 220,4700,s/d,s/d,http://www.cinemacenter.com.ar/,INCAA / SInCA,5,743,
2,10091150,10,10091,Salas de cine,Catamarca,Santa Maria,Santa María,Centro Cultural San Agustín,San Martin 173,4139,421511,s/d,s/d,INCAA / SInCA,1,440,0
3,22140060,22,22140,Salas de cine,Chaco,San Fernando,Resistencia,Los Cines De La Costa,Av. Sarmiento 2600,3500,472200,administracion@loscinesdelacosta.com.ar,http://resistencia.loscinesdelacosta.com.ar/,INCAA / SInCA,5,820,
4,26091020,26,26091,Salas de cine,Chubut,Sarmiento,Sarmiento,Deborah Jones De Williams,Reg. Inf. Mec. 25 Esquina 20 De Junio,9020,4897169,culturasarmiento@hotmail.com,http://www.culturachubut.gob.ar/…/convo-evita-...,INCAA / SInCA,1,80,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
325,06455030,06,06455,Salas de cine,Buenos Aires,Las Flores,Las Flores,Cine San Martin,San Martin 593,7200,462332,estre-c@hotmail.com,http://www.cinesanmartin3d.com.ar/,INCAA / SInCA,1,0,
326,06434010,06,06434,Salas de cine,Buenos Aires,Lanus,Lanús,Zona Cines Coto Lanús,Warnes 2450,1824,42399300,maciro@coto.com.ar,https://www.zonacines.com.ar,INCAA / SInCA,8,2037,
327,06791050,06,06791,Salas de cine,Buenos Aires,Tandil,Tandil,Espacio INCAA Unicen,Yrigoyen 662,7000,4628324,martinezmcarla@yahoo.com.ar,https://www.unicen.edu.ar/content/funciones-es...,INCAA / SInCA,1,430,si
328,10049030,10,10049,Salas de cine,Catamarca,Capital,Catamarca,Cine Teatro Catamarca,San Martín 555,4700,4439129,s/d,http://www.turismo.catamarca.gob.ar/?vh_accomm...,INCAA / SInCA,1,1103,si


In [10]:
#libraries
dflibraries = pd.read_csv(r'/home/frank/Escritorio/PythonAlkemy/venv/proyecto/bibliotecas2022-March/biblioteca_popular.csv', encoding='UTF-8', header=None,engine='python')
print(dflibraries.iloc[0])
dflibraries = dflibraries[[0,1,2,4,6,7,8,9,11,13,14,15,20,21]]
dflibraries

0                   Cod_Loc
1               IdProvincia
2            IdDepartamento
3               Observacion
4                 Categoría
5              Subcategoria
6                 Provincia
7              Departamento
8                 Localidad
9                    Nombre
10                Domicilio
11                     Piso
12                       CP
13                  Cod_tel
14                 Teléfono
15                     Mail
16                      Web
17    Información adicional
18                  Latitud
19                 Longitud
20      TipoLatitudLongitud
21                   Fuente
22             Tipo_gestion
23               año_inicio
24        Año_actualizacion
Name: 0, dtype: object


Unnamed: 0,0,1,2,4,6,7,8,9,11,13,14,15,20,21
0,Cod_Loc,IdProvincia,IdDepartamento,Categoría,Provincia,Departamento,Localidad,Nombre,Piso,Cod_tel,Teléfono,Mail,TipoLatitudLongitud,Fuente
1,70049060,70,70049,Bibliotecas Populares,San Juan,Iglesia,Rodeo,Biblioteca Popular Juan P. Garramuno,,s/d,s/d,s/d,Localización precisa,CONABIP
2,02000010,02,02000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Helena Larroque de Roffo,,11,45010078,asociacionroffo@yahoo.com.ar,Localización precisa,CONABIP
3,02000010,02,02000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular 12 de Octubre,,11,49880766,popular12deoctubre@hotmail.com,Localización precisa,CONABIP
4,02000010,02,02000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Villa Pueyrredón Norte,,11,45729107,bibliotecapueyrredon@hotmail.com,Localización precisa,CONABIP
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2013,62042560,62,62042,Bibliotecas Populares,Río Negro,General Roca,Villa Regina,El Progreso,,s/d,s/d,"helda_33@hotmail.com, bibliotecaelprogreso@hot...",Localización precisa,Secretaria de Cultura Provincial
2014,70028010,70,70028,Bibliotecas Populares,San Juan,Capital,"Villa Seminario, Rivadavia",Biblioteca Popular 23 de Septiembre,,s/d,4331521,s/d,Localización precisa,Gob. Pcia.
2015,62007080,62,62007,Bibliotecas Populares,Río Negro,Adolfo Alsina,San Javier,Prospero Entraigas,,s/d,s/d,"biblio_sanjavier@hotmail.com;, andreaaranea03@...",Localización precisa,Secretaria de Cultura Provincial
2016,62077010,62,62077,Bibliotecas Populares,Río Negro,San Antonio,Las Grutas,Cmte. Luis Piedra Buena,,2934,497263,"bibliotecalasgrutas@yahoo.com.ar, alehernandez...",Localización precisa,Secretaria de Cultura Provincial


In [11]:
#creating unique table
uniqueTable = pd.concat([dflibraries,dfmuseums,dfcinemas])
uniqueTable.head()

Unnamed: 0,0,1,2,4,6,7,8,9,11,13,14,15,20,21
0,Cod_Loc,IdProvincia,IdDepartamento,Categoría,Provincia,Departamento,Localidad,Nombre,Piso,Cod_tel,Teléfono,Mail,TipoLatitudLongitud,Fuente
1,70049060,70,70049,Bibliotecas Populares,San Juan,Iglesia,Rodeo,Biblioteca Popular Juan P. Garramuno,,s/d,s/d,s/d,Localización precisa,CONABIP
2,02000010,02,02000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Helena Larroque de Roffo,,11,45010078,asociacionroffo@yahoo.com.ar,Localización precisa,CONABIP
3,02000010,02,02000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular 12 de Octubre,,11,49880766,popular12deoctubre@hotmail.com,Localización precisa,CONABIP
4,02000010,02,02000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Villa Pueyrredón Norte,,11,45729107,bibliotecapueyrredon@hotmail.com,Localización precisa,CONABIP


In [12]:
#tabla con cantidad de registros totales por categoria
categoriesTable = uniqueTable.groupby(4).size()
categoriesTable.loc['Fecha de Carga'] = pd.to_datetime(date, format='%d:%m:%y', infer_datetime_format=True)
categoriesTable

4
Bibliotecas Populares                                2017
Categoría                                               2
Espacios de Exhibición Patrimonial                   1182
Salas de cine                                         329
categoria                                               1
Fecha de Carga                        2022-04-20 00:00:00
dtype: object

In [22]:
#tabla cantidad de registros totales por fuente
tablafuentes = pd.concat([dflibraries[21], dfcinemas[20], dfmuseums[20]])
tablafuentes.loc['Fecha de Carga'] = pd.to_datetime(date, format='%d:%m:%y', infer_datetime_format=True)
tablafuentes

0                                           Fuente
1                                          CONABIP
2                                          CONABIP
3                                          CONABIP
4                                          CONABIP
                                ...               
1179                                         DNPyM
1180                                         DNPyM
1181                                         DNPyM
1182              CNMLH - Ente Cultural de Tucumán
Fecha de Carga                 2022-04-20 00:00:00
Length: 3532, dtype: object

In [15]:
tabla_prov_cat = uniqueTable.groupby([6, 4]).size()
tabla_prov_cat.loc['Fecha de Carga'] = pd.to_datetime(date, format='%d:%m:%y', infer_datetime_format=True)
tabla_prov_cat


6                       4            
9 de Julio              Salas de cine                      1
Adolfo Alsina           Salas de cine                      1
Adolfo Gonzales Chaves  Salas de cine                      1
Almirante Brown         Salas de cine                      2
Atreuco                 Salas de cine                      1
                                                ...         
Yerba Buena             Salas de cine                      2
Zapala                  Salas de cine                      1
Zarate                  Salas de cine                      1
provincia               categoria                          1
Fecha de Carga                           2022-04-20 00:00:00
Length: 187, dtype: object

In [26]:
tabla_detalle_cines = dfcinemas.groupby([5,22,23,24]).size()
tabla_detalle_cines.loc['Fecha de Carga'] = pd.to_datetime(date, format='%d:%m:%y', infer_datetime_format=True)

In [28]:
#actualizar base de datos

categoriesTable.to_sql('tabla_categorias', con=engine, index=False, if_exists="replace")
tablafuentes.to_sql('tabla_fuentes', con=engine, index=False, if_exists="replace")
tabla_prov_cat.to_sql('tabla_prov_cat', con=engine, index=False, if_exists="replace")
tabla_detalle_cines.to_sql('tabla_detalle_cines', con=engine, index=False, if_exists="replace")

66