# Importamos las librerias necesarias.

In [17]:
import requests
import os
import pandas as pd
from datetime import datetime
import logging
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base
from decouple import Config


# Utilizo logging para que en la carpeta app.log nos notifique las excepciones.

In [2]:
logging.basicConfig(
    filename="app.log",
    level=logging.DEBUG,
    format="%(asctime)s:%(levelname)s:%(message)s"
    )

# Almaceno es variables las url para facilitar la manipulacion.

In [3]:
url_biblio = 'https://datos.cultura.gob.ar/dataset/' \
             '37305de4-3cce-4d4b-9d9a-fec3ca61d09f/' \
             'resource/01c6c048-dbeb-44e0-8efa-6944f73715d7/download/' \
             'biblioteca_popular.csv'
url_museos = 'https://datos.cultura.gob.ar/dataset/' \
             '37305de4-3cce-4d4b-9d9a-fec3ca61d09f/' \
             'resource/4207def0-2ff7-41d5-9095-d42ae8207a5d/' \
             'download/museos.csv'
url_cines = 'https://datos.cultura.gob.ar/dataset/' \
            '37305de4-3cce-4d4b-9d9a-fec3ca61d09f/' \
            'resource/392ce1a8-ef11-4776-b280-6f1c7fae16ae/download/cine.csv'

# Variables de dia, anio, mes: separadas y juntas con datetime.

In [4]:
day = datetime.today().strftime('%d')
year = datetime.today().strftime('%Y')
month = datetime.today().strftime('%B')
date = datetime.now().strftime("%d:%m:%y")
date

'07:01:22'

# Creo los directorios especificados.

In [5]:
try:
    os.makedirs(f'museos/{year}-{month}', exist_ok=True)
    os.makedirs(f'cines/{year}-{month}', exist_ok=True)
    os.makedirs(f'bibliotecas/{year}-{month}', exist_ok=True)
    logging.debug('Las carpetas se crearon correctamente')
except Exception as e:
    logging.exception(f'Ocurrio una excepcion {e}')

# Descargo los CSV y reemplazo en caso de que ya exista.

In [6]:
try:
    if os.path.isfile(f'museos-{day}-{month}-{year}.csv') is True:
        os.remove(f'museos-{day}-{month}-{year}.csv')

    if os.path.isfile(f'cines-{day}-{month}-{year}.csv') is True:
        os.remove(f'cines-{day}-{month}-{year}.csv')

    if os.path.isfile(f'bibliotecas-{day}-{month}-{year}.csv') is True:
        os.remove(f'bibliotecas-{day}-{month}-{year}.csv')
    logging.debug('no hay carpetas coincidentes')
except Exception as e:
    logging.exception(f'Ocurrio una excepcion {e}')

In [7]:
try:
    r_museos = requests.get(url_museos)

    open(f'museos/{year}-{month}/ museos-{day}-{month}-{year}.csv'
         'wb').write(r_museos.content)

    r_cines = requests.get(url_cines)
    open(f'cines/{year}-{month}/ cines-{day}-{month}-{year}.csv'
         'wb').write(r_cines.content)

    r_biblio = requests.get(url_biblio)
    open(f'bibliotecas/{year}-{month}/ bibliotecas-{day}-{month}-{year}.csv'
         'wb').write(r_biblio.content)
    logging.debug('Los dataset se descargaron correctamente')
except Exception as e:
    logging.exception(f'Ocurrio una excepcion {e}')

# Conexion a la base de datos postgreSQL.

In [18]:
postgres = {'DB_USER':Config('DB_USER'),
              'BD_PASSWORD':Config('BD_PASSWORD'),
              'BD_HOST':Config('BD_HOST'),
              'DB_PORT ':Config('BD_PORT'),
              'DB_NAME':Config('DB_NAME')
             }

In [38]:
try:
    engine = create_engine('postgresql://postgres:11235@localhost:5432/ALKEMY')
    logging.debug("Conectado a la base de datos PostgreSQL!")
except IOError:
    logging.exception("Error al tratar de conectarse a la base de datos!")

In [50]:
SessionLocal = sessionmaker(autocommit=False, autoflush=False, blind=engine)
Base = declarative_base()


# Lectura y Normalizacion de los dataset: museos, salas de cine y biliotecas.

In [32]:
museos_df = pd.read_csv(r'.\museos\2022-January\ museos-06-January-2022.csv', encoding='latin-1')
museos = museos_df.drop(columns=['espacio_cultural_id', 'observaciones', 'codigo_indicativo_telefono',
                                 'latitud', 'longitud',
                                 'fuente', 'juridisccion', 'anio_de_creacion', 'descripcion_de_patrimonio',
                                 'anio_de_inauguracion'])

museos.columns = ['id_provincia', 'cod_localidad', 'provincia', 'localidad', 'nombre',
                  'domicilio', 'codigo postal', 'numero de telefono', 'mail', 'web']

In [33]:
cines_df = pd.read_csv(r'.\cines\2022-January\ cines-06-January-2022.csv', encoding='utf-8')

cines = cines_df.drop(columns=['Observaciones', 'Departamento', 'Piso', 'cod_area',
                               'Información adicional', 'Latitud', 'Longitud',
                               'TipoLatitudLongitud', 'Fuente', 'tipo_gestion', 'Pantallas',
                               'Butacas', 'espacio_INCAA', 'año_actualizacion'])
cines.columns = ['cod_localidad', 'id_provincia', 'id_departamento', 'categoría',
                 'provincia', 'localidad', 'nombre', 'domicilio', 'codigo postal',
                 'numero de telefono', 'mail', 'web']

In [23]:
biblio_df = pd.read_csv(r'.\bibliotecas\2022-January\ bibliotecas-06-January-2022.csv', encoding='utf-8')
bibliotecas = biblio_df.drop(columns=['Observacion', 'Subcategoria', 'Departamento', 'Piso', 'Cod_tel',
                                      'Información adicional', 'Latitud', 'Longitud',
                                      'TipoLatitudLongitud', 'Fuente', 'Tipo_gestion', 'año_inicio',
                                      'Año_actualizacion'])

bibliotecas.columns = ['cod_localidad', 'id_provincia', 'id_departamento', 'categoría',
                       'provincia', 'localidad', 'nombre', 'domicilio', 'codigo postal',
                       'numero de telefono', 'mail', 'web']


# Creacion de una sola tabla que contiene bibliotecas, cines y museos unificados


In [24]:
tablas_concat = pd.concat([bibliotecas, museos, cines], axis=0)
tablas_concat.head()

Unnamed: 0,cod_localidad,id_provincia,id_departamento,categoría,provincia,localidad,nombre,domicilio,codigo postal,numero de telefono,mail,web
0,70049060,70,70049.0,Bibliotecas Populares,San Juan,Rodeo,Biblioteca Popular Juan P. Garramuno,Santo Domingo,5465,s/d,s/d,
1,2000010,2,2000.0,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Helena Larroque de Roffo,Simbrón 3058,C1417EUD,45010078,asociacionroffo@yahoo.com.ar,
2,2000010,2,2000.0,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular 12 de Octubre,Calle Arengreen 1187,C1405CYM,49880766,popular12deoctubre@hotmail.com,
3,2000010,2,2000.0,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Villa Pueyrredón Norte,Cockrane 2334,C1419FMD,45729107,bibliotecapueyrredon@hotmail.com,
4,2000010,2,2000.0,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Alberdi,Acevedo 666,C1414DJN,47753325,bibliotecapopularalberdi@yahoo.com.ar,


# Proceso de los datos conjuntos para poder generar una tabla con Cantidad de registros totales por categoría.

In [25]:
reg_cat = tablas_concat.groupby('categoría').size()
reg_cat.loc['Fecha de Carga'] = pd.to_datetime(date, format='%d:%m:%y', infer_datetime_format=True)
reg_cat

categoría
Bibliotecas Populares                   2017
Salas de cine                            329
Fecha de Carga           2022-01-07 00:00:00
dtype: object

# Proceso de los datos conjuntos para poder generar una tabla con Cantidad de registros totales de fuentes.

In [26]:
reg_fuentes = pd.concat([biblio_df['Fuente'], cines_df['Fuente'], museos_df['fuente']])
reg_fuentes.loc['Fecha de Carga'] = pd.to_datetime(date, format='%d:%m:%y', infer_datetime_format=True)
reg_fuentes

0                             CONABIP
1                             CONABIP
2                             CONABIP
3                             CONABIP
4                             CONABIP
                         ...         
1044                            DNPyM
1045                            DNPyM
1046                            DNPyM
1047                            DNPyM
Fecha de Carga    2022-01-07 00:00:00
Length: 3395, dtype: object

# Proceso de los datos conjuntos para poder generar
# una tabla con Cantidad de registros totales por 
# provincia y categoría.

In [27]:
reg_prov_cat = tablas_concat.groupby(['provincia', 'categoría']).size()
reg_prov_cat.loc['Fecha de Carga'] = pd.to_datetime(date, format='%d:%m:%y', infer_datetime_format=True)
reg_prov_cat

provincia                        categoría            
Buenos Aires                     Bibliotecas Populares                    543
                                 Salas de cine                            106
Catamarca                        Bibliotecas Populares                     38
                                 Salas de cine                              4
Chaco                            Bibliotecas Populares                     70
                                 Salas de cine                              4
Chubut                           Bibliotecas Populares                     48
                                 Salas de cine                              9
Ciudad Autónoma de Buenos Aires  Bibliotecas Populares                     43
                                 Salas de cine                             35
Corrientes                       Bibliotecas Populares                     58
                                 Salas de cine                              8
Córdoba  

# Procesamiento De la informacion de Cines 
# creando una tabla nueva que contiene: 
# provincia, pantallas, butacas y espacios INCAA.

In [28]:
info_cines = cines_df.groupby(['Provincia', 'Pantallas', 'Butacas', 'espacio_INCAA']).size()
info_cines.loc['Fecha de Carga'] = pd.to_datetime(date, format='%d:%m:%y', infer_datetime_format=True)

# Convierto las tablas en .sql para alojarlas en la base de datos.

In [52]:
reg_cat.to_sql('reg_cat', con=engine, index=False, if_exists="replace")
reg_prov_cat.to_sql('reg_prov_cat', con=engine, index=False, if_exists="replace")
reg_fuentes.to_sql('reg_fuentes', con=engine, index=False, if_exists="replace")
info_cines.to_sql('info_cines', con=engine, index=False, if_exists="replace")