In [2]:
import pandas as pd
from get_data import get_csv
from process_data import total_data_processed, summary_tables_total, summary_tables_cinema
import os
from utils import fix_columns, path_file_cinema, path_file_library, path_file_museum


### Análisis de datos de las tres fuentes de archivos


Para realizar el challenge, en primer lugar se analizó la información obtenida y cómo debía transformarse para así definir los bloques de código que iban a componer cada módulo. Este notebook es una breve visualización de las transformaciones ejecutadas

Verificamos que existan los archivos, sino extraemos los archivos del día de hoy

In [26]:
files = [path_file_cinema, path_file_library, path_file_museum]
for file in files:
    if not os.path.exists(file):
        print(f'No se encontró el archivo en {file}')
    else:
        print(f'Se encontró el archivo en {file}')

Se encontró el archivo en categorias/salas-de-cine/2022-febrero/salas-de-cine-26-02-2022.csv
Se encontró el archivo en categorias/bibliotecas-populares/2022-febrero/bibliotecas-populares-26-02-2022.csv
Se encontró el archivo en categorias/museos/2022-febrero/museos-26-02-2022.csv


In [None]:
# Extracción de archivos
# get_csv()

In [27]:
# print(path_file_cinema)
# print(path_file_library)
# print(path_file_museum)

Procedemos a leer los archivos y aplicar la estandarización de las columnas

In [3]:
cines = pd.read_csv(path_file_cinema, encoding='utf-8')
bibliotecas = pd.read_csv(path_file_library, encoding='utf-8')
museos = pd.read_csv(path_file_museum, encoding='utf-8')

cines = fix_columns(cines)
bibliotecas = fix_columns(bibliotecas)
museos = fix_columns(museos)

In [4]:
cines.head(3)

Unnamed: 0,cod_loc,idprovincia,iddepartamento,observaciones,categoria,provincia,departamento,localidad,nombre,direccion,...,informacion_adicional,latitud,longitud,tipolatitudlongitud,fuente,tipo_gestion,pantallas,butacas,espacio_incaa,anio_actualizacion
0,10049030,10,10049,,Salas de cine,Catamarca,Capital,Catamarca,Cinemacenter,Intendente Mamerto Medina 220,...,,-28.464737,-65.800675,Localización precisa,INCAA / SInCA,Privado comercial,5,743,,2018
1,10091150,10,10091,,Salas de cine,Catamarca,Santa Maria,Santa María,Centro Cultural San Agustín,San Martin 173,...,,-26.693859,-66.049058,Localización precisa,INCAA / SInCA,Privado comercial,1,440,0.0,2018
2,22140060,22,22140,,Salas de cine,Chaco,San Fernando,Resistencia,Los Cines De La Costa,Av. Sarmiento 2600,...,,-27.430995,-58.962672,Localización precisa,INCAA / SInCA,Privado comercial,5,820,,2018


In [5]:
bibliotecas.head(3)

Unnamed: 0,cod_loc,idprovincia,iddepartamento,observacion,categoria,subcategoria,provincia,departamento,localidad,nombre,...,mail,web,informacion_adicional,latitud,longitud,tipolatitudlongitud,fuente,tipo_gestion,anio_inicio,anio_actualizacion
0,70049060,70,70049,,Bibliotecas Populares,,San Juan,Iglesia,Rodeo,Biblioteca Popular Juan P. Garramuno,...,s/d,,,-30.20925,-69.130117,Localización precisa,CONABIP,Comunitaria,1930.0,2018
1,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Helena Larroque de Roffo,...,asociacionroffo@yahoo.com.ar,,,-34.598461,-58.49469,Localización precisa,CONABIP,Comunitaria,1916.0,2018
2,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular 12 de Octubre,...,popular12deoctubre@hotmail.com,,,-34.613235,-58.448997,Localización precisa,CONABIP,Comunitaria,1910.0,2018


In [6]:
museos.head(3)

Unnamed: 0,cod_loc,idprovincia,iddepartamento,observaciones,categoria,subcategoria,provincia,localidad,nombre,direccion,...,mail,web,latitud,longitud,tipolatitudlongitud,info_adicional,fuente,jurisdiccion,anio_inauguracion,idsinca
0,6588100,6,6588,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,...,archivoymuseo@yahoo.com.ar,www.portaldel9.com.ar,-35.441762,-60.887598,Localización precisa,,DNPyM,Municipal,1920.0,300003
1,6077010,6,6077,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,...,museoarrecifes@hotmail.com,,-34.06697,-60.102555,Localización precisa,,DNPyM,Municipal,1972.0,300037
2,6035010,6,6035,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Avellaneda,Museo Histórico-Sacro Hno. Rogelio Scortegagna,Calle 11 (Av. San Martín) Nº 830,...,,,-29.118024,-59.654543,Localización precisa,,DNPyM,Municipal,,300041


Se analizan los distintos tipos de columnas y variaciones de nombres de ellas, ya que necesitaremos estandarizar la información para cumplir con los requerimientos solicitados:  
  
*Normalizar toda la información de Museos, Salas de Cine y Bibliotecas Populares para crear una única tabla que contenga:*  
- cod_localidad  
- id_provincia  
- id_departamento  
- categoría  
- provincia  
- localidad  
- nombre  
- domicilio  
- código postal  
- número de teléfono  
- mail  
- web  


In [7]:
# list(cines.columns)
# list(bibliotecas.columns)
# list(museos.columns)

In [8]:
df_total = total_data_processed()
df_total.head(3)

Unnamed: 0,cod_loc,idprovincia,iddepartamento,categoria,provincia,localidad,nombre,direccion,cp,telefono,mail,fuente,web
0,6588100,6,6588,Espacios de Exhibición Patrimonial,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,B6500EVL,425 279,archivoymuseo@yahoo.com.ar,DNPyM,www.portaldel9.com.ar
1,6077010,6,6077,Espacios de Exhibición Patrimonial,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,B2740FMJ,452 931,museoarrecifes@hotmail.com,DNPyM,
2,6035010,6,6035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Histórico-Sacro Hno. Rogelio Scortegagna,Calle 11 (Av. San Martín) Nº 830,S3561AKT,481 200,,DNPyM,


Procesar los datos conjuntos para poder generar una tabla con la siguiente
información:  
  
- Cantidad de registros totales por categoría  
- Cantidad de registros totales por fuente  
- Cantidad de registros por provincia y categoría  

In [11]:
summary_tables_total_table = summary_tables_total(df_total)
summary_tables_total_table.head(3)

Unnamed: 0,tipo_agrupacion,descripcion,total
0,Fuente,CNMLH - Enlace SInCA,1
1,Fuente,CNMLH - Ente Cultural de Tucumán,1
2,Fuente,CONABIP,2010


In [15]:
# list(summary_tables_total_table.tipo_agrupacion.unique())
# list(summary_tables_total_table.descripcion.unique())

Procesar la información de cines para poder crear una tabla que contenga:  
  
- Provincia  
- Cantidad de pantallas  
- Cantidad de butacas  
- Cantidad de espacios INCAA  

In [17]:
summary_tables_cinema_table = summary_tables_cinema()
summary_tables_cinema_table.head(3)

Unnamed: 0,provincia,butacas,espacio_incaa,pantallas
0,Buenos Aires,93112,20,358
1,Catamarca,3200,1,12
2,Chaco,2469,1,14


In [19]:
# list(summary_tables_cinema_table.provincia.unique())

In [20]:
# list(df_total.columns)
# list(summary_tables_total_table.columns)
# list(summary_tables_cinema_table.columns)