In [20]:
import requests
from datetime import datetime
from pathlib import Path
import pandas as pd

BASE_FILE_PATH = Path('/tmp')
# 'museos/2021-noviembre/museos-03-11-2021' 
file_path_crib = '{category}/{year}-{month:02d}/{category}-{day:02d}-{month:02d}-{year}.csv'

In [21]:
categories = [
    {
        'name': 'museo',
        'url': 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/4207def0-2ff7-41d5-9095-d42ae8207a5d/download/museos_datosabiertos.csv'
    },
    {
        'name': 'biblios',
        'url': 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/01c6c048-dbeb-44e0-8efa-6944f73715d7/download/biblioteca_popular.csv'
    }
]

# Museos

In [22]:
category_dict = categories[0]
r = requests.get(category_dict['url'])
r.encoding = 'utf-8'

## Extract

In [23]:
now = datetime.now()
file_path = file_path_crib.format(category=category_dict['name'], year=now.year, month=now.month, day = now.day)

museo_path = BASE_FILE_PATH / file_path
# If there's no parent directory, this will throw FileNotFoundError.
museo_path.parent.mkdir(parents=True, exist_ok=True)

# Save file
with open(museo_path, 'w') as f_out:
    f_out.write(r.text)

## Transform

In [24]:
df = pd.read_csv(museo_path)
df.head(2)

Unnamed: 0,Cod_Loc,IdProvincia,IdDepartamento,Observaciones,categoria,subcategoria,provincia,localidad,nombre,direccion,...,Mail,Web,Latitud,Longitud,TipoLatitudLongitud,Info_adicional,fuente,jurisdiccion,año_inauguracion,actualizacion
0,6588100,6,6588,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,...,archivoymuseo@yahoo.com.ar,www.portaldel9.com.ar,-35.441762,-60.887598,Localización precisa,,DNPyM,Municipal,1920.0,2017
1,6077010,6,6077,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,...,museoarrecifes@hotmail.com,,-34.06697,-60.102555,Localización precisa,,DNPyM,Municipal,1972.0,2017


In [25]:
df.columns

Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observaciones',
       'categoria', 'subcategoria', 'provincia', 'localidad', 'nombre',
       'direccion', 'piso', 'CP', 'cod_area', 'telefono', 'Mail', 'Web',
       'Latitud', 'Longitud', 'TipoLatitudLongitud', 'Info_adicional',
       'fuente', 'jurisdiccion', 'año_inauguracion', 'actualizacion'],
      dtype='object')

In [26]:
# Map the columns as the statement says
renamed_columns = {
    "Cod_Loc": "cod_localidad",
    "IdProvincia": "id_provincia",
    "IdDepartamento": "id_departamento",
    "categoria": "categoría",
    "direccion": "domicilio",
    "CP": "código postal",
    "telefono": "número de teléfono",
    "Mail": "mail",
    "Web": "web",
}

df = df.rename(columns = renamed_columns)

museos_columns = [
    "cod_localidad",
    "id_provincia",
    "id_departamento",
    "categoría",
    "domicilio",
    "código postal",
    "número de teléfono",
    "mail",
    "web",
]

# Taking only the necessary columns
df_museos = df[museos_columns]

# Bibliotecas

In [27]:
category_dict = categories[1]
r = requests.get(category_dict['url'])
r.encoding = 'utf-8'

## Extract

In [28]:
now = datetime.now()
file_path = file_path_crib.format(category=category_dict['name'], year=now.year, month=now.month, day = now.day)

biblio_path = BASE_FILE_PATH / file_path
# If there's no parent directory, this will throw FileNotFoundError.
biblio_path.parent.mkdir(parents=True, exist_ok=True)

# Save file
with open(biblio_path, 'w') as f_out:
    f_out.write(r.text)

## Transform

In [29]:
df = pd.read_csv(biblio_path)
df.head(2)

Unnamed: 0,Cod_Loc,IdProvincia,IdDepartamento,Observacion,Categoría,Subcategoria,Provincia,Departamento,Localidad,Nombre,...,Mail,Web,Información adicional,Latitud,Longitud,TipoLatitudLongitud,Fuente,Tipo_gestion,año_inicio,Año_actualizacion
0,70049060,70,70049,,Bibliotecas Populares,,San Juan,Iglesia,Rodeo,Biblioteca Popular Juan P. Garramuno,...,s/d,,,-30.20925,-69.130117,Localización precisa,CONABIP,Comunitaria,1930.0,2018
1,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Helena Larroque de Roffo,...,asociacionroffo@yahoo.com.ar,,,-34.598461,-58.49469,Localización precisa,CONABIP,Comunitaria,1916.0,2018


In [30]:
df.columns

Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observacion', 'Categoría',
       'Subcategoria', 'Provincia', 'Departamento', 'Localidad', 'Nombre',
       'Domicilio', 'Piso', 'CP', 'Cod_tel', 'Teléfono', 'Mail', 'Web',
       'Información adicional', 'Latitud', 'Longitud', 'TipoLatitudLongitud',
       'Fuente', 'Tipo_gestion', 'año_inicio', 'Año_actualizacion'],
      dtype='object')

In [33]:
 # Map the columns as the statement says
renamed_columns = {
    "Cod_Loc": "cod_localidad",
    "IdProvincia": "id_provincia",
    "IdDepartamento": "id_departamento",
    'Provincia': 'provincia',
    "Categoría": "categoría",
    "Domicilio": "domicilio",
    "CP": "código postal",
    "Localidad": "localidad",
    "Nombre": "nombre",
    'Domicilio': "domicilio",
    "Teléfono": "número de teléfono",
    "Mail": "mail",
    "Web": "web",
}

df = df.rename(columns = renamed_columns)

biblios_columns = [
    "cod_localidad",
    "id_provincia",
    "id_departamento",
    "categoría",
    "provincia",
    "localidad",
    "nombre",
    "domicilio",
    "código postal",
    "número de teléfono",
    "mail",
    "web",
]

# Taking only the necessary columns
df_biblios = df[biblios_columns]

In [39]:
# Checking if there's any NULL in the column "id_departamento"
df_biblios["id_departamento"].isna().unique()

array([False])

In [42]:
# Generating dict with all the dfs

df_dict = {"museos": df_museos,"biblios": df_biblios}
joined_df = pd.concat(df_dict, axis=0)
joined_df.dtypes

cod_localidad          int64
id_provincia           int64
id_departamento        int64
categoría             object
domicilio             object
código postal         object
número de teléfono    object
mail                  object
web                   object
provincia             object
localidad             object
nombre                object
dtype: object

In [44]:
# Count by category (as_index=False is effectively “SQL-style” grouped output.)
joined_df.groupby('categoría', as_index=False).size()

Unnamed: 0,categoría,size
0,Bibliotecas Populares,2017
1,Espacios de Exhibición Patrimonial,1182


In [47]:
# Count by source
sources_list = list()
for name, df in df_dict.items():
    sources_list.append({'source': name, 'count': df.size})

pd.DataFrame(sources_list)

Unnamed: 0,source,count
0,museos,10638
1,biblios,24204


In [45]:
# Count by provincia and category
joined_df.groupby(['categoría', 'provincia'], as_index=False).size()

Unnamed: 0,categoría,provincia,size
0,Bibliotecas Populares,Buenos Aires,543
1,Bibliotecas Populares,Catamarca,38
2,Bibliotecas Populares,Chaco,70
3,Bibliotecas Populares,Chubut,48
4,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,43
5,Bibliotecas Populares,Corrientes,58
6,Bibliotecas Populares,Córdoba,185
7,Bibliotecas Populares,Entre Ríos,58
8,Bibliotecas Populares,Formosa,25
9,Bibliotecas Populares,Jujuy,40
