In [44]:
import requests
from datetime import datetime
from pathlib import Path
import pandas as pd

In [45]:
BASE_FILE_DIR = Path('/tmp')
file_path_crib = '{category}/{year}-{month:02d}/{category}-{day:02d}-{month:02d}-{year}.csv'

In [65]:
def crear_ruta(parent,nombre):
    now = datetime.now()
    ruta = file_path_crib.format(category = nombre, year = now.year, month = now.month , day= now.day)
    return parent / ruta

def crear_carpeta(ruta):
    m_path = BASE_FILE_DIR / ruta
    m_path.parent.mkdir(parents= True, exist_ok = True)
    
    
def leer_url(url,ruta):
    r = requests.get(url)
    r.encoding = 'utf-8'
    with open(ruta,'w') as f_out:
        f_out.write(r.text)

In [48]:
origen = [
    {
        'name' : 'museo',
        'url' : 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/4207def0-2ff7-41d5-9095-d42ae8207a5d/download/museo.csv'
    },
    {
        'name' : 'cines',
        'url' : 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/392ce1a8-ef11-4776-b280-6f1c7fae16ae/download/cine.csv'
    },
    {
        'name' :'bibliotecas_populares',
        'url' : 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/01c6c048-dbeb-44e0-8efa-6944f73715d7/download/biblioteca_popular.csv'
    },
]

## Columnas para definitivas

In [49]:
columns_def = ['cod_localidad',
               'id_provincia',
               'id_departamento',
               'categoria','provincia',
               'localidad',
               'nombre',
               'domicilio',
               'codigo postal',
               'numero de telefono',
                'mail',
               'web'
]

## Museos

In [70]:
museo = origen[0]

ruta_museo =crear_ruta(BASE_FILE_DIR, museo['name'])

crear_carpeta(ruta_museo)

leer_url(museo['url'],ruta_museo)

In [9]:
df_museos = pd.read_csv(ruta_museo,encoding='latin-1')

In [10]:
rename_columns = {
    'Cod_Loc' : 'cod_localidad',
    'IdProvincia' : 'id_provincia',
    'IdDepartamento' : 'id_departamento',
    'direccion' : 'domicilio',
    'CP' : 'codigo postal',
    'telefono' : 'numero de telefono',
    'Mail' : 'mail',
    'Web' : 'web'
}


df_museos.rename(columns = rename_columns, inplace = True)
df_museos = df_museos[columns_def]

## Cines

In [11]:
category_dict = categories [1]

r = requests.get(category_dict['url'])

In [12]:
now = datetime.now()
file_path = file_path_crib.format(category = category_dict['name'], year = now.year, month = now.month , day= now.day)

m_path = BASE_FILE_DIR / file_path
m_path.parent.mkdir(parents= True, exist_ok = True)

r.encoding = 'utf-8'

with open(m_path,'w') as f_out:
    f_out.write(r.text)

In [13]:
df_cines = pd.read_csv(m_path,encoding='latin-1')
df_cines.rename(columns = rename_columns, inplace = True)

In [14]:
df_cines.columns

Index(['cod_localidad', 'id_provincia', 'id_departamento', 'Observaciones',
       'Categoría', 'Provincia', 'Departamento', 'Localidad', 'Nombre',
       'Dirección', 'Piso', 'codigo postal', 'cod_area', 'Teléfono', 'mail',
       'web', 'Información adicional', 'Latitud', 'Longitud',
       'TipoLatitudLongitud', 'Fuente', 'tipo_gestion', 'Pantallas', 'Butacas',
       'espacio_INCAA', 'año_actualizacion'],
      dtype='object')

In [18]:
rename_columns = {
    'cod_localidad' : 'cod_localidad',
    'id_provincia' : 'id_provincia',
    'id_departamento' : 'id_departamento',
    'provincia' : 'provincia',
    'Dirección' : 'domicilio',
    'Teléfono' : 'numero de telefono',
    'Nombre' : 'nombre',
    'Categoría' : 'categoria',
    'Provincia' : 'provincia',
    'Localidad' : 'localidad'
}
df_cines.rename(columns = rename_columns, inplace = True)
df_cines = df_cines[columns_def]

## Bibliotecas

In [19]:
category_dict = categories [2]

r = requests.get(category_dict['url'])

In [21]:
now = datetime.now()
file_path = file_path_crib.format(category = category_dict['name'], year = now.year, month = now.month , day= now.day)

m_path = BASE_FILE_DIR / file_path
m_path.parent.mkdir(parents= True, exist_ok = True)

r.encoding = 'utf-8'

with open(m_path,'w') as f_out:
    f_out.write(r.text)

In [22]:
df_biblio = pd.read_csv(m_path,encoding='latin-1')

In [23]:
rename_columns = {
    'Cod_Loc' : 'cod_localidad',
    'IdProvincia' : 'id_provincia',
    'IdDepartamento' : 'id_departamento',
    'Categoría' : 'categoria',
    'Provincia' : 'provincia',
    'Localidad' : 'localidad',
    'Nombre' : 'nombre',
    'Domicilio' : 'domicilio',
    'CP' : 'codigo postal',
    'Teléfono' : 'numero de telefono',
    'Mail' : 'mail',
    'Web' : 'web'
}

df_biblio.rename(columns = rename_columns, inplace = True)
df_biblio = df_biblio[columns_def]

## Cantidad de registros totales por categoria

In [25]:
dfs = {'a' : df_museos , 'b': df_cines, 'c' : df_biblio}
df = pd.concat(dfs, axis =0)

In [32]:
df.groupby('categoria',as_index = False).size()

Unnamed: 0,categoria,size
0,Bibliotecas Populares,2017
1,Espacios de Exhibición Patrimonial,1182
2,Salas de cine,329


## Cantidad de registros totales por provincia y categoria

In [34]:
df.groupby(['provincia','categoria'],as_index = False).size()

Unnamed: 0,provincia,categoria,size
0,Buenos Aires,Bibliotecas Populares,543
1,Buenos Aires,Espacios de Exhibición Patrimonial,152
2,Buenos Aires,Salas de cine,106
3,Catamarca,Bibliotecas Populares,38
4,Catamarca,Espacios de Exhibición Patrimonial,32
...,...,...,...
68,Tierra del Fuego,Salas de cine,3
69,"Tierra del Fuego, Antártida e Islas del Atlánt...",Espacios de Exhibición Patrimonial,14
70,Tucumán,Bibliotecas Populares,37
71,Tucumán,Espacios de Exhibición Patrimonial,26


In [38]:
df_cines = pd.read_csv(m_path,encoding='latin-1')

In [39]:
df_cines.columns

Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observacion', 'Categoría',
       'Subcategoria', 'Provincia', 'Departamento', 'Localidad', 'Nombre',
       'Domicilio', 'Piso', 'CP', 'Cod_tel', 'Teléfono', 'Mail', 'Web',
       'Información adicional', 'Latitud', 'Longitud', 'TipoLatitudLongitud',
       'Fuente', 'Tipo_gestion', 'año_inicio', 'Año_actualizacion'],
      dtype='object')

In [42]:
pd.options.display.max_columns = None
df_cines.head()

Unnamed: 0,Cod_Loc,IdProvincia,IdDepartamento,Observacion,Categoría,Subcategoria,Provincia,Departamento,Localidad,Nombre,Domicilio,Piso,CP,Cod_tel,Teléfono,Mail,Web,Información adicional,Latitud,Longitud,TipoLatitudLongitud,Fuente,Tipo_gestion,año_inicio,Año_actualizacion
0,70049060,70,70049,,Bibliotecas Populares,,San Juan,Iglesia,Rodeo,Biblioteca Popular Juan P. Garramuno,Santo Domingo,,5465,s/d,s/d,s/d,,,-30.20925,-69.130117,Localización precisa,CONABIP,Comunitaria,1930.0,2018
1,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Helena Larroque de Roffo,Simbrón 3058,,C1417EUD,11,45010078,asociacionroffo@yahoo.com.ar,,,-34.598461,-58.49469,Localización precisa,CONABIP,Comunitaria,1916.0,2018
2,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular 12 de Octubre,Calle Arengreen 1187,,C1405CYM,11,49880766,popular12deoctubre@hotmail.com,,,-34.613235,-58.448997,Localización precisa,CONABIP,Comunitaria,1910.0,2018
3,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Villa Pueyrredón Norte,Cockrane 2334,,C1419FMD,11,45729107,bibliotecapueyrredon@hotmail.com,,,-34.57589,-58.501591,Localización precisa,CONABIP,Comunitaria,1916.0,2018
4,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Alberdi,Acevedo 666,,C1414DJN,11,47753325,bibliotecapopularalberdi@yahoo.com.ar,,,-34.596157,-58.437668,Localización precisa,CONABIP,Comunitaria,1910.0,2018
