In [8]:
import requests
from datetime import datetime
from pathlib import Path
import pandas as pd

In [9]:
BASE_FILE_DIR = Path('/tmp')
ruta_final = '{categoria}/{anio}-{mes:02d}/{categoria}-{dia:02d}-{mes:02d}-{anio}.csv'

In [10]:
def crear_ruta(parent,nombre):
    now = datetime.now()
    ruta = ruta_final.format(categoria = nombre, anio = now.year, mes = now.month , dia= now.day)
    return parent / ruta

def crear_carpeta(ruta):
    m_path = BASE_FILE_DIR / ruta
    m_path.parent.mkdir(parents= True, exist_ok = True)
    
    
def leer_url(url,ruta):
    r = requests.get(url)
    r.encoding = 'utf-8'
    with open(ruta,'w') as f_out:
        f_out.write(r.text)

In [11]:
origen = [
    {
        'name' : 'museo',
        'url' : 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/4207def0-2ff7-41d5-9095-d42ae8207a5d/download/museo.csv'
    },
    {
        'name' : 'cines',
        'url' : 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/392ce1a8-ef11-4776-b280-6f1c7fae16ae/download/cine.csv'
    },
    {
        'name' :'bibliotecas_populares',
        'url' : 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/01c6c048-dbeb-44e0-8efa-6944f73715d7/download/biblioteca_popular.csv'
    },
]

## Columnas para definitivas

In [12]:
columns_def = ['cod_localidad',
               'id_provincia',
               'id_departamento',
               'categoria','provincia',
               'localidad',
               'nombre',
               'domicilio',
               'codigo postal',
               'numero de telefono',
                'mail',
               'web'
]

## Museos

In [13]:
museo = origen[0]

ruta_museo =crear_ruta(BASE_FILE_DIR, museo['name'])

crear_carpeta(ruta_museo)

leer_url(museo['url'],ruta_museo)

In [14]:
df_museos = pd.read_csv(ruta_museo,encoding='latin-1')

In [15]:
rename_columns = {
    'Cod_Loc' : 'cod_localidad',
    'IdProvincia' : 'id_provincia',
    'IdDepartamento' : 'id_departamento',
    'direccion' : 'domicilio',
    'CP' : 'codigo postal',
    'telefono' : 'numero de telefono',
    'Mail' : 'mail',
    'Web' : 'web',
    'fuente' : 'Fuente'
}


df_museos.rename(columns = rename_columns, inplace = True)
df_1 = df_museos[columns_def]

## Cines

In [16]:
cine = origen[1]

ruta_cine =crear_ruta(BASE_FILE_DIR, cine['name'])

crear_carpeta(ruta_cine)

leer_url(cine['url'],ruta_cine)

In [17]:
df_cines = pd.read_csv(ruta_cine,encoding='latin-1')

In [18]:
rename_columns = {
    'Cod_Loc' : 'cod_localidad',
    'IdProvincia' : 'id_provincia',
    'IdDepartamento' : 'id_departamento',
    'Provincia' : 'provincia',
    'Dirección' : 'domicilio',
    'Teléfono' : 'numero de telefono',
    'Nombre' : 'nombre',
    'CP' : 'codigo postal',
    'Categoría' : 'categoria',
    'Provincia' : 'provincia',
    'Localidad' : 'localidad',
    'Mail' : 'mail',
    'Web' : 'web'
}
df_cines.rename(columns = rename_columns, inplace = True)
df_2 = df_cines[columns_def]

## Bibliotecas

In [19]:
biblio = origen[2]

ruta_biblio =crear_ruta(BASE_FILE_DIR, biblio['name'])

crear_carpeta(ruta_biblio)

leer_url(biblio['url'],ruta_biblio)

In [20]:
df_biblio = pd.read_csv(ruta_biblio,encoding='latin-1')

In [21]:
rename_columns = {
    'Cod_Loc' : 'cod_localidad',
    'IdProvincia' : 'id_provincia',
    'IdDepartamento' : 'id_departamento',
    'Categoría' : 'categoria',
    'Provincia' : 'provincia',
    'Localidad' : 'localidad',
    'Nombre' : 'nombre',
    'Domicilio' : 'domicilio',
    'CP' : 'codigo postal',
    'Teléfono' : 'numero de telefono',
    'Mail' : 'mail',
    'Web' : 'web'
}

df_biblio.rename(columns = rename_columns, inplace = True)
df_3 = df_biblio[columns_def]

## Cantidad de registros totales por categoria

In [22]:
dfs = [df_1 , df_2, df_3]
df = pd.concat(dfs, axis =0)

In [23]:
df.groupby('categoria',as_index = False).size()

Unnamed: 0,categoria,size
0,Bibliotecas Populares,2017
1,Espacios de Exhibición Patrimonial,1182
2,Salas de cine,329


## Cantidad de registros  por provincia y categoria

In [24]:
df.groupby(['provincia','categoria'],as_index = False).size()

Unnamed: 0,provincia,categoria,size
0,Buenos Aires,Bibliotecas Populares,543
1,Buenos Aires,Espacios de Exhibición Patrimonial,152
2,Buenos Aires,Salas de cine,106
3,Catamarca,Bibliotecas Populares,38
4,Catamarca,Espacios de Exhibición Patrimonial,32
...,...,...,...
68,Tierra del Fuego,Salas de cine,3
69,"Tierra del Fuego, Antártida e Islas del Atlánt...",Espacios de Exhibición Patrimonial,14
70,Tucumán,Bibliotecas Populares,37
71,Tucumán,Espacios de Exhibición Patrimonial,26


## Cantidad de registros  por fuente

In [25]:
dfs = [df_cines , df_museos , df_biblio]

lista = []
for d in dfs:
    lista.append(d.groupby('Fuente', as_index = False).size())
    
df = pd.concat(lista, axis =0)

In [26]:
df

Unnamed: 0,Fuente,size
0,INCAA / SInCA,329
0,CNMLH - Enlace SInCA,1
1,CNMLH - Ente Cultural de Tucumán,1
2,DNPyM,1048
3,Dirección Provincial de Patrimonio Cultural - ...,1
4,Dirección de Cultura de Villa Allende,2
5,Dirección de Cultura y de Educación de la Muni...,1
6,Gobierno de la Provincia,14
7,Gobierno de la Provincia de Chubut / SInCA 2013,3
8,Gobierno de la Provincia de Jujuy,4


## Procesamiento para tabla de Cines

In [27]:
df_cines.groupby(['provincia'], as_index = False).count().loc[:,['provincia','Pantallas','Butacas','espacio_INCAA']]

Unnamed: 0,provincia,Pantallas,Butacas,espacio_INCAA
0,Buenos Aires,106,106,20
1,Catamarca,4,4,2
2,Chaco,4,4,1
3,Chubut,9,9,4
4,Ciudad Autónoma de Buenos Aires,35,35,3
5,Corrientes,8,8,1
6,Córdoba,35,35,2
7,Entre Ríos,13,13,2
8,Formosa,2,2,1
9,Jujuy,4,4,2
