In [2]:
import requests
from datetime import datetime
from pathlib import Path
import pandas as pd

BASE_FILE_DIR = Path('/tmp')

# Utilizacion de placeholders para llenar con la fecha actual
file_path_crib = '{category}/{year}-{month:02d}/{category}-{day:02d}-{month:02d}-{year}.csv'

In [3]:
categories=[
    {
        'name' : 'museo',
        'url' : 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/4207def0-2ff7-41d5-9095-d42ae8207a5d/download/museos_datosabiertos.csv'
    },
    {
        'name' : 'cines',
        'url' : 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/f7a8edb8-9208-41b0-8f19-d72811dcea97/download/salas_cine.csv'
    },
    {
        'name' : 'bibliotecas_populares',
        'url' : 'https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/01c6c048-dbeb-44e0-8efa-6944f73715d7/download/11_bibliotecapopular-datos-abiertos.csv'
    }
]

### Museos

In [4]:
category_dict = categories[0]
r = requests.get(category_dict['url'])
r.encoding = 'utf-8'

In [5]:
now = datetime.now()

file_path = file_path_crib.format(category=category_dict['name'], year=now.year, month=now.month, day=now.day) #->'museo/2024-01/museo-04-01-2024.csv'


m_path = BASE_FILE_DIR / file_path # --> m_path = /tmp/museo/2024-01/museo-04-01-2024.csv

# Esto asegura que el directorio en el que se guardará el archivo exista antes de intentar escribir el archivo en esa ubicación.
m_path.parent.mkdir(parents=True, exist_ok=True)

## Guardo el archivo
with open(m_path, 'w') as f_out:
    f_out.write(r.text)

### Transform

In [6]:
df = pd.read_csv(m_path)

In [7]:
df.head()

Unnamed: 0,Cod_Loc,IdProvincia,IdDepartamento,Observaciones,categoria,subcategoria,provincia,localidad,nombre,direccion,...,Mail,Web,Latitud,Longitud,TipoLatitudLongitud,Info_adicional,fuente,jurisdiccion,año_inauguracion,actualizacion
0,6588100,6,6588,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,...,archivoymuseo@yahoo.com.ar,www.portaldel9.com.ar,-35.441762,-60.887598,Localización precisa,,DNPyM,Municipal,1920.0,2017
1,6077010,6,6077,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,...,museoarrecifes@hotmail.com,,-34.06697,-60.102555,Localización precisa,,DNPyM,Municipal,1972.0,2017
2,6035010,6,6035,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Avellaneda,Museo Histórico-Sacro Hno. Rogelio Scortegagna,Calle 11 (Av. San Martín) Nº 830,...,,,-29.118024,-59.654543,Localización precisa,,DNPyM,Municipal,,2017
3,6035010,6,6035,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Avellaneda,Museo Municipal De Artes Plásticas De Avellaneda,"Sarmiento 101, 1 º Piso",...,,,-34.66211,-58.36327,Localización precisa,,DNPyM,Municipal,1956.0,2017
4,6049020,6,6049,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Azul,Museo Etnográfico Y Archivo Histórico Enrique ...,Bartolomé J. Ronco 654,...,museoazul@yahoo.com,,-36.781824,-59.858636,Localización precisa,,DNPyM,Privada,1949.0,2017


In [8]:
df.columns

Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observaciones',
       'categoria', 'subcategoria', 'provincia', 'localidad', 'nombre',
       'direccion', 'piso', 'CP', 'cod_area', 'telefono', 'Mail', 'Web',
       'Latitud', 'Longitud', 'TipoLatitudLongitud', 'Info_adicional',
       'fuente', 'jurisdiccion', 'año_inauguracion', 'actualizacion'],
      dtype='object')

In [9]:
renamed_cols = {
    'Cod_Loc' : 'cod_localidad',
    'IdProvincia' : 'id_provincia',
    'IdDepartamento' : 'id_departamento',
    'direccion' : 'domicilio',
    'CP' : 'codigo postal',
    'telefono' : 'numero de telefono',
    'Mail' : 'mail',
    'Web' : 'web'
}

df = df.rename(columns = renamed_cols)

column_list = [
    'cod_localidad',
    'id_provincia',
    'id_departamento',
    'categoria',
    'provincia',
    'localidad',
    'nombre',
    'domicilio',
    'codigo postal',
    'numero de telefono',
    'mail',
    'web'
]

df_m= df[column_list]

df_m.head()

Unnamed: 0,cod_localidad,id_provincia,id_departamento,categoria,provincia,localidad,nombre,domicilio,codigo postal,numero de telefono,mail,web
0,6588100,6,6588,Espacios de Exhibición Patrimonial,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,B6500EVL,425 279,archivoymuseo@yahoo.com.ar,www.portaldel9.com.ar
1,6077010,6,6077,Espacios de Exhibición Patrimonial,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,B2740FMJ,452 931,museoarrecifes@hotmail.com,
2,6035010,6,6035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Histórico-Sacro Hno. Rogelio Scortegagna,Calle 11 (Av. San Martín) Nº 830,S3561AKT,481 200,,
3,6035010,6,6035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Municipal De Artes Plásticas De Avellaneda,"Sarmiento 101, 1 º Piso",B1870CBC,4205 9567,,
4,6049020,6,6049,Espacios de Exhibición Patrimonial,Buenos Aires,Azul,Museo Etnográfico Y Archivo Histórico Enrique ...,Bartolomé J. Ronco 654,B7300XAA,434 811,museoazul@yahoo.com,


### Cines

In [55]:
category_dict = categories[1]
r = requests.get(category_dict['url'])
r.encoding = 'utf-8'

In [56]:
now = datetime.now()

file_path = file_path_crib.format(category=category_dict['name'], year=now.year, month=now.month, day=now.day)

m_path = BASE_FILE_DIR / file_path
m_path.parent.mkdir(parents=True, exist_ok=True)

## Save file
with open(m_path, 'w') as f_out:
    f_out.write(r.text)

### Transform

In [57]:
df = pd.read_csv(m_path)
df.head()

Unnamed: 0,cod_localidad,id_provincia,id_departamento,categoria,provincia,departamento,localidad,nombre,direccion,piso,...,latitud,longitud,tipo_latitud_longitud,fuente,sector,pantallas,butacas,tipo_de_gestion,espacio_incaa,año_actualizacion
0,6854100,6,6854,Salas de cine,Buenos Aires,25 de mayo,25 de mayo,Cine Teatro Español,Calle 9 entre 29 Y 30,,...,-35.430488,-60.170686,Precisa,INCAA / SInCA,Cine,1,500,Pública,No,2022
1,6826040,6,6826,Salas de cine,Buenos Aires,Trenque Lauquen,30 de agosto,Cine Santa Rosa De Lima,Santa Rosa De Lima 170,,...,-36.278508,-62.544355,Precisa,INCAA / SInCA,Cine,1,410,Pública,No,2022
2,6588100,6,6588,Salas de cine,Buenos Aires,9 de julio,9 de julio,Tu Cine 9 de Julio,Robbio 840,,...,-35.446265,-60.885789,Precisa,INCAA / SInCA,Cine,1,165,Privada,No,2022
3,6028010,6,6028,Salas de cine,Buenos Aires,Almirante Brown,Adrogué,Cinema Adrogue,Hipolito Yrigoyen 13200,,...,-34.80811,-58.4024,Precisa,INCAA / SInCA,Cine,10,2505,Privada,No,2022
4,6028010,6,6028,Salas de cine,Buenos Aires,Almirante Brown,Adrogué,CPM Paseo Adrogue,Segui 699,,...,-34.800097,-58.396753,Precisa,INCAA / SInCA,Cine,4,710,Privada,No,2022


In [58]:
# df.groupby('provincia', as_index=False).count()[['provincia','pantallas','butacas','espacio_incaa']]

df_pantalla_butaca = df.groupby('provincia', as_index=False).sum()[['provincia','pantallas','butacas']]
df_pantalla_butaca

Unnamed: 0,provincia,pantallas,butacas
0,Buenos Aires,362,92818
1,Catamarca,10,1657
2,Chaco,13,2302
3,Chubut,9,2602
4,Ciudad Autónoma de Buenos Aires,150,27940
5,Corrientes,16,3170
6,Córdoba,110,22334
7,Entre Ríos,14,3842
8,Formosa,3,619
9,Jujuy,5,2277


In [59]:
#cantidad de espacios incaa por provincia
df_incaa = df[df['espacio_incaa'] == 'Si'].groupby('provincia', as_index=False).count()[['provincia', 'espacio_incaa']]
df_incaa

Unnamed: 0,provincia,espacio_incaa
0,Buenos Aires,18
1,Chubut,3
2,Ciudad Autónoma de Buenos Aires,1
3,Córdoba,2
4,Entre Ríos,1
5,Jujuy,2
6,La Pampa,2
7,La Rioja,1
8,Mendoza,2
9,Misiones,1


In [61]:
# union cantidad de pantallas, butacas y espacios incaa por provincia
df_insights = pd.merge(df_pantalla_butaca, df_incaa, on='provincia', how='right').fillna(0)
#df_insights = df_insights.fillna(0) #.astype(int)
df_insights

Unnamed: 0,provincia,pantallas,butacas,espacio_incaa
0,Buenos Aires,362,92818,18
1,Chubut,9,2602,3
2,Ciudad Autónoma de Buenos Aires,150,27940,1
3,Córdoba,110,22334,2
4,Entre Ríos,14,3842,1
5,Jujuy,5,2277,2
6,La Pampa,5,1957,2
7,La Rioja,11,1762,1
8,Mendoza,48,10791,2
9,Misiones,8,1617,1


In [24]:
df_insights.dtypes

provincia        object
pantallas         int64
butacas           int64
espacio_incaa     int64
dtype: object

In [16]:
df.columns

Index(['cod_localidad', 'id_provincia', 'id_departamento', 'categoria',
       'provincia', 'departamento', 'localidad', 'nombre', 'direccion', 'piso',
       'cp', 'web', 'latitud', 'longitud', 'tipo_latitud_longitud', 'fuente',
       'sector', 'pantallas', 'butacas', 'tipo_de_gestion', 'espacio_incaa',
       'año_actualizacion'],
      dtype='object')

In [17]:
df.dtypes

cod_localidad              int64
id_provincia               int64
id_departamento            int64
categoria                 object
provincia                 object
departamento              object
localidad                 object
nombre                    object
direccion                 object
piso                      object
cp                         int64
web                       object
latitud                  float64
longitud                 float64
tipo_latitud_longitud     object
fuente                    object
sector                    object
pantallas                  int64
butacas                    int64
tipo_de_gestion           object
espacio_incaa             object
año_actualizacion          int64
dtype: object

In [25]:
renamed_cols = {
    'cp' : 'codigo postal',
    'direccion' : 'domicilio'
}

df = df.rename(columns = renamed_cols)

column_list = [
    'cod_localidad',
    'id_provincia',
    'id_departamento',
    'categoria',
    'provincia',
    'localidad',
    'nombre',
    'domicilio',
    'codigo postal',
    'web'
]
# no hay columnas 'numero de telefono', 'mail'

df_cine = df[column_list]
df_cine

Unnamed: 0,cod_localidad,id_provincia,id_departamento,categoria,provincia,localidad,nombre,domicilio,codigo postal,web
0,6854100,6,6854,Salas de cine,Buenos Aires,25 de mayo,Cine Teatro Español,Calle 9 entre 29 Y 30,6660,https://www.instagram.com/teatro_espanol/
1,6826040,6,6826,Salas de cine,Buenos Aires,30 de agosto,Cine Santa Rosa De Lima,Santa Rosa De Lima 170,6405,https://www.trenquelauquen.gov.ar
2,6588100,6,6588,Salas de cine,Buenos Aires,9 de julio,Tu Cine 9 de Julio,Robbio 840,6500,http://9dejulio.tucine.com.ar/
3,6028010,6,6028,Salas de cine,Buenos Aires,Adrogué,Cinema Adrogue,Hipolito Yrigoyen 13200,1846,https://www.cinemaadrogue.com/
4,6028010,6,6028,Salas de cine,Buenos Aires,Adrogué,CPM Paseo Adrogue,Segui 699,1846,https://cpmcines.com/
...,...,...,...,...,...,...,...,...,...,...
311,90084010,90,90084,Salas de cine,Tucumán,San Miguel de Tucumán,Cinemacenter Tucuman,Av. Nestor Kirchner(Ex Av. Roca) 3450,4000,http://www.cinemacenter.com.ar/
312,90084010,90,90084,Salas de cine,Tucumán,San Miguel de Tucumán,Espacio Incaa Sala Orestes Caviglia,San Martin 251,4000,https://enteculturaltucuman.gob.ar/
313,90084010,90,90084,Salas de cine,Tucumán,San Miguel de Tucumán,Microcine Orion,Av. Mitre 817,4000,
314,90119030,90,90119,Salas de cine,Tucumán,Yerba Buena,Solar del Cerro,Av. Aconquija 1336,4107,http://solardelcerro.com


### Bibliotecas

In [26]:
category_dict = categories[2]
r = requests.get(category_dict['url'])
r.encoding = 'utf-8'

In [27]:
now = datetime.now()

file_path = file_path_crib.format(category=category_dict['name'], year=now.year, month=now.month, day=now.day)

m_path = BASE_FILE_DIR / file_path
m_path.parent.mkdir(parents=True, exist_ok=True)

## Save file
with open(m_path, 'w') as f_out:
    f_out.write(r.text)

In [28]:
df = pd.read_csv(m_path)
df.head()

Unnamed: 0,cod_localidad,id_provincia,id_departamento,observacion,categoria,subcategoria,provincia,departamento,localidad,nombre,...,mail,web,informacion_adicional,latitud,longitud,tipo_latitud_longitud,fuente,fecha_fundacion,nro_conabip,anio_actualizacion
0,6854100,6,6854,,Biblioteca Popular,,Buenos Aires,25 De Mayo,25 de Mayo,Comité Cultural y Biblioteca Juan Francisco Ib...,...,,,,-35.432917,-60.171417,Exacta,CONABIP,1922-10-02,938,2023
1,6588100,6,6588,,Biblioteca Popular,,Buenos Aires,9 De Julio,9 de Julio,Bib.Pop. Anastasio Prieto,...,,,,-35.433333,-60.866667,Exacta,CONABIP,1980-01-01,200,2023
2,6588100,6,6588,,Biblioteca Popular,,Buenos Aires,9 De Julio,9 de Julio,Bib.Pop. José Ingenieros,...,,,,-35.445957,-60.883377,Exacta,CONABIP,1933-10-12,1850,2023
3,6007010,6,6007,,Biblioteca Popular,,Buenos Aires,Adolfo Alsina,Carhue,Bib.Pop. Adolfo Alsina,...,,,,-37.180933,-62.76005,Exacta,CONABIP,1912-08-23,88,2023
4,6007080,6,6007,,Biblioteca Popular,,Buenos Aires,Adolfo Alsina,Rivera,Bib.Pop. José Ingenieros,...,ccibiblio@hotmail.com,,,-37.1626,-63.24705,Exacta,CONABIP,1925-01-01,1278,2023


In [29]:
df.columns

Index(['cod_localidad', 'id_provincia', 'id_departamento', 'observacion',
       'categoria', 'subcategoria', 'provincia', 'departamento', 'localidad',
       'nombre', 'domicilio', 'piso', 'cp', 'cod_tel', 'telefono', 'mail',
       'web', 'informacion_adicional', 'latitud', 'longitud',
       'tipo_latitud_longitud', 'fuente', 'fecha_fundacion', 'nro_conabip',
       'anio_actualizacion'],
      dtype='object')

In [30]:
renamed_cols = {
    'cp' : 'codigo postal',
    'telefono' : 'numero de telefono'
}

df = df.rename(columns = renamed_cols)

column_list = [
    'cod_localidad',
    'id_provincia',
    'id_departamento',
    'categoria',
    'provincia',
    'localidad',
    'nombre',
    'domicilio',
    'codigo postal',
    'numero de telefono',
    'mail',
    'web'
]

df_biblio = df[column_list]
df_biblio

Unnamed: 0,cod_localidad,id_provincia,id_departamento,categoria,provincia,localidad,nombre,domicilio,codigo postal,numero de telefono,mail,web
0,6854100,6,6854,Biblioteca Popular,Buenos Aires,25 de Mayo,Comité Cultural y Biblioteca Juan Francisco Ib...,9 y 27 801,6660,462234.0,,
1,6588100,6,6588,Biblioteca Popular,Buenos Aires,9 de Julio,Bib.Pop. Anastasio Prieto,Mitre 342,6500,,,
2,6588100,6,6588,Biblioteca Popular,Buenos Aires,9 de Julio,Bib.Pop. José Ingenieros,Mendoza 991,6500,426779.0,,
3,6007010,6,6007,Biblioteca Popular,Buenos Aires,Carhue,Bib.Pop. Adolfo Alsina,San Martín 1101,B6430CSL,430724.0,,
4,6007080,6,6007,Biblioteca Popular,Buenos Aires,Rivera,Bib.Pop. José Ingenieros,Los Colonizadores 235 0,6441,432073.0,ccibiblio@hotmail.com,
...,...,...,...,...,...,...,...,...,...,...,...,...
1897,90105080,90,90105,Biblioteca Popular,Tucumán,Tafi Viejo,Bib.Pop. Ing. A. Pasquini,Belgrano 253,4103,4619066.0,,
1898,90105080,90,90105,Biblioteca Popular,Tucumán,Tafi Viejo,Bib.Pop. Juan Bautista Alberdi,Bolivar 324,4103,4461183.0,,
1899,90105080,90,90105,Biblioteca Popular,Tucumán,Tafi Viejo,Bib.Pop. Hipólito Yrigoyen,Congreso 422,4103,4610234.0,,
1900,90105100,90,90105,Biblioteca Popular,Tucumán,Villa M.Moreno-Las Talitas,Bib.Pop. Manuel Lizondo Borda,4 s/n 0,4101,4370749.0,,


In [31]:
df_biblio['id_departamento'].isna().unique()

array([False])

Lets generate a dict with all the dfs

In [38]:
dfs = {
    'museo' : df_m,
    'cine' : df_cine,
    'biblioteca_popular' : df_biblio
    }

In [41]:
# uno df_m(museo) con df_cine(cine) y df_biblio(biblioteca_popular)
dfss = pd.concat(dfs, axis=0)
dfss

Unnamed: 0,Unnamed: 1,cod_localidad,id_provincia,id_departamento,categoria,provincia,localidad,nombre,domicilio,codigo postal,numero de telefono,mail,web
museo,0,6588100,6,6588,Espacios de Exhibición Patrimonial,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,B6500EVL,425 279,archivoymuseo@yahoo.com.ar,www.portaldel9.com.ar
museo,1,6077010,6,6077,Espacios de Exhibición Patrimonial,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,B2740FMJ,452 931,museoarrecifes@hotmail.com,
museo,2,6035010,6,6035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Histórico-Sacro Hno. Rogelio Scortegagna,Calle 11 (Av. San Martín) Nº 830,S3561AKT,481 200,,
museo,3,6035010,6,6035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Municipal De Artes Plásticas De Avellaneda,"Sarmiento 101, 1 º Piso",B1870CBC,4205 9567,,
museo,4,6049020,6,6049,Espacios de Exhibición Patrimonial,Buenos Aires,Azul,Museo Etnográfico Y Archivo Histórico Enrique ...,Bartolomé J. Ronco 654,B7300XAA,434 811,museoazul@yahoo.com,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
biblioteca_popular,1897,90105080,90,90105,Biblioteca Popular,Tucumán,Tafi Viejo,Bib.Pop. Ing. A. Pasquini,Belgrano 253,4103,4619066.0,,
biblioteca_popular,1898,90105080,90,90105,Biblioteca Popular,Tucumán,Tafi Viejo,Bib.Pop. Juan Bautista Alberdi,Bolivar 324,4103,4461183.0,,
biblioteca_popular,1899,90105080,90,90105,Biblioteca Popular,Tucumán,Tafi Viejo,Bib.Pop. Hipólito Yrigoyen,Congreso 422,4103,4610234.0,,
biblioteca_popular,1900,90105100,90,90105,Biblioteca Popular,Tucumán,Villa M.Moreno-Las Talitas,Bib.Pop. Manuel Lizondo Borda,4 s/n 0,4101,4370749.0,,


In [42]:
dfss.dtypes

cod_localidad          int64
id_provincia           int64
id_departamento        int64
categoria             object
provincia             object
localidad             object
nombre                object
domicilio             object
codigo postal         object
numero de telefono    object
mail                  object
web                   object
dtype: object

In [45]:
# size_by_category
dfss.groupby('categoria',as_index=False).size()

Unnamed: 0,categoria,size
0,Biblioteca Popular,1902
1,Espacios de Exhibición Patrimonial,1182
2,Salas de cine,316


In [46]:
# size_by_datasource
lst = list()
for name,df in dfs.items():
    lst.append({'source': name, 'count': df.size})
    
pd.DataFrame(lst)

Unnamed: 0,source,count
0,museo,14184
1,cine,3160
2,biblioteca_popular,22824


In [47]:
# size_by_prov_category
dfss.groupby(['categoria','provincia'], as_index=False).size()

Unnamed: 0,categoria,provincia,size
0,Biblioteca Popular,Buenos Aires,497
1,Biblioteca Popular,Catamarca,37
2,Biblioteca Popular,Chaco,69
3,Biblioteca Popular,Chubut,47
4,Biblioteca Popular,Ciudad Autónoma de Buenos Aires,43
...,...,...,...
67,Salas de cine,Santa Cruz,8
68,Salas de cine,Santa Fe,21
69,Salas de cine,Santiago del Estero,4
70,Salas de cine,Tierra del Fuego,3
