Data View.

In [1]:
MUSEO_URL='https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/4207def0-2ff7-41d5-9095-d42ae8207a5d/download/museos_datosabiertos.csv'
CINE_URL='https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/392ce1a8-ef11-4776-b280-6f1c7fae16ae/download/cine.csv'
BIBLIOTECA_URL='https://datos.cultura.gob.ar/dataset/37305de4-3cce-4d4b-9d9a-fec3ca61d09f/resource/01c6c048-dbeb-44e0-8efa-6944f73715d7/download/biblioteca_popular.csv'

In [2]:
import requests
import pandas as pd
import os 
from pathlib import Path
from datetime import datetime
import numpy as np

TMP_PATH = os.path.join(Path().resolve().parent,'data_challenge_alkemy/files')
file_path_crib = '{category}/{year}-{month:02d}/{category}-{year}-{month:02d}-{day:02d}.csv'

date = datetime.now()
print(file_path_crib.format(category='Museo',year=date.year,month=date.month,day=date.day))

Museo/2022-07/Museo-2022-07-18.csv


EXTRACT

In [3]:
def extract(url,category):
    #Get data from url.
    request = requests.get(url)
    request.encoding = 'utf-8'

    #Get current date.
    date = datetime.now()
    
    #Create path.
    relative_path = file_path_crib.format(category=category,year=date.year,month=date.month,day=date.day)
    absolute_path = os.path.join(TMP_PATH,relative_path)
    dir_name = os.path.dirname(absolute_path)
    
    #Create directory if not exist.
    if not os.path.exists(dir_name):
        os.makedirs(dir_name,exist_ok=True)
        
    #Write data to .csv  
    with open(absolute_path,'w') as f:
        f.write(request.text)
        
    return pd.read_csv(absolute_path)

# MUSEUM

In [4]:
#LOAD FROM .CSV
df_museum = extract(MUSEO_URL,'museum')

#Print head.
df_museum.head()

Unnamed: 0,Cod_Loc,IdProvincia,IdDepartamento,Observaciones,categoria,subcategoria,provincia,localidad,nombre,direccion,...,Mail,Web,Latitud,Longitud,TipoLatitudLongitud,Info_adicional,fuente,jurisdiccion,año_inauguracion,actualizacion
0,6588100,6,6588,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,...,archivoymuseo@yahoo.com.ar,www.portaldel9.com.ar,-35.441762,-60.887598,Localización precisa,,DNPyM,Municipal,1920.0,2017
1,6077010,6,6077,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,...,museoarrecifes@hotmail.com,,-34.06697,-60.102555,Localización precisa,,DNPyM,Municipal,1972.0,2017
2,6035010,6,6035,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Avellaneda,Museo Histórico-Sacro Hno. Rogelio Scortegagna,Calle 11 (Av. San Martín) Nº 830,...,,,-29.118024,-59.654543,Localización precisa,,DNPyM,Municipal,,2017
3,6035010,6,6035,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Avellaneda,Museo Municipal De Artes Plásticas De Avellaneda,"Sarmiento 101, 1 º Piso",...,,,-34.66211,-58.36327,Localización precisa,,DNPyM,Municipal,1956.0,2017
4,6049020,6,6049,,Espacios de Exhibición Patrimonial,Museos,Buenos Aires,Azul,Museo Etnográfico Y Archivo Histórico Enrique ...,Bartolomé J. Ronco 654,...,museoazul@yahoo.com,,-36.781824,-59.858636,Localización precisa,,DNPyM,Privada,1949.0,2017


In [5]:
#Some data.
print(f'Number files: {df_museum.shape[0]} , Number columns: {df_museum.shape[1]}')
print(df_museum.keys())

Number files: 1182 , Number columns: 24
Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observaciones',
       'categoria', 'subcategoria', 'provincia', 'localidad', 'nombre',
       'direccion', 'piso', 'CP', 'cod_area', 'telefono', 'Mail', 'Web',
       'Latitud', 'Longitud', 'TipoLatitudLongitud', 'Info_adicional',
       'fuente', 'jurisdiccion', 'año_inauguracion', 'actualizacion'],
      dtype='object')


In [6]:
cols_rename_museum = {
    'Cod_Loc':'cod_localidad',
    'IdProvincia':'id_provincia',
    'IdDepartamento':'id_departamento',
    'categoria':'categoria',
    'provincia':'provincia',
    'localidad':'localidad',
    'nombre':'nombre',
    'direccion':'domicilio',
    'CP':'codigo_postal',
    'telefono':'numero_de_telefono',
    'Mail':'mail',
    'Web':'web'
}
df_museum_rename = pd.DataFrame()

for k,v in cols_rename_museum.items():
    df_museum_rename[v] = df_museum[k]
    

# Other way
'''
df_museum = df_museum.rename(columns=cols_rename_museum)
cols_= [
    'cod_localidad',
    'id_provincia',
    'id_departamento',
    'categoria',
    'provincia',
    'localidad',
    'nombre',
    'domicilio',
    'codigo_postal',
    'numero_de_telefono',
    'mail',
    'web'
]
df_museum = df_museum[cols_]
'''
df_museum_rename.head()

Unnamed: 0,cod_localidad,id_provincia,id_departamento,categoria,provincia,localidad,nombre,domicilio,codigo_postal,numero_de_telefono,mail,web
0,6588100,6,6588,Espacios de Exhibición Patrimonial,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,B6500EVL,425 279,archivoymuseo@yahoo.com.ar,www.portaldel9.com.ar
1,6077010,6,6077,Espacios de Exhibición Patrimonial,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,B2740FMJ,452 931,museoarrecifes@hotmail.com,
2,6035010,6,6035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Histórico-Sacro Hno. Rogelio Scortegagna,Calle 11 (Av. San Martín) Nº 830,S3561AKT,481 200,,
3,6035010,6,6035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Municipal De Artes Plásticas De Avellaneda,"Sarmiento 101, 1 º Piso",B1870CBC,4205 9567,,
4,6049020,6,6049,Espacios de Exhibición Patrimonial,Buenos Aires,Azul,Museo Etnográfico Y Archivo Histórico Enrique ...,Bartolomé J. Ronco 654,B7300XAA,434 811,museoazul@yahoo.com,


# CINEMA

In [7]:
#LOAD FROM .CSV
df_cinema = extract(CINE_URL,'cine')

#Print head.
df_cinema.head()

Unnamed: 0,Cod_Loc,IdProvincia,IdDepartamento,Observaciones,Categoría,Provincia,Departamento,Localidad,Nombre,Dirección,...,Información adicional,Latitud,Longitud,TipoLatitudLongitud,Fuente,tipo_gestion,Pantallas,Butacas,espacio_INCAA,año_actualizacion
0,10049030,10,10049,,Salas de cine,Catamarca,Capital,Catamarca,Cinemacenter,Intendente Mamerto Medina 220,...,,-28.464737,-65.800675,Localización precisa,INCAA / SInCA,Privado comercial,5,743,,2018
1,10091150,10,10091,,Salas de cine,Catamarca,Santa Maria,Santa María,Centro Cultural San Agustín,San Martin 173,...,,-26.693859,-66.049058,Localización precisa,INCAA / SInCA,Privado comercial,1,440,0.0,2018
2,22140060,22,22140,,Salas de cine,Chaco,San Fernando,Resistencia,Los Cines De La Costa,Av. Sarmiento 2600,...,,-27.430995,-58.962672,Localización precisa,INCAA / SInCA,Privado comercial,5,820,,2018
3,26091020,26,26091,,Salas de cine,Chubut,Sarmiento,Sarmiento,Deborah Jones De Williams,Reg. Inf. Mec. 25 Esquina 20 De Junio,...,,-45.594374,-69.069594,Localización precisa,INCAA / SInCA,Público municipal,1,80,,2018
4,18007010,18,18007,,Salas de cine,Corrientes,Bella Vista,Bella Vista,Fantasio,Salta 1059,...,,-28.508494,-59.045464,Localización precisa,INCAA / SInCA,Privado comercial,1,240,,2018


In [8]:
#Some data.
print(f'Number files: {df_cinema.shape[0]} , Number columns: {df_cinema.shape[1]}')
print(df_cinema.keys())

Number files: 329 , Number columns: 26
Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observaciones',
       'Categoría', 'Provincia', 'Departamento', 'Localidad', 'Nombre',
       'Dirección', 'Piso', 'CP', 'cod_area', 'Teléfono', 'Mail', 'Web',
       'Información adicional', 'Latitud', 'Longitud', 'TipoLatitudLongitud',
       'Fuente', 'tipo_gestion', 'Pantallas', 'Butacas', 'espacio_INCAA',
       'año_actualizacion'],
      dtype='object')


In [9]:
cols_rename_cinema = {
    'Cod_Loc':'cod_localidad',
    'IdProvincia':'id_provincia',
    'IdDepartamento':'id_departamento',
    'Categoría':'categoria',
    'Provincia':'provincia',
    'Localidad':'localidad',
    'Nombre':'nombre',
    'Dirección':'domicilio',
    'CP':'codigo_postal',
    'Teléfono':'numero_de_telefono',
    'Mail':'mail',
    'Web':'web'
}
df_cinema_rename = pd.DataFrame()

for k,v in cols_rename_cinema.items():
    df_cinema_rename[v] = df_cinema[k]
    
df_cinema_rename.head()

Unnamed: 0,cod_localidad,id_provincia,id_departamento,categoria,provincia,localidad,nombre,domicilio,codigo_postal,numero_de_telefono,mail,web
0,10049030,10,10049,Salas de cine,Catamarca,Catamarca,Cinemacenter,Intendente Mamerto Medina 220,4700,s/d,s/d,http://www.cinemacenter.com.ar/
1,10091150,10,10091,Salas de cine,Catamarca,Santa María,Centro Cultural San Agustín,San Martin 173,4139,421511,s/d,s/d
2,22140060,22,22140,Salas de cine,Chaco,Resistencia,Los Cines De La Costa,Av. Sarmiento 2600,3500,472200,administracion@loscinesdelacosta.com.ar,http://resistencia.loscinesdelacosta.com.ar/
3,26091020,26,26091,Salas de cine,Chubut,Sarmiento,Deborah Jones De Williams,Reg. Inf. Mec. 25 Esquina 20 De Junio,9020,4897169,culturasarmiento@hotmail.com,http://www.culturachubut.gob.ar/…/convo-evita-...
4,18007010,18,18007,Salas de cine,Corrientes,Bella Vista,Fantasio,Salta 1059,3432,s/d,nuevocineteatrorex@gmail.com,https://www.facebook.com/CineFantasioBellaVista/


BIBLIOTECA

In [10]:
#LOAD FROM .CSV
df_library = extract(BIBLIOTECA_URL,'biblioteca')

#Print head.
df_library.head()

Unnamed: 0,Cod_Loc,IdProvincia,IdDepartamento,Observacion,Categoría,Subcategoria,Provincia,Departamento,Localidad,Nombre,...,Mail,Web,Información adicional,Latitud,Longitud,TipoLatitudLongitud,Fuente,Tipo_gestion,año_inicio,Año_actualizacion
0,70049060,70,70049,,Bibliotecas Populares,,San Juan,Iglesia,Rodeo,Biblioteca Popular Juan P. Garramuno,...,s/d,,,-30.20925,-69.130117,Localización precisa,CONABIP,Comunitaria,1930.0,2018
1,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Helena Larroque de Roffo,...,asociacionroffo@yahoo.com.ar,,,-34.598461,-58.49469,Localización precisa,CONABIP,Comunitaria,1916.0,2018
2,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular 12 de Octubre,...,popular12deoctubre@hotmail.com,,,-34.613235,-58.448997,Localización precisa,CONABIP,Comunitaria,1910.0,2018
3,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Villa Pueyrredón Norte,...,bibliotecapueyrredon@hotmail.com,,,-34.57589,-58.501591,Localización precisa,CONABIP,Comunitaria,1916.0,2018
4,2000010,2,2000,,Bibliotecas Populares,,Ciudad Autónoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Alberdi,...,bibliotecapopularalberdi@yahoo.com.ar,,,-34.596157,-58.437668,Localización precisa,CONABIP,Comunitaria,1910.0,2018


In [11]:
#Some data.
print(f'Number files: {df_library.shape[0]} , Number columns: {df_library.shape[1]}')
print(df_library.keys())

Number files: 2017 , Number columns: 25
Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observacion', 'Categoría',
       'Subcategoria', 'Provincia', 'Departamento', 'Localidad', 'Nombre',
       'Domicilio', 'Piso', 'CP', 'Cod_tel', 'Teléfono', 'Mail', 'Web',
       'Información adicional', 'Latitud', 'Longitud', 'TipoLatitudLongitud',
       'Fuente', 'Tipo_gestion', 'año_inicio', 'Año_actualizacion'],
      dtype='object')


In [12]:
cols_library_cinema = {
    'Cod_Loc':'cod_localidad',
    'IdProvincia':'id_provincia',
    'IdDepartamento':'id_departamento',
    'Categoría':'categoria',
    'Provincia':'provincia',
    'Localidad':'localidad',
    'Nombre':'nombre',
    'Domicilio':'domicilio',
    'CP':'codigo_postal',
    'Teléfono':'numero_de_telefono',
    'Mail':'mail',
    'Web':'web'
}

df_library_rename = pd.DataFrame()

for k,v in cols_library_cinema.items():
    df_library_rename[v] = df_library[k]
    
df_library_rename.head()

Unnamed: 0,cod_localidad,id_provincia,id_departamento,categoria,provincia,localidad,nombre,domicilio,codigo_postal,numero_de_telefono,mail,web
0,70049060,70,70049,Bibliotecas Populares,San Juan,Rodeo,Biblioteca Popular Juan P. Garramuno,Santo Domingo,5465,s/d,s/d,
1,2000010,2,2000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Helena Larroque de Roffo,Simbrón 3058,C1417EUD,45010078,asociacionroffo@yahoo.com.ar,
2,2000010,2,2000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular 12 de Octubre,Calle Arengreen 1187,C1405CYM,49880766,popular12deoctubre@hotmail.com,
3,2000010,2,2000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Villa Pueyrredón Norte,Cockrane 2334,C1419FMD,45729107,bibliotecapueyrredon@hotmail.com,
4,2000010,2,2000,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,Ciudad de Buenos Aires,Biblioteca Popular Alberdi,Acevedo 666,C1414DJN,47753325,bibliotecapopularalberdi@yahoo.com.ar,


In [23]:
print(df_cinema.keys())
print(df_museum.keys())
print(df_library.keys())
df_unified = pd.concat([df_museum_rename,df_cinema_rename,df_library_rename])
df_unified.head()

Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observaciones',
       'Categoría', 'Provincia', 'Departamento', 'Localidad', 'Nombre',
       'Dirección', 'Piso', 'CP', 'cod_area', 'Teléfono', 'Mail', 'Web',
       'Información adicional', 'Latitud', 'Longitud', 'TipoLatitudLongitud',
       'Fuente', 'tipo_gestion', 'Pantallas', 'Butacas', 'espacio_INCAA',
       'año_actualizacion'],
      dtype='object')
Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observaciones',
       'categoria', 'subcategoria', 'provincia', 'localidad', 'nombre',
       'direccion', 'piso', 'CP', 'cod_area', 'telefono', 'Mail', 'Web',
       'Latitud', 'Longitud', 'TipoLatitudLongitud', 'Info_adicional',
       'fuente', 'jurisdiccion', 'año_inauguracion', 'actualizacion'],
      dtype='object')
Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observacion', 'Categoría',
       'Subcategoria', 'Provincia', 'Departamento', 'Localidad', 'Nombre',
       'Domicilio', 'Piso', 'CP', 'Cod_tel', 'Teléfon

Unnamed: 0,cod_localidad,id_provincia,id_departamento,categoria,provincia,localidad,nombre,domicilio,codigo_postal,numero_de_telefono,mail,web
0,6588100,6,6588,Espacios de Exhibición Patrimonial,Buenos Aires,9 de Julio,Archivo Y Museo Histórico Gral. Julio De Vedia,Libertad 1191,B6500EVL,425 279,archivoymuseo@yahoo.com.ar,www.portaldel9.com.ar
1,6077010,6,6077,Espacios de Exhibición Patrimonial,Buenos Aires,Arrecifes,Museo Y Archivo Histórico De Arrecifes,Gerardo Risso y España,B2740FMJ,452 931,museoarrecifes@hotmail.com,
2,6035010,6,6035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Histórico-Sacro Hno. Rogelio Scortegagna,Calle 11 (Av. San Martín) Nº 830,S3561AKT,481 200,,
3,6035010,6,6035,Espacios de Exhibición Patrimonial,Buenos Aires,Avellaneda,Museo Municipal De Artes Plásticas De Avellaneda,"Sarmiento 101, 1 º Piso",B1870CBC,4205 9567,,
4,6049020,6,6049,Espacios de Exhibición Patrimonial,Buenos Aires,Azul,Museo Etnográfico Y Archivo Histórico Enrique ...,Bartolomé J. Ronco 654,B7300XAA,434 811,museoazul@yahoo.com,


                            total_category_registers

In [14]:
print('Category')
print(pd.unique(df_museum_rename['categoria']))
print(pd.unique(df_cinema_rename['categoria']))
print(pd.unique(df_library_rename['categoria']))
print('Province')
print(pd.unique(df_museum_rename['provincia']))
print(pd.unique(df_cinema_rename['provincia']))
print(pd.unique(df_library_rename['provincia']))

Category
['Espacios de Exhibición Patrimonial']
['Salas de cine']
['Bibliotecas Populares']
Province
['Buenos Aires' 'Catamarca' 'Chaco' 'Chubut'
 'Ciudad Autónoma de Buenos Aires' 'Córdoba' 'Corrientes' 'Entre Ríos'
 'Formosa' 'Jujuy' 'La Pampa' 'La Rioja' 'Mendoza' 'Misiones'
 'Neuquén\xa0' 'Río Negro' 'Salta' 'San Juan' 'San Luis' 'Santa Cruz'
 'Santa Fe' 'Santiago del Estero'
 'Tierra del Fuego, Antártida e Islas del Atlántico Sur' 'Tucumán']
['Catamarca' 'Chaco' 'Chubut' 'Corrientes' 'Entre Ríos' 'Jujuy' 'La Pampa'
 'La Rioja' 'Misiones' 'Salta' 'San Juan' 'San Luis' 'Santa Cruz'
 'Santiago del Estero' 'Tucumán' 'Santa Fe' 'Mendoza' 'Córdoba'
 'Ciudad Autónoma de Buenos Aires' 'Buenos Aires' 'Formosa' 'Neuquén'
 'Río Negro' 'Tierra del Fuego']
['San Juan' 'Ciudad Autónoma de Buenos Aires' 'Buenos Aires' 'Entre Ríos'
 'Santa Fe' 'Corrientes' 'Córdoba' 'San Luis' 'Santiago del Estero'
 'Tucumán' 'Mendoza' 'La Rioja' 'Catamarca' 'Salta' 'Jujuy' 'Chaco'
 'Formosa' 'Misiones' 'La Pampa

In [15]:
#Fix unicode '\xa0'
df_museum_rename['provincia'] = df_museum_rename['provincia'].apply(lambda x: str(x).replace(u'\xa0', u''))
pd.unique(df_museum_rename['provincia'])

array(['Buenos Aires', 'Catamarca', 'Chaco', 'Chubut',
       'Ciudad Autónoma de Buenos Aires', 'Córdoba', 'Corrientes',
       'Entre Ríos', 'Formosa', 'Jujuy', 'La Pampa', 'La Rioja',
       'Mendoza', 'Misiones', 'Neuquén', 'Río Negro', 'Salta', 'San Juan',
       'San Luis', 'Santa Cruz', 'Santa Fe', 'Santiago del Estero',
       'Tierra del Fuego, Antártida e Islas del Atlántico Sur', 'Tucumán'],
      dtype=object)

In [16]:
df_unified = pd.concat([df_museum_rename,df_cinema_rename,df_library_rename])
#Row count per group.
df_total_category_registers = df_unified.groupby('categoria',as_index=False).size()
df_total_category_registers = df_total_category_registers.rename(columns={'size':'total'})
df_total_category_registers.head()

Unnamed: 0,categoria,total
0,Bibliotecas Populares,2017
1,Espacios de Exhibición Patrimonial,1182
2,Salas de cine,329


                            total_source_registers

In [17]:
dict_source = {
    'source' : ['museum', 'cinema', 'library'],
    'total' : [df_museum_rename.size,
               df_cinema_rename.size,
               df_library_rename.size]
}

df_source = pd.DataFrame(dict_source)
df_source.head()


Unnamed: 0,source,total
0,museum,14184
1,cinema,3948
2,library,24204


                            total_category_prov_registers

In [18]:
df_unified_cat_prov = df_unified.groupby(['categoria','provincia'],as_index=False).size()
df_unified_cat_prov = df_unified_cat_prov.rename(columns={'size':'total'})
df_unified_cat_prov.head()


Unnamed: 0,categoria,provincia,total
0,Bibliotecas Populares,Buenos Aires,543
1,Bibliotecas Populares,Catamarca,38
2,Bibliotecas Populares,Chaco,70
3,Bibliotecas Populares,Chubut,48
4,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,43


                            cine_table

In [19]:
df_cinema.keys()

Index(['Cod_Loc', 'IdProvincia', 'IdDepartamento', 'Observaciones',
       'Categoría', 'Provincia', 'Departamento', 'Localidad', 'Nombre',
       'Dirección', 'Piso', 'CP', 'cod_area', 'Teléfono', 'Mail', 'Web',
       'Información adicional', 'Latitud', 'Longitud', 'TipoLatitudLongitud',
       'Fuente', 'tipo_gestion', 'Pantallas', 'Butacas', 'espacio_INCAA',
       'año_actualizacion'],
      dtype='object')

In [20]:
print(df_cinema['Provincia'].hasnans)
print(df_cinema['Pantallas'].hasnans)
print(df_cinema['Butacas'].hasnans)
print(df_cinema['espacio_INCAA'].hasnans)

#1 values equals '0', so replace this by np.nan 
df_cinema['espacio_INCAA'] = df_cinema['espacio_INCAA'].replace({'0':np.nan})
print(pd.unique(df_cinema['espacio_INCAA']))
print('Total with sum: ',df_cinema['espacio_INCAA'].shape)
print('Total with sum: ',df_cinema['espacio_INCAA'].isna().sum())

#pd.count() dont considere NaN.
print('Total with count: ', df_cinema['espacio_INCAA'].count())




False
False
False
True
[nan 'si' 'SI']
Total with sum:  (329,)
Total with sum:  266
Total with count:  63


In [22]:
dict_cinema_province_sum = df_cinema.groupby(['Provincia'],as_index=False)['Pantallas','Butacas'].sum() 
dict_cinema_province_count = df_cinema.groupby(['Provincia'],as_index=False)['espacio_INCAA'].count() 
df_cinema_provincia = pd.concat([dict_cinema_province_sum,dict_cinema_province_count],axis=1)
#print(pd.unique(dict_cinema_province_count['Provincia']) == pd.unique(dict_cinema_province_sum['Provincia']))
df_cinema_provincia.head()

  """Entry point for launching an IPython kernel.


Unnamed: 0,Provincia,Pantallas,Butacas,Provincia.1,espacio_INCAA
0,Buenos Aires,358,93112,Buenos Aires,20
1,Catamarca,12,3200,Catamarca,1
2,Chaco,14,2469,Chaco,1
3,Chubut,10,2682,Chubut,4
4,Ciudad Autónoma de Buenos Aires,153,31386,Ciudad Autónoma de Buenos Aires,3


RESUME:
o Main table = df_unified
o Cantidad de registros totales por categoría = df_total_category_registers
o Cantidad de registros totales por fuente = df_source
o Cantidad de registros por provincia y categoría = df_unified_cat_prov
o Cines = df_cinema_provincia

In [35]:
df_unified.head()

(3528, 12)

In [31]:
df_total_category_registers.head()

Unnamed: 0,categoria,total
0,Bibliotecas Populares,2017
1,Espacios de Exhibición Patrimonial,1182
2,Salas de cine,329


In [32]:
df_source.head()

Unnamed: 0,source,total
0,museum,14184
1,cinema,3948
2,library,24204


In [33]:
df_unified_cat_prov.head()

Unnamed: 0,categoria,provincia,total
0,Bibliotecas Populares,Buenos Aires,543
1,Bibliotecas Populares,Catamarca,38
2,Bibliotecas Populares,Chaco,70
3,Bibliotecas Populares,Chubut,48
4,Bibliotecas Populares,Ciudad Autónoma de Buenos Aires,43


In [37]:
df_cinema_provincia.head()

Unnamed: 0,Provincia,Pantallas,Butacas,Provincia.1,espacio_INCAA
0,Buenos Aires,358,93112,Buenos Aires,20
1,Catamarca,12,3200,Catamarca,1
2,Chaco,14,2469,Chaco,1
3,Chubut,10,2682,Chubut,4
4,Ciudad Autónoma de Buenos Aires,153,31386,Ciudad Autónoma de Buenos Aires,3
