# Ejemplo de extracción de datos

Este notebook utiliza una colección digital descrita a través de ficheros MARCXML que incluye metadatos descriptivos del catálogo [Moving Image Archive](https://data.nls.uk/data/metadata-collections/moving-image-archive/) de la Biblioteca Nacional de Escocia.

La Bibliografía Española de Cartografía es una publicación cuyo objetivo principal es dar a conocer el material cartográfico publicado en España, que ingresa en la Biblioteca Nacional de España a través del Depósito Legal, y que incluye mapas, planos, cartas náuticas, atlas, etc., tanto en formato impreso como electrónico. En el año 2007 se inició la publicación en línea y desde el 2010 se incorporan a esta bibliografía los atlas, antes recogidos en la Bibliografía Española de Monografías. Se publica anualmente y es consultable en línea.

https://datos.gob.es/es/catalogo/e00123904-bibliografia-espanola-de-cartografia-2017

### Importando las librerías de código

In [1]:
# https://pypi.org/project/pymarc/
import pymarc, re, csv
import pandas as pd
from pymarc import parse_xml_to_array
from datapackage import Package

### Generando un fichero CSV como salida con el contenido procesado

In [2]:
csv_salida = csv.writer(open('registros_marc_bne.csv', 'w'), delimiter = ',', quotechar = '"', quoting = csv.QUOTE_MINIMAL)
csv_salida.writerow(['titulo', 'autor', 'lugar_produccion', 'fecha', 'extension', 'creditos', 'materias', 'resumen', 'detalles'])

82

### Leyendo los archivos originales

In [3]:
registros = parse_xml_to_array(open('BNE-cartografia/BN_CARTOGRAFIA_2017-MARCXML.xml'))

for registro in registros:
    
    titulo = autor = lugar_produccion = fecha = extension = creditos = materias = resumen = detalles =''
    
    # titulo
    if registro['245'] is not None:
      titulo = registro['245']['a']
      if registro['245']['b'] is not None:
        titulo = titulo + " " + registro['245']['b']
    
    # autor
    if registro['100'] is not None:
      autor = registro['100']['a']
    elif registro['110'] is not None:
      autor = registro['110']['a']
    elif registro['700'] is not None:
      autor = registro['700']['a']
    elif registro['710'] is not None:
      autor = registro['710']['a']
    
    # lugar de producción
    if registro['264'] is not None:
      lugar_produccion = registro['264']['a']
    
    # fecha
    for f in registro.get_fields('264'):
        fechas = f.get_subfields('c')
        if len(fechas):
            fecha = fechas[0]
            
            if fecha.endswith('.'): fecha = fecha[:-1]
    
    
    # Physical Description - extent
    for f in registro.get_fields('300'):
        extension = f.get_subfields('a')
        if len(extension):
            extension = extension[0]
            # TODO cleaning
        detalles = f.get_subfields('b')
        if len(detalles):
            detalles = detalles[0]
            
    # creditos
    if registro['508'] is not None:
      creditos = registro['508']['a']
    
    # Resumen
    if registro['520'] is not None:
      resumen = registro['520']['a']
    
    # Materia
    if registro['650'] is not None:
        materias = '' 
        for f in registro.get_fields('650'):
            materias += f.get_subfields('a')[0] + ' -- '
        materias = re.sub(' -- $', '', materias)
    
    
    # enlace
    #if registro['856'] is not None:
    #  enlace = registro['856']['u']
    
    
    csv_salida.writerow([titulo,autor,lugar_produccion,fecha,extension,creditos,materias,resumen,detalles])

## Leyendo el fichero CSV 

In [4]:
# Este comando añade el contenido del fichero a un Pandas DataFrame
df = pd.read_csv('registros_marc_bne.csv')

## Consultando el contenido

In [5]:
df

Unnamed: 0,titulo,autor,lugar_produccion,fecha,extension,creditos,materias,resumen,detalles
0,14 routen um Manacor,Manacor,,,1 mapa,,Excursionismo,,col.
1,14 routes in Manacor,Manacor,,,1 mapa,,Excursionismo,,col.
2,14 rutas por Manacor,Manacor,,,1 mapa,,Excursionismo,,col.
3,14 rutes per Manacor,Manacor,,,1 mapa,,Excursionismo,,col.
4,A Coruña,Turismo de Galicia,,,1 plano,,,,col.
...,...,...,...,...,...,...,...,...,...
1241,"[Mapa de Asturias] : vuelve al paraíso, ven a ...",Recrea Asturias,,,1 mapa,,Carreteras,,col.
1242,[Mapa de carreteras de Galicia],Publicaciones Cartográficas,,,1 mapa,,Carreteras,,col.
1243,[Mapa de carreteras de Galicia],Publicaciones Cartográficas,,,1 mapa,,Carreteras,,col.
1244,[Mapa de carreteras del Principado de Asturias],InterMapa,,,1 mapa,,Carreteras,,col.


### Consultando las columnas

In [6]:
df.columns

Index(['titulo', 'autor', 'lugar_produccion', 'fecha', 'extension', 'creditos',
       'materias', 'resumen', 'detalles'],
      dtype='object')

### ¿Cuántos registros existen?

In [7]:
len(df)

1246

## Explorando las materias
### Creamos una lista de materias y la ordenamos alfabéticamente

In [8]:
df['materias'][2]

'Excursionismo'

In [12]:
df['materias'].str.split(' -- ', expand=True).stack()

0     0          Excursionismo
1     0          Excursionismo
2     0          Excursionismo
3     0          Excursionismo
14    0          Excursionismo
                  ...         
1223  0    Escuelas infantiles
1241  0             Carreteras
1242  0             Carreteras
1243  0             Carreteras
1244  0             Carreteras
Length: 583, dtype: object

In [13]:
# Obtener valores únicos
materias = pd.unique(df['materias'].str.split(' -- ', expand=True).stack()).tolist()
for materia in sorted(materias, key=str.lower):
    print(materia)

Aceite de oliva
Actividades recreativas al aire libre
Albergues juveniles
Alojamientos turísticos
Arquitectura
Arquitectura modernista
Arquitectura románica
Arte románico
Aves
Bares
Bodegas
Buceo
Caminos
Carreras campo a través (Atletismo)
Carreras ciclistas
Carreras de automóviles
Carreteras
Centrales hidroeléctricas
Centros docentes
Ciclismo
Ciclismo todoterreno
Cicloturismo
Cine
Cines
Comarcas
Comercios
Costas
Deportes acuáticos
Desplazamientos en bicicleta
Enoturismo
Escuelas infantiles
Excursionismo
Ferrocarriles de alta velocidad
Ferrocarriles metropolitanos
Geología
Geomorfología
Geoparques
Hidrogeología
Hidrología
Jardines botánicos
Lengua vasca
Mantequilla
Mitología
Museos
Nombres geográficos
Orientación (Deporte)
Paisaje
Parques naturales
Peregrinaciones cristianas
Pesca de agua dulce
Piragüismo
Quesos
Radiación natural
Restaurantes
Rutas literarias
Sector servicios
Senderismo
Sidra
Suelos
Surf
Transportes
Tráfico
Usos del suelo
Vinos
Vías verdes
Zonas húmedas
Zonas industria

### También podemos calcular con qué frecuencia se usa una materia

In [15]:
# Partir las materias y obterner el número de ocurrencias
materia_contador = df['materias'].str.split(' -- ').apply(lambda x: pd.Series(x).value_counts()).sum().astype('int').sort_values(ascending=False).to_frame().reset_index(level=0)
# Añadimos las columnas
materia_contador.columns = ['materia', 'contador']
# Mostrar con barras horizontales
display(materia_contador.style.bar(subset=['contador'], color='#d65f5f').set_properties(subset=['contador'], **{'width': '300px'}))

Unnamed: 0,materia,contador
0,Excursionismo,129
1,Carreteras,95
2,Senderismo,75
3,Comercios,75
4,Geología,22
5,Nombres geográficos,22
6,Cicloturismo,17
7,Suelos,12
8,Orientación (Deporte),10
9,Hidrogeología,7
