# Análisis de la base de datos de buscar.combatientes.es

En este cuaderno se analizan algunos datos que luego se utilizan en el reportaje *Las víctimas de la memoria* sobre el número de desaparecidos que se incluyen en el buscador de víctimas de la guerra civil española y la dictadura franquista [buscar.combatientes.es](https://buscar.combatientes.es/), para el Trabajo Fin de Máster de Cristina Alonso Pascual, alumna del Máster en Periodismo y Visualización de Datos de la Universidad de Alcalá (UAH).

Las anotaciones del cuaderno se usan a modo de explicación dentro de cada celda de código para narrar el proceso que se ha seguido a la hora de analizar los datos.

In [1]:
# Importo las librerías
import pandas as pd
import numpy as np

In [4]:
# Leemos el archivo de excel proporcionado por Hernán (tarda, ya que pesa bastante)
combatientes = pd.read_excel('./datos-buscador-combatientes.xlsx')

In [5]:
# Previsualización de los datos
# Seleccionamos solo las diez primeras filas
combatientes.head(10)

Unnamed: 0,ncomp,nalt,ap1,ap2,nom,base,loc,link,linkbc,id
0,"SUAREZ BARBIN, Maximino",MAXIMINO SUAREZ BARBIN,SUAREZ,BARBIN,MAXIMINO,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Maximino/Suarez/Barbin/,1
1,"PEREZ ABUIN, Fructuoso",FRUCTUOSO PEREZ ABUIN,PEREZ,ABUIN,FRUCTUOSO,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Fructuoso/Perez/Abuin/,2
2,"FERNANDEZ IGLESIAS, Oscar",OSCAR FERNANDEZ IGLESIAS,FERNANDEZ,IGLESIAS,OSCAR,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Oscar/Fernandez/Iglesias/,3
3,"PELAEZ DELGADO, Jose",JOSE PELAEZ DELGADO,PELAEZ,DELGADO,JOSE,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Jose/Pelaez/Delgado/,4
4,"FERNANDEZ GARCIA, Marcelino",MARCELINO FERNANDEZ GARCIA,FERNANDEZ,GARCIA,MARCELINO,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Marcelino/Fernandez/Garcia/,5
5,"NUÑEZ CAMONOR, Casimiro",CASIMIRO NUÑEZ CAMONOR,NUÑEZ,CAMONOR,CASIMIRO,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Casimiro/Nuñez/Camonor/,6
6,"OUJO GONZALO, Antonio",ANTONIO OUJO GONZALO,OUJO,GONZALO,ANTONIO,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Antonio/Oujo/Gonzalo/,7
7,"CARON BLANCO, Emilio",EMILIO CARON BLANCO,CARON,BLANCO,EMILIO,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Emilio/Caron/Blanco/,8
8,"SUAREZ ALVAREZ, Antonio",ANTONIO SUAREZ ALVAREZ,SUAREZ,ALVAREZ,ANTONIO,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Antonio/Suarez/Alvarez/,9
9,"URUEÑA ROLDAN, Jose",JOSE URUEÑA ROLDAN,URUEÑA,ROLDAN,JOSE,0,"[006] Ejercito de Asturias, Batallon Asturias ...",https://buscar.combatientes.es/Documento,/Jose/Urueña/Roldan/,10


In [6]:
# Echamos un vistazo a la información del dataframe
combatientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1048575 entries, 0 to 1048574
Data columns (total 10 columns):
 #   Column  Non-Null Count    Dtype 
---  ------  --------------    ----- 
 0   ncomp   1048575 non-null  object
 1   nalt    1034953 non-null  object
 2   ap1     1032952 non-null  object
 3   ap2     899444 non-null   object
 4   nom     1007179 non-null  object
 5   base    1048575 non-null  int64 
 6   loc     1048571 non-null  object
 7   link    1048575 non-null  object
 8   linkbc  1048575 non-null  object
 9   id      1048575 non-null  int64 
dtypes: int64(2), object(8)
memory usage: 80.0+ MB


Es necesario **entender la base de datos** para analizarla. Al respecto se ha consultado a Hernán, que ha señalado el significado de cada una de las columnas:
- *ncomp*: nombre completo en formato "apellido1 apellido2, nombre"
- *nalt*: nombre alternativo en formato "nombre apellido1 apellido2"
- *ap1*: primer apellido
- *ap2*: segundo apellido
- *nom*: nombre
- *base*: código numérico que se refiere al título del lote de documentos
- *loc*: aunque viene de 'localizador' incluye toda la información disponible de la persona incluida en el documento concreto
- *link*: link externo del documento
- *linkbc*: link dentro de la página buscar.combatientes.es
- *id*: identificador para agrupar resultados, por ejemplo, cuando hay un juicio seguido contra varias personas

In [12]:
# Quiero ver el número de individuos de los que hay registros
# Puedo ver una lista y luego contar sus elementos
lista = combatientes["ncomp"].unique()
len(lista)

695701

In [14]:
# O hacerlo directamente con nunique
combatientes["ncomp"].nunique()

695701

In [15]:
# También me interesa saber de quién hay más registros en la base de datos
combatientes["ncomp"].value_counts(dropna=False)

 ,                            13622
GARCIA GARCIA, Jose             148
MARTINEZ MARTINEZ, Jose         146
GARCIA , Jose                   139
GARCIA ,                        121
                              ...  
FERNANDEZ VIENDAS, Agustin        1
CHAVES DUARTE, Julio              1
ESTEBAN CANERAS, Jose             1
ABAD FITA, Manuel                 1
PARDO CASTELL, Julio              1
Name: ncomp, Length: 695701, dtype: int64