## EXTRACCIÓN DE DATOS:


In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import time
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
import re
from unidecode import unidecode


### EXTRACCIÓN DE NORMATIVAS AUTONÓMICAS:

Comenzamos realizando web scraping de las normativas autonómicas en materia de violencia de género para obtener un dataframe donde tengamos las regiones autonómicas y los años en que ha existido nueva norma o modificación en este ámbito.

Encontramos la publicación del BOE donde vienen recogidas las normativas relacionadas con esta materia (Resolución de 16 de marzo de 2023, de la Secretaría de Estado de Igualdad y contra la Violencia de Género, por la que se publica el Acuerdo de la Conferencia Sectorial de Igualdad, de 3 de marzo de 2023, por el que se aprueba el plan conjunto plurianual en materia de violencia contra las mujeres (2023-2027)) y se procede al scrapeo de la misma.

In [2]:
opciones=Options()
PATH = "/driver/chromedriver"
driver = webdriver.Chrome(opciones)

In [3]:
url = 'https://www.boe.es/diario_boe/txt.php?id=BOE-A-2023-7326'

In [4]:
driver.get(url)

In [5]:
lista = driver.find_elements(By.XPATH, '//p[@class="parrafo_2" or contains(@class, "parrafo")]')

In [6]:
lista

[<selenium.webdriver.remote.webelement.WebElement (session="4ff7ef8d47f107968a160912bc617987", element="91DD289B233B7C53E5E663E873C823A2_element_37")>,
 <selenium.webdriver.remote.webelement.WebElement (session="4ff7ef8d47f107968a160912bc617987", element="91DD289B233B7C53E5E663E873C823A2_element_38")>,
 <selenium.webdriver.remote.webelement.WebElement (session="4ff7ef8d47f107968a160912bc617987", element="91DD289B233B7C53E5E663E873C823A2_element_39")>,
 <selenium.webdriver.remote.webelement.WebElement (session="4ff7ef8d47f107968a160912bc617987", element="91DD289B233B7C53E5E663E873C823A2_element_40")>,
 <selenium.webdriver.remote.webelement.WebElement (session="4ff7ef8d47f107968a160912bc617987", element="91DD289B233B7C53E5E663E873C823A2_element_41")>,
 <selenium.webdriver.remote.webelement.WebElement (session="4ff7ef8d47f107968a160912bc617987", element="91DD289B233B7C53E5E663E873C823A2_element_42")>,
 <selenium.webdriver.remote.webelement.WebElement (session="4ff7ef8d47f107968a160912bc61

In [7]:
# Vamos a extraer únicamente los párrafos que contienen las normativas autonómicas:

lst2=[]
for i in range(231, 271):
    lst2.append(lista[i].text)

In [8]:
driver.quit()

In [9]:
lst2

['–\u2002País Vasco:',
 '●\u2002Ley 4/2005, de 18 de febrero, para la Igualdad de Mujeres y Hombres, modificada por la Ley 1/2022, de 3 de marzo, de segunda modificación de la Ley para la Igualdad de Mujeres y Hombres.',
 '–\u2002Cataluña:',
 '●\u2002Ley 5/2008, de 24 de abril, del derecho de las mujeres a erradicar la violencia machista, modificada por la Ley 17/2020, de 22 de diciembre, de modificación de la Ley 5/2008, del derecho de las mujeres a erradicar la violencia machista.',
 '●\u2002Ley 17/2015, de 21 de julio, de igualdad efectiva de mujeres y hombres',
 '–\u2002Galicia:',
 '●\u2002Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género, modificada por la Ley 15/2021, de 3 de diciembre, por la que se modifica la Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género.',
 '●\u2002Decreto Legislativo 2/2015, de 12 de febrero, por el que se aprueba el texto refundido de las 

In [10]:
lst2[0]

'–\u2002País Vasco:'

In [11]:
# Limpieza de la lista obtenida:

for i, e in enumerate(lst2):
    if e.startswith('–\u2002'):
        lst2[i] = e.split('–\u2002', 1)[1]
    elif e.startswith('●\u2002'):
        lst2[i] = e.split('●\u2002', 1)[1]


In [12]:
lst2

['País Vasco:',
 'Ley 4/2005, de 18 de febrero, para la Igualdad de Mujeres y Hombres, modificada por la Ley 1/2022, de 3 de marzo, de segunda modificación de la Ley para la Igualdad de Mujeres y Hombres.',
 'Cataluña:',
 'Ley 5/2008, de 24 de abril, del derecho de las mujeres a erradicar la violencia machista, modificada por la Ley 17/2020, de 22 de diciembre, de modificación de la Ley 5/2008, del derecho de las mujeres a erradicar la violencia machista.',
 'Ley 17/2015, de 21 de julio, de igualdad efectiva de mujeres y hombres',
 'Galicia:',
 'Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género, modificada por la Ley 15/2021, de 3 de diciembre, por la que se modifica la Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género.',
 'Decreto Legislativo 2/2015, de 12 de febrero, por el que se aprueba el texto refundido de las disposiciones legales de la Comunidad Autónoma de Galici

In [13]:
# Transformación en un diccionario:

leyes = {}
region = None  # Variable para almacenar la región actual mientras iteramos por la lista

for e in lst2:
    if e.endswith(':'):  # Si la cadena termina en ':', es el nombre de una región
        region = e.rstrip(':').strip()  # Obtenemos el nombre de la región sin los dos puntos y con espacios eliminados
        leyes[region] = []  # Inicializamos la lista de leyes para esta región
    elif region is not None:  # Si no termina en ':', y ya hemos encontrado una región
        leyes[region].append(e.strip())

In [14]:
leyes

{'País Vasco': ['Ley 4/2005, de 18 de febrero, para la Igualdad de Mujeres y Hombres, modificada por la Ley 1/2022, de 3 de marzo, de segunda modificación de la Ley para la Igualdad de Mujeres y Hombres.'],
 'Cataluña': ['Ley 5/2008, de 24 de abril, del derecho de las mujeres a erradicar la violencia machista, modificada por la Ley 17/2020, de 22 de diciembre, de modificación de la Ley 5/2008, del derecho de las mujeres a erradicar la violencia machista.',
  'Ley 17/2015, de 21 de julio, de igualdad efectiva de mujeres y hombres'],
 'Galicia': ['Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género, modificada por la Ley 15/2021, de 3 de diciembre, por la que se modifica la Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género.',
  'Decreto Legislativo 2/2015, de 12 de febrero, por el que se aprueba el texto refundido de las disposiciones legales de la Comunidad Autónoma de Galic

In [15]:
años_leyes = {}

# Expresión regular para encontrar años de cuatro dígitos
año = re.compile(r'\b\d{4}\b')

for region, leyes_lista in leyes.items():
    # Utilizamos un conjunto para evitar años duplicados
    años = set()
    
    # Extraemos los años usando expresiones regulares
    años.update({int(match.group()) for ley in leyes_lista for match in año.finditer(ley)})
    
    # Almacenamos la información en el nuevo diccionario
    años_leyes[region] = list(años)

In [16]:
años_leyes

{'País Vasco': [2005, 2022],
 'Cataluña': [2008, 2020, 2015],
 'Galicia': [2016, 2015, 2021, 2007],
 'Andalucía': [2018, 2007],
 'Principado de Asturias': [2011],
 'Cantabria': [2004],
 'La Rioja': [2022],
 'Región de Murcia': [2019, 2007],
 'Comunitat Valenciana': [2012],
 'Aragón': [2007],
 'Castilla-La Mancha': [2010, 2018],
 'Canarias': [2017, 2003],
 'Comunidad Foral de Navarra': [2018, 2019, 2015],
 'Extremadura': [2011],
 'Islas Baleares': [2016],
 'Comunidad de Madrid': [2018, 2005],
 'Castilla y León': [2017, 2010, 2003]}

In [17]:
total_años = sorted(set(año for años in años_leyes.values() for año in años))

# Crear un DataFrame inicializado con ceros
normativas = pd.DataFrame(0, index = años_leyes.keys(), columns=total_años)

# Llenar el DataFrame con el 1 donde corresponda
for region, años in años_leyes.items():
    normativas.loc[region, años] = 1

In [18]:
normativas

Unnamed: 0,2003,2004,2005,2007,2008,2010,2011,2012,2015,2016,2017,2018,2019,2020,2021,2022
País Vasco,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1
Cataluña,0,0,0,0,1,0,0,0,1,0,0,0,0,1,0,0
Galicia,0,0,0,1,0,0,0,0,1,1,0,0,0,0,1,0
Andalucía,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0
Principado de Asturias,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
Cantabria,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
La Rioja,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1
Región de Murcia,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0
Comunitat Valenciana,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0
Aragón,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0


In [19]:
# Guardamos el archivo para su posterior análisis:

normativas.to_csv('../data/normativas.csv', index=True)

### EXTRACCIÓN DE DÍAS FESTIVOS POR PROVINCIAS

El objetivo es extraer, por provincias, el número de festivos que suele haber por mes, utilizando para ello los festivos del año 2022, ya que estos días no suelen variar demasiado de unos años a otros.

In [20]:
opciones=Options()
driver = webdriver.Chrome(opciones)

In [21]:
url = 'https://www.mites.gob.es/es/guia/texto/guia_6/contenidos/guia_6_14_6.htm#'

In [22]:
driver.get(url)

In [23]:
tabla = driver.find_elements(By.XPATH,'//table/tbody/tr')
tabla

[<selenium.webdriver.remote.webelement.WebElement (session="987aafa688f138e9678578451096092b", element="C809F79D405EF23DBD1B00AD80DD1BE5_element_53")>,
 <selenium.webdriver.remote.webelement.WebElement (session="987aafa688f138e9678578451096092b", element="C809F79D405EF23DBD1B00AD80DD1BE5_element_54")>,
 <selenium.webdriver.remote.webelement.WebElement (session="987aafa688f138e9678578451096092b", element="C809F79D405EF23DBD1B00AD80DD1BE5_element_55")>,
 <selenium.webdriver.remote.webelement.WebElement (session="987aafa688f138e9678578451096092b", element="C809F79D405EF23DBD1B00AD80DD1BE5_element_56")>,
 <selenium.webdriver.remote.webelement.WebElement (session="987aafa688f138e9678578451096092b", element="C809F79D405EF23DBD1B00AD80DD1BE5_element_57")>,
 <selenium.webdriver.remote.webelement.WebElement (session="987aafa688f138e9678578451096092b", element="C809F79D405EF23DBD1B00AD80DD1BE5_element_58")>,
 <selenium.webdriver.remote.webelement.WebElement (session="987aafa688f138e9678578451096

In [24]:
tabla2 = []

for fila in tabla:
    tabla2.append(fila.text.split('\n')) 

In [25]:
tabla2

[['PROVINCIA',
  'ENERO',
  'FEBRERO',
  'MARZO',
  'ABRIL',
  'MAYO',
  'JUNIO',
  'JULIO',
  'AGOSTO',
  'SEPTIEMBRE',
  'OCTUBRE',
  'NOVIEMBRE',
  'DICIEMBRE'],
 ['ALBACETE', '1-6', '    14-15', '31', '16', '  15', '  12', '1', '6-8-26'],
 ['ALICANTE', '1-6', '  19', '14-15-18', '  24', '  15', '  12', '1', '6-8'],
 ['ALMERÍA', '1-6', '28', '  14-15', '2', '    15', '  12', '1', '6-8-26'],
 ['ÁVILA', '1-6', '    14-15-23', '2', '    15', '  12', '1', '6-8-26'],
 ['BADAJOZ', '1-6', '    14-15', '2', '    15', '8', '12', '1', '6-8-26'],
 ['BARCELONA', '1-6', '    15-18', '  6-24', '  15', '  12', '1', '6-8-26'],
 ['BILBAO', '1-6', '    14-15-18', '    25', '15', '6', '12', '1', '6-8'],
 ['BURGOS', '1-6', '    14-15-23', '2', '    15', '  12', '1', '6-8-26'],
 ['CÁCERES', '1-6', '    14-15', '2', '    15', '8', '12', '1', '6-8-26'],
 ['CÁDIZ', '1-6', '28', '  14-15', '2', '    15', '  12', '1', '6-8-26'],
 ['CASTELLÓN', '1-6', '  19', '14-15-28', '  24', '  15', '  12', '1', '6-8'],
 

In [26]:
columns = tabla[0].text.split()   # nombres de las columnas
columns

['PROVINCIA',
 'ENERO',
 'FEBRERO',
 'MARZO',
 'ABRIL',
 'MAYO',
 'JUNIO',
 'JULIO',
 'AGOSTO',
 'SEPTIEMBRE',
 'OCTUBRE',
 'NOVIEMBRE',
 'DICIEMBRE']

In [27]:
tabla2

[['PROVINCIA',
  'ENERO',
  'FEBRERO',
  'MARZO',
  'ABRIL',
  'MAYO',
  'JUNIO',
  'JULIO',
  'AGOSTO',
  'SEPTIEMBRE',
  'OCTUBRE',
  'NOVIEMBRE',
  'DICIEMBRE'],
 ['ALBACETE', '1-6', '    14-15', '31', '16', '  15', '  12', '1', '6-8-26'],
 ['ALICANTE', '1-6', '  19', '14-15-18', '  24', '  15', '  12', '1', '6-8'],
 ['ALMERÍA', '1-6', '28', '  14-15', '2', '    15', '  12', '1', '6-8-26'],
 ['ÁVILA', '1-6', '    14-15-23', '2', '    15', '  12', '1', '6-8-26'],
 ['BADAJOZ', '1-6', '    14-15', '2', '    15', '8', '12', '1', '6-8-26'],
 ['BARCELONA', '1-6', '    15-18', '  6-24', '  15', '  12', '1', '6-8-26'],
 ['BILBAO', '1-6', '    14-15-18', '    25', '15', '6', '12', '1', '6-8'],
 ['BURGOS', '1-6', '    14-15-23', '2', '    15', '  12', '1', '6-8-26'],
 ['CÁCERES', '1-6', '    14-15', '2', '    15', '8', '12', '1', '6-8-26'],
 ['CÁDIZ', '1-6', '28', '  14-15', '2', '    15', '  12', '1', '6-8-26'],
 ['CASTELLÓN', '1-6', '  19', '14-15-28', '  24', '  15', '  12', '1', '6-8'],
 

In [28]:
# Obtenemos el nombre de las provincias:

provincias = []
for elemento in tabla2[1:]:
    provincias.append(elemento[0].split(',')[0])


provincias

['ALBACETE',
 'ALICANTE',
 'ALMERÍA',
 'ÁVILA',
 'BADAJOZ',
 'BARCELONA',
 'BILBAO',
 'BURGOS',
 'CÁCERES',
 'CÁDIZ',
 'CASTELLÓN',
 'CEUTA',
 'CIUDAD REAL',
 'CÓRDOBA',
 'CORUÑA',
 'CUENCA',
 'GIRONA',
 'GRANADA',
 'GUADALAJARA',
 'HUELVA',
 'HUESCA',
 'JAÉN',
 'LEÓN',
 'LLEIDA',
 'LOGROÑO',
 'LUGO',
 'MADRID',
 'MÁLAGA',
 'MELILLA',
 'MURCIA',
 'OURENSE',
 'OVIEDO',
 'PALENCIA',
 'P. MALLORCA',
 'PALMAS',
 'PAMPLONA',
 'PONTEVEDRA',
 'VIGO(*)',
 'SALAMANCA',
 'SAN SEBASTIÁN',
 'S.C. TENERIFE',
 'SANTANDER',
 'SEGOVIA',
 'SEVILLA',
 'SORIA',
 'TARRAGONA',
 'TERUEL',
 'TOLEDO',
 'VALENCIA',
 'VALLADOLID',
 'VITORIA',
 'ZAMORA',
 'ZARAGOZA']

In [29]:
len(provincias)

53

In [30]:
# Accedemos a las celdas para crear la tabla y ver cómo trabajar los espacios:

celdas = driver.find_elements(By.XPATH,'//td/p/strong')
len(celdas)

702

In [31]:
# Observamos cómo aparecen las celdas vacías:

celdas[15].text   

' '

In [32]:
resul = []
for celda in celdas[13:]:
        if celda.text == ' ':
            resul.append(0)
        elif '-' in celda.text:
            resul.append(str(celda.text.count('-') + 1))
        else:
            resul.append(1)
resul

[1,
 '2',
 0,
 0,
 '2',
 1,
 1,
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2',
 0,
 1,
 '3',
 0,
 1,
 0,
 1,
 0,
 1,
 1,
 '2',
 1,
 '2',
 1,
 0,
 '2',
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2',
 0,
 0,
 '3',
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2',
 0,
 0,
 '2',
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 '3',
 1,
 '2',
 0,
 0,
 '2',
 0,
 '2',
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2',
 0,
 0,
 '3',
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 '2',
 1,
 '2',
 0,
 0,
 '3',
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2',
 0,
 0,
 '2',
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 '3',
 1,
 '2',
 1,
 0,
 '2',
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2',
 0,
 1,
 '3',
 0,
 1,
 0,
 1,
 0,
 1,
 1,
 '2',
 1,
 '2',
 0,
 0,
 '2',
 0,
 0,
 1,
 '2',
 1,
 1,
 1,
 '2',
 1,
 '2',
 0,
 0,
 '2',
 1,
 1,
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2',
 1,
 0,
 '2',
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2',
 0,
 0,
 '2',
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 '2',
 1,
 '2',
 0,
 0,
 '2',
 1,
 1,
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2',
 0,
 0,
 '2',
 0,
 '2',
 0,
 1,
 0,
 1,
 1,
 '3',
 1,
 '2'

In [33]:
resul = [int(num) for num in resul]

In [34]:
len(resul)

689

In [35]:
# Dividimos en listas de 13 elementos cada una para obtener las filas:
festivos = [resul[i:i+13] for i in range(0, len(resul), 13)]

# Eliminamos el primer elemento de cada lista dentro de festivos:
total_festivos = [festivo[1:] for festivo in festivos]

In [36]:
# Aquí obtenemos el número de festivos por mes, pertenenciendo cada fila a una provinci
total_festivos

[[2, 0, 0, 2, 1, 1, 0, 1, 0, 1, 1, 3],
 [2, 0, 1, 3, 0, 1, 0, 1, 0, 1, 1, 2],
 [2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 3, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 2, 1, 0, 0, 1, 1, 1, 1, 3],
 [2, 0, 0, 2, 0, 2, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 3, 0, 0, 1, 1, 1, 1, 1, 2],
 [2, 0, 0, 3, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 2, 1, 0, 0, 1, 1, 1, 1, 3],
 [2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 0, 1, 3, 0, 1, 0, 1, 0, 1, 1, 2],
 [2, 0, 0, 2, 0, 0, 1, 2, 1, 1, 1, 2],
 [2, 0, 0, 2, 1, 1, 0, 1, 0, 1, 1, 3],
 [2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 2, 1, 1, 1, 1, 0, 1, 1, 2],
 [2, 0, 0, 2, 1, 1, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 2, 0, 2, 0, 1, 0, 1, 1, 3],
 [2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 2, 1, 1, 0, 1, 0, 1, 1, 3],
 [2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 3, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 3, 1, 0, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 2, 0, 2, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 3, 0, 1, 0, 1, 0, 1, 1, 3],
 [2, 0, 0, 2, 1, 1, 1, 1,

In [37]:
provincias

['ALBACETE',
 'ALICANTE',
 'ALMERÍA',
 'ÁVILA',
 'BADAJOZ',
 'BARCELONA',
 'BILBAO',
 'BURGOS',
 'CÁCERES',
 'CÁDIZ',
 'CASTELLÓN',
 'CEUTA',
 'CIUDAD REAL',
 'CÓRDOBA',
 'CORUÑA',
 'CUENCA',
 'GIRONA',
 'GRANADA',
 'GUADALAJARA',
 'HUELVA',
 'HUESCA',
 'JAÉN',
 'LEÓN',
 'LLEIDA',
 'LOGROÑO',
 'LUGO',
 'MADRID',
 'MÁLAGA',
 'MELILLA',
 'MURCIA',
 'OURENSE',
 'OVIEDO',
 'PALENCIA',
 'P. MALLORCA',
 'PALMAS',
 'PAMPLONA',
 'PONTEVEDRA',
 'VIGO(*)',
 'SALAMANCA',
 'SAN SEBASTIÁN',
 'S.C. TENERIFE',
 'SANTANDER',
 'SEGOVIA',
 'SEVILLA',
 'SORIA',
 'TARRAGONA',
 'TERUEL',
 'TOLEDO',
 'VALENCIA',
 'VALLADOLID',
 'VITORIA',
 'ZAMORA',
 'ZARAGOZA']

In [38]:
len(total_festivos)

53

In [39]:
len(provincias)

53

In [40]:
driver.quit()

In [41]:
# Ahora vamos a unir las provincias a la lista de los días festivos por mes:

festivos_provincias = [[provincia] + festivo for provincia, festivo in zip(provincias, total_festivos)]
festivos_provincias


[['ALBACETE', 2, 0, 0, 2, 1, 1, 0, 1, 0, 1, 1, 3],
 ['ALICANTE', 2, 0, 1, 3, 0, 1, 0, 1, 0, 1, 1, 2],
 ['ALMERÍA', 2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 ['ÁVILA', 2, 0, 0, 3, 1, 0, 0, 1, 0, 1, 1, 3],
 ['BADAJOZ', 2, 0, 0, 2, 1, 0, 0, 1, 1, 1, 1, 3],
 ['BARCELONA', 2, 0, 0, 2, 0, 2, 0, 1, 0, 1, 1, 3],
 ['BILBAO', 2, 0, 0, 3, 0, 0, 1, 1, 1, 1, 1, 2],
 ['BURGOS', 2, 0, 0, 3, 1, 0, 0, 1, 0, 1, 1, 3],
 ['CÁCERES', 2, 0, 0, 2, 1, 0, 0, 1, 1, 1, 1, 3],
 ['CÁDIZ', 2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 ['CASTELLÓN', 2, 0, 1, 3, 0, 1, 0, 1, 0, 1, 1, 2],
 ['CEUTA', 2, 0, 0, 2, 0, 0, 1, 2, 1, 1, 1, 2],
 ['CIUDAD REAL', 2, 0, 0, 2, 1, 1, 0, 1, 0, 1, 1, 3],
 ['CÓRDOBA', 2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 ['CORUÑA', 2, 0, 0, 2, 1, 1, 1, 1, 0, 1, 1, 2],
 ['CUENCA', 2, 0, 0, 2, 1, 1, 0, 1, 0, 1, 1, 3],
 ['GIRONA', 2, 0, 0, 2, 0, 2, 0, 1, 0, 1, 1, 3],
 ['GRANADA', 2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3],
 ['GUADALAJARA', 2, 0, 0, 2, 1, 1, 0, 1, 0, 1, 1, 3],
 ['HUELVA', 2, 1, 0, 2, 1, 0, 0, 1, 0, 1, 1, 3]

In [42]:
festivos = pd.DataFrame(festivos_provincias, columns=columns)


In [43]:
festivos.head()

Unnamed: 0,PROVINCIA,ENERO,FEBRERO,MARZO,ABRIL,MAYO,JUNIO,JULIO,AGOSTO,SEPTIEMBRE,OCTUBRE,NOVIEMBRE,DICIEMBRE
0,ALBACETE,2,0,0,2,1,1,0,1,0,1,1,3
1,ALICANTE,2,0,1,3,0,1,0,1,0,1,1,2
2,ALMERÍA,2,1,0,2,1,0,0,1,0,1,1,3
3,ÁVILA,2,0,0,3,1,0,0,1,0,1,1,3
4,BADAJOZ,2,0,0,2,1,0,0,1,1,1,1,3


In [44]:

# Convertimos los nombres de columnas a minúsculas y eliminamos tildes
festivos.columns = map(lambda x: unidecode(x.lower()), festivos.columns)


In [45]:
# Convertimos los nombres de provincias a minúsculas y eliminamos tildes
festivos.provincia = festivos.provincia.apply(lambda x: unidecode(x.lower()))

In [46]:
festivos.head()

Unnamed: 0,provincia,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre
0,albacete,2,0,0,2,1,1,0,1,0,1,1,3
1,alicante,2,0,1,3,0,1,0,1,0,1,1,2
2,almeria,2,1,0,2,1,0,0,1,0,1,1,3
3,avila,2,0,0,3,1,0,0,1,0,1,1,3
4,badajoz,2,0,0,2,1,0,0,1,1,1,1,3


In [47]:
# Guardamos el dataframe en un archivo csv:

festivos.to_csv('../data/festivos_provincia.csv', index=False)