## EXTRACCIÓN DE DATOS:


In [2]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import time
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
import re
import pyperclip

### EXTRACCIÓN DE NORMATIVAS AUTONÓMICAS:

Comenzamos realizando web scraping de las normativas autonómicas en materia de violencia de género para obtener un dataframe donde tengamos las regiones autonómicas y los años en que ha existido nueva norma o modificación en este ámbito.

Encontramos la publicación del BOE donde vienen recogidas las normativas relacionadas con esta materia (Resolución de 16 de marzo de 2023, de la Secretaría de Estado de Igualdad y contra la Violencia de Género, por la que se publica el Acuerdo de la Conferencia Sectorial de Igualdad, de 3 de marzo de 2023, por el que se aprueba el plan conjunto plurianual en materia de violencia contra las mujeres (2023-2027)) y se procede al scrapeo de la misma.

In [2]:
opciones=Options()
PATH = "/driver/chromedriver"
driver = webdriver.Chrome(opciones)

In [3]:
url = 'https://www.boe.es/diario_boe/txt.php?id=BOE-A-2023-7326'

In [4]:
driver.get(url)

In [5]:
lista = driver.find_elements(By.XPATH, '//p[@class="parrafo_2" or contains(@class, "parrafo")]')

In [6]:
lista

[<selenium.webdriver.remote.webelement.WebElement (session="71833f5e6f7a1b781dbd36d857b6bb62", element="F1E662C0CCBBC2B66DFD8D349178A400_element_36")>,
 <selenium.webdriver.remote.webelement.WebElement (session="71833f5e6f7a1b781dbd36d857b6bb62", element="F1E662C0CCBBC2B66DFD8D349178A400_element_37")>,
 <selenium.webdriver.remote.webelement.WebElement (session="71833f5e6f7a1b781dbd36d857b6bb62", element="F1E662C0CCBBC2B66DFD8D349178A400_element_38")>,
 <selenium.webdriver.remote.webelement.WebElement (session="71833f5e6f7a1b781dbd36d857b6bb62", element="F1E662C0CCBBC2B66DFD8D349178A400_element_39")>,
 <selenium.webdriver.remote.webelement.WebElement (session="71833f5e6f7a1b781dbd36d857b6bb62", element="F1E662C0CCBBC2B66DFD8D349178A400_element_40")>,
 <selenium.webdriver.remote.webelement.WebElement (session="71833f5e6f7a1b781dbd36d857b6bb62", element="F1E662C0CCBBC2B66DFD8D349178A400_element_41")>,
 <selenium.webdriver.remote.webelement.WebElement (session="71833f5e6f7a1b781dbd36d857b6

In [7]:
# Vamos a extraer únicamente los párrafos que contienen las normativas autonómicas:

lst2=[]
for i in range(231, 271):
    lst2.append(lista[i].text)

In [8]:
driver.quit()

In [9]:
lst2

['–\u2002País Vasco:',
 '●\u2002Ley 4/2005, de 18 de febrero, para la Igualdad de Mujeres y Hombres, modificada por la Ley 1/2022, de 3 de marzo, de segunda modificación de la Ley para la Igualdad de Mujeres y Hombres.',
 '–\u2002Cataluña:',
 '●\u2002Ley 5/2008, de 24 de abril, del derecho de las mujeres a erradicar la violencia machista, modificada por la Ley 17/2020, de 22 de diciembre, de modificación de la Ley 5/2008, del derecho de las mujeres a erradicar la violencia machista.',
 '●\u2002Ley 17/2015, de 21 de julio, de igualdad efectiva de mujeres y hombres',
 '–\u2002Galicia:',
 '●\u2002Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género, modificada por la Ley 15/2021, de 3 de diciembre, por la que se modifica la Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género.',
 '●\u2002Decreto Legislativo 2/2015, de 12 de febrero, por el que se aprueba el texto refundido de las 

In [10]:
lst2[0]

'–\u2002País Vasco:'

In [11]:
# Limpieza de la lista obtenida:

for i, e in enumerate(lst2):
    if e.startswith('–\u2002'):
        lst2[i] = e.split('–\u2002', 1)[1]
    elif e.startswith('●\u2002'):
        lst2[i] = e.split('●\u2002', 1)[1]


In [12]:
lst2

['País Vasco:',
 'Ley 4/2005, de 18 de febrero, para la Igualdad de Mujeres y Hombres, modificada por la Ley 1/2022, de 3 de marzo, de segunda modificación de la Ley para la Igualdad de Mujeres y Hombres.',
 'Cataluña:',
 'Ley 5/2008, de 24 de abril, del derecho de las mujeres a erradicar la violencia machista, modificada por la Ley 17/2020, de 22 de diciembre, de modificación de la Ley 5/2008, del derecho de las mujeres a erradicar la violencia machista.',
 'Ley 17/2015, de 21 de julio, de igualdad efectiva de mujeres y hombres',
 'Galicia:',
 'Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género, modificada por la Ley 15/2021, de 3 de diciembre, por la que se modifica la Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género.',
 'Decreto Legislativo 2/2015, de 12 de febrero, por el que se aprueba el texto refundido de las disposiciones legales de la Comunidad Autónoma de Galici

In [13]:
# Transformación en un diccionario:

leyes = {}
region = None  # Variable para almacenar la región actual mientras iteramos por la lista

for e in lst2:
    if e.endswith(':'):  # Si la cadena termina en ':', es el nombre de una región
        region = e.rstrip(':').strip()  # Obtenemos el nombre de la región sin los dos puntos y con espacios eliminados
        leyes[region] = []  # Inicializamos la lista de leyes para esta región
    elif region is not None:  # Si no termina en ':', y ya hemos encontrado una región
        leyes[region].append(e.strip())

In [14]:
leyes

{'País Vasco': ['Ley 4/2005, de 18 de febrero, para la Igualdad de Mujeres y Hombres, modificada por la Ley 1/2022, de 3 de marzo, de segunda modificación de la Ley para la Igualdad de Mujeres y Hombres.'],
 'Cataluña': ['Ley 5/2008, de 24 de abril, del derecho de las mujeres a erradicar la violencia machista, modificada por la Ley 17/2020, de 22 de diciembre, de modificación de la Ley 5/2008, del derecho de las mujeres a erradicar la violencia machista.',
  'Ley 17/2015, de 21 de julio, de igualdad efectiva de mujeres y hombres'],
 'Galicia': ['Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género, modificada por la Ley 15/2021, de 3 de diciembre, por la que se modifica la Ley 11/2007, de 27 de julio, gallega para la prevención y el tratamiento integral de la violencia de género.',
  'Decreto Legislativo 2/2015, de 12 de febrero, por el que se aprueba el texto refundido de las disposiciones legales de la Comunidad Autónoma de Galic

In [15]:
años_leyes = {}

# Expresión regular para encontrar años de cuatro dígitos
año = re.compile(r'\b\d{4}\b')

for region, leyes_lista in leyes.items():
    # Utilizamos un conjunto para evitar años duplicados
    años = set()
    
    # Extraemos los años usando expresiones regulares
    años.update({int(match.group()) for ley in leyes_lista for match in año.finditer(ley)})
    
    # Almacenamos la información en el nuevo diccionario
    años_leyes[region] = list(años)

In [16]:
años_leyes

{'País Vasco': [2005, 2022],
 'Cataluña': [2008, 2020, 2015],
 'Galicia': [2016, 2015, 2021, 2007],
 'Andalucía': [2018, 2007],
 'Principado de Asturias': [2011],
 'Cantabria': [2004],
 'La Rioja': [2022],
 'Región de Murcia': [2019, 2007],
 'Comunitat Valenciana': [2012],
 'Aragón': [2007],
 'Castilla-La Mancha': [2010, 2018],
 'Canarias': [2017, 2003],
 'Comunidad Foral de Navarra': [2018, 2019, 2015],
 'Extremadura': [2011],
 'Islas Baleares': [2016],
 'Comunidad de Madrid': [2018, 2005],
 'Castilla y León': [2017, 2010, 2003]}

In [17]:
total_años = sorted(set(año for años in años_leyes.values() for año in años))

# Crear un DataFrame inicializado con ceros
normativas = pd.DataFrame(0, index = años_leyes.keys(), columns=total_años)

# Llenar el DataFrame con unos donde corresponda
for region, años in años_leyes.items():
    normativas.loc[region, años] = 1

In [18]:
normativas

Unnamed: 0,2003,2004,2005,2007,2008,2010,2011,2012,2015,2016,2017,2018,2019,2020,2021,2022
País Vasco,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1
Cataluña,0,0,0,0,1,0,0,0,1,0,0,0,0,1,0,0
Galicia,0,0,0,1,0,0,0,0,1,1,0,0,0,0,1,0
Andalucía,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0
Principado de Asturias,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
Cantabria,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
La Rioja,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1
Región de Murcia,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0
Comunitat Valenciana,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0
Aragón,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0


In [19]:
# Guardamos el archivo para su posterior análisis:

normativas.to_csv('../data/normativas.csv', index=True)

### EXTRACCIÓN DE DÍAS FESTIVOS POR PROVINCIAS

El objetivo es extraer, por provincias, el número de festivos que suele haber por mes, utilizando para ello los festivos del año 2022, ya que estos días no suelen variar demasiado de unos años a otros.

In [3]:
opciones=Options()
driver = webdriver.Chrome(opciones)

In [4]:
url = 'https://www.mites.gob.es/es/guia/texto/guia_6/contenidos/guia_6_14_6.htm#'

In [5]:
driver.get(url)

In [6]:
tabla = driver.find_elements(By.XPATH,'//table/tbody/tr')
tabla

[<selenium.webdriver.remote.webelement.WebElement (session="8ac4b776336011c03d65b12de284f91e", element="A2E46FBA1A1AA83D327537E7C61069D0_element_3")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8ac4b776336011c03d65b12de284f91e", element="A2E46FBA1A1AA83D327537E7C61069D0_element_4")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8ac4b776336011c03d65b12de284f91e", element="A2E46FBA1A1AA83D327537E7C61069D0_element_5")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8ac4b776336011c03d65b12de284f91e", element="A2E46FBA1A1AA83D327537E7C61069D0_element_6")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8ac4b776336011c03d65b12de284f91e", element="A2E46FBA1A1AA83D327537E7C61069D0_element_7")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8ac4b776336011c03d65b12de284f91e", element="A2E46FBA1A1AA83D327537E7C61069D0_element_8")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8ac4b776336011c03d65b12de284f91e",

In [7]:
tabla2 = []

for fila in tabla:
    tabla2.append(fila.text.split('\n')) 

In [8]:
tabla2

[['PROVINCIA',
  'ENERO',
  'FEBRERO',
  'MARZO',
  'ABRIL',
  'MAYO',
  'JUNIO',
  'JULIO',
  'AGOSTO',
  'SEPTIEMBRE',
  'OCTUBRE',
  'NOVIEMBRE',
  'DICIEMBRE'],
 ['ALBACETE', '1-6', '    14-15', '31', '16', '  15', '  12', '1', '6-8-26'],
 ['ALICANTE', '1-6', '  19', '14-15-18', '  24', '  15', '  12', '1', '6-8'],
 ['ALMERÍA', '1-6', '28', '  14-15', '2', '    15', '  12', '1', '6-8-26'],
 ['ÁVILA', '1-6', '    14-15-23', '2', '    15', '  12', '1', '6-8-26'],
 ['BADAJOZ', '1-6', '    14-15', '2', '    15', '8', '12', '1', '6-8-26'],
 ['BARCELONA', '1-6', '    15-18', '  6-24', '  15', '  12', '1', '6-8-26'],
 ['BILBAO', '1-6', '    14-15-18', '    25', '15', '6', '12', '1', '6-8'],
 ['BURGOS', '1-6', '    14-15-23', '2', '    15', '  12', '1', '6-8-26'],
 ['CÁCERES', '1-6', '    14-15', '2', '    15', '8', '12', '1', '6-8-26'],
 ['CÁDIZ', '1-6', '28', '  14-15', '2', '    15', '  12', '1', '6-8-26'],
 ['CASTELLÓN', '1-6', '  19', '14-15-28', '  24', '  15', '  12', '1', '6-8'],
 

In [9]:
columns = tabla[0].text.split()   # nombres de las columnas
columns

['PROVINCIA',
 'ENERO',
 'FEBRERO',
 'MARZO',
 'ABRIL',
 'MAYO',
 'JUNIO',
 'JULIO',
 'AGOSTO',
 'SEPTIEMBRE',
 'OCTUBRE',
 'NOVIEMBRE',
 'DICIEMBRE']

In [14]:
# Hacemos pruebas para ver cómo solucionar los espacios en blanco de las filas (que corresponden a meses en los que no hay ningún festivo)

values = []

for fila in (tabla[1:]):
    values.append(fila.text) 



values[0] = values[0].replace(' ', '0')
values


['ALBACETE\n1-6\n000014-15\n31\n16\n0015\n0012\n1\n6-8-26',
 'ALICANTE\n1-6\n  19\n14-15-18\n  24\n  15\n  12\n1\n6-8',
 'ALMERÍA\n1-6\n28\n  14-15\n2\n    15\n  12\n1\n6-8-26',
 'ÁVILA\n1-6\n    14-15-23\n2\n    15\n  12\n1\n6-8-26',
 'BADAJOZ\n1-6\n    14-15\n2\n    15\n8\n12\n1\n6-8-26',
 'BARCELONA\n1-6\n    15-18\n  6-24\n  15\n  12\n1\n6-8-26',
 'BILBAO\n1-6\n    14-15-18\n    25\n15\n6\n12\n1\n6-8',
 'BURGOS\n1-6\n    14-15-23\n2\n    15\n  12\n1\n6-8-26',
 'CÁCERES\n1-6\n    14-15\n2\n    15\n8\n12\n1\n6-8-26',
 'CÁDIZ\n1-6\n28\n  14-15\n2\n    15\n  12\n1\n6-8-26',
 'CASTELLÓN\n1-6\n  19\n14-15-28\n  24\n  15\n  12\n1\n6-8',
 'CEUTA\n1-6\n    14-15\n    9\n5-15\n2\n12\n1\n6-8',
 'CIUDAD REAL\n1-6\n    14-15\n31\n16\n  15\n  12\n1\n6-8-26',
 'CÓRDOBA\n1-6\n28\n  14-15\n2\n    15\n  12\n1\n6-8-26',
 'CORUÑA, A\n1-6\n    14-15\n17\n24\n25\n15\n  12\n1\n6-8',
 'CUENCA\n1-6\n    14-15\n31\n16\n  15\n  12\n1\n6-8-26',
 'GIRONA\n1-6\n    15-18\n  6-24\n  15\n  12\n1\n6-8-26',
 'GRANA

In [12]:
for fila in values:

    values = fila.replace(' ', '0')
    string = values.split('\n')

    # Reemplazamos '00' por '0' y '0000' por '00' en cada string (por cada celda en blanco se han generado dos ceros)
    for i in range(len(string)):
        string[i] = re.sub(r'(?<!\d)00(?!0)', '0', string[i])
        string[i] = re.sub(r'(?<!\d)0000(?!0)', '00', string[i])
   
 
    valores = []
    for elemento in string:
        # Separamos por el '0' y agregamos '0' en cada lugar correspondiente
        partes = elemento.split('0')
        valores.extend(['0' if parte == '' else parte for parte in partes])
        # El método extend() se utiliza para agregar elementos de un iterable al final de otra lista

    # Reemplazamos cadenas vacías con '0'
    #valores = ['0' if valor == '' else valor for valor in valores]
    valores

In [13]:
valores

['6']