In [1]:
!pip install -q PyMuPDF
!pip install -q mysql-connector-python

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.5/3.5 MB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.9/15.9 MB[0m [31m19.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.3/19.3 MB[0m [31m56.8 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Extract Links

In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL of the webpage
url = "https://transparencia.oviedo.es/normativa-e-informes/ordenanzas-y-reglamentos"
# Define headers to mimic a web browser request
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
}

# Make a request to the webpage with headers
response = requests.get(url, headers=headers)
response.raise_for_status()  # Ensure the request was successful

# Parse the HTML content with BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Find the ul element with the class 'layouts level-1'
ul_element = soup.find('ul', class_='layouts level-1')

# Find all li elements within the ul element
li_elements = ul_element.find_all('li')

# Extract the href attributes and span text from each li element
result = []
for li in li_elements:
    a_tag = li.find('a')
    href = a_tag['href']
    span_text = a_tag.find('span').text
    # Check if the last segment of the URL contains the desired words
    last_segment = href.split('/')[-1]
    if any(keyword in last_segment for keyword in ['reglamentos', 'ordenanza', 'ordenanzas']):
        result.append((span_text, href))


# # Create a DataFrame
df_links = pd.DataFrame(result, columns=['subgrupo', "link_grupo"])

df_links

Unnamed: 0,subgrupo,link_grupo
0,Ordenanzas reguladoras,https://transparencia.oviedo.es/normativa-e-in...
1,Reglamentos,https://transparencia.oviedo.es/normativa-e-in...
2,Ordenanza de subvenciones y bases,https://transparencia.oviedo.es/normativa-e-in...
3,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/ordenanzas-de-...


# Primer Subgrupo: Ordenanzas reguladoras

In [4]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import fitz  # PyMuPDF
import io
from datetime import datetime

# URL of the webpage
url = df_links.link_grupo[0]

# Define headers to mimic a web browser request
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
}

# Make a request to the webpage with headers
response = requests.get(url, headers=headers)
response.raise_for_status()  # Ensure the request was successful

# Parse the HTML content with BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Extract the data
data = []


# Function to extract PDF content from URL using PyMuPDF
def extract_pdf_content(pdf_url):
    response = requests.get(pdf_url, headers=headers)
    if response.headers.get('Content-Type') == 'application/pdf':
        pdf_file = io.BytesIO(response.content)
        document = fitz.open(stream=pdf_file, filetype="pdf")
        text_content = ""
        for page_num in range(len(document)):
            page = document.load_page(page_num)
            text_content += page.get_text()
        return text_content
    else:
        return "The URL did not return a PDF file."



# Find all h3 elements
h3_elements = soup.find_all('h3', class_='asset-entries-group-label')
for h3 in h3_elements:
    h3_text = h3.text.strip()

    # Find the sibling div elements with class 'assets-default'
    sibling_div = h3.find_next_sibling('div', class_='assets-default')
    if sibling_div:
        # Find all h4 elements and a href within the 'text' div
        h4_elements = sibling_div.find_all('h4', class_='pagesubsubtitle')
        for h4 in h4_elements:
            h4_text = h4.text.strip()
            a_tags = h4.find_next_sibling('p').find_all('a')
            for a in a_tags:
                href = a['href']

                # Add prefix if href starts with "/documents"
                if href.startswith('/documents'):
                    href = "https://transparencia.oviedo.es" + href

                content = extract_pdf_content(href)

                data.append((h4_text, h3_text, href, content))

# Create a DataFrame
df_org_reg = pd.DataFrame(data, columns=['titulo', 'grupo', 'url', 'content'])

ciudad = "Oviedo"
current_date = datetime.today().strftime('%Y-%m-%d')
subgroup = df_links.subgrupo[0]

df_org_reg.insert(0, 'ciudad', ciudad)
df_org_reg.insert(1, 'date', current_date)
df_org_reg.insert(4, 'subgrupo', subgroup)


# Save or display the DataFrame
df_org_reg

Unnamed: 0,ciudad,date,titulo,grupo,subgrupo,url,content
0,Oviedo,2024-07-30,Ordenanza municipal de Limpieza de vías públic...,Medio Ambiente,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/OR...,\n \nOrdenanza municipal de Limpieza de Vías ...
1,Oviedo,2024-07-30,Ordenanza de protección del medio ambiente atm...,Medio Ambiente,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,ORDENANZA MUNICIPAL DE PROTECCIÓN DEL \nMEDIO ...
2,Oviedo,2024-07-30,Ordenanza sobre protección del medio ambiente ...,Medio Ambiente,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,\t\n \r\r \...
3,Oviedo,2024-07-30,Ordenanza municipal de convivencia ciudadana,Seguridad Ciudadana,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,1\nTEXTO DE LA ORDENANZA MUNICIPAL DE CONVIVEN...
4,Oviedo,2024-07-30,Ordenanza municipal de movilidad y tráfico,Seguridad Ciudadana,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,AYUNTAMIENTO DE OVIEDO CIF: P3304400I Registr...
5,Oviedo,2024-07-30,"Ordenanza municipal de transparencia, acceso a...",Participación,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/OR...,"\n1 \nORDENANZA MUNICIPAL DE TRANSPARENCIA, ..."
6,Oviedo,2024-07-30,Ordenanza municipal reguladora de la cesión te...,Participación,Ordenanzas reguladoras,https://transparencia.oviedo.es/documents/2504...,DOCUMENTO\nIDENTIFICADORES\nESTADO\nFIRMAS\nOT...
7,Oviedo,2024-07-30,Ordenanza reguladora de la administración elec...,Participación,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,TEXTO INTEGRO DE LA ORDENANZA REGULADORA DE LA...
8,Oviedo,2024-07-30,Ordenanza reguladora de los Servicios Locales ...,Participación,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,\t\n \r\r\r\r...
9,Oviedo,2024-07-30,Ordenanza municipal reguladora de las ocupacio...,Uso de vías y espacios públicos. Obras,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/OR...,1 \n \n \n \n \nORDENANZA MUNICIPAL REGULADORA...


In [5]:
# Download pdfs that could not be read (index 2, 8 and 16)

import requests
import os

def download_pdf(url, headers, local_filename):
    try:
        # Send a GET request to the URL with the specified headers
        response = requests.get(url, headers=headers)

        # Check if the request was successful
        if response.status_code == 200:
            # Open a local file to write the content
            with open(local_filename, 'wb') as file:
                file.write(response.content)
            print(f"File successfully downloaded and saved as {local_filename}")
        else:
            print(f"Failed to download file from {url}. Status code: {response.status_code}")
    except Exception as e:
        print(f"An error occurred: {e}")

# URLs of the PDF files
urls = [
    df_org_reg.url[2],  # OrdenanzaRuidosYVibraciones
    df_org_reg.url[8],  # OrdenanzaDeConsumo
    df_org_reg.url[16], # OrdenanzaInstalacionVallasAndamios
]

# Headers to mimic a browser request
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# File names
pdf_filenames = [
    "OrdenanzaRuidosYVibraciones.pdf",
    "OrdenanzaDeConsumo.pdf",
    "OrdenanzaInstalacionVallasAndamios.pdf"
]

# Download each PDF
for url, filename in zip(urls, pdf_filenames):
    download_pdf(url, headers, filename)


File successfully downloaded and saved as OrdenanzaRuidosYVibraciones.pdf
File successfully downloaded and saved as OrdenanzaDeConsumo.pdf
File successfully downloaded and saved as OrdenanzaInstalacionVallasAndamios.pdf


In [6]:
# TXT file Extracted with PDF2GO online, as I could not find any tool that worked

files_and_indices = {
    '/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/ordenanzas/OrdenanzaRuidosYVibraciones.txt': 2,
    '/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/ordenanzas/OrdenanzaDeConsumo.txt': 8,
    '/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/ordenanzas/OrdenanzaInstalacionVallasAndamios.txt': 16
}

# Loop through each file and index
for file_path, index in files_and_indices.items():
    # Open the file in read mode
    with open(file_path, 'r') as file:
        # Read the contents of the file
        content = file.read()

    # Insert the content into the DataFrame at the specified index
    df_org_reg.at[index, 'content'] = content

df_org_reg

Unnamed: 0,ciudad,date,titulo,grupo,subgrupo,url,content
0,Oviedo,2024-07-30,Ordenanza municipal de Limpieza de vías públic...,Medio Ambiente,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/OR...,\n \nOrdenanza municipal de Limpieza de Vías ...
1,Oviedo,2024-07-30,Ordenanza de protección del medio ambiente atm...,Medio Ambiente,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,ORDENANZA MUNICIPAL DE PROTECCIÓN DEL \nMEDIO ...
2,Oviedo,2024-07-30,Ordenanza sobre protección del medio ambiente ...,Medio Ambiente,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
3,Oviedo,2024-07-30,Ordenanza municipal de convivencia ciudadana,Seguridad Ciudadana,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,1\nTEXTO DE LA ORDENANZA MUNICIPAL DE CONVIVEN...
4,Oviedo,2024-07-30,Ordenanza municipal de movilidad y tráfico,Seguridad Ciudadana,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,AYUNTAMIENTO DE OVIEDO CIF: P3304400I Registr...
5,Oviedo,2024-07-30,"Ordenanza municipal de transparencia, acceso a...",Participación,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/OR...,"\n1 \nORDENANZA MUNICIPAL DE TRANSPARENCIA, ..."
6,Oviedo,2024-07-30,Ordenanza municipal reguladora de la cesión te...,Participación,Ordenanzas reguladoras,https://transparencia.oviedo.es/documents/2504...,DOCUMENTO\nIDENTIFICADORES\nESTADO\nFIRMAS\nOT...
7,Oviedo,2024-07-30,Ordenanza reguladora de la administración elec...,Participación,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,TEXTO INTEGRO DE LA ORDENANZA REGULADORA DE LA...
8,Oviedo,2024-07-30,Ordenanza reguladora de los Servicios Locales ...,Participación,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,ORDENANZA MUNICIPAL SOBRE PROTECCION DEL\nMEDI...
9,Oviedo,2024-07-30,Ordenanza municipal reguladora de las ocupacio...,Uso de vías y espacios públicos. Obras,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/OR...,1 \n \n \n \n \nORDENANZA MUNICIPAL REGULADORA...


In [7]:
df_org_reg.to_csv('/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/oviedo_ordenanzas_reguladoras.csv', index=False)

In [8]:
# pd.read_csv('/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/oviedo_ordenanzas_reguladoras.csv', index_col = False)

# Segundo Subgrupo: Ordenanza de subvenciones y bases

In [9]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import fitz  # PyMuPDF
import io

# Define the URL
url = df_links.link_grupo[2]

# Define headers to mimic a web browser request
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
}

# Make a request to the webpage with headers
response = requests.get(url, headers=headers)
response.raise_for_status()  # Ensure the request was successful

# Parse the HTML content with BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Initialize lists to store the extracted data
data = []

# Function to extract PDF content from URL using PyMuPDF
def extract_pdf_content(pdf_url):
    try:
        response = requests.get(pdf_url, headers=headers, timeout=10)
        response.raise_for_status()
        if response.headers.get('Content-Type') == 'application/pdf':
            pdf_file = io.BytesIO(response.content)
            document = fitz.open(stream=pdf_file, filetype="pdf")
            text_content = ""
            for page_num in range(len(document)):
                page = document.load_page(page_num)
                text_content += page.get_text()
            return text_content
        else:
            return "The URL did not return a PDF file."
    except requests.exceptions.RequestException as e:
        return f"Failed to retrieve PDF content: {e}"

# Find all <h3> elements with class "asset-entries-group-label"
h3_elements = soup.find_all('h3', class_='asset-entries-group-label')

for h3 in h3_elements:
    # Get the text of the <h3> element
    h3_text = h3.get_text(strip=True)

    # Get the next sibling elements of <h3> to find the relevant <p> and <a> elements
    sibling = h3.find_next_sibling('div', class_='assets-default')

    if sibling:
        # Find all <p> elements within the sibling div
        p_elements = sibling.find_all('p')


        # Loop through each <p> element and find <strong> tags
        for p in p_elements:
            strong_p = p.find('strong')
            if strong_p:
                p_text = strong_p.get_text(strip=True)

            a_element = p.find('a', href=True)
            if a_element:
                href = a_element['href']

                # Append the extracted data to the list as a dictionary
                data.append({
                    'titulo': p_text,
                    'grupo': h3_text,
                    'url': href,
                    'content': content

                })

# Create a DataFrame
df_org_sub = pd.DataFrame(data, columns=['titulo', 'grupo', 'url', 'content'])

ciudad = "Oviedo"
current_date = datetime.today().strftime('%Y-%m-%d')
subgroup = df_links.subgrupo[2]

df_org_sub.insert(0, 'ciudad', ciudad)
df_org_sub.insert(1, 'date', current_date)
df_org_sub.insert(4, 'subgrupo', subgroup)


# Save or display the DataFrame
df_org_sub

Unnamed: 0,ciudad,date,titulo,grupo,subgrupo,url,content
0,Oviedo,2024-07-30,Subvenciones a entidades organizadoras de fies...,Festejos,Ordenanza de subvenciones y bases,https://www.oviedo.es/documents/25047/1519956/...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
1,Oviedo,2024-07-30,Subvenciones destinadas a clubes deportivos de...,Deportes,Ordenanza de subvenciones y bases,https://sede.oviedo.es/documents/25047/1520881...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
2,Oviedo,2024-07-30,Subvenciones destinadas a jóvenes deportistas ...,Deportes,Ordenanza de subvenciones y bases,https://sede.oviedo.es/documents/25047/1520881...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
3,Oviedo,2024-07-30,Subvenciones destinadas a clubes deportivos y ...,Deportes,Ordenanza de subvenciones y bases,https://sede.oviedo.es/documents/25047/1520881...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
4,Oviedo,2024-07-30,"Subvenciones destinadas a escuelas deportivas,...",Deportes,Ordenanza de subvenciones y bases,https://sede.oviedo.es/documents/25047/1520881...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
5,Oviedo,2024-07-30,Subvenciones para entidades sin ánimo de lucro...,Servicios Sociales,Ordenanza de subvenciones y bases,https://sede.oviedo.es/documents/25047/1520877...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
6,Oviedo,2024-07-30,Subvenciones para proyectos para el fomento de...,Servicios Sociales,Ordenanza de subvenciones y bases,https://sede.oviedo.es/documents/25047/1520877...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
7,Oviedo,2024-07-30,Subvenciones para Organizaciones no Gubernamen...,Servicios Sociales,Ordenanza de subvenciones y bases,https://sede.oviedo.es/documents/25047/1520877...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
8,Oviedo,2024-07-30,Ayudas a familias en dificultades económicas c...,Servicios Sociales,Ordenanza de subvenciones y bases,https://sede.oviedo.es/documents/25047/1520877...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
9,Oviedo,2024-07-30,Prestaciones sociales de carácter económico pa...,Servicios Sociales,Ordenanza de subvenciones y bases,https://sede.oviedo.es/documents/25047/1520877...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...


In [10]:
df_org_sub.to_csv('/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/oviedo_ordenanzas_subvenciones.csv', index=False)

# Tercer Subgrupo: Ordenanzas de tributos y precios públicos

In [11]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Define the URL
url = df_links.link_grupo[3]

# Define headers to mimic a web browser request
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
}

# Make a request to the webpage with headers
response = requests.get(url, headers=headers)
response.raise_for_status()  # Ensure the request was successful

# Parse the HTML content with BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Initialize lists to store the extracted data
data = []


# Function to extract PDF content from URL using PyMuPDF
def extract_pdf_content(pdf_url):
    try:
        response = requests.get(pdf_url, headers=headers, timeout=10)
        response.raise_for_status()
        if response.headers.get('Content-Type') == 'application/pdf':
            pdf_file = io.BytesIO(response.content)
            document = fitz.open(stream=pdf_file, filetype="pdf")
            text_content = ""
            for page_num in range(len(document)):
                page = document.load_page(page_num)
                text_content += page.get_text()
            return text_content
        else:
            return "The URL did not return a PDF file."
    except requests.exceptions.RequestException as e:
        return f"Failed to retrieve PDF content: {e}"


# Find all <h3> elements with class "asset-entries-group-label"
div_elements = soup.find_all('div', class_='portlet-body')
# div_elements

# Iterate over each div element
for div in div_elements:
    # Extract the portlet title if it exists
    portlet_title = div.find('div', class_='portlet-title')

    if portlet_title:
        portlet_title_text = portlet_title.get_text(strip=True)

        # print(portlet_title_text)


    # Extract all 'li' elements with class 'document-entry'
    li_elements = div.find_all('li', class_='document-entry')
    for li in li_elements:
        a_tag = li.find('a')
        if a_tag:
            href = a_tag['href']
            # Add prefix if href starts with "/documents"
            if href.startswith('/documents'):
              href = "https://transparencia.oviedo.es" + href

            content = extract_pdf_content(href)

            link_text = a_tag.get_text(strip=True)

            # Add the extracted information to the data list
            data.append((link_text, portlet_title_text ,href, content))


# Create a DataFrame
df_org_trib = pd.DataFrame(data, columns=['titulo', 'grupo', 'url', 'content'])

ciudad = "Oviedo"
current_date = datetime.today().strftime('%Y-%m-%d')
subgroup = df_links.subgrupo[3]

df_org_trib.insert(0, 'ciudad', ciudad)
df_org_trib.insert(1, 'date', current_date)
df_org_trib.insert(4, 'subgrupo', subgroup)


# Save or display the DataFrame
df_org_trib

Unnamed: 0,ciudad,date,titulo,grupo,subgrupo,url,content
0,Oviedo,2024-07-30,"Ordenanza General(pdf781,2 kB )","Ordenanza General de Gestión, Recaudación e In...",Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,"\n1 \n \n \nORDENANZA GENERAL DE GESTIÓN, REC..."
1,Oviedo,2024-07-30,Ordenanza 100. Tasa por expedición de document...,Por prestación de servicios o realización de a...,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,\n1 \n \nORDENANZA FISCAL NÚMERO 100 \nTASA P...
2,Oviedo,2024-07-30,Ordenanza 101. Licencia de autotaxis y demás v...,Por prestación de servicios o realización de a...,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,\n1 \n \n \n \nORDENANZA FISCAL NÚMERO 101 \n...
3,Oviedo,2024-07-30,Ordenanza 102. Servicios especiales por espect...,Por prestación de servicios o realización de a...,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,\n1 \n \n \nORDENANZA FISCAL NÚMERO 102 \n \n...
4,Oviedo,2024-07-30,Ordenanza 103. Tasa por licencias urbanísticas...,Por prestación de servicios o realización de a...,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,\n1 \n \n \n \nORDENANZA FISCAL NÚMERO 103 \n...
5,Oviedo,2024-07-30,Ordenanza 104. Tasa de procedimientos de inter...,Por prestación de servicios o realización de a...,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,\n1 \n \n \nORDENANZA FISCAL NÚMERO 104 \n \n...
6,Oviedo,2024-07-30,Ordenanza 105. Tasa por el mantenimiento y pre...,Por prestación de servicios o realización de a...,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,\n1 \n \n \nORDENANZA FISCAL NÚMERO 105 \n \n...
7,Oviedo,2024-07-30,Ordenanza 108. Tasa por recogida de basuras.(p...,Por prestación de servicios o realización de a...,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,\n1 \n \n \nORDENANZA FISCAL NÚMERO 108 \nTAS...
8,Oviedo,2024-07-30,"Ordenanza 110. Inmovilización, recogida o depó...",Por prestación de servicios o realización de a...,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,\n1 \n \n \nORDENANZA FISCAL NUMERO 110 \n \n...
9,Oviedo,2024-07-30,Ordenanza 111. Vigilancia Establecimientos(pdf...,Por prestación de servicios o realización de a...,Ordenanzas de tributos y precios públicos.,https://transparencia.oviedo.es/documents/2504...,\n1 \n \n \nORDENANZA FISCAL NUMERO 111 \n \n...


In [12]:
df_org_trib.to_csv('/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/oviedo_ordenanzas_tributos.csv', index=False)

# Cuarto Subgrupo: Reglamentos

In [13]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Define the URL
url = df_links.link_grupo[1]

# Define headers to mimic a web browser request
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
}

# Make a request to the webpage with headers
response = requests.get(url, headers=headers)
response.raise_for_status()  # Ensure the request was successful

# Parse the HTML content with BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Initialize lists to store the extracted data
data = []

# Find all h3 elements
h3_elements = soup.find_all('h3', class_='asset-entries-group-label')

# Iterate over each h3 element to extract the required information
for h3 in h3_elements:
    h3_text = h3.text.strip()

    # Find the sibling div elements with class 'box'
    sibling_div = h3.find_next_sibling('div', class_='box')

    # If the sibling div exists, find all a tags within it
    if sibling_div:
        a_tags = sibling_div.find_all('a', class_='link-entry')
        for a_tag in a_tags:
            href = a_tag['href']
            link_text = a_tag.get_text(strip=True)
            # Add the extracted information to the data list
            data.append((link_text, href, h3_text))

# Convert the data to a DataFrame
df_reg = pd.DataFrame(data, columns=['titulo', 'url_reglamentos', 'grupo'])

# Function to check for TEXTO CONSOLIDADO in each URL
def check_texto_consolidado(url):
    try:
        # Make a request to the URL
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # Ensure the request was successful

        # Parse the HTML content with BeautifulSoup
        soup = BeautifulSoup(response.text, 'html.parser')

        # Find all <p> elements
        p_elements = soup.find_all('p')

        # Loop through each <p> element to find <strong> with text "TEXTO CONSOLIDADO"
        for p in p_elements:
            strong_p = p.find('strong')
            if strong_p and "TEXTO CONSOLIDADO" in strong_p.text:
                a_tag = p.find('a')
                if a_tag:
                    return a_tag['href']

            # Check if <p> itself contains "TEXTO CONSOLIDADO"
            elif "TEXTO CONSOLIDADO" in p.text:
                a_tag = p.find('a')
                if a_tag:
                    return a_tag['href']

        # Find all <li> elements
        li_elements = soup.find_all('li')

        # Loop through each <li> element to find "BIM"
        for li in li_elements:
            if "BOPA" in li.text:
                a_tag = li.find('a')
                if a_tag:
                  href = a_tag['href']

                  # Add prefix if href starts with "/documents"
                  if href.startswith('/documents'):
                      href = "https://sede.oviedo.es" + href
                  return href

        # Find <div> with class 'documents-wrapper' containing <span> with class 'important' and text 'Documentos'
        documents_wrapper = soup.find('div', class_='documents-wrapper')
        if documents_wrapper:
            span_important = documents_wrapper.find('span', class_='important')
            if span_important and "Documentos" in span_important.text:
                a_tag = documents_wrapper.find('a')
                if a_tag:
                  href = a_tag['href']

                  # Add prefix if href starts with "/documents"
                  if href.startswith('/documents'):
                      href = "https://sede.oviedo.es" + href
                  return href

        # # Find <div> with class 'media-body' and extract the href from the first <a> tag found within it
        # media_body = soup.find('div', class_='media-body')
        # if media_body:
        #     a_tag = media_body.find('a')
        #     if a_tag:
        #         return a_tag['href']

        return ""
    except requests.RequestException:
        return ""

# Function to extract PDF content from URL using PyMuPDF
def extract_pdf_content(pdf_url):
    try:
        response = requests.get(pdf_url, headers=headers, timeout=10)
        response.raise_for_status()
        if response.headers.get('Content-Type') == 'application/pdf':
            pdf_file = io.BytesIO(response.content)
            document = fitz.open(stream=pdf_file, filetype="pdf")
            text_content = ""
            for page_num in range(len(document)):
                page = document.load_page(page_num)
                text_content += page.get_text()
            return text_content
        else:
            return "The URL did not return a PDF file."
    except requests.exceptions.RequestException as e:
        return f"Failed to retrieve PDF content: {e}"

# Apply the function to each URL in the DataFrame
df_reg['url'] = df_reg['url_reglamentos'].apply(check_texto_consolidado)

# Extract PDF content for each Texto Consolidado URL
df_reg['content'] = df_reg['url'].apply(lambda x: extract_pdf_content(x) if x else "")


ciudad = "Oviedo"
current_date = datetime.today().strftime('%Y-%m-%d')
subgroup = df_links.subgrupo[1]

df_reg.drop(['url_reglamentos'], axis=1, inplace=True)

df_reg.insert(0, 'ciudad', ciudad)
df_reg.insert(1, 'date', current_date)
df_reg.insert(4, 'subgrupo', subgroup)


# Save or display the DataFrame
df_reg

Unnamed: 0,ciudad,date,titulo,grupo,subgrupo,url,content
0,Oviedo,2024-07-30,Reglamento Orgánico de Participación Ciudadana,Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\n \n \n1 \nREGLAMENTO ORGÁNICO DE PARTICIPAC...
1,Oviedo,2024-07-30,Reglamento Orgánico de Gobierno y Administraci...,Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/T...,DOCUMENTO\nIDENTIFICADORES\nESTADO\nFIRMAS\nOT...
2,Oviedo,2024-07-30,Reglamento Orgánico del Pleno,Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,1\nREGLAMENTO ORGÁNICO\nDEL PLENO DEL AYUNTAMI...
3,Oviedo,2024-07-30,"Reglamento Orgánico de organización, funcionam...",Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,"REGLAMENTO ORGANICO DE ORGANIZACIÓN, FUNCIONAM..."
4,Oviedo,2024-07-30,Reglamento Orgánico de la Comisión Especial de...,Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\nREGLAMENTO \nORGÁNICO \nDE \nLA \nCOMISIÓN ...
5,Oviedo,2024-07-30,Reglamento del Consejo de Participación Infant...,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.asturias.es/bopa/2021/01/04/2020-...,Failed to retrieve PDF content: HTTPSConnectio...
6,Oviedo,2024-07-30,Reglamento del Consejo Municipal de Mayores,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\n \n1 \n \n \nAPROBACIÓN DEFINITIVA DEL REGL...
7,Oviedo,2024-07-30,Reglamento del Consejo Sectorial de Medio Ambi...,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.asturias.es/web/sede/servicios-de...,Failed to retrieve PDF content: HTTPSConnectio...
8,Oviedo,2024-07-30,Reglamento del Consejo escolar municipal,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\n \n \n \nREGLAMENTO REGULADOR DEL FUNCIONAM...
9,Oviedo,2024-07-30,Reglamento del Consejo Municipal para la Coope...,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\n \n1 \n \n \n \nANUNCIO \n \n \nASUNTO: Apr...


In [14]:
# Complete df with missing text and links. Pdfs, could not be downloaded automatically (SSL error)

import fitz  # PyMuPDF
import pandas as pd

# Function to extract text from a PDF file
def extract_text_from_pdf(file_path):
    try:
        # Open the PDF file
        pdf_document = fitz.open(file_path)

        # Initialize a variable to store the text
        text = ""

        # Iterate through each page in the PDF
        for page_num in range(pdf_document.page_count):
            page = pdf_document.load_page(page_num)
            text += page.get_text()

        return text
    except Exception as e:
        print(f"An error occurred while extracting text from {file_path}: {e}")
        return ""

# Assuming df_reg is your DataFrame
# Create a dictionary with file paths and corresponding indices
files_and_indices = {
    '/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/reglamentos/Reglamento_5.pdf': 5,
    '/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/reglamentos/Reglamento_7.pdf': 7,
    '/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/reglamentos/Reglamento_25.pdf': 25,
    '/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/reglamentos/Reglamento_30.pdf': 30,
}

# Loop through each file and index
for file_path, index in files_and_indices.items():
    # Extract text from the PDF file
    content = extract_text_from_pdf(file_path)

    # Insert the content into the DataFrame at the specified index
    df_reg.at[index, 'content'] = content

# Update the 'url' column for indices 25 and 30
df_reg.at[25, 'url'] = "https://sede.asturias.es/bopa/2010/01/25/2010-00851.pdf"
df_reg.at[30, 'url'] = "https://sede.oviedo.es/documents/25047/25282/REGLAMENTO+AGRUPACI%C3%93N+VOLUNTARIOD+DE+P+CIVIL.pdf/e829415c-92d9-4f67-a437-22fdb260925d"


# Display the DataFrame
df_reg

Unnamed: 0,ciudad,date,titulo,grupo,subgrupo,url,content
0,Oviedo,2024-07-30,Reglamento Orgánico de Participación Ciudadana,Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\n \n \n1 \nREGLAMENTO ORGÁNICO DE PARTICIPAC...
1,Oviedo,2024-07-30,Reglamento Orgánico de Gobierno y Administraci...,Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/T...,DOCUMENTO\nIDENTIFICADORES\nESTADO\nFIRMAS\nOT...
2,Oviedo,2024-07-30,Reglamento Orgánico del Pleno,Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,1\nREGLAMENTO ORGÁNICO\nDEL PLENO DEL AYUNTAMI...
3,Oviedo,2024-07-30,"Reglamento Orgánico de organización, funcionam...",Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,"REGLAMENTO ORGANICO DE ORGANIZACIÓN, FUNCIONAM..."
4,Oviedo,2024-07-30,Reglamento Orgánico de la Comisión Especial de...,Reglamentos orgánicos,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\nREGLAMENTO \nORGÁNICO \nDE \nLA \nCOMISIÓN ...
5,Oviedo,2024-07-30,Reglamento del Consejo de Participación Infant...,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.asturias.es/bopa/2021/01/04/2020-...,http://www.asturias.es/bopa\nBOLETÍN OFICIAL D...
6,Oviedo,2024-07-30,Reglamento del Consejo Municipal de Mayores,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\n \n1 \n \n \nAPROBACIÓN DEFINITIVA DEL REGL...
7,Oviedo,2024-07-30,Reglamento del Consejo Sectorial de Medio Ambi...,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.asturias.es/web/sede/servicios-de...,http://www.asturias.es/bopa\nBOLETÍN OFICIAL D...
8,Oviedo,2024-07-30,Reglamento del Consejo escolar municipal,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\n \n \n \nREGLAMENTO REGULADOR DEL FUNCIONAM...
9,Oviedo,2024-07-30,Reglamento del Consejo Municipal para la Coope...,Reglamentos Consejos Sectoriales,Reglamentos,https://sede.oviedo.es/documents/25047/25282/R...,\n \n1 \n \n \n \nANUNCIO \n \n \nASUNTO: Apr...


In [15]:
df_reg.to_csv('/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/oviedo_reglamentos.csv', index=False)

# Concatenate DFs

In [16]:
df_org_reg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   ciudad    19 non-null     object
 1   date      19 non-null     object
 2   titulo    19 non-null     object
 3   grupo     19 non-null     object
 4   subgrupo  19 non-null     object
 5   url       19 non-null     object
 6   content   19 non-null     object
dtypes: object(7)
memory usage: 1.2+ KB


In [17]:
df_org_sub.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23 entries, 0 to 22
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   ciudad    23 non-null     object
 1   date      23 non-null     object
 2   titulo    23 non-null     object
 3   grupo     23 non-null     object
 4   subgrupo  23 non-null     object
 5   url       23 non-null     object
 6   content   23 non-null     object
dtypes: object(7)
memory usage: 1.4+ KB


In [18]:
df_org_trib.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39 entries, 0 to 38
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   ciudad    39 non-null     object
 1   date      39 non-null     object
 2   titulo    39 non-null     object
 3   grupo     39 non-null     object
 4   subgrupo  39 non-null     object
 5   url       39 non-null     object
 6   content   39 non-null     object
dtypes: object(7)
memory usage: 2.3+ KB


In [19]:
df_reg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   ciudad    31 non-null     object
 1   date      31 non-null     object
 2   titulo    31 non-null     object
 3   grupo     31 non-null     object
 4   subgrupo  31 non-null     object
 5   url       31 non-null     object
 6   content   31 non-null     object
dtypes: object(7)
memory usage: 1.8+ KB


In [20]:
final_df_oviedo = pd.concat([df_org_reg, df_org_sub, df_org_trib, df_reg], axis=0, ignore_index=True)

In [21]:
final_df_oviedo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112 entries, 0 to 111
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   ciudad    112 non-null    object
 1   date      112 non-null    object
 2   titulo    112 non-null    object
 3   grupo     112 non-null    object
 4   subgrupo  112 non-null    object
 5   url       112 non-null    object
 6   content   112 non-null    object
dtypes: object(7)
memory usage: 6.2+ KB


In [22]:
final_df_oviedo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112 entries, 0 to 111
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   ciudad    112 non-null    object
 1   date      112 non-null    object
 2   titulo    112 non-null    object
 3   grupo     112 non-null    object
 4   subgrupo  112 non-null    object
 5   url       112 non-null    object
 6   content   112 non-null    object
dtypes: object(7)
memory usage: 6.2+ KB


# Create SQL

In [23]:
!apt-get update
!apt-get install -y mysql-server mysql-client
!service mysql start
!mysql -e "CREATE DATABASE testdb;"
!mysql -e "CREATE USER 'testuser'@'localhost' IDENTIFIED BY 'testpassword';"
!mysql -e "GRANT ALL PRIVILEGES ON testdb.* TO 'testuser'@'localhost';"
!mysql -e "GRANT PROCESS, RELOAD, SHOW DATABASES ON *.* TO 'testuser'@'localhost';"
!mysql -e "FLUSH PRIVILEGES;"

0% [Working]            Get:1 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
0% [Waiting for headers] [1 InRelease 12.7 kB/129 kB 10%] [Connected to cloud.r-project.org (18.160.                                                                                                    Hit:2 http://archive.ubuntu.com/ubuntu jammy InRelease
0% [1 InRelease 48.9 kB/129 kB 38%] [Connected to cloud.r-project.org (18.160.213.79)] [Connected to                                                                                                    Get:3 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
0% [Waiting for headers] [1 InRelease 48.9 kB/129 kB 38%] [Waiting for headers] [Waiting for headers                                                                                                    Get:4 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
0% [4 InRelease 12.7 kB/128 kB 10%] [1 InRelease 57.6 kB/129 kB 45%] [Waiting

In [24]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime
from io import BytesIO
import mysql.connector

# Configuración de la conexión a MySQL
mydb = mysql.connector.connect(
    host="localhost",
    user="testuser",
    password="testpassword",
    database="testdb"
)

mycursor = mydb.cursor()


# Create the table in the database if it doesn't exist and adjust column types
create_table_query = """
CREATE TABLE IF NOT EXISTS normativa (
    id INT AUTO_INCREMENT PRIMARY KEY,
    ciudad VARCHAR(255),
    date DATE,
    titulo TEXT,
    grupo VARCHAR(255),
    subgrupo TEXT,
    url TEXT,
    content MEDIUMTEXT
)
"""

mycursor.execute(create_table_query)

# Insertar los datos en la tabla de MySQL
try:
  for index, row in final_df_oviedo.iterrows():
      sql = "INSERT INTO normativa (ciudad, date, titulo, grupo, subgrupo, url, content) VALUES (%s, %s, %s, %s, %s, %s, %s)"
      val = (row['ciudad'], row['date'], row['titulo'], row['grupo'], row['subgrupo'], row['url'], row['content'])

      mycursor.execute(sql, val)
      print(row['titulo'], " insertado en tabla.")

  mydb.commit()
  print(mycursor.rowcount, "registro(s) insertado(s).")

except mysql.connector.Error as err:
  print("Error: {}".format(err))
# finally:
#     # Close the cursor and connection
#     mycursor.close()
#     mydb.close()

Ordenanza municipal de Limpieza de vías públicas y recogida de residuos domésticos  insertado en tabla.
Ordenanza de protección del medio ambiente atmosférico  insertado en tabla.
Ordenanza sobre protección del medio ambiente contra la emisión de ruidos y vibraciones  insertado en tabla.
Ordenanza municipal de convivencia ciudadana  insertado en tabla.
Ordenanza municipal de movilidad y tráfico  insertado en tabla.
Ordenanza municipal de transparencia, acceso a la información y reutilización  insertado en tabla.
Ordenanza municipal reguladora de la cesión temporal de uso de locales a entidades sin ánimo de lucro  insertado en tabla.
Ordenanza reguladora de la administración electrónica  insertado en tabla.
Ordenanza reguladora de los Servicios Locales de Consumo  insertado en tabla.
Ordenanza municipal reguladora de las ocupaciones de espacios públicos  insertado en tabla.
Ordenanza Reguladora de actividades comerciales e industriales en el espacio de dominio y uso público del municipi

In [25]:
# Export the database to a SQL dump file
!mysqldump -u testuser -ptestpassword testdb > "/content/drive/MyDrive/Colab Notebooks/14 Scraping/Asturias_Oviedo/oviedo.sql"



In [26]:
query = "SELECT * FROM normativa"
df = pd.read_sql(query, mydb)

# Display the DataFrame
df.head()

  df = pd.read_sql(query, mydb)


Unnamed: 0,id,ciudad,date,titulo,grupo,subgrupo,url,content
0,1,Oviedo,2024-07-30,Ordenanza municipal de Limpieza de vías públic...,Medio Ambiente,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/OR...,\n \nOrdenanza municipal de Limpieza de Vías ...
1,2,Oviedo,2024-07-30,Ordenanza de protección del medio ambiente atm...,Medio Ambiente,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,ORDENANZA MUNICIPAL DE PROTECCIÓN DEL \nMEDIO ...
2,3,Oviedo,2024-07-30,Ordenanza sobre protección del medio ambiente ...,Medio Ambiente,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,ORDENANZA MUNICIPAL SOBRE PROTECCIÓN DEL\nMEDI...
3,4,Oviedo,2024-07-30,Ordenanza municipal de convivencia ciudadana,Seguridad Ciudadana,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,1\nTEXTO DE LA ORDENANZA MUNICIPAL DE CONVIVEN...
4,5,Oviedo,2024-07-30,Ordenanza municipal de movilidad y tráfico,Seguridad Ciudadana,Ordenanzas reguladoras,https://www.oviedo.es/documents/25047/25102/Or...,AYUNTAMIENTO DE OVIEDO CIF: P3304400I Registr...


In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112 entries, 0 to 111
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        112 non-null    int64 
 1   ciudad    112 non-null    object
 2   date      112 non-null    object
 3   titulo    112 non-null    object
 4   grupo     112 non-null    object
 5   subgrupo  112 non-null    object
 6   url       112 non-null    object
 7   content   112 non-null    object
dtypes: int64(1), object(7)
memory usage: 7.1+ KB


In [28]:
import pandas as pd
from sqlalchemy import create_engine

# Define database connection parameters
db_config = {
    "host":"localhost",
    "user":"testuser",
    "password":"testpassword",
    "database":"testdb"
}

# Establish the connection
connection_url = f"mysql+mysqlconnector://{db_config['user']}:{db_config['password']}@{db_config['host']}/{db_config['database']}"

# Create an SQLAlchemy engine
engine = create_engine(connection_url)

# Define the SQL query to select data
query = "SELECT * FROM normativa"

# Load data into a DataFrame
df = pd.read_sql(query, engine)

# Print the DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112 entries, 0 to 111
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        112 non-null    int64 
 1   ciudad    112 non-null    object
 2   date      112 non-null    object
 3   titulo    112 non-null    object
 4   grupo     112 non-null    object
 5   subgrupo  112 non-null    object
 6   url       112 non-null    object
 7   content   112 non-null    object
dtypes: int64(1), object(7)
memory usage: 7.1+ KB
