#**1. Importación de librerías**

In [None]:
import requests # Librería para realizar llamadas http
from bs4 import BeautifulSoup # Librería para manipular documentos en formato html
import pandas as pd # Librería que permite manipular datos en dataframes

#**2. Definición de funciones**

In [None]:
# Función que permite recuperar el contenido de una página html
def fetch_html(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        print(" Contenido de la página descargado exitosamente.")
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # Asegura que la solicitud fue exitosa
        soup = BeautifulSoup(response.text, 'html.parser')
        print(response.status_code)
        return soup
    else:
        print(f" Error al acceder a la página. Código de estado: {response.status_code}")

In [None]:
# Función que permite generar un documento csv con la información html recuperada
def generate_csv(html_content,file_name):
  lista_mensajes = []
  for post in content:
      # Eliminar las citas (quotes) de otros usuarios para limpiar el texto
      for blockquote in post.find_all('blockquote'):
          blockquote.decompose()
      # Extraer el texto limpio
      texto_mensaje = post.get_text(strip=True)

      # Guardamos en un diccionario
      lista_mensajes.append({
          "Mensaje": texto_mensaje
      })

  # 5. Crear DataFrame y guardar a CSV
  df = pd.DataFrame(lista_mensajes)

  # 'utf-8-sig' es vital para que Excel abra bien las tildes en Windows
  df.to_csv(f"{file_name}.csv", index=False, encoding='utf-8-sig')
  print(f"{file_name}.csv generated")

#3. Extracción de la información de los diferentes recursos web

In [None]:
# Dkiccionario con los recursos - urls empleados para generar el corpus
urls={
    "cotilleando":"https://www.cotilleando.com/threads/malaga-da-asco.139225/",
    "minube":"https://www.minube.com/rincon/malaga-a13124",
    "forocoches":"https://forocoches.com/foro/showthread.php?t=9441037"
   }

##3.1. Recuperación y generación de datos correspondientes al origen 1

In [None]:
# 1. Definir la URL
source_1="cotilleando"
url_source_1 = urls[source_1]
source_name_1=f"data_{source_1}"
soup = fetch_html(url_source_1)
if soup:
    # 2. Extraer y mostrar el título de la página
    title = soup.title.string
    print(f"Título de la página: {title}")

    # 3. Extraer y mostrar todos los enlaces en la página
    content = soup.find_all('div', class_='bbWrapper')
    print(content[:20])
    generate_csv(url_source_1,source_name_1)

 Contenido de la página descargado exitosamente.
200
Título de la página: Málaga da asco | Cotilleando - El mejor foro de cotilleos |  Desde 2004
[<div class="bbWrapper">Pues eso... Así literal, para mi gusto Málaga da asco.<br/>
Llevo viviendo en esta ciudad 5 años y cada vez estoy más cansada de ella.<br/>
Está muyyy sucia y descuidada.<br/>
La gente en general es acogedora y estupenda, pero hay cada personaje...<br/>
Es raro el día que sales y no te piden dinero cuando vas paseando tranquilamente por la calle. <br/>
Esto me ha pasado hasta ahora en periodo de cuarentena.<br/>
Gente rebuscando en contenedores a plena luz del día...<br/>
Un desastre todo! <br/>
<br/>
Alguien más que opine como yo???</div>, <div class="bbWrapper">Qué pena, de verdad, hace que no voy unos seis años, pero la recuerdo muy hermosa. Y todos los malagueños que conozco son gente de diez. Perita.</div>, <div class="bbWrapper">me da pena lo que dices, pase un par de temmporadas ahi y me gustaba mucho sobretodo 

##3.2. Recuperación y generación de datos correspondientes al origen 2

In [None]:
# 1. Definir la URL
source_2="minube"
url_source_2 = urls[source_2]
source_name_2=f"data_{source_2}"
soup = fetch_html(url_source_2)
if soup:
    # 2. Extraer y mostrar el título de la página
    title = soup.title.string
    print(f"Título de la página: {title}")

    # 3. Extraer y mostrar todos los enlaces en la página
    content = soup.find_all('article', class_='poiExperience')
    print(content[:20])
    generate_csv(url_source_2,source_name_2)


 Contenido de la página descargado exitosamente.
200
Título de la página: Málaga en Málaga: 40 opiniones y 604 fotos
[<article class="poiExperience" data-comment-id="1902925" data-user-id="5037652" id="experience5037652" itemprop="comment" itemscope="" itemtype="https://schema.org/Comment"><div class="avatarContainer" data-tooltip-hash="dc1037bff9bba1fa1d1d7dd497b1314f" data-user-id="5037652" itemprop="author" itemscope="" itemtype="https://schema.org/Person"><div class="avatarImage" data-src="https://avatars.mnstatic.com/5037652_80x80.jpg" title="josemanuelbernalguillen"></div>
<div class="username userTooltipLauncher" itemprop="name">
 José Manuel Bernal Guillén
 </div></div><div class="textContainer" itemprop="text">
<h3 class="title" data-translate-content-title="off">Málaga, mucho más que la capital de la Costa del Sol</h3>
<div class="content" data-translate-content-text="off"><p>Málaga es mucho más para mi que la capital de la Costa del Sol, la segunda ciudad de Andalucía o un i

##3.3. Recuperación y generación de datos correspondientes al origen 3

In [None]:
source_3="forocoches"
url_source_3 = urls[source_3]
source_name_3=f"data_{source_3}"
soup = fetch_html(url_source_3)
print(url_source_3)
if soup:
    # 2. Extraer y mostrar el título de la página
    title = soup.title.string
    print(f"Título de la página: {title}")

    # 3. Extraer y mostrar todos los enlaces en la página
    content = soup.find_all('table')
    print(content)
    generate_csv(url_source_3,source_name_3)


 Contenido de la página descargado exitosamente.
200
https://forocoches.com/foro/showthread.php?t=9441037
Título de la página:  Vivir en málaga - Forocoches
[<table style="width: 100%">
<tr style="width: 100%">
<td style="font-size: 1rem; width: 100%">
                    
                    Hola,<br>
<br/>
Me voy a mudar a Málaga por trabajo y quería preguntar en el foro por zonas/barrios que estén bien para alquilar piso.<br/>
<br/>
Agradezco también cualquier otro tipo de consejo para disfrutar de la ciudad.<br/>
<br/>
¡Saludos!
                </br></td>
</tr>
</table>, <table style="width: 100%">
<tr style="width: 100%">
<td style="font-size: 1rem; width: 100%">
                    
                    Otra pole?
                </td>
</tr>
</table>, <table style="width: 100%">
<tr style="width: 100%">
<td style="font-size: 1rem; width: 100%">
                    
                    En ronda, malaga muy bien
                </td>
</tr>
</table>, <table style="width: 100%">
<tr s

In [None]:
#4. Descarga de los ficheros csv (posteriormente serán subidos a un repositorio github del cual serán leídos y procesados)

In [None]:
for file in urls.keys():
  file_name=f"data_{file}"
  files.download(f"{file_name}.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>