<a href="https://colab.research.google.com/github/difoosion/difoosion.com/blob/main/Clasificar_web_h2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Scrapea y clasifica Web

=> Scrapea una web y la clasifica por tópicos. Muestra:

- Gráfica de tópicos de la web
- Gráfica de dispersión de los topicos
- Tabla con palabras por tópico
- Tabla de url por tópico con puntuación dentro del tópico.

---
1. Cambia en el código la url por la que quieras (ej. url = "https://www.debelareabogados.es/")
2. Pulsa el play
3. Espera a que el script acabe.
4. Si salen demasiados tópicos, en el último script selecciona el número de tópicos que quieres y dale al play en esa parte.

** **Nota1**: Para webs enormes, los recursos de colab pueden quedarse cortos => En esos casos prueba a descargarte el archivo o el código y úsalo en local con un ordenador potente.

** **Nota2**: Se podría adaptar ligeramente para que funcione en otros idiomas aparte de castellano cambiando la config de spacy. E incluso incluir la traducción de categorias y titles al castellano.

** **Nota3**: La idea inicial de este colab parte de [un artículo de holistic seo](https://www.holisticseo.digital/python-seo/topic-modeling/) 

Un saludo desde Malloca,

[Jose Gris](https://twitter.com/JoseGrisSEO) 😎

↓ El contenido aparecerá debajo del script ↓

In [None]:
url = "https://www.elpradopsicologos.es/" #ej url = 'https://www.debelareabogados.es/'
!pip install advertools
import pandas as pd
from advertools import crawl

!rm -rf output.jl
crawl(url, 'web.jl', follow_links=True)

web = pd.read_json("web.jl", lines=True)
def rotulos(rotulo):
  print("\n\n")
  print("---------------------------------")
  print(rotulo)
  print("---------------------------------")

from google.colab import data_table
def pasarATabla(dataframe0, Nlineas=10):
  tabla = data_table.DataTable(dataframe0, include_index=False, num_rows_per_page=Nlineas)
  display(tabla)

def pasarListaATabla(lista,columnas):
  lista = pd.DataFrame (lista, columns = columnas )
  lista = data_table.DataTable(lista, include_index=True, num_rows_per_page=20)
  display(lista)

rotulos("Código de respuestas distinto de 200")
noCodigo200 = web[web['status'] != 200][["url", "title", "status"]]
pasarATabla(noCodigo200)

#Pillo lo que me interesa del scrapeado, y sólo códigos de respuesta 200
codigos200 = web[web['status'] == 200][["url","title", "h1", "h2"]]

#Me hago un corpus de datos con title y h2. Los h1 a menudo se acortan demasiado
interesantes = ["title", "h2"]
docs = []

for param in interesantes:

  espejo = codigos200[(codigos200[param].isna() ==False)][param].str.split("@@").explode().drop_duplicates().to_list()
  docs = docs + espejo
  
#Instalo spacy para quitar puntos, conjunciones, vertbos...
!pip install spacy
!python -m spacy download es_core_news_sm
import es_core_news_sm
nlp = es_core_news_sm.load()
import spacy

import re

#quito acentos para igualar las faltas
from unicodedata import normalize
def quitarAcentos(frase):
  frase = re.sub(
        r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+", r"\1", 
        normalize( "NFD", frase), 0, re.I
    )
  frase = normalize( 'NFC', frase)
  return frase

# Limpio el texto antes de procesarlo 
def limpiarTexto(texto):
  texto = re.sub(r'\s+', ' ', texto)
  texto = re.sub(r'\n+', ' ', texto)
  texto = re.sub(r'\t+', ' ', texto)
  texto = re.sub(r'http\S+', '', texto)
  texto = re.sub('[^a-zA-ZÀ-ÿ\u00f1\u00d1,.¿?¡!]', ' ', texto)
  doc = nlp(texto)
  evitar = {"DET", "CONJ", "CCONJ", "ADP", "ADV", "AUX", "PRON", "INTJ", "PUNCT", "SCONJ", "SYM", "VERB"} 
  soloPalabras = [token.text #lemma_
        for token in doc
        if not token.is_stop and not token.is_punct and token.pos_ not in evitar]
  texto = " ".join(soloPalabras)
  texto = texto.replace("  ", " ").strip()
  texto = texto.replace("(", "").replace(")", "")
  texto = quitarAcentos(texto).lower()
  return texto

docsLimpios = []
for doc in docs:
  docsLimpios.append(limpiarTexto(doc))

# Me instalo BERTOPIC
!pip install bertopic[gensim]
from bertopic import BERTopic

model = BERTopic(language="spanish") #, nr_topics="auto" reduciría topicos en auto

topics, probabilities = model.fit_transform(docsLimpios)
model.get_topic_info()

#Como info...
for param in interesantes:
  #identifico los que tienen el parametro nulo
  nulos = codigos200[(codigos200[param].isna())]
  rotulos(f"Sin {param}")
  pasarATabla(nulos)

  #identifico los que tienen el parametro duplicado
  duplicados = codigos200[(codigos200[param].isna()==False)]
  duplicados = duplicados[(codigos200.duplicated(param))]
  rotulos(f"{param} duplicado")
  pasarATabla(duplicados.head())

def recuperarTopico(doc):
  doc0 = str(doc) 
  try:
    #cat = similar_topic, similarity = model.find_topics(limpiarTexto(doc), top_n=1)
    #cat1 = model.get_topic_info(cat[0][0])
    #return cat1.Name.iloc[0] + "___"  + str(round(cat[1][0], 2))

    similar_topic, similarity = model.find_topics(limpiarTexto(doc), top_n=1)
    #topico = model.get_topic(similar_topic[0])
    topicos = model.get_topic_info()
    miTopico = topicos[topicos["Topic"] == similar_topic[0]]["Name"].iloc[0]
    return miTopico + "___"  + str(round(similarity[0], 2))

  except:
    return "None"

def graficas2():
  fig1 = model.visualize_barchart(n_words=6, top_n_topics=len(model.get_topics()))
  fig1.show()
  print("--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------")
  print("- Hijos de las SERPs, yo, yo soy Jose Gris!")
  print("- Hiiiiiiiiiiiii, hiiiiiiiiiiiiiiii (relincho de caballos)")
  print("- No puede ser, Jose Gris mide más de dos metros y dicen que es capaz de posicionar webs en Flash")
  print("- ¡Vámonos, huyamos!")
  print("- Huid y vivireis, un tiempo al menos... Pero llegará un día, en vuestro lecho de muerte, en el que lo darías todo, TODO por una oportunidad,")
  print("      UNA SOLA OPORTUNIDAAAADD, DE VOLVER A LAS SERPSSSSS Y LUCHAR POR POSICIONAAAAAAAAARRRRRRRR!!!!!!!!!!!!!!!!!!!!!!!")
  print("--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------")
  fig2 = model.visualize_topics()
  fig2.show()
  fig3  = model.visualize_hierarchy()
  fig3.show()
  
  #Creo tabla con definición de todos los tópicos
  todosLosTopicos = model.get_topics()
  topicos = []
  for topicoInt in todosLosTopicos:
    topico = [x[0] for x in todosLosTopicos[topicoInt]]
    topicos.append([topicoInt," - ".join(topico).strip().strip("-")])
  pasarListaATabla(topicos, ["Tópico", "Definición"])

  #creo tabla clasificando urls por tópico
  paramAComparar = "h1" #opcional clasificar por title
  titulos0 = codigos200[["url", paramAComparar]] 
  titulos0 = titulos0[titulos0[paramAComparar].isna() == False].drop_duplicates()
  titulos0["Categoria"] = titulos0.apply(lambda row: recuperarTopico(row[paramAComparar]), axis = 1)
  titulos0[['Categoria', 'Puntuación']] = titulos0['Categoria'].str.split("___", 1, expand=True)
  titulos0 = titulos0.sort_values(['Categoria', 'Puntuación'], ascending=[True, False])
  pasarATabla(titulos0, 20)

graficas2()



↑ Los resultados aparecerán arriba => Puedes pulsar el botón de copiar en cada tabla para descargarlas

↓ Si quieres reducir el número de tópicos => cambia numTopicos al valor que quieras y pulsa el play en el código de abajo

In [None]:
#Opción reducir el número de topicos
numTopicos = 15
new_topics, new_probs = model.reduce_topics(docsLimpios, topics, nr_topics=numTopicos)
graficas2()