<a href="https://colab.research.google.com/github/pablOOO5/pablOOO5/blob/main/Clasificar_web_h2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Scrapea y clasifica Web

=> Scrapea una web y la clasifica por tópicos. Muestra:

- Gráfica de tópicos de la web
- Gráfica de dispersión de los topicos
- Tabla con palabras por tópico
- Tabla de url por tópico con puntuación dentro del tópico.

---
1. Cambia en el código la url por la que quieras (ej. url = "https://www.debelareabogados.es/")
2. Pulsa el play
3. Espera a que el script acabe.
4. Si salen demasiados tópicos, en el último script selecciona el número de tópicos que quieres y dale al play en esa parte.

** **Nota**: La idea inicial de este colab parte de [un artículo de holistic seo](https://www.holisticseo.digital/python-seo/topic-modeling/) 

<br>

Un saludo desde Mallorca,

[Jose Gris](https://twitter.com/JoseGrisSEO) 😎
<br>

↓ El contenido aparecerá debajo del script ↓

<br>

---

Si te son útiles mis colabs [invítame a un café](https://www.buymeacoffee.com/josegris)

---

In [1]:
#------------------------------------------------------------------------------------
url = "https://credinfo.com.mx" #ej url = 'https://www.elpradopsicologos.es/'
#------------------------------------------------------------------------------------
!pip install advertools
import pandas as pd
from advertools import crawl

!rm -rf web.jl
crawl(url, 'web.jl', follow_links=True)

web = pd.read_json("web.jl", lines=True)
def rotulos(rotulo):
  print("\n\n")
  print("---------------------------------")
  print(rotulo)
  print("---------------------------------")

from google.colab import data_table
def pasarATabla(dataframe0, Nlineas=10):
  tabla = data_table.DataTable(dataframe0, include_index=False, num_rows_per_page=Nlineas)
  display(tabla)

def pasarListaATabla(lista,columnas):
  lista = pd.DataFrame (lista, columns = columnas )
  lista = data_table.DataTable(lista, include_index=True, num_rows_per_page=20)
  display(lista)

rotulos("Código de respuestas distinto de 200")
noCodigo200 = web[web['status'] != 200][["url", "title", "status"]]
pasarATabla(noCodigo200)

#Pillo lo que me interesa del scrapeado, y sólo códigos de respuesta 200
codigos200 = web[web['status'] == 200][["url","title", "h1", "h2"]]

#Me hago un corpus de datos con title y h2. Los h1 a menudo se acortan demasiado
interesantes = ["title", "h2"]
docs = []

for param in interesantes:

  espejo = codigos200[(codigos200[param].isna() ==False)][param].str.split("@@").explode().drop_duplicates().to_list()
  docs = docs + espejo
  
#Instalo spacy para quitar puntos, conjunciones, vertbos...
!pip install spacy
!python -m spacy download es_core_news_sm
import es_core_news_sm
nlp = es_core_news_sm.load()
import spacy

import re

#quito acentos para igualar las faltas
from unicodedata import normalize
def quitarAcentos(frase):
  frase = re.sub(
        r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+", r"\1", 
        normalize( "NFD", frase), 0, re.I
    )
  frase = normalize( 'NFC', frase)
  return frase

# Limpio el texto antes de procesarlo 
def limpiarTexto(texto):
  texto = re.sub(r'\s+', ' ', texto)
  texto = re.sub(r'\n+', ' ', texto)
  texto = re.sub(r'\t+', ' ', texto)
  texto = re.sub(r'http\S+', '', texto)
  texto = re.sub('[^a-zA-ZÀ-ÿ\u00f1\u00d1,.¿?¡!]', ' ', texto)
  doc = nlp(texto)
  evitar = {"DET", "CONJ", "CCONJ", "ADP", "ADV", "AUX", "PRON", "INTJ", "PUNCT", "SCONJ", "SYM", "VERB"} 
  soloPalabras = [token.text #lemma_
        for token in doc
        if not token.is_stop and not token.is_punct and token.pos_ not in evitar]
  texto = " ".join(soloPalabras)
  texto = texto.replace("  ", " ").strip()
  texto = texto.replace("(", "").replace(")", "")
  texto = quitarAcentos(texto).lower()
  return texto

docsLimpios = []
for doc in docs:
  docsLimpios.append(limpiarTexto(doc))

# Me instalo BERTOPIC
!pip install bertopic[gensim]
from bertopic import BERTopic

model = BERTopic(language="spanish") #, nr_topics="auto" reduciría topicos en auto

topics, probabilities = model.fit_transform(docsLimpios)
model.get_topic_info()

#Como info...
for param in interesantes:
  #identifico los que tienen el parametro nulo
  nulos = codigos200[(codigos200[param].isna())]
  rotulos(f"Sin {param}")
  pasarATabla(nulos)

  #identifico los que tienen el parametro duplicado
  duplicados = codigos200[(codigos200[param].isna()==False)]
  duplicados = duplicados[(codigos200.duplicated(param))]
  rotulos(f"{param} duplicado")
  pasarATabla(duplicados.head())

def recuperarTopico(doc):
  doc0 = str(doc) 
  try:
    #cat = similar_topic, similarity = model.find_topics(limpiarTexto(doc), top_n=1)
    #cat1 = model.get_topic_info(cat[0][0])
    #return cat1.Name.iloc[0] + "___"  + str(round(cat[1][0], 2))

    similar_topic, similarity = model.find_topics(limpiarTexto(doc), top_n=1)
    #topico = model.get_topic(similar_topic[0])
    topicos = model.get_topic_info()
    miTopico = topicos[topicos["Topic"] == similar_topic[0]]["Name"].iloc[0]
    return miTopico + "___"  + str(round(similarity[0], 2))

  except:
    return "None"

def graficas2():
  fig1 = model.visualize_barchart(n_words=6, top_n_topics=len(model.get_topics()))
  fig1.show()
  print("--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------")
  print("- Hijos de las SERPs, yo, yo soy Jose Gris!")
  print("- Hiiiiiiiiiiiii, hiiiiiiiiiiiiiiii (relincho de caballos)")
  print("- No puede ser, Jose Gris mide más de dos metros y dicen que es capaz de posicionar webs en Flash")
  print("- ¡Vámonos, huyamos!")
  print("- Huid y vivireis, un tiempo al menos... Pero llegará un día, en vuestro lecho de muerte, en el que lo darías todo, TODO por una oportunidad,")
  print("      UNA SOLA OPORTUNIDAAAADD, DE VOLVER A LAS SERPSSSSS Y LUCHAR POR POSICIONAAAAAAAAARRRRRRRR!!!!!!!!!!!!!!!!!!!!!!!")
  print("--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------")
  fig2 = model.visualize_topics()
  fig2.show()
  fig3  = model.visualize_hierarchy()
  fig3.show()
  
  #Creo tabla con definición de todos los tópicos
  todosLosTopicos = model.get_topics()
  topicos = []
  for topicoInt in todosLosTopicos:
    topico = [x[0] for x in todosLosTopicos[topicoInt]]
    topicos.append([topicoInt," - ".join(topico).strip().strip("-")])
  pasarListaATabla(topicos, ["Tópico", "Definición"])

  #creo tabla clasificando urls por tópico
  paramAComparar = "h1" #opcional clasificar por title
  titulos0 = codigos200[["url", paramAComparar]] 
  titulos0 = titulos0[titulos0[paramAComparar].isna() == False].drop_duplicates()
  titulos0["Categoria"] = titulos0.apply(lambda row: recuperarTopico(row[paramAComparar]), axis = 1)
  titulos0[['Categoria', 'Puntuación']] = titulos0['Categoria'].str.split("___", 1, expand=True)
  titulos0 = titulos0.sort_values(['Categoria', 'Puntuación'], ascending=[True, False])
  pasarATabla(titulos0, 20)

graficas2()

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting advertools
  Downloading advertools-0.13.2-py2.py3-none-any.whl (310 kB)
[K     |████████████████████████████████| 310 kB 21.8 MB/s 
Collecting twython>=3.8.0
  Downloading twython-3.9.1-py3-none-any.whl (33 kB)
Collecting scrapy>=2.5.0
  Downloading Scrapy-2.7.1-py2.py3-none-any.whl (271 kB)
[K     |████████████████████████████████| 271 kB 32.3 MB/s 
Collecting tldextract
  Downloading tldextract-3.4.0-py3-none-any.whl (93 kB)
[K     |████████████████████████████████| 93 kB 3.3 MB/s 
[?25hCollecting itemloaders>=1.0.1
  Downloading itemloaders-1.0.6-py3-none-any.whl (11 kB)
Collecting Twisted>=18.9.0
  Downloading Twisted-22.10.0-py3-none-any.whl (3.1 MB)
[K     |████████████████████████████████| 3.1 MB 58.3 MB/s 
[?25hCollecting service-identity>=18.1.0
  Downloading service_identity-21.1.0-py2.py3-none-any.whl (12 kB)
Collecting zope.interface>=5.1.0
  Downloading zope

Unnamed: 0,url,title,status
58,https://credinfo.com.mx/infonavit/infonatel/te...,Página no encontrada -,404
64,https://credinfo.com.mx/infonavit/infonatel/te...,Página no encontrada -,404
67,https://credinfo.com.mx/infonavit/cuanto-debo/...,Página no encontrada -,404
82,https://credinfo.com.mx/general/tarjeta-de-cre...,Página no encontrada -,404
132,https://credinfo.com.mx/precalificaciones.info...,Página no encontrada -,404


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
2022-12-18 23:03:08.608217: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting es-core-news-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.4.0/es_core_news_sm-3.4.0-py3-none-any.whl (12.9 MB)
[K     |████████████████████████████████| 12.9 MB 27.3 MB/s 
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.4.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')




Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting bertopic[gensim]
  Downloading bertopic-0.12.0-py2.py3-none-any.whl (90 kB)
[K     |████████████████████████████████| 90 kB 9.3 MB/s 
Collecting sentence-transformers>=0.4.1
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[K     |████████████████████████████████| 85 kB 6.2 MB/s 
[?25hCollecting hdbscan>=0.8.28
  Downloading hdbscan-0.8.29.tar.gz (5.2 MB)
[K     |████████████████████████████████| 5.2 MB 58.0 MB/s 
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
    Preparing wheel metadata ... [?25l[?25hdone
Collecting pyyaml<6.0
  Downloading PyYAML-5.4.1-cp38-cp38-manylinux1_x86_64.whl (662 kB)
[K     |████████████████████████████████| 662 kB 43.6 MB/s 
[?25hCollecting umap-learn>=0.5.0
  Downloading umap-learn-0.5.3.tar.gz (88 kB)
[K     |████████████████████████████████| 88 kB 9.2 MB/s 
C

INFO:sentence_transformers.SentenceTransformer:Load pretrained SentenceTransformer: paraphrase-multilingual-MiniLM-L12-v2


Downloading:   0%|          | 0.00/968 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/3.79k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/645 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/471M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/480 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/14.8M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/229 [00:00<?, ?B/s]

INFO:sentence_transformers.SentenceTransformer:Use pytorch device: cpu





---------------------------------
Sin title
---------------------------------


Unnamed: 0,url,title,h1,h2





---------------------------------
title duplicado
---------------------------------


Unnamed: 0,url,title,h1,h2
105,https://credinfo.com.mx/infonavit/checar-saldo...,✔️ Checa Tu Saldo Mejoravit 2022 Gratis | Guía...,Aprende a checar tu saldo de Mejoravit y saber...,Mejoravit@@Cómo saber tu saldo de Mejoravit@@M...





---------------------------------
Sin h2
---------------------------------


Unnamed: 0,url,title,h1,h2





---------------------------------
h2 duplicado
---------------------------------


Unnamed: 0,url,title,h1,h2
105,https://credinfo.com.mx/infonavit/checar-saldo...,✔️ Checa Tu Saldo Mejoravit 2022 Gratis | Guía...,Aprende a checar tu saldo de Mejoravit y saber...,Mejoravit@@Cómo saber tu saldo de Mejoravit@@M...


--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
- Hijos de las SERPs, yo, yo soy Jose Gris!
- Hiiiiiiiiiiiii, hiiiiiiiiiiiiiiii (relincho de caballos)
- No puede ser, Jose Gris mide más de dos metros y dicen que es capaz de posicionar webs en Flash
- ¡Vámonos, huyamos!
- Huid y vivireis, un tiempo al menos... Pero llegará un día, en vuestro lecho de muerte, en el que lo darías todo, TODO por una oportunidad,
      UNA SOLA OPORTUNIDAAAADD, DE VOLVER A LAS SERPSSSSS Y LUCHAR POR POSICIONAAAAAAAAARRRRRRRR!!!!!!!!!!!!!!!!!!!!!!!
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------


Unnamed: 0,Tópico,Definición
0,-1,gratis - puente - credito - buro - tarjeta - s...
1,0,coppel - credito - revolvente - buro - politic...
2,1,cambiavit - mejoravit - ciento - homoclave - d...
3,2,espacio - infonavit - situacion - encontrarlos...
4,3,infonavit - credito - paso - numero - use - te...
5,4,aportaciones - laboral - trabajador - historia...
6,5,casa - vivienda - hipotecario - banorte - aban...
7,6,asesor - publico - secretaria - hacienda - con...
8,7,ecotecnologias - hipoteca - verde - vale - pro...
9,8,deuda - fovissste - desapareces - mala - calif...


Unnamed: 0,url,h1,Categoria,Puntuación
45,https://credinfo.com.mx/general/credito-puente/,"Qué Es Un Crédito Puente. Función, Pros, Contr...",-1_gratis_puente_credito_buro,0.62
95,https://credinfo.com.mx/infonavit/puntos-credito/,Infonavit: ¿Cuántos Puntos Necesito Para Solic...,-1_gratis_puente_credito_buro,0.56
24,https://credinfo.com.mx/general/tarjeta-saldazo/,"Tarjeta Saldazo. Qué Es, Requisitos, Solicitud...",-1_gratis_puente_credito_buro,0.51
102,https://credinfo.com.mx/infonavit/solicitud-cr...,Cómo Llenar La Solicitud De Inscripción De Cré...,-1_gratis_puente_credito_buro,0.51
5,https://credinfo.com.mx/buro/,\nBuró,0_coppel_credito_revolvente_buro,0.76
...,...,...,...,...
55,https://credinfo.com.mx/general/linea-de-credito/,Cómo Aumentar Una Línea De Crédito. Paso A Paso,8_deuda_fovissste_desapareces_mala,0.42
10,https://credinfo.com.mx/infonavit/suspension-d...,Dónde Descargar Mi Aviso De Suspensión De Desc...,9_descuentos_aviso_descuento_salario,0.59
126,https://credinfo.com.mx/infonavit/aviso-retenc...,Infonavit: Cómo Obtengo Mi Aviso De Retención ...,9_descuentos_aviso_descuento_salario,0.57
78,https://credinfo.com.mx/infonavit/salario-base/,Salario Base De Cotización: Todo Lo Que Tienes...,9_descuentos_aviso_descuento_salario,0.56


↑ Los resultados aparecerán arriba => Puedes pulsar el botón de copiar en cada tabla para descargarlas

↓ Si quieres reducir el número de tópicos => cambia numTopicos al valor que quieras y pulsa el play en el código de abajo

In [None]:
#Opción reducir el número de topicos
numTopicos = 15
new_topics, new_probs = model.reduce_topics(docsLimpios, topics, nr_topics=numTopicos)
graficas2()