### **Paginación con BeautifulSoup**

¿Qué pasa si queremos scrapear una lista de películas que están en diferentes páginas como esta?:

#### https://subslikescript.com/movies_letter-A

Donde tenemos 134 páginas con diferentes enlaces de distintas peliculas

¿Y qué pasa si queremos scrapear todas esas transcripciones que contienen esas múltiples páginas?

Así que aquí podemos utilizar algo llamado paginación y esto nos ayudará a trabajar con diferentes páginas, con BeautifulSoup

#### ``Desarrollo parte 1``

In [5]:
from bs4 import BeautifulSoup
import requests
from pprint import pprint

#####################################################
# Extracción de enlaces de la barra de paginación
#####################################################

# Cómo obtener el HTML
root = 'https://subslikescript.com'  # esta es la página de inicio del sitio web
website = f'{root}/movies_letter-X'  # concatenando la página de inicio con la sección de películas "letra-X". Puede elegir cualquier sección (por ejemplo, letra-A, letra-B, ...)
result = requests.get(website)
content = result.text
soup = BeautifulSoup(content, 'lxml')

# Localiza la caja que contiene la barra de paginación
pagination = soup.find('ul', class_='pagination')
pages = pagination.find_all('li', class_='page-item')
# -2 básicamente lo que significa es que no coje el último enlace la barra de paginación, sino que coje uno antes del último.
# Así que -1 es el último y -2 es uno antes del último elemento. Es decir, no cojera el enlace de la flecha.
last_page = pages[-2].text  # este es el número de páginas que tiene el sitio web dentro de la sección de películas "letra X"

In [2]:
print(pagination)

<ul class="pagination">
<li aria-disabled="true" aria-label="« Previous" class="page-item disabled">
<span aria-hidden="true" class="page-link">‹</span>
</li>
<li aria-current="page" class="page-item active"><span class="page-link">1</span></li>
<li class="page-item"><a class="page-link" href="http://subslikescript.com/movies_letter-X?page=2">2</a></li>
<li class="page-item"><a class="page-link" href="http://subslikescript.com/movies_letter-X?page=3">3</a></li>
<li class="page-item">
<a aria-label="Next »" class="page-link" href="http://subslikescript.com/movies_letter-X?page=2" rel="next">›</a>
</li>
</ul>


In [6]:
pprint(pages)

[<li aria-disabled="true" aria-label="« Previous" class="page-item disabled">
<span aria-hidden="true" class="page-link">‹</span>
</li>,
 <li aria-current="page" class="page-item active"><span class="page-link">1</span></li>,
 <li class="page-item"><a class="page-link" href="http://subslikescript.com/movies_letter-X?page=2">2</a></li>,
 <li class="page-item"><a class="page-link" href="http://subslikescript.com/movies_letter-X?page=3">3</a></li>,
 <li class="page-item">
<a aria-label="Next »" class="page-link" href="http://subslikescript.com/movies_letter-X?page=2" rel="next">›</a>
</li>]


In [4]:
print(last_page)

3


#### ``Desarrollo parte 2``

In [17]:
from bs4 import BeautifulSoup
import requests
from pprint import pprint

#####################################################
# Extracción de enlaces de la barra de paginación
#####################################################

# Cómo obtener el HTML
root = 'https://subslikescript.com'  # esta es la página de inicio del sitio web
website = f'{root}/movies_letter-X'  # concatenando la página de inicio con la sección de películas "letra-X". Puede elegir cualquier sección (por ejemplo, letra-A, letra-B, ...)
result = requests.get(website)
content = result.text
soup = BeautifulSoup(content, 'lxml')

# Localiza la caja que contiene la barra de paginación
pagination = soup.find('ul', class_='pagination')
pages = pagination.find_all('li', class_='page-item')
# -2 básicamente lo que significa es que no coje el último enlace la barra de paginación, sino que coje uno antes del último.
# Así que -1 es el último y -2 es uno antes del último elemento. Es decir, no cojera el enlace de la flecha.
last_page = pages[-2].text  # este es el número de páginas que tiene el sitio web dentro de la sección de películas "letra X"

################################################################################################
# Extrayendo los enlaces de múltiples transcripciones de películas dentro de cada página listada
################################################################################################

# Recorre todas las páginas y envía una request a cada enlace
links = []
for page in range(1, int(last_page)+1): # range(1, 3+1) ---> range(1, 4)
    result = requests.get(f'{website}?page={page}')  # estructura --> https://subslikescript.com/movies_letter-X?page=2
    content = result.text
    soup = BeautifulSoup(content, 'lxml')

    # Localiza la caja que contiene una lista de películas
    box = soup.find('article', class_='main-article')

    # Almacena cada enlace en la lista "enlaces" (href no considera la raíz aka "homepage", por lo que tendremos que concatenarla después)
    for link in box.find_all('a', href=True):  # find_all retorna una lista
        links.append(link['href'])


In [18]:
pprint(links)

['movie/X-326430',
 'movie/X-13262868',
 'movie/X-13560574',
 'movie/X-118200',
 'movie/X_-_The_eXploited-6190456',
 'movie/X_Men_Origins_Wolverine_T4_Movie_Special-1423570',
 'movie/X_Moor-3293138',
 'movie/X_the_Unknown-49967',
 'movie/X-Deal-2049597',
 'movie/X-Men-120903',
 'movie/X-Men_2-290334',
 'movie/X-Men_Origins_Wolverine-458525',
 'movie/X-Men_Apocalypse-3385516',
 'movie/X-Men_Dark_Phoenix-6565702',
 'movie/X-Men_Days_of_Future_Past-1877832',
 'movie/X-Men_First_Class-1270798',
 'movie/X-Men_The_Last_Stand-376994',
 'movie/X-Rated_2_The_Greatest_Adult_Stars_of_All_Time-6189052',
 'movie/X-Ray-82527',
 'movie/X_The_Man_with_the_X-Ray_Eyes-57693',
 'movie/X_Yochou-492922',
 'movie/XY-2790182',
 'movie/XY-8587142',
 'movie/Xanadu-81777',
 'movie/Xanda-388547',
 'movie/Xane_The_Vampire_God-9515732',
 'movie/XConfessions_Vol_22-13907180',
 'movie/Xena_Warrior_Princess_-_A_Friend_in_Need_The_Directors_Cut-817532',
 'movie/Xenia-3186946',
 'movie/Xenophobia-8571404',
 'movie/Xi_H

#### ``Desarrollo parte 3``

In [1]:
from bs4 import BeautifulSoup
import requests
from pprint import pprint

#####################################################
# Extracción de enlaces de la barra de paginación
#####################################################

# Cómo obtener el HTML
root = 'https://subslikescript.com'  # esta es la página de inicio del sitio web
website = f'{root}/movies_letter-X'  # concatenando la página de inicio con la sección de películas "letra-X". Puede elegir cualquier sección (por ejemplo, letra-A, letra-B, ...)
result = requests.get(website)
content = result.text
soup = BeautifulSoup(content, 'lxml')

# Localiza la caja que contiene la barra de paginación
pagination = soup.find('ul', class_='pagination')
pages = pagination.find_all('li', class_='page-item')
# -2 básicamente lo que significa es que no coje el último enlace la barra de paginación, sino que coje uno antes del último.
# Así que -1 es el último y -2 es uno antes del último elemento. Es decir, no cojera el enlace de la flecha.
last_page = pages[-2].text  # este es el número de páginas que tiene el sitio web dentro de la sección de películas "letra X"

################################################################################################
# Extrayendo los enlaces de múltiples transcripciones de películas dentro de cada página listada
################################################################################################

# Recorre todas las páginas y envía una request a cada enlace
links = []
for page in range(1, int(last_page)+1): # range(1, 3+1) ---> range(1, 4)
    result = requests.get(f'{website}?page={page}')  # estructura --> https://subslikescript.com/movies_letter-X?page=2
    content = result.text
    soup = BeautifulSoup(content, 'lxml')

    # Localiza la caja que contiene una lista de películas
    box = soup.find('article', class_='main-article')

    # Almacena cada enlace en la lista "enlaces" (href no considera la raíz aka "homepage", por lo que tendremos que concatenarla después)
    for link in box.find_all('a', href=True):  # find_all retorna una lista
        links.append(link['href'])

    #################################################
    # Extrayendo la transcripción de la película
    #################################################

    for link in links:
        try:  # "prueba el código de abajo. si algo va mal, pasa al bloque "except""
            result = requests.get(f'{root}/{link}')  # estructura --> https://subslikescript.com/movie/X-Men_2-290334
            content = result.text
            soup = BeautifulSoup(content, 'lxml')

            # Localice la caja que contiene el título y la transcripción
            box = soup.find('article', class_='main-article')
            # Localizar título y transcripción
            title = box.find('h1').get_text()
            transcript = box.find('div', class_='full-script').get_text(strip=True, separator=' ')

            # Exportar los datos en un archivo de texto con el nombre " title ".
            with open(f'{title}.txt', 'w') as file:
                file.write(transcript)
        except:
            print('------ Link not working -------')
            print(link)

------ Link not working -------
movie/X_The_Man_with_the_X-Ray_Eyes-57693
------ Link not working -------
movie/X_Yochou-492922
------ Link not working -------
movie/XY-2790182
------ Link not working -------
movie/X_The_Man_with_the_X-Ray_Eyes-57693
------ Link not working -------
movie/X_Yochou-492922
------ Link not working -------
movie/XY-2790182
------ Link not working -------
movie/X_The_Man_with_the_X-Ray_Eyes-57693
------ Link not working -------
movie/X_Yochou-492922
------ Link not working -------
movie/XY-2790182
