### Targeted information retrieval

We have seen how to parse a webpage, which retrieves the information without distinction.

But, in general, the purpose of scraping is to automate the collection of targeted information on the web.


In [2]:
from bs4 import BeautifulSoup
import requests

Let's say I want to scrape the description of the latest movies released in theaters.

So we'll go to the Allociné website and try to find the tags that will give me links to the specific pages of these movies to get their summaries.

#### Recovery of the url of the pages of films newly released in the theaters

In [3]:
url = "http://www.allocine.fr/"
r = requests.get(url)
print("Check: ", url, r.status_code)
soup = BeautifulSoup(r.content, "lxml")
soup

Check:  http://www.allocine.fr/ 200


<!DOCTYPE html>
<html lang="fr">
<head>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
<meta content="index,follow,max-snippet:-1" name="robots"/>
<title>AlloCiné : Cinéma, Séries TV, BO de films et séries, Vidéos, DVD et VOD</title>
<meta content="" name="keywords"/>
<meta content="noarchive" name="Googlebot"/>
<meta content="global" name="distribution"/>
<meta content="AlloCine" name="author"/>
<meta content="France" name="country"/>
<meta content="48.87078;2.30447" name="geo.position"/>
<meta content="FR" name="geo.country"/>
<meta content="48.87078;2.30447" name="ICBM"/>
<meta content="#FECC00" name="theme-color"/>
<meta content="AlloCiné, le site de référence du cinéma et des séries tv ! Découvrez notre recherche d'horaires de films, le programme tv de vos séries préférées, l'actualité ciné et séries, les émissions

On your web browser (Chrome, Firefox,...), you can use the "inspect" function (right click -> inspect) and drag your mouse to the areas of the page that interest you. At the same time you will see the part of the HTML script highlighted that corresponds to the area that interests you.  

That's how you find the tags that you are interested in.

I notice that the relative link of the web page specific to the new movie on the poster is stored in these tags:

```html
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=235582.html" title="Le Grand Bain">Le Grand Bain</a>
```     
Note_yuri: you can search with CTRL + F

In [4]:
for p in soup.find_all("a"):
    print(p.text)

Un homme en colère
West Side Story
Lucifer
The Resident

Cinéma


Séries


Trailers


DVD


VOD


Kids

séances cinéma
news
dossiers
émissions AlloCiné
dernières bandes-annonces
Agenda des sorties
Films pour enfants à l'affiche
Meilleurs films
Meilleurs documentaires
Avant-premières
Box Office
Meilleurs films 2019
Tous les films pour enfants
Tous les films
Sorties de la semaine
C'est magnifique !
Firestarter
Compétition officielle
Elizabeth, Regard(s) Singulier(s)
Hamlet (Metropolitan Opera)
Clara Sola
La Ruche
Broadway
Vikram
Variety
Top Gun: Maverick
Doctor Strange in the Multiverse of Madness
Coupez !
J'adore ce que vous faites
Tous les films encore à l'affiche
 Elvis 
 
 Men
 
 Salam
 
 Jurassic World: Le Monde d'après
 
 Black Phone
 
Tous les films à venir
Dernières news cinéma
Je déteste Cyril Hanouna : bientôt une comédie inspirée de la vie de l'animateur de TPMP !
Ce soir à la télé : le meilleur rôle de Jacques Dutronc au cinéma
Interdit aux moins de 16 ans, l'un des films les

This time, the site is more difficult to "extract". Let's use much more specific parameters to the search function `find_all`.

In [5]:
# In addition to the tag `a`, which is easily identifiable, we notice some additional
# information such as the value of the class variable of these identical tags.
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    print(elem)

<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=275805.html" title="C'est magnifique !">C'est magnifique !</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=255880.html" title="Firestarter">Firestarter</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=280861.html" title="Compétition officielle">Compétition officielle</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=292966.html" title="Elizabeth, Regard(s) Singulier(s)">Elizabeth, Regard(s) Singulier(s)</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=295032.html" title="Hamlet (Metropolitan Opera)">Hamlet (Metropolitan Opera)</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=272128.html" title="Clara Sola">Clara Sola</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=288924.html" title="La Ruche">La Ruche</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen

#### Recovery of `href`

We have noticed the presence of `href` links to the pages that interest us. Let's go get them back:

In [6]:
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    print(elem.get("href"))

/film/fichefilm_gen_cfilm=275805.html
/film/fichefilm_gen_cfilm=255880.html
/film/fichefilm_gen_cfilm=280861.html
/film/fichefilm_gen_cfilm=292966.html
/film/fichefilm_gen_cfilm=295032.html
/film/fichefilm_gen_cfilm=272128.html
/film/fichefilm_gen_cfilm=288924.html
/film/fichefilm_gen_cfilm=287727.html
/film/fichefilm_gen_cfilm=304205.html
/film/fichefilm_gen_cfilm=44014.html
/film/fichefilm_gen_cfilm=186636.html
/film/fichefilm_gen_cfilm=251390.html
/film/fichefilm_gen_cfilm=291483.html
/film/fichefilm_gen_cfilm=286044.html
/series/ficheserie_gen_cserie=19156.html
/series/ficheserie_gen_cserie=31595.html
/series/ficheserie_gen_cserie=25501.html
/series/ficheserie_gen_cserie=28562.html
/series/ficheserie_gen_cserie=22940.html
/series/ficheserie_gen_cserie=25545.html
/series/ficheserie_gen_cserie=26193.html
/series/ficheserie_gen_cserie=25633.html


Can you retrieve the titles for me by searching for `"title"` in the items of the previous list?

In [7]:
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    print(elem.get("title"))

C'est magnifique !
Firestarter
Compétition officielle
Elizabeth, Regard(s) Singulier(s)
Hamlet (Metropolitan Opera)
Clara Sola
La Ruche
Broadway
Vikram
Variety
Top Gun: Maverick
Doctor Strange in the Multiverse of Madness
Coupez !
J'adore ce que vous faites
Stranger Things
Le Flambeau, les aventuriers de Chupacabra
Star Wars: Obi-Wan Kenobi
Qui a tué Sara ?
Le Seigneur des Anneaux : Les Anneaux de Pouvoir
She-Hulk : Avocate
The Terminal List
Game Of Thrones: House of the Dragon


#### Get summary

Let's start by building the URL that we will use to retrieve the summaries.

Start by putting the `href` values in a list of links.


In [8]:
links = []
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    links.append(elem.get("href"))
links
print(links) # the same information but stored in a variable

['/film/fichefilm_gen_cfilm=275805.html', '/film/fichefilm_gen_cfilm=255880.html', '/film/fichefilm_gen_cfilm=280861.html', '/film/fichefilm_gen_cfilm=292966.html', '/film/fichefilm_gen_cfilm=295032.html', '/film/fichefilm_gen_cfilm=272128.html', '/film/fichefilm_gen_cfilm=288924.html', '/film/fichefilm_gen_cfilm=287727.html', '/film/fichefilm_gen_cfilm=304205.html', '/film/fichefilm_gen_cfilm=44014.html', '/film/fichefilm_gen_cfilm=186636.html', '/film/fichefilm_gen_cfilm=251390.html', '/film/fichefilm_gen_cfilm=291483.html', '/film/fichefilm_gen_cfilm=286044.html', '/series/ficheserie_gen_cserie=19156.html', '/series/ficheserie_gen_cserie=31595.html', '/series/ficheserie_gen_cserie=25501.html', '/series/ficheserie_gen_cserie=28562.html', '/series/ficheserie_gen_cserie=22940.html', '/series/ficheserie_gen_cserie=25545.html', '/series/ficheserie_gen_cserie=26193.html', '/series/ficheserie_gen_cserie=25633.html']


The absolute URL of the movie pages we are looking for are built in this form: http://www.allocine.fr/film/fichefilm_gen_cfilm=243835.html

It is therefore necessary to take the previous list and build the absolute URLs for our search
It's up to you to play.

NB: Do not take the links for the shows(series). We only want movies.

In [9]:
movie_links = ["http://www.allocine.fr" + elem for elem in links if "film" in elem]
movie_links   # it is a variable!

['http://www.allocine.fr/film/fichefilm_gen_cfilm=275805.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=255880.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=280861.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=292966.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=295032.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=272128.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=288924.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=287727.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=304205.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=44014.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=186636.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=251390.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=291483.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=286044.html']

Finally, on each page, the title and synopsis must be retrieved. Let's try for a movie, the first of the list.

In [10]:
url = movie_links[0]
r = requests.get(url)
print("Check Yuri", url, r.status_code)  # Check: for checking 
soup = BeautifulSoup(r.content, "lxml")
soup

Check Yuri http://www.allocine.fr/film/fichefilm_gen_cfilm=275805.html 200


<!DOCTYPE html>
<html lang="fr">
<head>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
<meta content="index,follow,max-snippet:-1,max-image-preview:standard" name="robots"/>
<title>C'est magnifique ! - film 2020 - AlloCiné</title>
<meta content="" name="keywords"/>
<meta content="noarchive" name="Googlebot"/>
<meta content="global" name="distribution"/>
<meta content="AlloCine" name="author"/>
<meta content="France" name="country"/>
<meta content="48.87078;2.30447" name="geo.position"/>
<meta content="FR" name="geo.country"/>
<meta content="48.87078;2.30447" name="ICBM"/>
<meta content="#FECC00" name="theme-color"/>
<meta content="C'est magnifique ! est un film réalisé par Clovis Cornillac avec Clovis Cornillac, Alice Pol. Synopsis : Pierre, la quarantaine, a toujours vécu loin des désordres du monde, entre ses abeilles

Continuos Coach Description for understanding the topic (The information corresponds to the first week of May 2022)

## For title 
```html
<div class="titlebar-title titlebar-title-lg">Le Grand Bain</div>
```
## For the synopsis

```html
<div class="content-txt " itemprop="description"

 
              C’est dans les couloirs de leur piscine municipale que Bertrand, Marcus, Simon, Laurent, Thierry et les autres s’entraînent sous l’autorité toute relative de Delphine, ancienne gloire des bassins. Ensemble, ils se sentent libres et utiles. Ils vont mettre toute leur énergie dans une discipline jusque-là propriété de la gent féminine : la natation synchronisée. Alors, oui c’est une idée plutôt bizarre, mais ce défi leur permettra de trouver un sens à leur vie...
    
      </div>
```

In [12]:
# Original code becode
for elem in soup.find_all("div", attrs={"class": "titlebar-title titlebar-title-lg"}):
    # Just like that
    print('element1',elem.text)

for elem in soup.find_all("div", attrs={"class": "content-txt"}):
    # Just like that
    print('element2',elem.text)

element1 C'est magnifique !
element2 
Pierre, la quarantaine, a toujours vécu loin des désordres du monde, entre ses abeilles et ses hibiscus. Lorsque ses parents disparaissent, c’est tout son univers qui bascule : il découvre qu’il a été adopté et doit apprendre à survivre dans une société moderne qu’il n’a jamais connue. Déterminé à élucider le mystère de ses origines, il croise la route d’Anna qui, touchée par la bienveillance de cet homme pas comme les autres, accepte de l’aider. Mais à mesure qu’il progresse dans son enquête, Pierre se décolore comme par enchantement.

element2 
En attendant Couleurs de l'incendie, l'adaptation du roman de Pierre Lemaitre, Clovis Cornillac s'est offert un grand bol de fantaisie avec C'est magnifique !, dont le générique convoque l'organe de Dario Moreno, l'interprète de la désuète bluette éponyme. Avec ses couleurs étincelantes, le film commence comme un conte, ce qu'il restera, en passant par plusieurs genres : drame, comédie, suspense, fantastiq

In [16]:
#Let's try for a movie, the first of the list.

for elem in soup.find_all("div", attrs={"class": "titlebar-title titlebar-title-lg"}):
    # Just like that
    print(elem.text)
    print("Check")

#for elem in soup.find_all("div", attrs={"class": "content-txt"}):
#   #Just like that
#   print(elem.text)


count = 0       # important index = 0
for elem in soup.find_all("div", attrs={"class": "content-txt"}):
    if count == 0:
        #print("Check")
        #Just like that
        print(elem.text)
        
        break

Top Gun: Maverick
Check

Le film est présenté hors-compétition au Festival de Cannes 2022.Après avoir été l’un des meilleurs pilotes de chasse de la Marine américaine pendant plus de trente ans, Pete “Maverick" Mitchell continue à repousser ses limites en tant que pilote d'essai. Il refuse de monter en grade, car cela l’obligerait à renoncer à voler. Il est chargé de former un détachement de jeunes diplômés de l’école Top Gun pour une mission spéciale qu’aucun pilote n'aurait jamais imaginée. Lors de cette mission, Maverick rencontre le lieutenant Bradley “Rooster” Bradshaw, le fils de son défunt ami, le navigateur Nick “Goose” Bradshaw. Face à un avenir incertain, hanté par ses fantômes, Maverick va devoir affronter ses pires cauchemars au cours d’une mission qui exigera les plus grands des sacrifices.



### Task: 
#### 1) Automate this script for the entire list of movies.

#### 2) Put the information in three lists (`film_links`, `title`, `synopsis`).

#### 3) Create a `DataFrame` object from the `pandas` library that you will have to install. This dataframe will have to include these three informations in three columns.

#### 4) Save this dataframe in a CSV file.

##### And here's your first real scrap, you're real hackers now.

In [70]:
import time
import random
from random import randint

# Here are the things you will have to do for all links:
# - Slow down the frequency of requests to avoid being identified and therefore banned from the website.
# Use `time.sleep(random.uniform(1.0, 2.0))`
# - Get request object from URL
# - Extract the content into a variable using BeautifulSoup
# - Get title
# - Get synopsis

title = []
synopsis = []


for movie_url in movie_links:
    r = requests.get(movie_url)
    print(movie_url, r.status_code)
    soup = BeautifulSoup(r.content, "lxml")

    for elem in soup.findAll("div", attrs={"class": "titlebar-title titlebar-title-lg"}):
        title.append(elem.text)
        print(elem.text)
        
    for elem in soup.findAll("div", attrs={"class": "content-txt"}):
        synopsis.append(elem.text)
        print(elem.text)
        
        break

time.sleep(random.uniform(1.0, 2.0))


# Check the length of the lists before creating the dataframe
len(title), len(synopsis), len(movie_links)

http://www.allocine.fr/film/fichefilm_gen_cfilm=291483.html 200
Coupez !

Le film est présenté hors-compétition au Festival de Cannes 2022 et en fait l'ouverture.Un tournage de film de zombies dans un bâtiment désaffecté. Entre techniciens blasés et acteurs pas vraiment concernés, seul le réalisateur semble investi de l’énergie nécessaire pour donner vie à un énième film d'horreur à petit budget. L’irruption d’authentiques morts-vivants va perturber le tournage…

http://www.allocine.fr/film/fichefilm_gen_cfilm=288925.html 200
Les Folies fermières

D'après une fabuleuse histoire vraie.David, jeune paysan du Cantal, vient d’avoir une idée : pour sauver son exploitation de la faillite, il va monter un cabaret à la ferme. Le spectacle sera sur scène et dans l’assiette, avec les bons produits du coin. Il en est sûr, ça ne peut que marcher ! Ses proches, sa mère et surtout son grand-père, sont plus sceptiques.

http://www.allocine.fr/film/fichefilm_gen_cfilm=284745.html 200
On sourit pour la

(21, 21, 21)

In [71]:
import pandas as pd

df = pd.DataFrame({"Title": title})
df["Synopsis"] = synopsis
df["Links"] = movie_links

In [72]:
df.to_csv("./assets/allo_cine.csv", index=False)