### Targeted information retrieval

We have seen how to parse a webpage, which retrieves the information without distinction.

But, in general, the purpose of scraping is to automate the collection of targeted information on the web.


In [14]:
from bs4 import BeautifulSoup
import requests

Let's say I want to scrape the description of the latest movies released in theaters.

So we'll go to the Allociné website and try to find the tags that will give me links to the specific pages of these movies to get their summaries.

#### Recovery of the url of the pages of films newly released in the theaters

In [77]:
url = "http://www.allocine.fr/"
r = requests.get(url)
print(url, r.status_code)
soup = BeautifulSoup(r.content, "lxml")

#---------------------------- only the body from the html page
soup = soup.find("body")
print(soup) ## write "soup" also print the content

http://www.allocine.fr/ 200
<body class="allocine allocine__homepage logged-out" data-migration="incomplete" id="allocine__homepage">
<div class="sub-body">
<div class="js-interstitial ad-interstitial ad-item" id="dfp-interstitial"></div>
<header class="header-main" id="header-main" role="banner">
<div class="header-main-center">
<div class="header-main-top">
<div aria-label="Bouton Menu mobile" class="header-main-btn-mobile icon icon-hamburger" id="header-main-mobile-btn-menu"></div>
<div class="header-main-logo-holder">
<span class="ACrLw=ACr= header-main-logo">
<img alt="allocine" class="header-main-logo-img" height="37" src="https://assets.allocine.fr/skin/img/allocine/logo-main.ab1b33da.svg" width="162"/>
<span class="header-main-logo-name">AlloCiné</span>
</span>
</div>
<form action="/rechercher/" aria-label="formulaire de recherche principal du site" class="header-main-search" id="search-header" method="get" role="form">
<fieldset class="header-main-search-fieldset" id="search-e

On your web browser (Chrome, Firefox,...), you can use the "inspect" function (right click -> inspect) and drag your mouse to the areas of the page that interest you. At the same time you will see the part of the HTML script highlighted that corresponds to the area that interests you.

That's how you find the tags that you are interested in.

I notice that the relative link of the web page specific to the new movie on the poster is stored in these tags:

```html
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=235582.html" title="Le Grand Bain">Le Grand Bain</a>
```


In [78]:
for p in soup.find_all("a"):
    print(p.text)

Meilleurs films d'animation Disney
Meilleurs films Pixar

            Cinéma
        

            Séries
        

            Streaming
        

            Trailers
        

            VOD
        

            Les indés
        
séances cinéma
news
dossiers
émissions AlloCiné
dernières bandes-annonces
Agenda des sorties
Kids
Meilleurs films
Meilleurs documentaires
Avant-premières
Box Office
Films pour enfants à l'affiche
DVD
Meilleurs films 2019
Tous les films pour enfants
Tous les films
Sorties de la semaine
Minecraft, Le Film
Le Routard
Ozi, la voix de la forêt
Natacha (presque) hôtesse de l’air
Shaka Ponk – The final fucked up tour - Le final au cinéma
Lads
Deux sœurs
Cassandre
Nous voilà grands !
Au pays de nos frères
Ma Mère, Dieu et Sylvie Vartan
Blanche Neige
On Ira
Les Bodin’s partent en vrille
Tous les films encore à l'affiche
 Piégé 
 Zion 
 Moon le panda 
 Rapide 
 La Réparation 
Tous les films à venir
Dernières news cinéma
C'est l'un des plus grands films d'animation

This time, the site is more difficult to "extract". Let's use much more specific parameters to the search function `find_all`.

In [79]:
# In addition to the tag `a`, which is easily identifiable, we notice some additional
# information such as the value of the class variable of these identical tags.
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    print(elem)

<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=227463.html" title="Minecraft, Le Film">Minecraft, Le Film</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=321603.html" title="Le Routard">Le Routard</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=294847.html" title="Ozi, la voix de la forêt">Ozi, la voix de la forêt</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=259157.html" title="Natacha (presque) hôtesse de l’air">Natacha (presque) hôtesse de l’air</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=1000016160.html" title="Shaka Ponk – The final fucked up tour - Le final au cinéma">Shaka Ponk – The final fucked up tour - Le final au cinéma</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=310111.html" title="Lads">Lads</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=316235.html" title="Deux sœurs">Deux sœurs</a>
<

#### Recovery of `href`

We have noticed the presence of `href` links to the pages that interest us. Let's go get them back:

In [80]:
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    print(elem.get("href"))

/film/fichefilm_gen_cfilm=227463.html
/film/fichefilm_gen_cfilm=321603.html
/film/fichefilm_gen_cfilm=294847.html
/film/fichefilm_gen_cfilm=259157.html
/film/fichefilm_gen_cfilm=1000016160.html
/film/fichefilm_gen_cfilm=310111.html
/film/fichefilm_gen_cfilm=316235.html
/film/fichefilm_gen_cfilm=318265.html
/film/fichefilm_gen_cfilm=1000019618.html
/film/fichefilm_gen_cfilm=325171.html
/film/fichefilm_gen_cfilm=316984.html
/film/fichefilm_gen_cfilm=251421.html
/film/fichefilm_gen_cfilm=289215.html
/film/fichefilm_gen_cfilm=326019.html
/series/ficheserie_gen_cserie=36351.html
/series/ficheserie_gen_cserie=30856.html
/series/ficheserie_gen_cserie=27480.html
/series/ficheserie_gen_cserie=1000000134.html
/series/ficheserie_gen_cserie=36595.html
/series/ficheserie_gen_cserie=36875.html
/series/ficheserie_gen_cserie=34670.html
/series/ficheserie_gen_cserie=27910.html


Can you retrieve the titles for me by searching for `"title"` in the items of the previous list?

In [81]:
for title in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    print(title.get("title"))

Minecraft, Le Film
Le Routard
Ozi, la voix de la forêt
Natacha (presque) hôtesse de l’air
Shaka Ponk – The final fucked up tour - Le final au cinéma
Lads
Deux sœurs
Cassandre
Nous voilà grands !
Au pays de nos frères
Ma Mère, Dieu et Sylvie Vartan
Blanche Neige
On Ira
Les Bodin’s partent en vrille
Adolescence
Kaboul
The White Lotus
Faute de preuves
Clean
Ghosts : Fantômes en héritage
Carême
Alien: Earth


#### Get summary

Let's start by building the URL that we will use to retrieve the summaries.

Start by putting the `href` values in a list of links.


In [82]:
links = []
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    links.append(elem.get("href"))
links

['/film/fichefilm_gen_cfilm=227463.html',
 '/film/fichefilm_gen_cfilm=321603.html',
 '/film/fichefilm_gen_cfilm=294847.html',
 '/film/fichefilm_gen_cfilm=259157.html',
 '/film/fichefilm_gen_cfilm=1000016160.html',
 '/film/fichefilm_gen_cfilm=310111.html',
 '/film/fichefilm_gen_cfilm=316235.html',
 '/film/fichefilm_gen_cfilm=318265.html',
 '/film/fichefilm_gen_cfilm=1000019618.html',
 '/film/fichefilm_gen_cfilm=325171.html',
 '/film/fichefilm_gen_cfilm=316984.html',
 '/film/fichefilm_gen_cfilm=251421.html',
 '/film/fichefilm_gen_cfilm=289215.html',
 '/film/fichefilm_gen_cfilm=326019.html',
 '/series/ficheserie_gen_cserie=36351.html',
 '/series/ficheserie_gen_cserie=30856.html',
 '/series/ficheserie_gen_cserie=27480.html',
 '/series/ficheserie_gen_cserie=1000000134.html',
 '/series/ficheserie_gen_cserie=36595.html',
 '/series/ficheserie_gen_cserie=36875.html',
 '/series/ficheserie_gen_cserie=34670.html',
 '/series/ficheserie_gen_cserie=27910.html']

The absolute URL of the movie pages we are looking for are built in this form: http://www.allocine.fr/film/fichefilm_gen_cfilm=243835.html

It is therefore necessary to take the previous list and build the absolute URLs for our search
It's up to you to play.

NB: Do not take the links for the shows(series). We only want movies.

In [83]:
movie_links = ["http://www.allocine.fr" + elem for elem in links if "film" in elem]
movie_links

['http://www.allocine.fr/film/fichefilm_gen_cfilm=227463.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=321603.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=294847.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=259157.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=1000016160.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=310111.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=316235.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=318265.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=1000019618.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=325171.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=316984.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=251421.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=289215.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=326019.html']

Finally, on each page, the title and synopsis must be retrieved. Let's try for a movie, the first of the list.

In [69]:
url = movie_links[0]
r = requests.get(url)
print(url, r.status_code)
soup = BeautifulSoup(r.content, "html")
soup = soup.find("body")
soup

http://www.allocine.fr/film/fichefilm_gen_cfilm=227463.html 200


<body class="allocine allocine__moviepage logged-out" data-migration="graph" id="allocine__moviepage">
<div class="sub-body">
<div class="js-interstitial ad-interstitial ad-item" id="dfp-interstitial"></div>
<header class="header-main" id="header-main" role="banner">
<div class="header-main-center">
<div class="header-main-top">
<div aria-label="Bouton Menu mobile" class="header-main-btn-mobile icon icon-hamburger" id="header-main-mobile-btn-menu"></div>
<div class="header-main-logo-holder">
<span class="ACrLw=ACr= header-main-logo">
<img alt="allocine" class="header-main-logo-img" height="37" src="https://assets.allocine.fr/skin/img/allocine/logo-main.ab1b33da.svg" width="162"/>
<span class="header-main-logo-name">AlloCiné</span>
</span>
</div>
<form action="/rechercher/" aria-label="formulaire de recherche principal du site" class="header-main-search" id="search-header" method="get" role="form">
<fieldset class="header-main-search-fieldset" id="search-engine">
<div class="header-sear

For title 
```html
<div class="titlebar-title titlebar-title-lg">Le Grand Bain</div>
```
For the synopsis

```html
<section class="section ovw ovw-synopsis" id="synopsis-details">

      <div class="content-txt">
 
              C’est dans les couloirs de leur piscine municipale que Bertrand, Marcus, Simon, Laurent, Thierry et les autres s’entraînent sous l’autorité toute relative de Delphine, ancienne gloire des bassins. Ensemble, ils se sentent libres et utiles. Ils vont mettre toute leur énergie dans une discipline jusque-là propriété de la gent féminine : la natation synchronisée. Alors, oui c’est une idée plutôt bizarre, mais ce défi leur permettra de trouver un sens à leur vie...
      </div>
    
      </section>
```

In [84]:
for elem in soup.find_all("div", attrs={"class": "titlebar-title titlebar-title-lg"}):
    # Just like that
    print(elem.text)

# Get the synopsis section
for elem in soup.find_all("section", attrs={"id": "synopsis-details"}):
    # Get the text of the synopsis
    for elem2 in elem.find_all("div", attrs={"class":"content-txt"}):
        # Just like that
        print(elem2.text)

1) Automate this script for the entire list of movies.

2) Put the information in three lists (`film_links`, `title`, `synopsis`).

3) Create a `DataFrame` object from the `pandas` library that you will have to install. This dataframe will have to include these three informations in three columns.

4) Save this dataframe in a CSV file.

And here's your first real scrap, you're real hackers now.

In [None]:
import time
import random
from random import randint
from bs4 import BeautifulSoup
import requests

url = "http://www.allocine.fr/"
r = requests.get(url)
soup = BeautifulSoup(r.content, "lxml")

soup = soup.find("body") ## only the body from the html page

#---------------------------------------------
#---------------------------------------------
#---------------------------------------------

links = []
movie_links = []
titles = []

for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    links.append(elem.get("href"))

"""
movie_links = ["http://www.allocine.fr" + href for href in links if "film" in href] # <<<<<<<<<<<<<<


#---------------------------------------------
#---------------------------------------------

for elem in links:
    if "film" in elem:
        movie_links.append("http://www.allocine.fr" + elem)
"""

#---------------------------------------------
#---------------------------------------------
#---------------------------------------------

"""
for elem in links:
    if "film" in elem:
        for a in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
            title.append(a.get("title"))
            print(a.get("title"))
print(title)
"""

for a in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    href = a.get("href")
    if "film" in href:
        movie_links.append("http://www.allocine.fr" + href)
        title_text = a.get("title")
        titles.append(title_text)
        print(title_text)

#---------------------------------------------
#---------------------------------------------
#---------------------------------------------

synopsis = []

for syn in range(len(movie_links)):
    url = movie_links[syn]
    r = requests.get(url)
    soup = BeautifulSoup(r.content, "html")
    soup = soup.find("body")



    for section in soup.find_all("section", attrs={"id": "synopsis-details"}):
        for div in section.find_all("div", attrs={"class":"content-txt"}):
            synopsis.append(div.text)
            # need to remove \n before each synopsis
            print(div.text)



# Here are the things you will have to do for all links:
# - Slow down the frequency of requests to avoid being identified and therefore banned from the website.
# Use `time.sleep(random.uniform(1.0, 2.0))`
# - Get request object from URL
# - Extract the content into a variable using BeautifulSoup
# - Get title
# - Get synopsis

# Check the length of the lists before creating the dataframe
len(titles), len(synopsis), len(movie_links)

The Amateur
Zion
Piégé
Mikado
Bergers
Le Village aux portes du paradis
Her Story
La Jeune femme à l’aiguille
Jack
Moon Le Panda
Ma Mère, Dieu et Sylvie Vartan
Blanche Neige
Minecraft, Le Film
Les Bodin’s partent en vrille

Charlie Heller, un cryptographe de la CIA aussi brillant qu’introverti, voit son existence basculer lorsque sa femme décède durant une attaque terroriste perpétrée à Londres. Déplorant l’inaction de sa hiérarchie, il prend alors l’affaire en mains et se met à la recherche des assassins, embarquant pour un dangereux voyage partout à travers le monde pour assouvir sa vengeance.


En Guadeloupe, Chris partage son temps entre deals, aventures sans lendemain et rodéos en moto. Repéré par Odell, le caïd du quartier voisin, Chris se voit confier une livraison à risque. Malgré la mise en garde de son meilleur ami, il accepte la mission. Mais le jour de la livraison, il découvre qu'un bébé a été déposé devant sa porte. Commence alors pour lui, une course infernale qui le mène

(14, 14, 14)

In [25]:
import pandas as pd

df = pd.DataFrame({"Title": title})
df["Synopsis"] = synopsis
df["Links"] = movie_links

In [26]:
df.to_csv("./assets/allo_cine.csv", index=False)