### Targeted information retrieval

We have seen how to parse a webpage, which retrieves the information without distinction.

But, in general, the purpose of scraping is to automate the collection of targeted information on the web.


In [2]:
from bs4 import BeautifulSoup
import requests
unicode_list = [u"1", u"a", u"3"]


string_list = [str(x) for x in unicode_list]


print(string_list)

['1', 'a', '3']


Let's say I want to scrape the description of the latest movies released in theaters.

So we'll go to the Allociné website and try to find the tags that will give me links to the specific pages of these movies to get their summaries.

#### Recovery of the url of the pages of films newly released in the theaters

In [4]:
url = "https://wiki.python.org/moin/" 
#"http://www.allocine.fr/"
r = requests.get(url)
print(url, r.status_code)
soup = BeautifulSoup(r.content, "lxml")
soup

SSLError: HTTPSConnectionPool(host='wiki.python.org', port=443): Max retries exceeded with url: /moin/ (Caused by SSLError(SSLError("bad handshake: Error([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')],)",),))

On your web browser (Chrome, Firefox,...), you can use the "inspect" function (right click -> inspect) and drag your mouse to the areas of the page that interest you. At the same time you will see the part of the HTML script highlighted that corresponds to the area that interests you.

That's how you find the tags that you are interested in.

I notice that the relative link of the web page specific to the new movie on the poster is stored in these tags:

```html
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=235582.html" title="Le Grand Bain">Le Grand Bain</a>
```


In [3]:
for p in soup.find_all("a"):
    print(p.text)

Un homme en colère
West Side Story
Lucifer
The Resident

Cinéma


Séries


Trailers


DVD


VOD


Kids

séances cinéma
news
dossiers
émissions AlloCiné
dernières bandes-annonces
Agenda des sorties
Films pour enfants à l'affiche
Meilleurs films
Meilleurs documentaires
Avant-premières
Box Office
Meilleurs films 2019
Tous les films pour enfants
Tous les films
Sorties de la semaine
Uncharted
Hopper et le hamster des ténèbres
Maison de Retraite
King
Un autre monde
La Vraie famille
Media Crash - qui a tué le débat public ?
Nous
After Blue (Paradis sale)
La Nuit des femmes
Super-héros malgré lui
Vaillante
Moonfall
Presque
Tous les films encore à l'affiche
 Ambulance 
 
 Murder Party
 
 The Batman
 
 En corps
 
 Jurassic World: Le Monde d'après
 
Tous les films à venir
Bandes-annonces à ne pas manquer
Super-héros malgré lui Bande-annonce VF
Dernières news cinéma
Nous d'Alice Diop : coup de projecteur sur ce documentaire intime et politique
L'un des plus beaux films du XXIe siècle débarque sur 

This time, the site is more difficult to "extract". Let's use much more specific parameters to the search function `find_all`.

In [8]:
# In addition to the tag `a`, which is easily identifiable, we notice some additional
# information such as the value of the class variable of these identical tags.
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    print(elem)

<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=186437.html" title="Uncharted">Uncharted</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=290193.html" title="Hopper et le hamster des ténèbres">Hopper et le hamster des ténèbres</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=285300.html" title="Maison de Retraite">Maison de Retraite</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=286346.html" title="King">King</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=277730.html" title="Un autre monde">Un autre monde</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=286353.html" title="La Vraie famille">La Vraie famille</a>
<a class="meta-title meta-title-link" href="/film/fichefilm_gen_cfilm=300359.html" title="Media Crash - qui a tué le débat public ?">Media Crash - qui a tué le débat public ?</a>
<a class="meta-title meta-title-link" href="/film/f

#### Recovery of `href`

We have noticed the presence of `href` links to the pages that interest us. Let's go get them back:

In [9]:
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    print(elem.get("href"))

/film/fichefilm_gen_cfilm=186437.html
/film/fichefilm_gen_cfilm=290193.html
/film/fichefilm_gen_cfilm=285300.html
/film/fichefilm_gen_cfilm=286346.html
/film/fichefilm_gen_cfilm=277730.html
/film/fichefilm_gen_cfilm=286353.html
/film/fichefilm_gen_cfilm=300359.html
/film/fichefilm_gen_cfilm=290273.html
/film/fichefilm_gen_cfilm=277709.html
/film/fichefilm_gen_cfilm=190487.html
/film/fichefilm_gen_cfilm=285884.html
/film/fichefilm_gen_cfilm=264699.html
/film/fichefilm_gen_cfilm=248437.html
/film/fichefilm_gen_cfilm=284465.html
/series/ficheserie_gen_cserie=24240.html
/series/ficheserie_gen_cserie=25364.html
/series/ficheserie_gen_cserie=23715.html
/series/ficheserie_gen_cserie=27496.html
/series/ficheserie_gen_cserie=22940.html
/series/ficheserie_gen_cserie=25856.html
/series/ficheserie_gen_cserie=24633.html
/series/ficheserie_gen_cserie=25546.html


Can you retrieve the titles for me by searching for `"title"` in the items of the previous list?

In [10]:
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    print(elem.get("title"))

Uncharted
Hopper et le hamster des ténèbres
Maison de Retraite
King
Un autre monde
La Vraie famille
Media Crash - qui a tué le débat public ?
Nous
After Blue (Paradis sale)
La Nuit des femmes
Super-héros malgré lui
Vaillante
Moonfall
Presque
Leonardo
Reacher
Inventing Anna
La Femme qui habitait en face de la fille à la fenêtre
Le Seigneur des Anneaux : Les Anneaux de Pouvoir
Totems
Vikings: Valhalla
Moon Knight


#### Get summary

Let's start by building the URL that we will use to retrieve the summaries.

Start by putting the `href` values in a list of links.


In [11]:
links = []
for elem in soup.find_all("a", attrs={"class": "meta-title meta-title-link"}):
    links.append(elem.get("href"))
links

['/film/fichefilm_gen_cfilm=186437.html',
 '/film/fichefilm_gen_cfilm=290193.html',
 '/film/fichefilm_gen_cfilm=285300.html',
 '/film/fichefilm_gen_cfilm=286346.html',
 '/film/fichefilm_gen_cfilm=277730.html',
 '/film/fichefilm_gen_cfilm=286353.html',
 '/film/fichefilm_gen_cfilm=300359.html',
 '/film/fichefilm_gen_cfilm=290273.html',
 '/film/fichefilm_gen_cfilm=277709.html',
 '/film/fichefilm_gen_cfilm=190487.html',
 '/film/fichefilm_gen_cfilm=285884.html',
 '/film/fichefilm_gen_cfilm=264699.html',
 '/film/fichefilm_gen_cfilm=248437.html',
 '/film/fichefilm_gen_cfilm=284465.html',
 '/series/ficheserie_gen_cserie=24240.html',
 '/series/ficheserie_gen_cserie=25364.html',
 '/series/ficheserie_gen_cserie=23715.html',
 '/series/ficheserie_gen_cserie=27496.html',
 '/series/ficheserie_gen_cserie=22940.html',
 '/series/ficheserie_gen_cserie=25856.html',
 '/series/ficheserie_gen_cserie=24633.html',
 '/series/ficheserie_gen_cserie=25546.html']

The absolute URL of the movie pages we are looking for are built in this form: http://www.allocine.fr/film/fichefilm_gen_cfilm=243835.html

It is therefore necessary to take the previous list and build the absolute URLs for our search
It's up to you to play.

NB: Do not take the links for the shows(series). We only want movies.

In [12]:
movie_links = ["http://www.allocine.fr" + elem for elem in links if "film" in elem]
movie_links

['http://www.allocine.fr/film/fichefilm_gen_cfilm=186437.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=290193.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=285300.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=286346.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=277730.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=286353.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=300359.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=290273.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=277709.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=190487.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=285884.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=264699.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=248437.html',
 'http://www.allocine.fr/film/fichefilm_gen_cfilm=284465.html']

Finally, on each page, the title and synopsis must be retrieved. Let's try for a movie, the first of the list.

In [77]:
for url in movie_links:
    r = requests.get(url)
print(url, r.status_code)
soup = BeautifulSoup(r.content, "lxml")
soup

('http://www.allocine.fr/film/fichefilm_gen_cfilm=284465.html', 200)




For title 
```html
<div class="titlebar-title titlebar-title-lg">Le Grand Bain</div>
```
For the synopsis

```html
<div class="content-txt " itemprop="description"

 
              C’est dans les couloirs de leur piscine municipale que Bertrand, Marcus, Simon, Laurent, Thierry et les autres s’entraînent sous l’autorité toute relative de Delphine, ancienne gloire des bassins. Ensemble, ils se sentent libres et utiles. Ils vont mettre toute leur énergie dans une discipline jusque-là propriété de la gent féminine : la natation synchronisée. Alors, oui c’est une idée plutôt bizarre, mais ce défi leur permettra de trouver un sens à leur vie...
    
      </div>
```

In [80]:
for elem in soup.find_all("div", attrs={"class": "titlebar-title titlebar-title-lg"}):
    # Just like that
    print(elem.text)

for elem in soup.find_all("div", attrs={"class": "content-txt"}):
    # Just like that
    print(elem)

Presque
<div class="content-txt">
Deux hommes prennent la route, de Lausanne vers le sud de la France, dans un corbillard. Ils se connaissent peu, ont peu de choses en commun, du moins le croient-ils…
</div>
<div class="content-txt review-card-content">
Un film courageux, difficile, réalisé et interprété avec subtilité et délicatesse à l'image de Bernard Campan dont il faut saluer ici le grand talent. Il donne à ce long métrage sa dimension tragique et nous invite à ne pas mourir prématurément à l'intérieur de soi. Un croquemort qui nous donne envie de vivre et une tragédie qui rend hommage à la comédie.
</div>
<div class="content-txt review-card-content">
Quel cadeau cinématographique !
"Presque" est en fait l'histoire d'une rencontre entre deux individus ayant dû affronter toute leur vie le regard des autres, chacun à des niveaux très différents bien sûr.
Louis (Bernard Campan) est croque-mort et Igor (Alexandre Jollien) est handicapé depuis la naissance.
Ce tandem improvisé va se re

1) Automate this script for the entire list of movies.

2) Put the information in three lists (`film_links`, `title`, `synopsis`).

3) Create a `DataFrame` object from the `pandas` library that you will have to install. This dataframe will have to include these three informations in three columns.

4) Save this dataframe in a CSV file.

And here's your first real scrap, you're real hackers now.

In [114]:
import time
import random
from random import randint

title = []
synopsis = []

# Here are the things you will have to do for all links:
for link in movie_links:
    
    print(link, r.status_code)
    
# - Slow down the frequency of requests to avoid being identified and therefore banned from the website.
# Use `time.sleep(random.uniform(1.0, 2.0))`
    time.sleep(random.uniform(1.0, 2.0))
# - Get request object from URL
    r = requests.get(link)
# - Extract the content into a variable using BeautifulSoup
    soup = BeautifulSoup(r.content, "lxml")
# - Get title
    elmt1 = soup.find_all("div", attrs = {"class": "titlebar-title titlebar-title-lg"})
        
    title.append(elmt1[0].text)

# - Get synopsis
    elmt2 = soup.find_all("div", attrs={"class": "content-txt"})
    
    synopsis.append(elmt2[0].text)
    print("++++")

# Check the length of the lists before creating the dataframe
print(title)
titles = [str(x) for x in title]
len(titles), len(synopsis), len(movie_links)


('http://www.allocine.fr/film/fichefilm_gen_cfilm=186437.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=290193.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=285300.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=286346.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=277730.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=286353.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=300359.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=290273.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=277709.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=190487.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=285884.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=264699.html', 200)
++++
('http://www.allocine.fr/film/fichefilm_gen_cfilm=248437.html', 200)
++++
('http://www.allocine.fr/film/fichefil

UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in position 26: ordinal not in range(128)

In [None]:
import pandas as pd

df = pd.DataFrame({"Title": title})
df["Synopsis"] = synopsis
df["Links"] = movie_links

In [None]:
df.to_csv("./assets/allo_cine.csv", index=False)