# Challenge 2: critique de films
---
## Structure de l'URL
---
### Pratique

    . importer la fonction get() du module requests
    . Assigner l'url de la page à la variable url
    . Télécharger la page et assigner le résultat à la variable response
    . Afficher un extrait du résultat

In [1]:
from requests import get 
url = "http://www.imdb.com/search/title?release_date=2017&sort=num_votes,desc&page=1"
response = get(url)

    . Importer la classe BeautifulSoup du package bs4
    . Extraire le code HTML
    . utiliser la méthode find_all() pour extraire les éléments souhaités

In [2]:
from bs4 import BeautifulSoup
html_soup = BeautifulSoup(response.content,'html.parser')

movie_containers = html_soup.find_all('div', class_='lister-item mode-advanced')
print(type(movie_containers))
print(len(movie_containers))

<class 'bs4.element.ResultSet'>
50


## Extraire la data pour un seul film
---
### Pratique
---

    . Extraire l'année de sortie du premier film 
    . Extraire la note IMDB (à convertir en nombre à virgule)
    . Extraire la note Metacritic (à convertir en entier)
    . Extraire le nombre de votes (utiliser paramètre attrs)

In [3]:
# titre du film 
first_movie=movie_containers[0]
first_movie.h3

<h3 class="lister-item-header">
<span class="lister-item-index unbold text-primary">1.</span>
<a href="/title/tt3315342/">Logan</a>
<span class="lister-item-year text-muted unbold">(2017)</span>
</h3>

In [4]:
first_name=first_movie.h3.a.text

In [5]:
# Année de sortie
first_year=first_movie.h3.find('span',class_='lister-item-year')
#Note IMDB
first_imdb=float(first_movie.strong.text) #  est la balise strong
#Note Metacritic
first_metascore=first_movie.find('span',class_='metascore favorable')
first_metascore=int(first_metascore.text)
# Nombre de votes
first_nv=first_movie.find('span',attrs={'name':'nv'})
first_votes=int(first_nv['data-value'])

## Script pour scraper une seule page

In [6]:
test_movie_metascore=movie_containers[8].find('div',class_='ratings-metascore')

# exemple de film qui n a pas de metascore

In [7]:
# On crée des listes vides pour toutes nos informations
names=[]
years=[]
imdb_ratings=[]
metascores = []
votes = []

#On reprend notre data movie_containers pour extraire l information
for container in movie_containers: 
    # si le film a une note metacritique on l extrait
    if container.find('div', class_='ratings-metascore') is not None: 
        
        # le titre du film
        name = container.h3.a.text
        names.append(name) # on ajoute chaque élément name dans la liste names
        
        # l'année de sortie
        year=container.h3.find('span',class_='lister-item-year')
        years.append(year.text)
        
        #la note Imdb
        imdb=float(container.strong.text) 
        imdb_ratings.append(imdb)
        
        #Metascore
        m_score=container.find('span',class_='metascore')
        metascores.append(int(m_score.text))
        
        # nombre de votes
        vote = container.find('span',attrs={'name':'nv'})['data-value']
        votes.append(int(vote))
        

## Affichage en Dataframe avec Pandas

In [8]:
import pandas as pd 
test_df = pd.DataFrame({
          'movie': names,
          'year': years,
          'imdb': imdb_ratings,
          'metascore': metascores,
          'votes': votes
    
})

In [9]:
print(test_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 5 columns):
movie        42 non-null object
year         42 non-null object
imdb         42 non-null float64
metascore    42 non-null int64
votes        42 non-null int64
dtypes: float64(1), int64(2), object(2)
memory usage: 1.7+ KB
None


In [80]:
test_df

Unnamed: 0,imdb,metascore,movie,votes,year
0,8.1,77,Logan,426933,(2017)
1,7.6,76,Wonder Woman,353480,(2017)
2,7.8,67,Guardians of the Galaxy Vol. 2,318547,(2017)
3,8.1,94,Dunkirk,300114,(2017)
4,7.6,73,Spider-Man: Homecoming,259622,(2017)
5,7.6,85,Star Wars: Episode VIII - The Last Jedi,256526,(2017)
6,7.7,86,Baby Driver,240542,(2017)
7,7.7,84,Get Out,220283,(I) (2017)
8,7.6,70,It,213707,(I) (2017)
9,7.5,75,John Wick: Chapter 2,206172,(2017)


## Script pour toutes les pages 

In [11]:
pages = [str(i) for i in range (1,5)]
years_url = [str(i) for i in range(2000,2018)]
pages

['1', '2', '3', '4']

## Contrôler le taux de requêtes envoyées

In [86]:
from time import sleep
from random import randint

for a in range(0,5):
    print('Booh')
    sleep(randint(1,4))

Booh
Booh
Booh
Booh
Booh


In [91]:
from time import time
from IPython.display import clear_output
start_time = time() # on fixe le temps de début
requests = 0 # compter le nombre de requêtes
for _ in range(5):
    requests += 1    # increment la variable request de 1 chaque passage de boucle
    sleep(randint(1,3))
    elapsed_time = time() - start_time # calcul du temps ecoulé pour chque requête
    print('Request: {}; Frequency: {} requests/s'.format(requests, requests/elapsed_time))
    clear_output(wait = True)

Request: 5; Frequency: 0.4535448067195719 requests/s


In [92]:
from warnings import warn
warn('Attention')

  
