In [178]:
import requests
from bs4 import BeautifulSoup

import numpy as np
import pandas as pd

import re 

# Scraping

In [179]:
# Extraire le nombre de page à scraper
def extraire_nombre_pages(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")

    all_pages = soup.find_all('div', class_="pagination-item-holder")[0]
    nombre_pages = int(str(all_pages)[-12:][:2])
    return nombre_pages

In [180]:
# Scraper tous les films à l'affiche sur AlloCiné
def scraping_films_allociné(pages):
    movies_dict = { 'Title': [], 'Code': []}

    for i in range(1, pages+1):
        url = f"https://www.allocine.fr/film/aucinema/?page={i}"
        response = requests.get(url)
        soup = BeautifulSoup(response.content, "html.parser")

        all_movies_i = soup.find_all('div', class_="card entity-card entity-card-list cf")

        for movie in all_movies_i:
            movie_info = movie.find('h2').find('a')
            movie_class = str(movie_info.attrs['class'][0])
            movie_href = str(movie_info.attrs['href']) 
            movie_title = str(movie_info).replace(movie_href,"").replace(movie_class,"").replace('class=',"").replace('href=',"")
            movie_title = re.sub("\"|\>|\<|\/","",movie_title)[1:-1].strip()
            movie_code = re.findall('\d', movie_href) 
            movie_code = int("".join(movie_code))
            movies_dict["Title"].append(movie_title)
            movies_dict["Code"].append(movie_code)   

    films_allociné = pd.DataFrame(movies_dict)
    films_allociné['Title'] = films_allociné['Title'].apply(lambda x: x.capitalize())
    
    return films_allociné

In [181]:
pages = extraire_nombre_pages(f"https://www.allocine.fr/film/aucinema/")

In [182]:
films_allociné = scraping_films_allociné(pages)
films_allociné

Unnamed: 0,Title,Code
0,Les trois mousquetaires: d'artagnan,288402
1,"Super mario bros, le film",234099
2,La vie pour de vrai,297442
3,10 jours encore sans maman,298509
4,Donjons &amp; dragons : l'honneur des voleurs,221359
...,...,...
205,La cérémonie,12992
206,Unrelated,137649
207,Heat,14046
208,Désordres,141845


# Séances films en commun

In [183]:
#Importer fichier films 
def importer_fichier_films(fichier):
    films = pd.read_excel(fichier)
    films.rename(columns={'Nom':'Title'}, inplace=True)
    films['Title'] = films['Title'].apply(lambda x: x.capitalize())
    
    return films

In [184]:
# Films de la liste à l'affiche en ce moment dans un cinéma parisien

def trouver_films_commun(films, films_allociné):
    films_merge = pd.merge(left=films, right=films_allociné, on='Title', how='left') # Ca suppose d'avoir exactement le même titre
    films_merge.fillna(0,inplace=True)
    films_en_commun = films_merge[films_merge['Code'] != 0]
    films_en_commun['Code'] = films_en_commun['Code'].apply(lambda x: int(x))
    
    return films_en_commun

In [185]:
# Séances films en commun

def séances_films_en_commun(films_en_commun):
    movies_code = list(films_en_commun['Code'].unique())

    toutes_les_séances = list()

    for code in movies_code:

        titre = films_allociné[films_allociné['Code'] == code].iloc[0,0]

        séances_film = {'Titre': titre, 'Cinéma': [], 'Adresse': [], 'Date&Version': [], 'Horaires': []}

        for d in range(0,7):
            url = f"https://www.allocine.fr/seance/film-{code}/pres-de-115767/d-{d}/"
            response = requests.get(url)
            soup = BeautifulSoup(response.content, "html.parser")
            séances = soup.find_all('div', class_="theater-card hred cf")

            for séance in séances:
                nom_cinéma = str(séance.find('h2').find('a')).replace(str(séance.find('h2').find('a').attrs['href']),"").replace('href', "")
                nom_cinéma = re.sub("\"|\>|\<|\/|\=","",nom_cinéma)[1:-1].strip()
                séances_film["Cinéma"].append(nom_cinéma)

                adresse_cinéma = str(séance.find('address')).replace('address',"").replace('class',"")
                adresse_cinéma = re.sub("\"|\>|\<|\/|\=","",adresse_cinéma)[1:]
                séances_film["Adresse"].append(adresse_cinéma)

                info_séances = séance.find_all('div', class_="showtimes-version")[0]

                date_séance = str(info_séances.find_all('div', class_='text')).replace('class', "").replace('text',"").replace('div',"")
                date_séance = re.sub("\"|\>|\<|\/|\=|\n|\-","",date_séance)[1:-1]
                séances_film["Date&Version"].append(date_séance)

                horaire_séance = str(info_séances.find_all('span', class_='showtimes-hour-item-value'))#.replace('class', "").replace('showtimes-hour-item-value', "").replace('span', "")
                #horaire_séance = re.sub("\"|\>|\<|\/|\=|\n|\-","",horaire_séance)[1:-1]
                séances_film["Horaires"].append(horaire_séance)

        toutes_les_séances.append(séances_film)
        
    if len(toutes_les_séances) == 0:
        return print("Aucun film de la liste à l'affiche en ce moment dans un cinéma parisien")
        
    elif len(toutes_les_séances) > 0:
        return toutes_les_séances

In [186]:
films = importer_fichier_films('Liste-Films-Charlotte.xlsx')

In [187]:
films_en_commun = trouver_films_commun(films, films_allociné)
films_en_commun

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  films_en_commun['Code'] = films_en_commun['Code'].apply(lambda x: int(x))


Unnamed: 0,Title,Code
188,Decision to leave,287116


In [188]:
toutes_les_séances = séances_films_en_commun(films_en_commun)
toutes_les_séances

[{'Titre': 'Decision to leave',
  'Cinéma': [],
  'Adresse': [],
  'Date&Version': [],
  'Horaires': []}]

# Séance d'un autre film

In [189]:
# Exporter tous les films à l'affiche

def exporter_films_allociné(df):
    df.to_excel("Films à l'affiche.xlsx") 

In [190]:
def séances_film(code):
    titre = films_allociné[films_allociné['Code'] == code].iloc[0,0]
    séances_film = {'Titre': titre, 'Cinéma': [], 'Adresse': [], 'Infos': []}

    for d in range(0,7):

        url = f"https://www.allocine.fr/seance/film-{code}/pres-de-115767/d-{d}/"
        response = requests.get(url)
        soup = BeautifulSoup(response.content, "html.parser")
        séances = soup.find_all('div', class_="theater-card hred cf card-thumb-large")

        for séance in séances:
                nom_cinéma = séance.find('h2').find('a').string
                séances_film["Cinéma"].append(nom_cinéma)

                adresse_cinéma = séance.find('address').string
                séances_film["Adresse"].append(adresse_cinéma)

                info_séances = séance.find_all('div', class_="showtimes-version")

                séances_infos = {'Date&Version': [], 'Horaires': []}

                for info in info_séances:
                    date_séance = str(info.find_all('div', class_='text')).replace('class', "").replace('text',"").replace('div',"")
                    date_séance = re.sub("\"|\>|\<|\/|\=|\n|\-","",date_séance)[1:-1]
                    séances_infos["Date&Version"].append(date_séance)

                    horaire_séance = str(info.find_all('span', class_='showtimes-hour-item-value')).replace('class', "").replace('showtimes-hour-item-value', "").replace('span', "")
                    horaire_séance = re.sub("\"|\>|\<|\/|\=|\n|\-","",horaire_séance)[1:-1]
                    séances_infos["Horaires"].append(horaire_séance)

                séances_film['Infos'].append(séances_infos)

    return pd.DataFrame(séances_film)

In [191]:
# Exporter séances du film choisi

def exporter_film(df):
    df.to_excel(f'Séances_{titre}.xlsx') 

In [177]:
#exporter_films_allociné(films_allociné) # Pour obtenir le code du film souhaité
code = 288402 # Modifier le code selon le film souhaité
titre_séances = séances_film(code)
#exporter_film(titre_séances) 
titre_séances

Unnamed: 0,Titre,Cinéma,Adresse,Infos
0,Les trois mousquetaires: d'artagnan,UGC Ciné Cité Bercy,"2, cour Saint-Emilion 75012 Paris","{'Date&Version': [' 25 avril 2023 En VF'], 'Ho..."
1,Les trois mousquetaires: d'artagnan,MK2 Nation,"133, bd Diderot 75012 Paris","{'Date&Version': [' 25 avril 2023 En VF'], 'Ho..."
2,Les trois mousquetaires: d'artagnan,Pathé Quai d'Ivry - IMAX - 4DX,"2, quai Marcel Boyer 94200 Ivry-sur-Seine","{'Date&Version': [' 25 avril 2023 En VF'], 'Ho..."
3,Les trois mousquetaires: d'artagnan,MK2 Bibliothèque,128-162 avenue de France 75013 Paris,"{'Date&Version': [' 25 avril 2023 En VF'], 'Ho..."
4,Les trois mousquetaires: d'artagnan,UGC Lyon Bastille,"12, rue de Lyon 75012 Paris 12e arrondissement","{'Date&Version': [' 25 avril 2023 En VF'], 'Ho..."
...,...,...,...,...
205,Les trois mousquetaires: d'artagnan,Les Cinq Caumartin,"101, rue Saint-Lazare 75009 Paris 9e arrondiss...","{'Date&Version': [' 1 mai 2023 En VF'], 'Horai..."
206,Les trois mousquetaires: d'artagnan,Royal Palace,"165, grande rue Charles-de-Gaulle 94130 Nogent...","{'Date&Version': [' 1 mai 2023 En VF'], 'Horai..."
207,Les trois mousquetaires: d'artagnan,UGC Ciné Cité Paris 19,"166, boulevard Mac Donald 75019 Paris","{'Date&Version': [' 1 mai 2023 En VF'], 'Horai..."
208,Les trois mousquetaires: d'artagnan,Pathé Wepler - 4DX,"140, bd de Clichy et 8, av de Clichy 75018 Paris","{'Date&Version': [' 1 mai 2023 En VF'], 'Horai..."
