# YouTube Scraper From Scratch

## I - Import libraries

In [1]:
import pandas as pd 
from selenium import webdriver 
from selenium.webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC
from youtube_transcript_api import YouTubeTranscriptApi as yt

## II - Import Chrome driver

In [2]:
driver = webdriver.Chrome()
driver.get("https://www.youtube.com/user/MyEasyMovie/videos") # EasyMovie youtube channel

## III - Get videos links

In [3]:
user_data = driver.find_elements_by_xpath('//*[@id="video-title"]') # video title XPath
links = []
for i in user_data:
            links.append(i.get_attribute('href'))

print(len(links)) # number of videos

379


## IV - Create dataframe

In [4]:
df = pd.DataFrame(columns = ['link', 'title', 'description', 'category'])

In [6]:
wait = WebDriverWait(driver, 10)
v_category = "EasyMovie" # category name chosen
for x in links:
            driver.get(x)
            v_id = x.strip('https://www.youtube.com/watch?v=')
            v_title = wait.until(EC.presence_of_element_located(
                           (By.CSS_SELECTOR,"h1.title yt-formatted-string"))).text
            v_description =  wait.until(EC.presence_of_element_located(
                                         (By.CSS_SELECTOR,"div#description yt-formatted-string"))).text
            df.loc[len(df)] = [v_id, v_title, v_description, v_category]

In [7]:
df # our dataframe have: links of every EasyMovie videos, videos title and videos description

Unnamed: 0,link,title,description,category
0,8xJGHPXV8A,,Pourquoi vous devez réaliser une vidéo de prés...,EasyMovie
1,l6dm-qyFPD,,"Pour parler de leur processus de recrutement ""...",EasyMovie
2,nIB2g8aFjC,,Voici notre dix-huitième newsletter produit. C...,EasyMovie
3,P_dAR2RKuQE,,Vous cherchez de l'inspiration pour réaliser u...,EasyMovie
4,8xJGHPXV8A,Pourquoi réaliser une vidéo de présentation ?,Pourquoi vous devez réaliser une vidéo de prés...,EasyMovie
5,l6dm-qyFPD,Faire témoigner ses collaborateurs sur une off...,"Pour parler de leur processus de recrutement ""...",EasyMovie
6,nIB2g8aFjC,Newsletter Produit #18,Voici notre dix-huitième newsletter produit. C...,EasyMovie
7,P_dAR2RKuQE,Un exemple de vidéo de présentation de collabo...,Vous cherchez de l'inspiration pour réaliser u...,EasyMovie
8,nOQ3M4Kon4g,,Si vous souhaitez vous inspirer d'une super vi...,EasyMovie
9,kIru7kWbky8,Parler des avantages de son entreprise en vidéo,Si vous proposez des avantages pour votre entr...,EasyMovie


## V - Get transcripts

In [8]:
transcripts = []
counter = 0

for index, row in df.iterrows():
    try:
        transcript = yt.get_transcripts({row['link']}, languages = ['fr'])
        transcripts.append(transcript)
        counter += 1
    except:
        print("Could Not Retrieve Transcript")
        transcripts.append(None)

Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not Retrieve Transcript
Could Not 

In [9]:
print(counter/379*100) # percentage of transcripts retrieved

46.17414248021108


In [10]:
counter # number of transcripts retrieved

175

In [11]:
transcripts

[None,
 None,
 None,
 ({'P_dAR2RKuQE': [{'text': "bonjour je m'appelle théophile et je",
     'start': 0.0,
     'duration': 3.689},
    {'text': 'suis costaud moeurs success manager chez',
     'start': 1.949,
     'duration': 3.091},
    {'text': 'easy movie depuis maintenant un peu plus',
     'start': 3.689,
     'duration': 3.501},
    {'text': "d'un an", 'start': 5.04, 'duration': 2.15},
    {'text': 'au quotidien je suis en charge de',
     'start': 13.67,
     'duration': 4.6},
    {'text': "l'accompagnement et de l'adoption de mes",
     'start': 15.96,
     'duration': 3.69},
    {'text': "clients dans l'utilisation de l'outil",
     'start': 18.27,
     'duration': 2.16},
    {'text': 'please imovie', 'start': 19.65, 'duration': 2.19},
    {'text': 'je travaille également en étroite',
     'start': 20.43,
     'duration': 2.67},
    {'text': 'collaboration avec les équipes',
     'start': 21.84,
     'duration': 2.82},
    {'text': 'commerciales dans la gestion de ses',
    

In [12]:
df['transcripts'] = transcripts
df

Unnamed: 0,link,title,description,category,transcripts
0,8xJGHPXV8A,,Pourquoi vous devez réaliser une vidéo de prés...,EasyMovie,
1,l6dm-qyFPD,,"Pour parler de leur processus de recrutement ""...",EasyMovie,
2,nIB2g8aFjC,,Voici notre dix-huitième newsletter produit. C...,EasyMovie,
3,P_dAR2RKuQE,,Vous cherchez de l'inspiration pour réaliser u...,EasyMovie,"({'P_dAR2RKuQE': [{'text': ""bonjour je m'appel..."
4,8xJGHPXV8A,Pourquoi réaliser une vidéo de présentation ?,Pourquoi vous devez réaliser une vidéo de prés...,EasyMovie,
5,l6dm-qyFPD,Faire témoigner ses collaborateurs sur une off...,"Pour parler de leur processus de recrutement ""...",EasyMovie,
6,nIB2g8aFjC,Newsletter Produit #18,Voici notre dix-huitième newsletter produit. C...,EasyMovie,
7,P_dAR2RKuQE,Un exemple de vidéo de présentation de collabo...,Vous cherchez de l'inspiration pour réaliser u...,EasyMovie,"({'P_dAR2RKuQE': [{'text': ""bonjour je m'appel..."
8,nOQ3M4Kon4g,,Si vous souhaitez vous inspirer d'une super vi...,EasyMovie,({'nOQ3M4Kon4g': [{'text': 'bonjour je suis mé...
9,kIru7kWbky8,Parler des avantages de son entreprise en vidéo,Si vous proposez des avantages pour votre entr...,EasyMovie,"({'kIru7kWbky8': [{'text': '[Musique]', 'start..."


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 383 entries, 0 to 382
Data columns (total 5 columns):
link           383 non-null object
title          383 non-null object
description    383 non-null object
category       383 non-null object
transcripts    175 non-null object
dtypes: object(5)
memory usage: 18.0+ KB


In [14]:
df = df[df.transcripts.notnull()] # our dataframe without None values
df

Unnamed: 0,link,title,description,category,transcripts
3,P_dAR2RKuQE,,Vous cherchez de l'inspiration pour réaliser u...,EasyMovie,"({'P_dAR2RKuQE': [{'text': ""bonjour je m'appel..."
7,P_dAR2RKuQE,Un exemple de vidéo de présentation de collabo...,Vous cherchez de l'inspiration pour réaliser u...,EasyMovie,"({'P_dAR2RKuQE': [{'text': ""bonjour je m'appel..."
8,nOQ3M4Kon4g,,Si vous souhaitez vous inspirer d'une super vi...,EasyMovie,({'nOQ3M4Kon4g': [{'text': 'bonjour je suis mé...
9,kIru7kWbky8,Parler des avantages de son entreprise en vidéo,Si vous proposez des avantages pour votre entr...,EasyMovie,"({'kIru7kWbky8': [{'text': '[Musique]', 'start..."
12,xbA28vcUo60,,"Dans cette vidéo, vous apprendrez à utiliser l...",EasyMovie,"({'xbA28vcUo60': [{'text': ""Bonjour moi c'est ..."
15,5KROKqoltXM,,Pourquoi réaliser des vidéos en entreprise ? S...,EasyMovie,"({'5KROKqoltXM': [{'text': ""Bonjour, je m'appe..."
17,1g10OEhFfNE,Un format vidéo original pour la Paris Fashion...,La fashion week fait son grand retour à Paris ...,EasyMovie,"({'1g10OEhFfNE': [{'text': ""aa à a c'est une b..."
18,gog7dT_VHQQ,Comment réaliser un témoignage vidéo ?,"Pour réaliser un témoignage vidéo, il est esse...",EasyMovie,"({'gog7dT_VHQQ': [{'text': ""et c'est comme nou..."
24,4wUz2Sgt-iM,,"Pour présenter son entreprise en vidéo, BNP Pa...",EasyMovie,"({'4wUz2Sgt-iM': [{'text': '[Musique]', 'start..."
27,QiE3qf94PD4,,Voici notre seizième newsletter produit. Chaqu...,EasyMovie,"({'QiE3qf94PD4': [{'text': ""bonjour c'est juli..."


# VI - Export Dataframe to CSV

In [16]:
export_csv = df['transcripts'].to_csv (r'D:\IA - ML - DL\COURS\ING3 - S1 - 2019\EasyMovie\easymovie-ds-esme-working-on\yt_transcripts\export_dataframe.csv', index = None, header=False, sep='\t', encoding='utf-8')