# Analyse des tendances YouTube

<p>&nbsp;</p>
<img src="https://i.ytimg.com/vi/GZmGmkOJ9ME/maxresdefault.jpg" width=600>
<p>&nbsp;</p>

## Introduction

YouTube est la plus grande et la plateforme la plus populaire de vidéo sur Internet dans le monde. Tous les jours, l'onglet tendance de la plateforme se met à jour pour afficher des vidéos qui ont un pic de vue et d'interaction sur la vidéo inhabituel. Dans cette *analyse*, nous allons voir les vidéos qui ont été sur l'onglet tendance sur **YouTube France** et ainsi voir ce qui est commun entre ces vidéos. Ces informations pourront également être utilisées par les personnes qui souhaitent accroître la popularité de leurs vidéos sur YouTube avec la bonne formule pour être en tendance.

Nous allons pour cela utiliser un jeu de données contenant environ `41000` **vidéos** venant de **YouTube Open Data** qui répertorie toutes les vidéos françaises en tendance.

## Objectif de notre analyse
* Combien de vues ont les vidéos en tendances ? La plupart d'entre elles ont-elles un grand nombre de vues ? Est-il nécessaire d'avoir un grand nombre de vues pour qu'une vidéo soit en tendance ?
* Même question pour le nombre de likes et le nombre de commentaires sur les vidéos
* Quelle vidéo est restée le plus longtemps en tendance YouTube ?
* Pour attirer des vues, les vidéastes n'hésitent pas à mettre des titres en majuscules. Combien il y a t'il de vidéo qu'avec des majuscules en tendance ? Cette méthode fonctionne t'elle réellement ?
* Quelle est la longueur des titres des vidéos ? Cette durée est-elle liée au fait que la vidéo devienne populaire ?
* Quelle est la corrélation entre : les vues, les likes, les dislikes, les commentaires, la longueur des titres et d'autres dimension 
* Quels sont les mots les plus courants dans les titres de vidéos en tendance ?
* Quelle chaîne YouTube a le plus de vidéos en tendance ?
* Quelle catégorie de vidéo (par exemple, divertissement, jeux-video, comédie, etc.) compte le plus grand nombre de vidéos tendances ?
* Quand les vidéos de tendances ont-elles été publiées ? Quels jours de la semaine ? À quelles heures de la journée ?



# Sommaire
* 1
* 2
* ...

### Importation des données et des bibliothèques

Tout d'abord, nous importons quelques bibliothèqyes `Python` qui nous aideront à analyser les données, en particulier `pandas` pour l'analyse des données et `matplotlib` pour la visualisation.

In [None]:
import pandas as pd
import numpy as np
import matplotlib as mpl
from matplotlib import pyplot as plt
import seaborn as sns
import warnings
from collections import Counter
import datetime
import wordcloud
import json
warnings.filterwarnings('ignore')
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
%matplotlib notebook

### Lecture des données

Nous allons lire le jeu de données csv des vidéos tendances de YouTube France.

In [None]:
data_set = pd.read_csv("/kaggle/input/youtube-new/FRvideos.csv") # Lecture des données

### Découverte des données

Nous allons voir ce qu'il y a dans notre csv et avoir un aperçu des colonnes et des individus.

In [None]:
data_set.head()

Nous allons également voir combien d'individus nous avons dans ce jeu de données, combien de colonnes, combien de données qualitatives/quantitatives et s'il y a des données manquantes.

In [None]:
data_set.info()

Nous pouvons voir qu'il y a `40724` individus dans notre jeu de données. Dans la colonne `description`, il y a `2912` données manquantes. Mais il n'y a pas d'autres données manquantes. Nous avons **5** colonnes avec des données quantitatives, **8** colonnes avec des données qualitatives et **3** colonnes dont le résultat est binaires.

### Données manquantes

Nous allons corriger les `2912` données manquantes. Comme la colonne `description` contient des données qualitatives, nous pouvons remplacer les colonnes `null` par un champ vide.

In [20]:
data_set[data_set["description"].apply(lambda l: pd.isna(l))].head(10)

Unnamed: 0,video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description
63,SoDxxEyxE84,17.14.11,Raquel Garrido explique son départ de FI - Les...,Gaetano Gitano,22,2017-11-12T21:30:42.000Z,[none],12740,110,16,69,https://i.ytimg.com/vi/SoDxxEyxE84/default.jpg,False,False,False,
75,tlSLFSw_lYs,17.14.11,Kabila pousse Tshibala vers la porte de sortie...,lokoleelela,25,2017-11-13T08:35:59.000Z,[none],26260,182,44,156,https://i.ytimg.com/vi/tlSLFSw_lYs/default.jpg,False,False,False,
94,rfZuiD2MaUM,17.14.11,Karl Lagerfeld descend Merkel dans Salut les T...,SQO,22,2017-11-11T19:09:59.000Z,[none],23722,88,25,60,https://i.ytimg.com/vi/rfZuiD2MaUM/default.jpg,False,False,False,
104,RcFT1BlWYSY,17.14.11,اعلامية قطرية ثتحدت عن المبلغ الذي ستمنحه الفي...,الكرة العالمية TV,22,2017-11-13T12:50:43.000Z,"المغرب""|""المنتخب المغربي""|""المبلغ الذي ستمنحه ...",108303,599,87,83,https://i.ytimg.com/vi/RcFT1BlWYSY/default.jpg,False,False,False,
109,rJiyAQPrTVc,17.14.11,شاهد فرحة محليلي قناة BEIN SPORT فرحة كبيرة لم...,OZ TV,28,2017-11-11T19:57:53.000Z,[none],848688,2736,523,433,https://i.ytimg.com/vi/rJiyAQPrTVc/default.jpg,False,False,False,
114,jVH6-eQwGjE,17.14.11,REPLAY de la DEMI FINALE 1 de l'Afrique a Un I...,L'Afrique a un incroyable talent,24,2017-11-12T20:30:00.000Z,[none],70645,1335,63,527,https://i.ytimg.com/vi/jVH6-eQwGjE/default.jpg,False,False,False,
121,q1IyHz7BR2Y,17.14.11,"Նռան հատիկ, Սերիա 46 / Pomegranate seed / Nran...",PanArmenian TV,1,2017-11-13T18:30:01.000Z,"Նռան հատիկ""|""Սերիա 46""|""Pomegranate seed""|""Nra...",54031,227,35,72,https://i.ytimg.com/vi/q1IyHz7BR2Y/default.jpg,False,False,False,
128,5QE2UWudkaY,17.14.11,TOKOMI WAPI DU13 11 2017 NINI ElAMUKI LELO NA...,NDEKO ELIEZER TOKOKOMA,22,2017-11-13T13:19:40.000Z,[none],28578,445,38,201,https://i.ytimg.com/vi/5QE2UWudkaY/default.jpg,False,False,False,
146,hZ73Ry3YthE,17.14.11,لحظة وصول أسود الأطلس إلى مطار الرباط سلا,Medi1TV,24,2017-11-12T10:44:04.000Z,[none],177851,1365,69,122,https://i.ytimg.com/vi/hZ73Ry3YthE/default.jpg,False,False,False,
154,cAhp-JLDiRI,17.14.11,"Il brule de la neige, elle ne fond pas | Proje...",La Chaine Qui Dérange,27,2017-11-13T10:23:50.000Z,"neige""|""haarp""|""meteo""|""strange""|""étrange""|""bi...",3120,119,33,59,https://i.ytimg.com/vi/cAhp-JLDiRI/default.jpg,False,False,False,


Nous allons maintenant remplacer les données `NaN`

In [24]:
data_set["description"] = data_set["description"].fillna(value="")
data_set.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40724 entries, 0 to 40723
Data columns (total 16 columns):
video_id                  40724 non-null object
trending_date             40724 non-null object
title                     40724 non-null object
channel_title             40724 non-null object
category_id               40724 non-null int64
publish_time              40724 non-null object
tags                      40724 non-null object
views                     40724 non-null int64
likes                     40724 non-null int64
dislikes                  40724 non-null int64
comment_count             40724 non-null int64
thumbnail_link            40724 non-null object
comments_disabled         40724 non-null bool
ratings_disabled          40724 non-null bool
video_error_or_removed    40724 non-null bool
description               40724 non-null object
dtypes: bool(3), int64(5), object(8)
memory usage: 4.2+ MB


Désormais, nous avons toutes nos données pour débuter notre analyse.