# Introduction
On se place du côté d'une grande chaîne de télévision française.

On cherche à savoir quel type de programme les chaînes concurrentes diffusent en access.

### Objectif de l'étude
Créer un modèle qui prédit le type de programme que va mettre une chaîne un soir donné.

### Variables à notre disposition
- chaîne,
- date (année, mois, jour, week-end ou non),
- titre et type du programme,
- âge conseillé,
- part de marché obtenue,
- heure et durée du programme,
- nombre d'épisodes du programme,
- type de programme qui suit et son nombre d'épisodes.

### Méthode
Deux parties composent ce travail :
- d'une part, on récupère nos données sur Internet ;
- d'autre part, on applique des méthodes de machine learning.

# Partie scrapping
Les informations ont été récupérées sur deux sites disctincts :
- https://www.programme-television.org/audiences/02-09-2014 ;
- http://programme-tv.nouvelobs.com/programme-tv/2014-10-08 .

Le premier nous fournit l'information sur la part de marché des 20 premières chaîne pour tous les soirs depuis le 2 septembre 2014.

Le second nous informe sur les types de programme diffusés pour chaque chaîne depuis le 8 octobre 2014.

### Scrapping part de marché

In [1]:
import Fonctions as Fct 
import Listes
import Generation_df as Gdf
import Nettoyage as Net

Donnees = Gdf.pd.DataFrame({"Date": [], "Chaine": [], "Part_de_marche": []})

Dates = Listes.date(31,12,6)
Chemins = Listes.chemin(Dates)

for i in range(len(Chemins)):
    arbre = Fct.arbre(Chemins[i])
    test = arbre.find("h1")
    test = str(test)
    if test != "<h1>Audiences TV du 11 décembre 2019 avec Tele 7</h1>" :
        V1 = Fct.Jour(arbre)
        V2 = Fct.Logo(arbre)
        V3 = Fct.Pdm(arbre)
        if len(V1) == 19 & len(V2) == 19 & len(V3) == 19:
            Donnees = Gdf.Donnee(V1,V2,V3,Donnees)
            
Donnees["Chaine"] = Net.recodage(Donnees["Chaine"], {'35_192"':"TF1",
                                                 '35_80" ':"France 3",
                                                '35_118"':"M6",
                                                 '35_4" h':"France 2",
                                                 '35_195"':"TMC",
                                                '35_47" ':"France 5",
                                                 '35_445"':"C8",
                                                '35_119"':"W9",
                                                 '35_446"':"TFX",
                                                '35_111"':"Arte",
                                                 '35_78" ':"France 4",
                                                '35_444"':"NRJ 12",
                                                 '35_458"':"C Star",
                                                '35_160"':"France O",
                                                 '35_482"':"Gulli",
                                                '35_1402':"RMC Story",
                                                '35_1404':"TF1 Series",
                                                 '35_1400':"RMC Decouverte",
                                                '35_1403':"6ter",
                                                '35_1399':"Cherie 25",
                                                 '35_1400':"RMC Decouverte",
                                                '35_1403':"6ter",
                                                '35_34" ': "Canal +",
                                                '35_234"': "LCP Public Senat",
                                                '35_1401': "L Equipe",
                                                '35_481"': "BFM TV"})

In [3]:
Donnees

Unnamed: 0,Date,Chaine,Part_de_marche
0,02 septembre 2014,TF1,31.7
1,02 septembre 2014,France 3,13.7
2,02 septembre 2014,M6,12.4
3,02 septembre 2014,France 2,11.6
4,02 septembre 2014,TMC,4.9
...,...,...,...
32162,09 décembre 2019,C Star,1.2
32163,09 décembre 2019,Cherie 25,1.2
32164,09 décembre 2019,Gulli,1.0
32165,09 décembre 2019,6ter,0.6


### Scrapping informations sur le programme

In [4]:
import Fonctions_prgm_TV as fct 
import generation_data as gen
import url

Data = gen.pd.DataFrame({"Date": [],"Jour": [], "Chaine": [], "Heure_prgm1": [], "Titre_prgm1": [], "Type_prgm1": [],
                        "Duree_prgm1": [], "Nbre_episodes_prgm1": [], "Age_conseille_prgm1": [],"Heure_prgm2": [],
                        "Titre_prgm2": [], "Type_prgm2": [], "Duree_prgm2": [], "Nbre_episodes_prgm2": [],
                         "Age_conseille_prgm2": []})

Dates = url.dates(2019)
Chemins = url.chemin(Dates)

for i in range(len(Chemins)):
    arbre = fct.tree(Chemins[i])
    V1 = fct.date(arbre)
    V2 = fct.jour(arbre)
    V3 = fct.chaines(arbre)
    V4 = fct.heures1(arbre)
    V5 = fct.titres1(arbre)
    V6 = fct.type_prgm1(arbre)
    V7 = fct.temps_prgm1(arbre)
    V8 = fct.nbre_ep1(arbre)
    V9 = fct.ages1(arbre)
    V10 = fct.heures2(arbre)
    V11 = fct.titres2(arbre)
    V12 = fct.type_prgm2(arbre)
    V13 = fct.temps_prgm2(arbre)
    V14 = fct.nbre_ep2(arbre)
    V15 = fct.ages2(arbre)
    Data = gen.Donnee(V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,Data)

Types = {
    "['" : "NA",
    "[' cat-selection-obs" : "NA",
    "['ballet" : "Ballet",
    "['ceremonie" : "Ceremonie",
    "['clips" : "Clips",
    "['concert" : "Concert",
    "['court-metrage" : "Court-metrage",
    "['danse" : "Danse",
    "['debat" : "Debat",
    "['dessin-anime" : "Dessin-anime",
    "['divertissement" : "Divertissement",
    "['divertissement cat-selection-obs" : "Divertissement",
    "['divertissement cat-selection-o" : "Divertissement",
    "['divertissement cat-selection-o']" : "Divertissement",
    "['documentaire" : "Documentaire",
    "['documentaire cat-selection-obs" : "Documentaire",
    "['documentaire cat-selection-obs']" : "Documentaire",
    "['emission-religieuse" : "Emission religieuse",
    "['film" : "Film",
    "['film cat-selection-obs" : "Film",
    "['fin-des-emissions" : "Fin des emissions",
    "['gala" : "Gala",
    "['information" : "Information",
    "['jeu" : "Jeu",
    "['jeu cat-selection-obs" : "Jeu",
    "['journal" : "Journal",
    "['magazine" : "Magazine",
    "['magazine cat-selection-obs" : "Magazine",
    "['making-of" : "Making-of",
    "['musique" : "Musique",
    "['opera" : "Opera",
    "['opera cat-selection-obs" : "Opera",
    "['prog-court" : "Programme Court",
    "['reportage" : "Reportage",
    "['serie-tv cat-selection-obs" : "Serie TV",
    "['serie-tv" : "Serie TV",
    "['spectacle" : "Spectacle",
    "['spectacle cat-selection-obs" : "Spectacle",
    "['sport" : "Sport",
    "['sport cat-selection-obs" : "Sport",
    "['talk-show" : "Talk-Show",
    "['telefilm" : "Telefilm",
    "['telefilm cat-selection-obs" : "Telefilm",
    "['telerealite" : "Telerealitee",
    "['telerealite cat-selection-obs" : "Telerealitee", 
    "['theatre" : "Theatre"
    }

Chaines = {
    " tf1" : "TF1",
    " france 2" : "France 2",
    " france 3" : "France 3",
    " canal +" : "Canal +",
    " france 5" : "France 5",
    " m6" : "M6",
    " arte" : "Arte",
    " c8" : "C8",
    " w9" : "W9",
    " tmc" : "TMC",
    " tfx" : "TFX",
    " nrj 12" : "NRJ 12",
    " public senat - lcp an" : "LCP Public Senat",
    " france 4" : "France 4",
    " bfm tv" : "BFM TV",
    " cnews" : "C News",
    " cstar" : "C Star",
    " gulli" : "Gulli",
    " france ô" : "France O",
    " france Ô" : "France O",
    " tf1 séries films" : "TF1 Series",
    " 6ter" : "6ter",
    " l'equipe" : "L Equipe",
    " rmc story" : "RMC Story",
    " rmc decouverte" : "RMC Decouverte",
    " cherie 25" : "Cherie 25",
    " rtl 9" : "RTL 9"
    }

Data["Type_prgm1"] = Data["Type_prgm1"].map(Types)
Data["Type_prgm2"] = Data["Type_prgm2"].map(Types)
Data["Chaine"] = Data["Chaine"].map(Chaines)
    
for i, row in Data.iterrows():
    if row['Titre_prgm1']==row['Titre_prgm2']:
        row['Type_prgm2']=row['Type_prgm1']
        row['Heure_prgm2']="Suite prgm1"
        row['Duree_prgm2']="Suite prgm2"

In [5]:
Data

Unnamed: 0,Date,Jour,Chaine,Heure_prgm1,Titre_prgm1,Type_prgm1,Duree_prgm1,Nbre_episodes_prgm1,Age_conseille_prgm1,Heure_prgm2,Titre_prgm2,Type_prgm2,Duree_prgm2,Nbre_episodes_prgm2,Age_conseille_prgm2
0,08 octobre 2014,mercredi,TF1,20.55,Blacklist,Serie TV,110,2,-10 ans,22.40,Arrow,Serie TV,100,3,-10 ans
1,08 octobre 2014,mercredi,France 2,20.50,Les hommes de l'ombre,Serie TV,120,2,Tout public,22.40,Un soir à la tour Eiffel,Magazine,100,0,Tout public
2,08 octobre 2014,mercredi,France 3,20.45,Des racines et des ailes,Magazine,115,0,Tout public,23.36,Le comte Ory,Opera,144,0,Tout public
3,08 octobre 2014,mercredi,Canal +,20.55,Diana,Film,110,0,Tout public,22.45,9 mois ferme,Film,80,0,Tout public
4,08 octobre 2014,mercredi,France 5,20.40,La maison France 5,Magazine,60,0,Tout public,21.40,"Silence, ça pousse !",Magazine,49,0,Tout public
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
47245,10 décembre 2019,mardi,TF1 Series,21.00,Le Bazar de la Charité,Serie TV,130,2,-10 ans,22.55,La tragique histoire de l'incendie du Bazar de...,Documentaire,75,0,Tout public
47246,10 décembre 2019,mardi,L Equipe,21.00,La grande soirée,Magazine,110,0,Tout public,22.50,L'Équipe du soir,Magazine,70,0,Tout public
47247,10 décembre 2019,mardi,RMC Story,20.55,The Glades,Serie TV,110,2,-10 ans,22.45,Indices,Magazine,140,2,-10 ans
47248,10 décembre 2019,mardi,RMC Decouverte,20.55,Bâtisseurs de l'ancien monde,Documentaire,195,0,Tout public,00.10,La révélation des pyramides,Documentaire,120,2,Tout public


# Fusion des deux data frames

In [7]:
import pandas as pd
fusion = pd.merge(Data,Donnees,on=["Date","Chaine"], how="outer")

In [8]:
fusion

Unnamed: 0,Date,Jour,Chaine,Heure_prgm1,Titre_prgm1,Type_prgm1,Duree_prgm1,Nbre_episodes_prgm1,Age_conseille_prgm1,Heure_prgm2,Titre_prgm2,Type_prgm2,Duree_prgm2,Nbre_episodes_prgm2,Age_conseille_prgm2,Part_de_marche
0,08 octobre 2014,mercredi,TF1,20.55,Blacklist,Serie TV,110,2,-10 ans,22.40,Arrow,Serie TV,100,3,-10 ans,24.4
1,08 octobre 2014,mercredi,France 2,20.50,Les hommes de l'ombre,Serie TV,120,2,Tout public,22.40,Un soir à la tour Eiffel,Magazine,100,0,Tout public,13.1
2,08 octobre 2014,mercredi,France 3,20.45,Des racines et des ailes,Magazine,115,0,Tout public,23.36,Le comte Ory,Opera,144,0,Tout public,12
3,08 octobre 2014,mercredi,Canal +,20.55,Diana,Film,110,0,Tout public,22.45,9 mois ferme,Film,80,0,Tout public,
4,08 octobre 2014,mercredi,France 5,20.40,La maison France 5,Magazine,60,0,Tout public,21.40,"Silence, ça pousse !",Magazine,49,0,Tout public,2.6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48547,17 juin 2019,,"35_"" hr",,,,,,,,,,,,,
48548,18 juin 2019,,"35_"" hr",,,,,,,,,,,,,
48549,30 juin 2019,,"35_"" hr",,,,,,,,,,,,,
48550,28 juillet 2019,,Gulli,,,,,,,,,,,,,0.5


In [9]:
fusion.to_csv('Base_donnees.csv')

# Nettoyage du data frame

In [None]:
import Nettoyage_base
data = Nettoyage_base.pd.read_csv("Base_donnees.csv", sep=",")
data = Nettoyage_base.nettoyage(data)
data.to_csv('base propre.csv',index=False)