# Introduction
Une  des  utilisations  principales  de  l’informatique  de  nos  jours  est  le  traitement  de  quantités importantes  de  données  dans  des domaines très variés : un site de commerce en ligne peut avoir à gérer des bases données pour des dizaines de milliers (voire plus)d’articles en vente, de clients, de commandes, un hopital doit pouvoir accéder efficacement à tous les détails de traitements de ses patients, etc.

Mais si les logiciels de traitement de base de données sont des programmes hautement spécialisés pour effectuer ce genre de tâches le plus efficacement possible, il est facile de mettre en œuvre les opérations de base dans un langage de programmation comme Python.

Nous allons en illustrer quelque unes.



# Fichier csv

Parmis les fichiers d'échange de données en table, le format csv set très utilisé. Comma-Separated Values ! 
C'est un format texte ouvert représentant des données tabulaires sous forme de valeurs séparées par des virgules.

Ce type de fichiers permet d'exporter des données dans les tableurs en bureautique. 

Avec python, il est simple d'extraire les données pour automatiser leurs traitements dans des programmes. 
Dans l'exemple suivant, nous allons récupérer le contenu du fichier film.csv


In [3]:
import csv

films = []

with open('films.csv', newline='') as csvfile:     # newline='' le caractère de fin de ligne n'est pas précisé.
    spamreader = csv.reader(csvfile, delimiter=';')# il peut prendre différente forme selon le fichier ou l'OS
    for row in spamreader : 
        films.append(row)
print(films)
csvfile.close()

[['ID', 'titre', 'nationalité', 'entrées (millions)', 'année'], ['1', '007 SPECTRE', 'GRANDE BRETAGNE', '4,81', '2015'], ['2', '12 YEARS A SLAVE', 'ETATS-UNIS', '1,71', '2014'], ['3', "20 ANS D'ECART", 'FRANCE', '1,40', '2013'], ['4', "300 : LA NAISSANCE D'UN EMPIRE", 'ETATS-UNIS', '1,56', '2014'], ['5', '4 FANTASTIQUES (LES)', 'ETATS UNIS', '1,20', '2015'], ['6', '5EME VAGUE (LA)', 'ETATS UNIS', '1,00', '2016'], ['7', '8 SALOPARDS (LES)', 'ETATS UNIS', '1,78', '2016'], ['8', '9 MOIS FERME', 'FRANCE', '1,99', '2013'], ['9', 'A BRAS OUVERTS', 'FR / BE', '1,03', '2017'], ['10', 'A STAR IS BORN', 'US', '1,88', '2018'], ['11', 'ADOPTE UN VEUF', 'FRANCE', '1,09', '2016'], ['12', 'AFTER EARTH', 'ETATS UNIS', '1,28', '2013'], ['13', "AGE DE GLACE : LES LOIS DE L'UNIVERS (L')", 'ETATS UNIS', '3,50', '2016'], ['14', 'AGE DE GLACE 4 : LA DERIVE DES CONTINENTS (LA)', 'ETATS UNIS', '6,64', '2012'], ['15', "AGENCE TOUS RISQUES (L')", 'ETATS UNIS', '1,19', '2010'], ['16', 'ALAD 2', 'FR', '2,35', '20

Cette liste contient les données extraites du fichier csv. Le premier élément de la liste est l'entête des colonnes de données. 
Afficher la première ligne de la liste:


In [4]:
films[

SyntaxError: unexpected EOF while parsing (<ipython-input-4-0f51d13907c9>, line 1)

Afficher les 5 premiers films de la liste:

In [None]:
for i in range(1,6):
    print(films[i])

## type des données
Avec ce traitement automatique, la ligne est lue directement au format texte (str). Les données chiffrées ne sont pas utilisables. 

La façon plus élégante de construire la liste consiste à convertir les données au moment de la construction de la liste. 
Chaque ligne sera interprétée, les types attribués puis la ligne 'propre' sera ajoutée dans la liste.

Le programme en python suivant affiche les deux premières lignes pour bien identifier les types de données d'une ligne.

In [None]:
import csv

films = []

with open('films.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=';')
    print(next(spamreader))  # affichage des 2 premières lignes pour
    print(next(spamreader))  # visualiser les types que l'on souhaite
    
    

Quels sont les types que vous attribuez aux données?

Chaque ligne que nous nommerons 'row' est une liste. Vous allez convertir les données de chaque ligne avec une répétition pour toutes les lignes de spamreader.

Par exemple, la première donnée, ID est un entier _int_, TITRE est une chaîne de caractères _str_, etc... 


Programmer la construction des autres données ainsi que la boucle pour traiter tout le spamreader. Vous devez:

 - construire la ligne sous la forme d'une liste, que nous appellerons 'ligne[]' avec les données converties dans le bon type,
    - la ligne sera construite avec append:  ligne.append(.....)
    - les 5 informations sur le film d'une 'row' seront traitées.
 - ajouter la ligne dans la liste films.
 - afficher la liste films avec un print pour vérifier les types des données.
 
Compléter le programme ci-dessus pour réaliser ces opérations.

In [1]:
import csv

films = []

with open('films.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=';')
    next(spamreader)  # on passe l'entête pour avoir directement les données
    
    for row in (spamreader):
        ligne=[]
        ligne.append(int(row[0]))
        ligne.append(str(row[1]))
        ligne.append(str(row[2]))
        row[3] = row[3].replace(',','.')
        ligne.append(float(row[3]))
        ligne.append(int(row[4]))
             
        films.append(ligne)
    print(films)
    csvfile.close()
    
        
        
    
    

[[1, '007 SPECTRE', 'GRANDE BRETAGNE', 4.81, 2015], [2, '12 YEARS A SLAVE', 'ETATS-UNIS', 1.71, 2014], [3, "20 ANS D'ECART", 'FRANCE', 1.4, 2013], [4, "300 : LA NAISSANCE D'UN EMPIRE", 'ETATS-UNIS', 1.56, 2014], [5, '4 FANTASTIQUES (LES)', 'ETATS UNIS', 1.2, 2015], [6, '5EME VAGUE (LA)', 'ETATS UNIS', 1.0, 2016], [7, '8 SALOPARDS (LES)', 'ETATS UNIS', 1.78, 2016], [8, '9 MOIS FERME', 'FRANCE', 1.99, 2013], [9, 'A BRAS OUVERTS', 'FR / BE', 1.03, 2017], [10, 'A STAR IS BORN', 'US', 1.88, 2018], [11, 'ADOPTE UN VEUF', 'FRANCE', 1.09, 2016], [12, 'AFTER EARTH', 'ETATS UNIS', 1.28, 2013], [13, "AGE DE GLACE : LES LOIS DE L'UNIVERS (L')", 'ETATS UNIS', 3.5, 2016], [14, 'AGE DE GLACE 4 : LA DERIVE DES CONTINENTS (LA)', 'ETATS UNIS', 6.64, 2012], [15, "AGENCE TOUS RISQUES (L')", 'ETATS UNIS', 1.19, 2010], [16, 'ALAD 2', 'FR', 2.35, 2018], [17, 'ALCESTE A BICYCLETTE', 'FRANCE', 1.17, 2013], [18, 'ALIBI.COM', 'FR', 3.6, 2017], [19, 'ALICE AU PAYS DES MERVEILLES', 'ETATS UNIS', 4.43, 2010], [20, 

 Complément : '4,515' ... ça ne passe pas en float ! La virgule n'est pas le bon caractère, python attend un '.'
 faites une petite conversion avec la méthode [_replace_](https://www.tutorialspoint.com/python/string_replace.htm)  change ',' en '.' dans les entrées avant de convertir en float, et le tour est joué. Attention, il ne faut pas oublier d'affecter le résultat de la modification dans la donnée ! (pour changer la valeur en mémoire)
 
 donnée = donnée.replace(';','.')
 

# Exploitation des données

## interrogation

On peut traduire en python une question simple. Par exemple, quels sont les films Français? 

Cette question se traduit par une recherche dans chaque ligne de la liste de film avec comme critère de selection la nationalité qui doit être égale à 'FRANCE' (en majuscule dans notre cas). Le résultat attendu est le film donc son titre. Il est également possible d'isoler le résultat dans une liste qui recopie toutes les informations sur le film répondant au critère.

Proposer le programme python qui traduit cette recherche.
Les données sont dans films[] suite à votre premier travail sur le fichier CSV.

In [None]:
francais=[]
for film in films:
    
    if str(film[2]) == 'FRANCE':
        print(film)
        francais.append(film)
print(len(francais))

A vous de construire les programmes pour répondre aux questions suivantes:

 1. Combien y a t-il de films dans la base de donnée?
 2. Combien de films sont français?
 3. Dans les films français, combien sont des collaborations internationales?
 4. Quel est le pourcentage de films Français (avec les films internationaux où la france à participée) dans la liste des films?
 5. Quel film dans la liste a fait le plus grand nombre d'entrées?
 6. Quelle année a le plus grand nombre de films ?
 7. Les données suivent l'évolution du box-office depuis combien d'années? (rechercher le début et la fin)
 8. Les films de quel pays ont fait le plus d'entrées, toutes années confondues?
 9. Quelle est la répartition des films par pays?(exprimer cette répartition par pays en pourcentage de l'ensemble des films) Classer les pays du plus productif au moins productif. La réponse sera une liste des pays classée, vous utiliserez une structure de type tuple avec le couple ('pays',pourcentage)
 10. Quel est le pays dont les films font le plus d'entrées?
 
Pour chaque question, vous décrirez votre démarche dans un commentaire pour préciser votre stratégie.
 
 
 

In [9]:
# 1 ) 
print("question 1")
print(len(films))


# 2 )
print("question 2")
francais=[]
for film in films:
    
    if str(film[2]) == 'FRANCE':
        francais.append(film)
print("il y a :",str(len(francais))," films français dans la liste.")

# avec les internationaux
francais_et_inter=[]
for film in films:
    
    if 'FR' in str(film[2]) :
        francais_et_inter.append(film)
print("il y a :",str(len(francais_et_inter))," films où la france a participé.")

# 3 )
print("question3")
print("nombre de films français avec collaboration internationale:", str(len(francais_et_inter)-len(francais)))

# 4 )
print ("question 4")
print("Pourcentage de films français :", str((len(francais_et_inter)*100)/len(films)), "%")

# 5 )
print("question 5")
plusentrees = ''
nbentrees = 0
for film in films:
    if film[3]>nbentrees:
        plusentrees = film[1]
        nbentrees = film[3]
print("le film qui a fait le splus d'entrées est:", plusentrees, "avec ", str(nbentrees), "places vendues.")
# 6 ) Quelle année a le plus grand nombre de films ?
#Pour cette question, il faut compter le nombre de film par année puis trouver la mailleure année.
#faire des compteurs dans une liste de compteur. 
#faire une liste des annees depuis la liste des films 
#compter le nombre de fois que l'année est présente dans cette liste des années. 
# trier la liste des années par nombre d'occurence pour avoir la meilleire année.

print("question 6")
# on isole des années depuis la liste films[]
lesannees = []   
for f in films:
    lesannees.append(f[4])
lesannees.sort()


# variable pour stocker la meilleure année
lameilleureannee = lesannees[0]
#tableau pour noter les années déjà traitées.
dejavu=[]
# variable pour stocker le meilleur nombre de films par année.
nbfilm_par_annee = 0

for a in lesannees:
    if a not in dejavu:
        print(lesannees.count(a))
        if lesannees.count(a)> nbfilm_par_annee:
            lameilleureannee=a
            nbfilm_par_annee=lesannees.count(a)
        dejavu.append(a)
print("la meilleure année est",lameilleureannee,"avec ", nbfilm_par_annee,"films")

# Solution avec les outils de python
# cette opération de recherche dans une liste est courante. 
# la bibliothèque collections de python comporte un outil pour recherche les occurences dans une liste.
# l'appel de la bibliothèque est rapide et le code en un ligne...
from collections import Counter
print(Counter(lesannees).most_common(1)) 

# 7 ) Les données suivent l'évolution du box-office depuis combien d'années? (rechercher le début et la fin)
# on recherche ici les limites des valeurs de la liste des années
print("question 7")
print(min(lesannees))
print(max(lesannees))
print("l'évolution de ce box-office dure depuis ",max(lesannees)-min(lesannees), " années")


# 8 ) Les films de quel pays ont fait le plus d'entrées, toutes années confondues?
# il faut dans cette question avoir la somme des entrées par pays
# puis trouver le pays qui a le plus d'entrées
#Premiere étape: construire une liste des pays
# utilisation d'un set qui isole une occurence de chaque élément d'une liste. Les doublons sont effacés.

#deuxième etape compter le nombre d'entrées faite par chaque pays et l'associer au pays.

#dernière étape: trouver le pays qui fait le plus grand nombre d'entrée !

# 9 )Quelle est la répartition des films par pays?(exprimer cette répartition par 
#pays en pourcentage de l'ensemble des films) Classer les pays du plus productif 
#au moins productif. La réponse sera une liste des pays classée, vous utiliserez
#une structure de type tuple avec le couple ('pays',pourcentage)

# 10 ) Quel est le pays dont les films font le plus d'entrées?




question 1
464
question 2
il y a : 98  films français dans la liste.
il y a : 157  films où la france a participé.
question3
nombre de films français avec collaboration internationale: 59
question 4
Pourcentage de films français : 33.83620689655172 %
question 5
le film qui a fait le splus d'entrées est: INTOUCHABLES avec  16.67 places vendues.
question 6
51
53
53
55
57
44
53
56
42
la meilleure année est 2014 avec  57 films
[(2014, 57)]
question 7
2010
2018
l'évolution de ce box-office dure depuis  8  années
