<a href="https://colab.research.google.com/github/egouello/1NSI/blob/main/Donn%C3%A9es_bidimensionnelles.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Traitement de données bidimensionnelles

## 1-Convention

En pratique, on est souvent amené à travailler une table de données rectangulaire. De telles tables sont appelées matrices ou tableaux bidimensionnels. En Python, ce type de tables peut être représenté comme une liste de listes, c’est à dire une liste où chaque élément est une liste).

Par exemple, le tableau ci-dessous  

| | | |
|---|---|---|
|1|2|3|
|4|5|6|

peut être codé dans python par les instructions suivantes


In [26]:
a=[[1,2,3],[4,5,6]]
print(a)

[[1, 2, 3], [4, 5, 6]]


Dans un tableau chaque élément est repéré par deux indices. Sa position sur la ligne et sa position dans la colonne. Dans une liste la numérotation des éléments commence à 0. Ainsi l’élément $a_{11}$ est l’élément du tableau qui se trouve dans la deuxième ligne et la deuxième colonne, soit $a_{11}$=5.

Observez le code suivant et cherchez à bien comprendre ce qui se passe :

In [29]:
a=[[1,2,3],[4,5,6]]
print(a[0])         #on imprime la première ligne
print(a[1])         #on imprime la deuxième ligne
print(a[0][1])      #on imprime la 2eme colonne de la 1ere ligne
a[0][1]=7           #on affecte une nouvelle valeur à la 2eme colonne de la 1ere ligne
print(a)            #on imprime le tableau pour constater que la 2eme colonne de la 1ere ligne a changé

[1, 2, 3]
[4, 5, 6]
2
[[1, 7, 3], [4, 5, 6]]


## 2- Parcourir les éléments d’un tableau

Pour traiter un tableau à deux dimensions, on utilisera généralement des boucles imbriquées. La première boucle parcourt le numéro de ligne, la seconde boucle parcourt les éléments à l’intérieur d’une colonne.

*enlevez les commentaires sur les print pour bien comprendre les boucles*

In [32]:
a=[[2,4,6],[1,3,5]]
for i in range (len(a)):
    #print(f"on est rendu à la ligne {i}")
    for j in range(len(a[i])):
        #print(f"on est rendu à la colonne {j}")
        print (a[i][j])

2
4
6
1
3
5


In [34]:
a=[[2,4,6],[1,3,5]]
for ligne in a:
    #print(f"on est rendu à la ligne {ligne}")
    for elem in ligne:
        #print(f"on est rendu à l'élément {elem}")
        print (elem)

2
4
6
1
3
5


On peut ainsi calculer la somme des éléments d'un tableau :

In [36]:
a=[[2,4,6],[1,3,5]]
s=0
for ligne in a:
    for  elem in ligne:
        s=s+elem
        #print(f"on ajoute {elem} à s. s vaut maintenant {s}")
print (s)

21


## 3-Création de tableaux bidimensionnels

Supposons que 2 nombres soient donnés : Le nombre de lignes n et le nombre de colonnes m.

Comment créer un tableau bidimensionnel de taille $n\times m$, rempli, par exemple de 0.  

Une première méthode est de créer une liste de n éléments (ici n zéros) et ensuite remplacer chacun des éléments par une autre liste unidimensionnelle.

In [8]:
n=3  #nombre de lignes
m=4  #nombre de colonnes
a=[] #on crée une liste vide

for i in range (n): #n fois
    a.append([0]*m) #on ajoute une liste de m zéros dans la liste

print (a)

[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 0, 0]]


## Exercice 1

Dans toutes les questions suivantes, les programmes ou fonctions doivent évidemment marcher quelles que soient les valeurs dans le tableau.

1. Créer le tableau suivant

| | | | |
|---|---|---|---|
|5|25|36|17|
|4|2|5|1|
|21|3|65|13|

2. Écrire un programme qui permet de trouver le maximum dans ce tableau.

3. Écrire un programme qui permet de calculer la somme de tous les éléments du tableau.

4. Écrire un programme qui demande une valeur et indique si cette valeur se trouve ou non dans le tableau (True or False)

5. Écrire un programme qui demande un numéro de colonne (la première est numéroté 0) et calcule la somme des éléments de cette colonne.  

5. Écrire un programme qui demande un numéro de ligne (la première est numéroté 0) et calcule la somme des éléments de cette ligne.

In [None]:
#exercice 1

#1 on crée le tableau demandé
tab=["à faire"]

#2 on calcule le max du tableau. Conseil : on fait une boucle pour parcourir toutes les valeurs

#...à suivre


## 4 - Les fichiers CSV et les fichiers texte tabulé, utilisation de la bibliothèque csv

De nombreuses données scientifiques se présentent sous forme de tableaux ; une façon simple de les transmettre est de les représenter par un fichier CSV (pour comma-separated value) : il s’agit d’un simple fichier texte, chaque ligne de texte correspondant à une ligne du tableau et un caractère spécial (virgule ou point-virgule le plus souvent) aux séparations entre les colonnes.

Voici un exemple de données au format csv :

**Nom,Prénom,Age**

**Durand,Jean,31**

**Hanad,Mohammed,23**

**Phan,Lee,18**

On va maintenant travailler sur une méthode pour récupérer ces données dans Python grâce à deux bibliothèques implémentées dans Python: Les bibliothèques CSV et Pandas

Dans la suite de la leçon, nous utiliserons le fichier ```fakename.csv```. Ce fichier csv a pour délimiteur le symbole «,». Il contient le nom, le prénom, l’âge, le sexe (male ou female), l’état de résidence (en abrégé), la taille et le poids d’un échantillon fictif de la population américaine.

### 4.1 - Importation des données

In [11]:
import csv
base=[]
with open ("fakename2.csv",newline="") as csvfile: #on ouvre le fichier en lecture
    spamreader=csv.reader(csvfile,delimiter=",")   #on précise que le délimiteur est la virgule
    for row in spamreader:                         #Chaque ligne qu'on lit...
        base.append(row)                           #est ajoutée dans la liste
print(base)
print(base[0])
print(base[1])


[['Nom', 'Prenom', 'Genre', 'Etat', 'Age', 'Poids', 'Taille'], ['Mcclean', 'John', 'male', 'AZ', '84', '93.4', '181'], ['Reyes', 'Estelle', 'female', 'FL', '70', '57.6', '155'], ['Bell', 'James', 'male', 'FL', '71', '93.0', '183'], ['Miller', 'Evelyn', 'female', 'TX', '28', '87.4', '157'], ['Nunn', 'Lisa', 'female', 'KY', '22', '83.5', '170'], ['Hess', 'Delmer', 'male', 'IN', '43', '114.4', '184'], ['Wynne', 'Timothy', 'male', 'WI', '21', '99.1', '180'], ['Burns', 'John', 'male', 'PA', '35', '70.4', '175'], ['Ouellette', 'Willian', 'male', 'CO', '47', '81.3', '174'], ['Beaudin', 'Thomasena', 'female', 'VA', '49', '96.6', '160'], ['Norris', 'Regina', 'female', 'TX', '27', '81.4', '160'], ['Ross', 'Sandra', 'female', 'MS', '79', '78.2', '150'], ['Puryear', 'Tiffany', 'female', 'IN', '58', '94.2', '163'], ['Jenkins', 'Philip', 'male', 'CA', '64', '64.9', '181'], ['Rencher', 'Theresa', 'female', 'OH', '73', '63.1', '151'], ['Weinberg', 'Roy', 'male', 'CA', '36', '109.2', '182'], ['Bruns', 

Cette méthode présente certaines limites dans la mesure où la première ligne de notre tableau est constituée des entêtes de chaque colonne. Plus problématique, il n’y a pas de lien entre les valeurs du ```base[1]``` et le nom des enregistrements contenu dans ```base[0]```.

Pour y remédier, nous allons utiliser ```DictReader``` qui retourne un dictionnaire pour chaque enregistrement, la première ligne étant utilisée pour nommer les différents champs.

In [14]:
import csv
base=[]
with open ("fakename2.csv",newline="")as csvfile:
    spamreader=csv.DictReader(csvfile,delimiter=",")
    for row in spamreader:
        base.append(dict(row))
print(base[0]) # la première personne
print(base[1]) #la deuxième personne

{'Nom': 'Mcclean', 'Prenom': 'John', 'Genre': 'male', 'Etat': 'AZ', 'Age': '84', 'Poids': '93.4', 'Taille': '181'}
{'Nom': 'Reyes', 'Prenom': 'Estelle', 'Genre': 'female', 'Etat': 'FL', 'Age': '70', 'Poids': '57.6', 'Taille': '155'}


### 4.2 - Tri des données

Pour exploiter des données il peut être intéressant de les trier. Une utilisation possible est l’obtention du classement des entrées selon tel ou tel critère.

Il est nécessaire d’indiquer le critère selon lequel on veut trier le tableau. Pour cela, on utilise la méthode ```sort``` avec comme argument ```key=cle_tri``` qui est une fonction qui retourne la valeur selon laquelle on veut trier les données.  

In [16]:
import csv
base=[]
with open ("fakename2.csv",newline="")as csvfile:
    spamreader=csv.DictReader(csvfile,delimiter=",")
    for row in spamreader:
        base.append(dict(row))

# creation d’une fonction qui renvoie la valeur de la clé « taille »
def cle_tri(p):
    return float( p["Taille"])

base.sort(key=cle_tri) #on trie selon ce que renvoie cle_tri, donc selon la taille
print(base[0]) #la personne la plus petite
print(base[1]) #la 2eme personne la plus petite
print(base[2])


{'Nom': 'Ross', 'Prenom': 'Sandra', 'Genre': 'female', 'Etat': 'MS', 'Age': '79', 'Poids': '78.2', 'Taille': '150'}
{'Nom': 'Rencher', 'Prenom': 'Theresa', 'Genre': 'female', 'Etat': 'OH', 'Age': '73', 'Poids': '63.1', 'Taille': '151'}
{'Nom': 'Grubb', 'Prenom': 'Jill', 'Genre': 'female', 'Etat': 'VA', 'Age': '76', 'Poids': '79.9', 'Taille': '151'}


### 4.3 - Exploitation des données

Interrogation de la base de données grâce à des listes en compréhension.

On peut poser des questions simples en Python. Par exemple, **quels sont les noms des personnes vivant au Texas (TX)?**

*On remarque que les 7 premières lignes sont toujours les mêmes, en fait on n'a plus besoin de les réécrire car le notebook jupyter se souvient de la variable base qui contient nos personnes*

In [24]:
les_texans=[p["Nom"] for p in base if p["Etat"]=="TX"]  #c'est cette ligne qu'il faut bien comprendre!
print(les_texans)

['Miller', 'Norris', 'Judkins', 'Holt', 'Kent', 'Roberts', 'Cooper', 'Bush', 'Clinton', 'Cameron']


**Quels sont les prénoms des personnes qui vivent au Texas?**

In [21]:
prenom=[p["Prenom"] for p in base if p["Etat"]=="TX"] #c'est cette ligne qu'il faut bien comprendre!
print(prenom)

['Evelyn', 'Regina', 'Eleanora', 'Ruby', 'Stacy', 'Deborah', 'John', 'Steve', 'John', 'John']


**Quels sont les prénoms des personnes qui vivent au Texas?** (mais sans répétition des prénoms identiques)

In [22]:
prenom=set([p["Prenom"] for p in base if p["Etat"]=="TX"]) #on transforme la liste en ensemble (set en anglais)
print(prenom)

{'Steve', 'Ruby', 'John', 'Evelyn', 'Deborah', 'Regina', 'Stacy', 'Eleanora'}


**Quels sont les noms des personnes de plus de cinquante ans?**

In [23]:
quinqua=[p["Nom"] for p in base if float(p["Age"])>=50]
print(quinqua)

['Mcclean', 'Reyes', 'Bell', 'Ross', 'Puryear', 'Jenkins', 'Rencher', 'Smith', 'Freeman', 'Judkins', 'Cole', 'Grubb', 'Flores', 'Caldwell', 'Mack', 'Poteete', 'Bishop', 'Polk', 'Macias', 'Kent', "O'Reilly", 'Dotson', 'Thomson', 'Lipscomb', 'Brown', 'Brady', 'Roberts', 'Hill', 'Poole', 'McCabe', 'Legros', 'Craft', 'Norman', 'Winger', 'Clinton']


## Exercice 2

Le fichier classement.csv est un fichier dont le délimiteur est le symbole «;» qui donne des informations sur les 50 plus grosses entreprises du monde.

1. Donner l’intitulé de chaque colonne du fichier csv.

2. Écrire une fonction qui prend en paramètre un numéro de ligne et renvoie l’ensemble des informations de l’entreprise concernée.

3. Trier les entreprises par nombre d’employés

4. Trier les entreprises par pays puis par bénéfices

5. Quels sont les entreprises qui ont employé moins de 300 000 personnes?

6. Combien d’entreprise font partie du secteur « Banque »?

7. Trier les entreprises par pays puis par nombre d’employés

8. Quelles sont les entreprises qui ont employé entre 100 000 et 300 000 personnes?

9. Lister les entreprises automobiles en affichant leur nom et leur bénéfice

10. Lister les entreprises technologiques en les classant par chiffre d’affaire. Afficher seulement le nom, le pays et le CA



In [25]:
#début de l'exercice 2
import csv
base=[]
with open ("classement.csv",newline="")as csvfile:
    spamreader=csv.DictReader(csvfile,delimiter=";")
    for row in spamreader:
        base.append(dict(row))

#maintenant, la variable base est une liste de dictionnaires contenant les 50 plus grosses entreprises
print(base)

#à vous maintenant de répondre ici à la question 1

[{'Nom': 'Walmart', 'Siege': 'Bentonville', 'Pays ': 'etats-Unis', "Chiffre d'affaire": '500343', 'Benefice': '9862', 'employe': '23000002', 'Secteur': 'Commerce de detail'}, {'Nom': 'StateGrid', 'Siege': 'Pekin', 'Pays ': 'Chine', "Chiffre d'affaire": '348903', 'Benefice': '9533', 'employe': '913546', 'Secteur': 'energie'}, {'Nom': 'Sinopec', 'Siege': 'Pekin', 'Pays ': 'Chine', "Chiffre d'affaire": '326953', 'Benefice': '1537', 'employe': '667793', 'Secteur': 'Petrole et Gaz'}, {'Nom': 'ChinaNationalPetroleumCorporation', 'Siege': 'Pekin', 'Pays ': 'Chine', "Chiffre d'affaire": '326008', 'Benefice': '-690', 'employe': '1470193', 'Secteur': 'Petrole&Gaz'}, {'Nom': 'RoyalDutchShell', 'Siege': 'LaHaye', 'Pays ': 'Pays-Bas', "Chiffre d'affaire": '311870', 'Benefice': '12977', 'employe': '84000', 'Secteur': 'Petrole et Gaz'}, {'Nom': 'ToyotaMotorCorporation', 'Siege': 'Toyota', 'Pays ': 'Japon', "Chiffre d'affaire": '265172', 'Benefice': '22510', 'employe': '369124', 'Secteur': 'Automobile

In [None]:
#vous pouvez écrire la fonction de la question 2 ici

In [None]:
#question 3 ici...