<img src="https://upload.wikimedia.org/wikipedia/fr/a/a4/Logo_UT3.jpg" alt="Drawing" style="width: 400px;"/>

# TP n°4 : Manipulation de données

## Objectifs :
* Savoir manipuler les données importées depuis un tableur dans un programme. 


## Contexte : les femmes et les enfants d'abord... 

<img src="https://i.imgur.com/UI0emPY.jpg" alt="Drawing" style="width: 400px;"/>

Le RMS Titanic est un paquebot transatlantique britannique qui a fait naufrage dans l’océan Atlantique Nord en 1912 à la suite d’une collision avec un iceberg, lors de son voyage inaugural de Southampton à
New York. 

C’est l’une des plus grandes catastrophes maritimes survenues en temps de paix et la plus grande pour l’époque. Le drame met en évidence l’insuffisance des règles de sécurité de l’époque, notamment le nombre insuffisant de canots de sauvetage et les carences dans les procédures d’évacuation d’urgence.

On parle du naufrage le plus célèbre au monde...James Cameron en a tiré un film en 1997, avec un budget colossal de 200 millions de dollars…et qui rapportera (accrochez-vous) 10 fois plus et décrochera 11 Oscars. 

Si vraiment vous avez raté cette histoire...je vous propose de rattraper votre retard en 30 secondes, avec des lapins : http://www.angryalien.com/0604/titanicbunnies.html

Revenons à notre TP : quelle est notre problématique par rapport à cette histoire ?

A votre avis...si vous étiez un passager à bord du Titanic...quel est la probabilité que vous surviviez au naufrage ? Une chance sur deux ? Une chance sur cent ?

La légende prétend qu'il existe un code d'honneur dans la marine qui voudrait que l'on sauve en priorité les femmes et les enfants...

Aviez-vous vraiment plus de chance de survivre si vous étiez une femme ? Une femme en première classe ? Une femme en troisième classe ? C'est ce que nous allons tenter de déterminer en étudiant le fichier le fichier `titanic.csv` qui contient plusieurs types d'informations sur les quelques 800 passagers du Titanic.  

![captain](https://i.imgur.com/Jqe3tL4.png)

Comme nous l'avons déjà dit lors du TP précédent, on pourrait effectuer notre analyse des données uniquement avec un tableur, mais ce n'est pas vraiment l'outil le plus adapté quand on a de gros volumes de données : ce type de logiciel est à l'aise pour faire des factures, des comptes, mais même s'il peut faire illusion, il va vite être désagréable à utiliser si on exploite une grande quantité de données.

Par contre, un langage de programmation comme Python est, de son côté, parfaitement à l'aise dans ce genre d'exercice. 

## 1 - Importer et étudier la structure du fichier

Commencez par importer le fichier et affichez le type de données pour chaque passager. 

In [6]:
import csv
fichier = csv.DictReader(open("titanic.csv"))
passagers = list(fichier)
print(passagers[0].keys())

dict_keys(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'])


##  2 - Quel est le pourcentage de passagers ayant survécu ?

Vous noterez que, même s'il s'agit d'un nombre (0/1), la valeur associée à la clé `"Survived"` est stockée dans une chaîne de caractère. Si vous avez besoin de faire des calculs, il vous faudra donc convertir cette chaîne en valeur numérique. Nonobstant cette remarque, vous pouvez très bien détecter un ```"0"``` ou un ```"1"``` en tant que chaîne de caractère...

In [7]:
nombreTotal = len(passagers)
nombreSurvivants = 0
for passager in passagers:
    if passager["Survived"] == "1":
        nombreSurvivants += 1
print("Survivants : ", int(nombreSurvivants/nombreTotal*100),"%")        

Survivants :  38 %


## 3 - Quel est l'âge et le nom du passager le plus agé ? A-t-il survécu ?

**Attention** : pour certains passagers l'âge n'est pas indiqué...

In [9]:
max_age = -1
plusVieux = None
for ligne in passagers:
    age = -1
    if (ligne["Age"] != ""):
        age = float(ligne["Age"])
        if max_age < age:
            max_age = age
            plusVieux = ligne

if max_age != -1:
    print("La personne la plus vieille est " + plusVieux["Name"] + " qui est agé de "+ str(max_age) + " ans")
    if plusVieux["Survived"] == "1":
        print("et il a survécu !")
    else:
        print("et il n'a pas survécu...")
else:
    print("Problème de lecture du fichier...")

La personne la plus vieille est Barkworth, Mr. Algernon Henry Wilson qui est agé de 80.0 ans
et il a survécu !


## 4 - Quel est le pourcentage d'homme de strictement plus de 50 ans ayant survécu ? 

Pour réaliser ce genre d'études il est possible de procéder par "passes" successives.
* On parcourt la liste des passages pour établir la liste des hommes.
* Plus on parcourt la liste des hommes pour établir la liste des hommes de plus de 50 ans.
* Puis on détermine ceux qui ont survécu.

Ce n'est pas le plus efficace (on parcourt plusieurs fois les entrées), mais si le temps de traitement n'est pas critique, c'est souvent le plus efficace, et le plus lisible...


In [12]:
print("Sur les", len(passagers), "passagers", end='')
hommes = []
for ligne in passagers:
    if (ligne["Sex"] == "male"):
        hommes.append(ligne)

print(" il y avait", len(hommes), "hommes, ", end='')
hommesVieux = []
for homme in hommes:
    if (homme["Age"] != "" and float(homme["Age"]) > 50):
        hommesVieux.append(homme)

print("dont", len(hommesVieux), "hommes de plus de 50 ans.")
total = len(hommesVieux)
survivants = 0
for hommeVieux in hommesVieux:
    if (hommeVieux["Survived"] == "1"):
        survivants = survivants + 1

print("Parmi eux,", survivants, "ont survécu, soit un soit", 100 * survivants/total, "%")

Sur les 891 passagers il y avait 577 hommes, dont 47 hommes de plus de 50 ans.
Parmi eux, 6 ont survécu, soit un soit 12.76595744680851 %


## 5 - Quel est le pourcentage de survie des femmes à bord du Titanic ?

In [15]:
print("Sur les", len(passagers), "passagers", end='')
femmes = []
for ligne in passagers:
    if (ligne["Sex"] == "female"):
        femmes.append(ligne)

print(" il y avait", len(femmes), "femmes, ", end='')
total = len(femmes)
survivants = 0
for femme in femmes:
    if (femme["Survived"] == "1"):
        survivants = survivants + 1

print("dont", survivants, "ont survécu, soit un soit", 100 * survivants/total, "%")

Sur les 891 passagers il y avait 314 femmes, dont 233 ont survécu, soit un soit 74.20382165605096 %


Il n’y avait pas suffisamment de places dans les canots de sauvetage du Titanic pour tous les passagers et les membres de l’équipage (et certains canots sont partis à peine remplis).

On souhaite examiner l’influence de la classe sociale des passagers sur l’obtention d’une place sur un canot de sauvetage. 

## 6 - Quelle est le pourcentage de survie selon la classe du billet ?  Que peut-on en conclure ?

Vous commencerez par programmer une fonction `calculeEtAfficheSurvie` qui prend en entrée une liste des passagers et affiche le pourcentage de survivants dans cette liste.  

In [16]:
def calculeEtAfficheSurvie(listePassagers):
    total = len(listePassagers)
    survivants = 0
    for passager in listePassagers:
        if (passager["Survived"] == "1"):
            survivants = survivants +1
    proportion = 100*survivants / total
    return str(proportion)+ " %"

fichier = csv.DictReader(open("titanic.csv"))
liste = list(fichier)

passagerPremiereClasse = []
passagerSecondeClasse = []
passagerTroisiemeClasse = []

for ligne in liste:
    if (ligne["Pclass"] == "1"):
        passagerPremiereClasse.append(ligne)
    if (ligne["Pclass"] == "2"):
        passagerSecondeClasse.append(ligne)
    if (ligne["Pclass"] == "3"):
        passagerTroisiemeClasse.append(ligne)

print("1e classe : ", calculeEtAfficheSurvie(passagerPremiereClasse))
print("2e classe : ", calculeEtAfficheSurvie(passagerSecondeClasse))
print("3e classe : ", calculeEtAfficheSurvie(passagerTroisiemeClasse))

1e classe :  62.96296296296296 %
2e classe :  47.28260869565217 %
3e classe :  24.236252545824847 %


On peut se poser la question d'une correlation entre la fréquence de survie chez les femmes et la classe dans laquelle elles voyageaient?
Autrement dit...
## 7 -  Donner le pourcentage de femmes ayant survécu selon la classe de leurs billets.

In [17]:
passagerePremiereClasse = []
passagereSecondeClasse = []
passagereTroisiemeClasse = []

for ligne in liste:
    if (ligne["Pclass"] == "1" and ligne["Sex"] == "female"):
        passagerePremiereClasse.append(ligne)
    if (ligne["Pclass"] == "2" and ligne["Sex"] == "female"):
        passagereSecondeClasse.append(ligne)
    if (ligne["Pclass"] == "3" and ligne["Sex"] == "female"):
        passagereTroisiemeClasse.append(ligne)

print("1e classe : ", calculeEtAfficheSurvie(passagerePremiereClasse))
print("2e classe : ", calculeEtAfficheSurvie(passagereSecondeClasse))
print("3e classe : ", calculeEtAfficheSurvie(passagereTroisiemeClasse))

1e classe :  96.80851063829788 %
2e classe :  92.10526315789474 %
3e classe :  50.0 %


## Moralité : 
Oui, les femmes ont eu un meilleur pourcentage de survie au naufrage du Titanic, il y a certainement eu une volonté de les aider en priorité. 

En revanche il ne faut pas se mentir, il y avait de bien meilleures chances de survie pour les femmes en première classe que pour celles en troisième classe..

![ency](https://i.imgur.com/1BAt3kn.png)