# Noms de famille

<div class ="alert alert-danger"> 

Pour fonctionner, ce notebook doit être dans le même répertoire (ou dossier) que le dossier `./datas_noms_de_famille/` qui contient un fichier CSV : `'./datas_noms_de_famille/noms_de_famille_1891_2000.csv'`.

*Remarque :* Auparavant on parlait de «patronyme» à la place de «nom de famille». Compte-tenu de son étymologie (*patro* vient de *pater* : le père en latin), ce terme n'est plus utilisé dans la loi depuis 2002 (année à partir de laquelle il a été possible pour un enfant de prendre le nom de sa mère).


Commencer par exécuter la cellule de code ci-dessous :

In [None]:
import csv
import pandas

def charger_fichier( nom_fic ):
    """
    Permet de lire un fichier CSV en utilisant la ligne d'entêtes
    Retourne une liste de dictionnaires.
    """
    table = []
    fichier_csv = open( nom_fic , "r", newline ="", encoding ="utf-8" )
    lecteur_fichier = csv.DictReader( fichier_csv , delimiter =",")    
    for enreg in lecteur_fichier :
        table.append (dict ( enreg )) # enreg est de type OrderedDict on le remet endict
    fichier_csv.close()    
    return table

def afficher(table):
    f = pandas.DataFrame(table)
    return f

In [None]:
table_noms = charger_fichier('./datas_noms_de_famille/noms_de_famille_1891_2000.csv')

Pour faciliter l'affichage **des tables**, vous pouvez utiliser la fonction `afficher`.

In [None]:
afficher(table_noms)

Une fois cette cellule de code exécutée, `table_noms` contient une table correspondant à des enregistrements donnant le nombre de naissances par décennie des différents noms de famille (**sans accents ni signes diacritiques**) en France entre 1891 et 2000 (sauf pour les noms très rares, regroupés dans le nom `'AUTRES NOMS'`

*Question 1 :* 


En étudiant le code ci-dessus : 
    
- Quel est l'encodage du fichier CSV utilisé : `utf-8` ou `ascii` ou `iso-8859-1`?

- Quel est le séparateur du fichier CSV utilisé : `;` ou `,` ou `:` ?    

*Question 2 :*  

En exécutant une instruction bien choisie, déterminer combien d'*enregistrements* (c-à-d de lignes) contient cette table.

In [None]:
...

<hr/>


**Remarque :**

Pour la suite, rappelez vous que les valeurs de tous les champs sont de type `str` et qu'il faut les convertir en `float` ou en `int` si besoin.  
  
  
 <hr/>

*Question 3 :*  
Compléter la cellule de code ci-dessous afin que la fonction `enregistrement` :
- prenne en argument un nom de famille,
- renvoie l'enregistrement correspondant à ce nom de famille ou `None` si le nom de famille n'est pas présent.

In [None]:
def enregistrement(nom):
    enregistrement_cherche = None
    for n in table_noms :
        if ...[...] == ...:
            enregistrement_cherche = ...
            break
    return ...

Utiliser votre fonction pour obtenir les enregistrements :
- de votre nom de famille,
- du nom de famille `'LOVELACE'`,
- du nom de famille `'VON NEUMANN'`

In [None]:
enregistrement(...)

In [None]:
enregistrement(...)

In [None]:
enregistrement(...)

*Question 4 :*   

*On rappelle que les dictionnaires sont mutables et que par conséquent un dictionnaire défini à l'extérieur d'une fonction peut être muté à l'intérieur de la fonction*.


Compléter la fonction `ajouter_total` ci-dessous qui prend en argument un dictionnaire correspondant à un enregistrement de la table `'table_noms'` et le mute afin de lui rajouter une paire clef:valeur où :
- la clef est `'total'`,
- la valeur est **la chaîne de caractères** correspondant à la somme des attributions du nom sur la période 1891-2000.  

On fera attention aux problèmes de conversions de type.

In [None]:
def ajouter_total(enregistrement):
    somme = 0
    for key, val in ... :
        if ... != 'NOM':
            somme = somme + ...
    enregistrement[...] = ...

**Attention :**  
    
Si vous exécutez la cellule de code ci-dessous, vous allez muter `v_n` qui est une variable pointant vers un élément de `table_noms`. Vous allez donc muter un élément de `table_noms`.   

Or une table est une liste qui est - comme les dictionnaires - mutable : vous allez donc muter `table_noms`.

Donc pour l'instant, n'exécutez pas la cellule de code ci-dessous (c'est pourquoi elle est en 'Texte Brut').

Vous pouvez en revanche exécuter celle-ci (qui fait une copie de `v_n` afin de rendre `v_n` indépendante de `table_noms`) :

In [None]:
import copy

n = enregistrement('LOVELACE')
n = copy.deepcopy(n)
ajouter_total(n)
n

*Question 5 :*  

Compléter l'instruction ci-dessous afin de rajouter à chacun des enregistrements de `table_noms` la clef `'total'` et la valeur correspondant au total de toutes les attributions :

On fera attention aux problèmes de conversions de type.

In [None]:
for ... in ... :
    ...(...)

**Attention :** si vous exécutez plusieurs fois cette cellule, vous allez cumuler les totaux ce qui conduira à des résultats erronés.  
Dans ce cas, vous devrez recharger la table `table_noms` originelle en haut du notebook.

*Question 6 :*  
Compléter les instructions ci-dessous afin d'obtenir une table `table_triee` correspondant à la table `table_noms` triée par ordre des totaux décroissants : 

On fera attention aux problèmes de conversions de type.

In [None]:
def total(enregistrement):
    return int(...[...])

table_triee = sorted(table_noms, ..., ...)
afficher(table_triee)

*Question 7 :*  

Compléter les instructions ci-dessous afin d'obtenir une liste `top_500` des 500 noms les plus attribués en France entre 1890 et 2000. Cette liste sera constituée de 500 couples (des 2-uplets) de la forme `(nom, total)`.  

(Ne pas prendre `'AUTRES NOMS'`).

In [None]:
top_500 = []
for i in range(..., ...):
    top_500.append((table_triee[...][...], table_triee[...][...]))

top_500

*Question 8 :*  

Compléter la fonction `dans_top_500` qui prend un nom en paramètre et renvoie `True` ou `False` selon que le nom passé en argument est présent ou pas dans le top 500.

In [None]:
def dans_top_500(nom):
    global top_500
    for couple in top_500 :
        if ...[...] == ... :
            return ...
    return ...

Vérifier si votre nom est dans le top 500 :

In [None]:
...