# <span style="color:red"><strong>Situation d' apprentissage et d'évaluation S1.02</strong></span>
<i>Lecture et écriture de fichiers</i></br>
<i>STID  BUT 1 - IUT de Villetaneuse - 2024/2025</i></br>
<i>Mercredi 18 décembre 2024</i>

## <span style="color:orange"><strong>Rendus</strong></span>

**ATTENTION:**
Ce fichier complété doit être téléversé sur le moodle avant le Mercredi 18 décembre à 16h00.

**ATTENTION:**
Afin de garantir l'anonymisation de la correction, aucune information dans le notebook ne doit permettre l'identification des personnes qui ont contribuées au rendu.

**ATTENTION:**
Le nom du fichier doit être inchangé.

**ATTENTION:**
Le code doit être commenté.

## <span style="color:orange"><strong>Contexte et données de la mission</strong></span>

Le service marketing souhaite :
1. consolider les informations de contact de tous les clients référencés dans la base de données,
2. obtenir des statistiques sur la répartition géographique des clients.

Le service informatique a procédé à une extraction des informations disponibles pour chaque client. Ces informations ont été collectées dans un répertoire nommé `extraction_fiches_clients` qui a été compressé et mis à votre disposition sur le moodle dans le fichier archive `extraction_fiches_clients.tgz`.

Ce répertoire contient 357 fichiers correspondant aux 357 clients référencés dans la base. Chaque fichier porte le numero du client.

Tous ces fichiers contiennent les mêmes informations et sont structurés de la même façon.

Trois tâches vous sont assignées:
- **Tâche 1 :** Regrouper toutes les informations client dans un fichier tabulaire unique au format CSV (le séparateur utilisé sera le point-virgule) pour faciliter les traitements ultérieurs.
- **Tâche 2 :** Produire un fichier contenant les adresses mail de tous les clients pour lesquels aucun numéro de téléphone n'est renseigné (afin de pouvoir les contacter et leur demander de mettre à jour leurs informations de contact).
- **Tâche 3 :** Produire un fichier unique contenant les statistiques de répartition géographique des clients par région.

## <span style="color:orange"><strong>Livrables</strong></span>

### <span style="color:Magenta"><strong>Tâche 1 :</string></span>

#### <span style="color:blue"><strong>Spécifications</string></span>

Le fichier produit devra s'appeler `base_clients.csv`.

Le fichier CSV devra contenir :
- 1 ligne d'entête contenant le nom des colonnes, puis
- 357 lignes contenant les informations extraites des 357 fiches client.

Chaque ligne du fichier correspondra donc à un client différent. Les informations devront êtes structurées dans l'ordre suivant :
- **colonne 1 :** NUMERO_CLIENT : identifiant commercial du contrat client,
- **colonne 2 :** DATE_CONTRAT : la date de souscription du contrat,
- **colonne 3 :** DEPARTEMENT : le département dans lequel est localisé le client.
- **colonne 4 :** CIVILITE : le genre de la personne s'il est renseigné. Les valeurs possibles sont : M. si c'est un homme, Mme si c'est une femme.
- **colonne 5 :** NOM : le nom de famille de la personne.
- **colonne 6 :** PRENOM : le prénom de la personne.
- **colonne 7 :** DATE_NAISSANCE : la date de naissance de la personne.
- **colonne 8 :** TELEPHONE_FIXE : son numéro de téléphone principal,
- **colonne 9 :** TELEPHONE_MOBILE : son numéro de téléphone mobile,
- **colonne 10 :** EMAIL : son adresse de courriel de contact,
- **colonne 11 :** NUMERO_VOIE : le numéro de la voie de son adresse de facturation,
- **colonne 12 :** NOM_VOIE : le nom de la voie de son adresse de facturation,
- **colonne 13 :** CODE_POSTAL : le code postal de son adresse de facturation,
- **colonne 14 :** COMMUNE : le nom de la commune de son adresse de facturation,

**Attention:** Si une information est manquante dans la fiche client (par exemple un numéro de téléphone absent), la valeur dans la colonne correspondante doit être la chaîne de caractères `"null"`.

**Conseil 1:** Essayez d'abord de traiter une seule fiche client. Une fois que vous saurez faire l'opération sur une seule fiche ce sera plus simple de le faire sur toutes les fiches.

**Conseil 2:** Ne cherchez pas à tout extraire dès le début. Commencer par extraire un, puis deux, puis trois champs et ainsi de suite.

**Conseil 3:** Ne chercher pas a écrire le fichier tout de suite. Commencez d'abord par traiter une ligne et l'afficher, une fois que vous arriverez à afficher la ligne il sera simple de l'écrire dans un fichier au lieu de l'afficher.

#### <span style="color:green"><strong>Implémentation</strong></span>

Vous devez écrire le code de cette tâche dans cette section du document.

In [None]:
import os
import csv

#-------------------------------------------------------------------------------#

# Chemin du répertoire
repertoire = "./extraction_fiches_clients/"

# Lister tous les fichiers dans le répertoire
fichier = os.listdir( repertoire )

# Filtrer les fichiers pour n'inclure que ceux qui semblent être des fichiers de données
fichier = [f for f in fichier if os.path.isfile(os.path.join(repertoire, f))]

# Nom du fichier de sortie CSV
f_out = "base_clients.csv"

# Ouvrir le fichier CSV pour écrire
with open( f_out, mode = 'w', newline = '', encoding = 'utf-8' ) as fichier_csv :
    writer = csv.writer( fichier_csv, delimiter = ';' )
    
    # Écrire l'en-tête du fichier CSV
    en_tete = [
        "NUMERO_CLIENT", "DATE_CONTRAT", "DEPARTEMENT", "CIVILITE", "NOM", "PRENOM",
        "DATE_NAISSANCE", "TELEPHONE_FIXE", "TELEPHONE_MOBILE", "EMAIL",
        "NUMERO_VOIE", "NOM_VOIE", "CODE_POSTAL", "COMMUNE"
    ]
    writer.writerow(en_tete)

    # Parcourir chaque fichier du répertoire
    for nom_du_fichier in fichier:
        path = os.path.join( repertoire, nom_du_fichier )
        
        # Ouvrir le fichier
        with open( path, "r", encoding='utf-8' ) as f_in :
            donnees_clients = []
            
            # Lire le fichier ligne par ligne
            li = f_in.readline()
            while li != "" :
                if li[0] != "-" :
                    data = li.split()
                    donnees_clients.append( data )
                li = f_in.readline()
            
            # Remplir dossier_clients selon le traitement de donnees_clients
            dossier_clients.append( donnees_clients[0][4] )      # NUMERO_CLIENT
            dossier_clients.append( donnees_clients[0][9] )      # DATE_CONTRAT

            departement = donnees_clients[4][0]
            departement = departement[:2]
            dossier_clients.append( departement )                # DEPARTEMENT

            dossier_clients.append( donnees_clients[1][2] )      # CIVILITE
            dossier_clients.append( donnees_clients[1][3] )      # NOM
            
            prenom = " ".join( donnees_clients[1][4:] )
            dossier_clients.append( prenom )                     # PRENOM
            
            dossier_clients.append( donnees_clients[2][2] )      # DATE_NAISSANCE

            if len( donnees_clients[5] ) < 4 :
                dossier_clients.append( "null" )                 # TELEPHONE_FIXE
            else :
                dossier_clients.append( donnees_clients[5][3] )  # TELEPHONE_FIXE

            if len( donnees_clients[6] ) < 4 :
                dossier_clients.append( "null" )                 # TELEPHONE_MOBILE
            else :
                dossier_clients.append( donnees_clients[6][3] )  # TELEPHONE_MOBILE
            
            dossier_clients.append( donnees_clients[7][2] )      # EMAIL
            dossier_clients.append( donnees_clients[3][2] )      # NUMERO_VOIE

            nom_voie = ' '.join( donnees_clients[3][3:] )        # NOM_VOIE
            dossier_clients.append( nom_voie )

            dossier_clients.append( donnees_clients[4][0] )      # CODE_POSTAL
            
            commune = ' '.join( donnees_clients[4][1:] )         # COMMUNE
            dossier_clients.append( commune )

            # Écrire les données dans le fichier CSV
            writer.writerow( dossier_clients )
            
        f_in.close()
    fichier_csv.close()

# Vérifie si le fichier "base_clients.csv" a été créé avec succès
if os.path.exists("base_clients.csv"):
    print(f"Les résultats ont été enregistrés dans {f_out}.")
else:
    print("Une erreur est survenue lors de la création du fichier.")

Les résultats ont été enregistrés dans base_clients.csv.


### <span style="color:Magenta"><strong>Tâche 2 :</string></span>

#### <span style="color:blue"><strong>Spécifications</string></span>

À partir du fichier `base_clients.csv` produit à la **tâche 1**, produire un fichier `no_phone.txt` contenant les adresses mail de tous les clients pour lesquels aucun numéro de téléphone n'est renseigné.

In [3]:
f_in = open( "base_clients.csv", "r" )
f_out = open( "no_phone.txt", "w" )

# Ignore l'en-tête du fichier CSV
f_in.readline()

# Lit la première ligne de données
li = f_in.readline()

while li != "":
    # Divise la ligne en colonnes en utilisant le point-virgule comme séparateur
    data = li.split(";")

    # Vérifie si les colonnes 7 et 8 (indices 7 et 8) contiennent "null" (aucun numéro de téléphone)
    if data[7] == "null" and data[8] == "null" :
        # Écrit l'email (colonne 9, indice 9) dans le fichier de sortie, suivi d'un saut de ligne
        f_out.write(data[9] + "\n")
    
    # Lit la ligne suivante du fichier d'entrée
    li = f_in.readline()

f_in.close()
f_out.close()

# Vérifie si le fichier "no_phone.txt" a été créé avec succès
if os.path.exists( "no_phone.txt" ) :
    print("Le fichier 'no_phone.txt' a été créé avec succès. Les emails des clients sans numéro de téléphone ont été enregistrés.")
else :
    print("Une erreur est survenue lors de la création du fichier.")

Le fichier 'no_phone.txt' a été créé avec succès. Les emails des clients sans numéro de téléphone ont été enregistrés.


Chaque adresse mail devra être sur une ligne différente.

#### <span style="color:green"><strong>Implémentation</strong></span>

Vous devez écrire le code de cette tâche dans cette section du document.

### <span style="color:Magenta"><strong>Tâche 3 :</string></span>

#### <span style="color:blue"><strong>Spécifications</string></span>

Pour cette tâche de mise en place d'un rapport d'études statistiques de la répartition par région des clients, *la forme du rapport et le choix du ou des indicateurs est laissé à votre jugement.*

Le rapport sera enregistré dans un fichier texte nommé `rapport_stat_repart_geo.txt`.

#### <span style="color:green"><strong>Implémentation</strong></span>

Vous devez écrire le code de cette tâche dans cette section du document.

In [None]:
import statistics

# Dictionnaire des départements par région
REGIONS = {
    'Auvergne-Rhône-Alpes': ['01', '03', '07', '15', '26', '38', '42', '43', '63', '69', '73', '74'],
    'Bourgogne-Franche-Comté': ['21', '25', '39', '58', '70', '71', '89', '90'],
    'Bretagne': ['35', '22', '56', '29'],
    'Centre-Val de Loire': ['18', '28', '36', '37', '41', '45'],
    'Corse': ['2A', '2B'],
    'Grand Est': ['08', '10', '51', '52', '54', '55', '57', '67', '68', '88'],
    'Guadeloupe': ['971'],
    'Guyane': ['973'],
    'Hauts-de-France': ['02', '59', '60', '62', '80'],
    'Île-de-France': ['75', '77', '78', '91', '92', '93', '94', '95'],
    'La Réunion': ['974'],
    'Martinique': ['972'],
    'Normandie': ['14', '27', '50', '61', '76'],
    'Nouvelle-Aquitaine': ['16', '17', '19', '23', '24', '33', '40', '47', '64', '79', '86', '87'],
    'Occitanie': ['09', '11', '12', '30', '31', '32', '34', '46', '48', '65', '66', '81', '82'],
    'Pays de la Loire': ['44', '49', '53', '72', '85'],
    'Provence-Alpes-Côte d\'Azur': ['04', '05', '06', '13', '83', '84'],
}

# Charger le fichier CSV généré précédemment
fichier_csv = "base_clients.csv"

# Initialisation des variables pour compter les clients par région
clients_par_region = {}

# Ouvrir et lire le fichier CSV ligne par ligne
f_in = open( fichier_csv, "r", encoding="utf-8" )

# Ignore l'en-tête du fichier CSV
f_in.readline()

for ligne in f_in:
    ligne = ligne.strip()                     # Supprimer les espaces et retours à la ligne inutiles
    colonnes = ligne.split(';')               # Diviser la ligne en colonnes
    departement = colonnes[2]                 # Récupérer le département
    
    # Vérifier dans quelle région se trouve ce département
    for region in REGIONS :
        if departement in REGIONS[region] :
            if region in clients_par_region :
                clients_par_region[region] += 1
            else :
                clients_par_region[region] = 1
            break

# Calculer le total des clients
total_clients = sum( clients_par_region.values() )

# Calculer les pourcentages par région
pourcentages = {}
for region in clients_par_region:
    pourcentages[region] = ( clients_par_region[region] / total_clients ) * 100

# Ouvrir le fichier pour sauvegarder les résultats dans un tableau
f_out = open( "rapport_stat_repart_geo.txt", "w", encoding="utf-8" )

# Écrire un titre et les en-têtes du tableau
f_out.write("____________________________________________________________________\n")
f_out.write("                                                                    \n")
f_out.write("----               REPARTITION CLIENTS PAR REGIONS              ----\n")
f_out.write("____________________________________________________________________\n\n")

# Ajouter le tableau des résultats
f_out.write(f"{'Région':<30} {'Nombre de clients':<20} {'Pourcentage (%)':<20}\n")
f_out.write("--------------------------------------------------------------------\n")

# Ajouter les données sous forme de tableau
for region in sorted(clients_par_region):
    nombre_clients = clients_par_region[region]
    pourcentage = pourcentages[region]
    f_out.write(f"{region:<30} {nombre_clients:<20} {round(pourcentage, 2):<20}\n")

# Ajouter la ligne "Total"
f_out.write("--------------------------------------------------------------------\n")
f_out.write(f"{'Total':<30} {total_clients:<20} {round(sum(pourcentages.values()), 2):<20}\n")
f_out.write("--------------------------------------------------------------------\n\n")

# Rédiger l'analyse statistique
f_out.write("____________________________________________________________________\n")
f_out.write("                                                                    \n")
f_out.write("----                   ANALYSE STATISTIQUES                     ----\n")
f_out.write("____________________________________________________________________\n")
f_out.write(f"\nTotal des clients : {total_clients}\n")
f_out.write(f"Nombre moyen de clients par région : {round(statistics.mean(list(clients_par_region.values())), 2)}\n")
f_out.write(f"Écart-type du nombre de clients par région : {round(statistics.stdev(list(clients_par_region.values())), 2)}\n")

# Trouver la région avec le plus grand et le plus petit nombre de clients
region_max_clients = max( clients_par_region, key=clients_par_region.get )
region_min_clients = min( clients_par_region, key=clients_par_region.get )
clients_max = clients_par_region[region_max_clients]
clients_min = clients_par_region[region_min_clients]

f_out.write(f"Région avec le plus grand nombre de clients : {region_max_clients} ({clients_max} clients)\n")
f_out.write(f"Région avec le plus petit nombre de clients : {region_min_clients} ({clients_min} clients)\n")
f_out.write(f"Écart entre la région avec le plus grand nombre de clients et celle avec le moins de clients : {clients_max - clients_min} clients\n")

# Sauvegarder le fichier
f_out.close()

# Vérifie si le fichier "rapport_stat_repart_geo.txt" a été créé avec succès
if os.path.exists("rapport_stat_repart_geo.txt") :
    print("\nLe rapport a été créé sous le nom de 'rapport_stat_repart_geo.txt'.")
else :
    print("Une erreur est survenue lors de la création du fichier.")


Le rapport a été créé sous le nom de 'rapport_stat_repart_geo.txt'.
