In [1]:
mot = "one world"  # Exemple

lettre = []
for l in mot:
    lettre.append(l)


lettre_maj = []
for i in range(len(lettre)):
    if i % 2 == 0:
        lettre_maj.append(lettre[i].upper())
    else:
        lettre_maj.append(lettre[i].lower())


mot_modifie = "".join(lettre_maj)
print("Mot modifié :", mot_modifie)


Mot modifié : OnE WoRlD


Explication :

Les listes en Python sont des collections ordonnées et modifiables qui permettent de stocker une séquence d’éléments (nombres, chaînes, etc.). 

Dans l’analyse de données, elles sont idéales pour :

Stocker des séries de données (ex. : températures, ventes).

Filtrer ou trier des données.

Effectuer des transformations (ex. : calculs sur chaque élément).

Bonnes pratiques :

Utilise des list comprehensions (comme ci-dessus) pour des transformations claires et concises.

Évite les boucles inutiles si une méthode intégrée (comme sum() ou sorted()) existe.

Vérifie la taille de la liste avec len() avant d’accéder à des indices pour éviter les erreurs.


In [10]:
# Liste de ventes journalières (en euros)
ventes = [150, 200, 120, 300, 180]

# Ajouter une vente
ventes.append(250)
print("Après ajout :", ventes)  # [150, 200, 120, 300, 180, 250]

# Filtrer les ventes supérieures à 150
ventes_hautes = [vente for vente in ventes if vente > 150]
print("Ventes > 150 :", ventes_hautes)  # [200, 300, 250]

# Calculer la moyenne des ventes
moyenne = sum(ventes) / len(ventes)
print("Moyenne des ventes :", moyenne)  # 200.5

Après ajout : [150, 200, 120, 300, 180, 250]
Ventes > 150 : [200, 300, 180, 250]
Moyenne des ventes : 200.0


Explication :

Les dictionnaires associent des clés à des valeurs, parfaits pour :

Compter des occurrences (ex. : fréquence des mots).

Regrouper des données (ex. : ventes par région).

Accéder rapidement à des informations via des clés.

Bonnes pratiques : 
Utilise dict.get(cle, default) pour éviter les erreurs si une clé n’existe pas.

Préfère un dictionnaire à une liste de paires clé-valeur pour des recherches rapides.

Structure bien tes clés (ex. : chaînes pour les catégories, tuples pour des clés composées).

In [5]:
transactions = [('Alice', 100), ('Bob', 50), ('Alice', 200), ('Charlie', 150)]
totals = {}

# 1. Totaliser par client
for client, montant in transactions:
    totals[client] = totals.get(client, 0) + montant
print("Totaux :", totals)

# 2. Ajouter une transaction
totals['Bob'] = totals.get('Bob', 0) + 75
print("Après ajout :", totals)

# 3. Client avec max
max_client = max(totals, key=totals.get)
print("Client max :", max_client, "avec", totals[max_client])

Totaux : {'Alice': 300, 'Bob': 50, 'Charlie': 150}
Après ajout : {'Alice': 300, 'Bob': 125, 'Charlie': 150}
Client max : Alice avec 300


In [7]:
event1 = ['Alice', 'Bob', 'Charlie', 'Alice']
event2 = ['Bob', 'David', 'Eve']

# 1. Créer des sets
set1 = set(event1)
set2 = set(event2)
print("Set événement 1 :", set1)
print("Set événement 2 :", set2)

# 2. Uniques à l'événement 1
uniques_event1= set1.difference(set2)
print("Uniques à l'événement 1 :", uniques_event1)

# 3. Commun aux deux
commun = set1.intersection(set2)
print("Commun aux deux :", commun)

# 4. Ajouter et vérifier
set1.add('Frank')
print("Frank est unique ?", 'Frank' not in set2)

Set événement 1 : {'Bob', 'Alice', 'Charlie'}
Set événement 2 : {'Bob', 'Eve', 'David'}
Uniques à l'événement 1 : {'Charlie', 'Alice'}
Commun aux deux : {'Bob'}
Frank est unique ? True


Explications :

Les tuples sont des collections ordonnées et immuables, idéales pour :

Stocker des données fixes (ex. : coordonnées géographiques).

Utiliser comme clés dans des dictionnaires (contrairement aux listes).

Garantir l’intégrité des données.

Bonnes pratiques :

Utilise des tuples pour des données qui ne doivent pas changer.

Combine des tuples avec des dictionnaires pour des clés complexes (ex. : paires ville-destination).

Évite les tuples pour des données fréquemment modifiées (préfère les listes).

In [9]:
villes = [('Paris', (48.8566, 2.3522)), ('Tokyo', (35.6762, 139.6503))]

# Accéder aux coordonnées
for ville, (lat, lon) in villes:
    print(f"{ville}: latitude {lat}, longitude {lon}")

# Utiliser un tuple comme clé de dictionnaire
distances = {('Paris', 'Tokyo'): 9700}
print("Distance Paris-Tokyo :", distances[('Paris', 'Tokyo')])  # 9700 km

Paris: latitude 48.8566, longitude 2.3522
Tokyo: latitude 35.6762, longitude 139.6503
Distance Paris-Tokyo : 9700


In [11]:
points = [(1.5, 2.3), (1.5, 2.3), (3.2, 4.1)]

# 1. Points uniques
points_uniques = set(points)
print("Points uniques :", points_uniques)

# 2. Compter les occurrences
compteur_points = {}
for point in points:
    compteur_points[point] = compteur_points.get(point, 0) + 1
print("Occurrences :", compteur_points)

# 3. Ajouter un point
points.append((5.0, 6.0))
print("Après ajout :", points)

Points uniques : {(3.2, 4.1), (1.5, 2.3)}
Occurrences : {(1.5, 2.3): 2, (3.2, 4.1): 1}
Après ajout : [(1.5, 2.3), (1.5, 2.3), (3.2, 4.1), (5.0, 6.0)]


In [51]:
def analyse_ventes(liste_ventes):
    total_cat = {}
    prod_cat={}
    for produit, categorie, montant in liste_ventes:
        produit = produit.lower()
        categorie = categorie.lower()  # uniformiser
        total_cat[categorie] = total_cat.get(categorie, 0) + montant
        prod_cat[categorie]=prod_cat.append((produit,montant))
        # tries les categories par ordre decroissant du montant total
        categories_triées = sorted(total_cat.items(), key=lambda x: x[1], reverse=True)
    # Étape 3 : Identifier les produits > 50 % du total par catégorie
    produits_dominants = {}
    for categorie, total in total_cat.items():
        seuil = total * 0.5
        dominants = [(produit, montant) for produit, montant in prod_cat[categorie] if montant > seuil]
        if dominants:
            produits_dominants[categorie] = dominants

    return total_cat, categories_triées, produits_dominants


In [54]:
# Données d'exemple
ventes = [
    ("Mangue", "Fruit", 75),
    ("Orange", "Fruit", 15),
    ("Pomme", "Fruit", 10),
    ("Banane", "Fruit", 8),
    ("Ananas", "Fruit", 20),

    ("HP", "Ordi", 280),
    ("Dell", "Ordi", 35),
    ("MacBook", "Ordi", 80),
    ("Asus", "Ordi", 40),
    ("Lenovo", "Ordi", 25),

    ("Shampoing", "Hygiène", 10),
    ("Savon", "Hygiène", 5),
    ("Dentifrice", "Hygiène", 7),
    ("Gel douche", "Hygiène", 9),

    ("T-shirt", "Vêtements", 20),
    ("Jean", "Vêtements", 40),
    ("Pull", "Vêtements", 35),
    ("Jupe", "Vêtements", 25),
    ("Veste", "Vêtements", 60),

    ("Cahier", "Papeterie", 5),
    ("Stylo", "Papeterie", 2),
    ("Feutres", "Papeterie", 4),
    ("Classeur", "Papeterie", 6),
    ("Agrafeuse", "Papeterie", 10)
]


In [55]:
# Appel de la fonction
totaux_cat, cat_triées, dominants = analyser_ventes(ventes)

# Affichage
print("\n🔢 Totaux par catégorie :")
for cat, total in totaux_cat.items():
    print(f"{cat.capitalize()} : {total} €")

print("\n📉 Catégories triées par montant décroissant :")
for cat, total in cat_triées:
    print(f"{cat.capitalize()} : {total} €")

print("\n📌 Produits > 50 % du total de leur catégorie :")
for cat, produits in dominants.items():
    print(f"\n{cat.capitalize()} :")
    for produit, montant in produits:
        print(f"  → {produit.capitalize()} : {montant} €")



🔢 Totaux par catégorie :
Fruit : 128 €
Ordi : 460 €
Hygiène : 31 €
Vêtements : 180 €
Papeterie : 27 €

📉 Catégories triées par montant décroissant :
Ordi : 460 €
Vêtements : 180 €
Fruit : 128 €
Hygiène : 31 €
Papeterie : 27 €

📌 Produits > 50 % du total de leur catégorie :

Fruit :
  → Mangue : 75 €

Ordi :
  → Hp : 280 €


In [62]:
def detection_doublon(list_id):
    id_set=set()
    occ_id={}
    for user in list_id:
        string_split=user.split(":")[1]
        id_set.add(string_split)
        occ_id[string_split]=occ_id.get(string_split,0)+1
    return id_set,occ_id
    

In [63]:
logs = [
    "2025-06-01:user123:achat",
    "2025-06-01:user456:visite",
    "2025-06-02:user123:achat",
    "2025-06-02:user789:clic",
    "2025-06-03:user456:achat"
]

In [64]:
list_set, nb_occ=detection_doublon(logs)

In [65]:
list_set

{'user123', 'user456', 'user789'}

In [66]:
nb_occ

{'user123': 2, 'user456': 2, 'user789': 1}

In [1]:
temps=[("2023-01-01", 9.2),
("2023-01-02", -1.8),
("2023-01-03", 12.4),
("2023-01-04", 5.6),
("2023-01-05", 7.1),
("2023-01-06", 0.3),
("2023-01-07", 10.8),
("2023-01-08", -2.5),
("2023-01-09", 11.9),
("2023-01-10", 4.2),
("2023-01-11", 8.6),
("2023-01-12", -0.9),
("2023-01-13", 9.7),
("2023-01-14", 6.3),
("2023-01-15", 3.1),
("2023-01-16", 8.9),
("2023-01-17", -3.7),
("2023-01-18", 13.2),
("2023-01-19", 5.8),
("2023-01-20", 1.4),
("2023-01-21", 10.5),
("2023-01-22", 4.7),
("2023-01-23", 7.9),
("2023-01-24", -2.6),
("2023-01-25", 9.1),
("2023-01-26", 3.3),
("2023-01-27", 6.8),
("2023-01-28", -0.2),
("2023-01-29", 12.7),
("2023-01-30", 4.1),
("2023-01-31", 8.3)]

In [3]:
temps

[('2023-01-01', 9.2),
 ('2023-01-02', -1.8),
 ('2023-01-03', 12.4),
 ('2023-01-04', 5.6),
 ('2023-01-05', 7.1),
 ('2023-01-06', 0.3),
 ('2023-01-07', 10.8),
 ('2023-01-08', -2.5),
 ('2023-01-09', 11.9),
 ('2023-01-10', 4.2),
 ('2023-01-11', 8.6),
 ('2023-01-12', -0.9),
 ('2023-01-13', 9.7),
 ('2023-01-14', 6.3),
 ('2023-01-15', 3.1),
 ('2023-01-16', 8.9),
 ('2023-01-17', -3.7),
 ('2023-01-18', 13.2),
 ('2023-01-19', 5.8),
 ('2023-01-20', 1.4),
 ('2023-01-21', 10.5),
 ('2023-01-22', 4.7),
 ('2023-01-23', 7.9),
 ('2023-01-24', -2.6),
 ('2023-01-25', 9.1),
 ('2023-01-26', 3.3),
 ('2023-01-27', 6.8),
 ('2023-01-28', -0.2),
 ('2023-01-29', 12.7),
 ('2023-01-30', 4.1),
 ('2023-01-31', 8.3)]

In [47]:
temp_semaine = []
temperature = []


# Extraire uniquement les températures
for date, temp in temps:
    temperature.append(temp)

print(f"📊 Nombre total de jours : {len(temperature)}\n")

# Calcul des totaux et moyennes par semaine
for i in range(0, len(temperature), 7):
    semaine_num = i // 7 + 1
    semaine_data = temperature[i:i+7]
    total = sum(semaine_data)
    moyenne = total / len(semaine_data)
    temp_semaine.append((f"Semaine {semaine_num}", total, round(moyenne, 2)))

# Affichage
print("📅 Températures hebdomadaires :")
for semaine, total, moyenne in temp_semaine:
    print(f"{semaine} ➤ Total : {total}°, Moyenne : {moyenne}°")


📊 Nombre total de jours : 31

📅 Températures hebdomadaires :
Semaine 1 ➤ Total : 43.6°, Moyenne : 6.23°
Semaine 2 ➤ Total : 37.3°, Moyenne : 5.33°
Semaine 3 ➤ Total : 39.2°, Moyenne : 5.6°
Semaine 4 ➤ Total : 29.0°, Moyenne : 4.14°
Semaine 5 ➤ Total : 25.1°, Moyenne : 8.37°


In [50]:
from datetime import datetime
from collections import defaultdict



# Dictionnaire : { (année, semaine) : [températures...] }
semaine_data = defaultdict(list)

for date_str, temp in temps:
    date_obj = datetime.strptime(date_str, "%Y-%m-%d")
    annee, semaine_num, _ = date_obj.isocalendar()
    semaine_data[(annee, semaine_num)].append(temp)

# Calcul des moyennes
resultats = []
for (annee, semaine), valeurs in semaine_data.items():
    moyenne = sum(valeurs) / len(valeurs)
    resultats.append((annee, semaine, valeurs, round(moyenne, 2)))

# Tri par moyenne décroissante
resultats_trie = sorted(resultats, key=lambda x: x[3], reverse=True)

# Affichage
print("📅 Semaines triées par température moyenne (décroissant) :\n")
for annee, semaine, valeurs, moyenne in resultats_trie:
    print(f"🗓️ Semaine {semaine} ({annee}) ➤ Moyenne : {moyenne}° ➤ Jours : {valeurs}")


📅 Semaines triées par température moyenne (décroissant) :

🗓️ Semaine 52 (2022) ➤ Moyenne : 9.2° ➤ Jours : [9.2]
🗓️ Semaine 5 (2023) ➤ Moyenne : 6.2° ➤ Jours : [4.1, 8.3]
🗓️ Semaine 2 (2023) ➤ Moyenne : 6.13° ➤ Jours : [11.9, 4.2, 8.6, -0.9, 9.7, 6.3, 3.1]
🗓️ Semaine 3 (2023) ➤ Moyenne : 5.83° ➤ Jours : [8.9, -3.7, 13.2, 5.8, 1.4, 10.5, 4.7]
🗓️ Semaine 4 (2023) ➤ Moyenne : 5.29° ➤ Jours : [7.9, -2.6, 9.1, 3.3, 6.8, -0.2, 12.7]
🗓️ Semaine 1 (2023) ➤ Moyenne : 4.56° ➤ Jours : [-1.8, 12.4, 5.6, 7.1, 0.3, 10.8, -2.5]


4. Intersection de plusieurs datasets

In [94]:
# Listes de clients par campagne (identifiants fictifs)
campagne_A = [
    "client001", "client002", "client003", "client004",
    "client005", "client006", "client007", "client008"
]

campagne_B = [
    "client005", "client006", "client009", "client010",
    "client011", "client012", "client013", "client014"
]

campagne_C = [
    "client002", "client010", "client012", "client015",
    "client016", "client017", "client006", "client018"
]


afficher tous les clients

In [95]:
list_client=set(campagne_A).union(set(campagne_B)).union(set(campagne_C))

In [96]:
list_client

{'client001',
 'client002',
 'client003',
 'client004',
 'client005',
 'client006',
 'client007',
 'client008',
 'client009',
 'client010',
 'client011',
 'client012',
 'client013',
 'client014',
 'client015',
 'client016',
 'client017',
 'client018'}

Trouve les clients ayant participé à toutes les campagnes.

In [98]:
setA=set(campagne_A)
setB=set(campagne_B)
setC=set(campagne_C)

In [99]:
client_tous_campagn=setA.intersection(setB,setC)

In [100]:
client_tous_campagn

{'client006'}

In [109]:
client_2_campagn=setA.intersection(setB) | setB.intersection(setC) | setA.intersection(setC)

In [110]:
client_2_campagn

{'client002', 'client005', 'client006', 'client010', 'client012'}

Clients uniques à une seule campagne

In [111]:
uniques_A = setA - (setB | setC)
uniques_B = setB - (setA | setC)
uniques_C = setC - (setA | setB)

In [112]:
uniques_A

{'client001', 'client003', 'client004', 'client007', 'client008'}

In [113]:
uniques_B

{'client009', 'client011', 'client013', 'client014'}

In [114]:
uniques_C

{'client015', 'client016', 'client017', 'client018'}

Exos 5. Agrégation hiérarchique avec parsing

In [167]:
ventes = [
    "pomme:Europe:100",
    "pomme:Europe:50",
    "banane:Europe:50",
    "pomme:Asie:200",
    "orange:Europe:75",
    "banane:Asie:150"
]

In [168]:
list_vente=[]

for vte in ventes :
    vte=vte.split(":")
    produit,region,montant=vte
    montant=int(montant)
    list_vente.append((produit,region,montant))
print(list_vente)

[('pomme', 'Europe', 100), ('pomme', 'Europe', 50), ('banane', 'Europe', 50), ('pomme', 'Asie', 200), ('orange', 'Europe', 75), ('banane', 'Asie', 150)]


In [171]:
vente = {}

for prod, region, montant in list_vente:
    if region not in vente:
        vente[region] = {}
    vente[region][prod] = vente[region].get(prod, 0) + montant


In [172]:
vente

{'Europe': {'pomme': 150, 'banane': 50, 'orange': 75},
 'Asie': {'pomme': 200, 'banane': 150}}