# Les bases de Python

## Les Variables 

Le nom de la variable fera référence à une valeur que vous lui "attribuez".

On plaçe une valeur "dans" la variable, comme si la variable était une petite boîte 🎁

Vous attribuez des variables avec un signe égal `=`. En Python, un seul signe égal `=` est l'"opérateur d'assignation". Un double signe égal `==` est le "vrai" signe égal.

In [2]:
variable = 12334567788

In [5]:
variable = 123

In [7]:
variable == 123

True

In [12]:
variable_1  = variable + 4

In [13]:
variable + 5

132

In [14]:
variable + variable_1

258

#### Opérations sur les variables: *, ==, >, <, <=, >=, **

In [15]:
variable = 2

In [17]:
variable * 10 > 15

True

In [19]:
variable**2

4

#### Réassigner des variables: x=x+1, x+=1, y=x, print(y)

In [20]:
var2 = variable + variable_1

In [22]:
var2 = var2 - 130

In [23]:
var2

3

In [24]:
var4 = var2

In [26]:
var4

3

In [25]:
print(var4)

3


#### Regardons les variables du script précédent

In [None]:
# Import des modules nécessaires
import re  # Module pour les expressions régulières
from collections import Counter  # Objet de comptage

# Fonction pour découper le texte en mots
def decouper_en_mots(un_morceau_de_texte):
    texte_minuscule = un_morceau_de_texte.lower()  # Convertir en minuscules
    mots_separes = re.split("\W+", texte_minuscule)  # Séparer les mots
    return mots_separes  # Retourner la liste de mots

# Chemin d'accès du texte
chemin_du_texte = "../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt"

# Nombre de mots les plus fréquents à afficher
nombre_de_mots_voulu = 40

# Liste des mots vides à exclure
mots_vides = ['je', 'tu', 'il', 'elle', 'on', 'nous', 'vous', 'ils', 'elles',
    'le', 'la', 'les', 'un', 'une', 'des', 'mon', 'ma', 'mes', 'ton', 'ta', 'tes',
    'son', 'sa', 'ses', 'notre', 'votre', 'leurs', 'de', 'du', 'l', 'à', 'au', 'aux', 'en', 'par', 'pour', 'avec',
    'sur', 'sous', 'dans', 'vers', 'contre', 'à travers', 'après', 'avant', 'pendant',
    'alors', 'quand', 'si', 'comme', 'parce que', 'parce', 'mais', 'ou', 'et', 'donc',
    'si', 'car', 'lorsque', 'puisque', 'qu', 'quel', 'quelle', 'quels', 'quelles',
    'ainsi', 'autant', 'autre', 'autres', 'celui', 'celle', 'ceux', 'celles',
    'chaque', 'ci', 'ça', 'cela', 'ce', 'ceci', 'celui-ci', 'celle-ci',
    'celui-là', 'celle-là', 'cent', 'certain', 'certaine', 'certaines', 'certains',
    'ceux-ci', 'ceux-là', 'chaque', 'combien', 'comme', 'd', 'dans', 'des', 'du', 'deux',
    'devant', 'donc', 'dont', 'duquel', 'elle', 'elles', 'en', 'encore', 'entre',
    'envers', 'est', 'et', 'eu', 'eux', 'fin', 'fut', 'hormis', 'hui', 'huit', 'ici',
    'il', 'ils', 'je', 'jusque', 'l', 'la', 'le', 'les', 'leur', 'leurs', 'lors',
    'lui', 'là', 'ma', 'mais', 'me', 'même', 'mes', 'moi', 'moins', 'mon', 'ne', 'ni',
    'nombreuses', 'nombreux', 'notre', 'nous', 'ou', 'où', 'par', 'parmi', 'pas',
    'peu', 'plus', 'plupart', 'pour', 'pourquoi', 'quand', 'que', 'quel', 'quelle',
    'quelles', 'quels', 'qui', 'quoi', 'sa', 'sans', 'se', 'sept', 'ses', 'si',
    'sien', 'soi', 'soit', 'son', 'sont', 'sous', 'soyez', 'sujet', 'sur', 'ta',
    'tandis', 'te', 'tel', 'telle', 'telles', 'tels', 'tes', 'toi', 'ton', 'tous',
    'tout', 'toute', 'toutes', 'un', 'une', 'va', 'vers', 'voici', 'voilà', 'vont',
    'votre', 'vous', 'vu', 'ça', 's', 'n', 'c', 'a', 'm', 'j', 'y', 't', 'ces', 
    'dit', 'cet', 'oui', 'non', 'était', 'est', 'être', 'été', 'ai', 'puis', 'avez', 
    'avait', 'avais', 'eût', 'très', 'cette', 'point', 'fois', 'fit', 'aussi', 'suis' 
]

# Lire le texte complet depuis le fichier
texte_complet = open(chemin_du_texte, encoding="utf-8").read()

# Découper le texte en mots
tous_les_mots = decouper_en_mots(texte_complet)

# Filtrer les mots significatifs en enlevant les mots vides
mots_significatifs = [mot for mot in tous_les_mots if mot not in mots_vides]

# Compter le nombre d'occurrences de chaque mot significatif
conteur_mots_significatifs = Counter(mots_significatifs)

# Extraire les mots les plus fréquents
mots_significatifs_frequents = conteur_mots_significatifs.most_common(nombre_de_mots_voulu)

# Afficher les mots les plus fréquents
print("Les", nombre_de_mots_voulu, "mots les plus fréquents sont :")
print(mots_significatifs_frequents)

On a créer les variables: 

In [28]:
chemin_du_texte = "../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt"
nombre_de_mots_voulu = 40
mots_vides = ['je', 'tu', 'il', 'elle', 'on', 'nous', 'vous', 'ils', 'elles',
    'le', 'la', 'les', 'un', 'une', 'des', 'mon', 'ma', 'mes', 'ton', 'ta', 'tes',
    'son', 'sa', 'ses', 'notre', 'votre', 'leurs', 'de', 'du', 'l', 'à', 'au', 'aux', 'en', 'par', 'pour', 'avec',
    'sur', 'sous', 'dans', 'vers', 'contre', 'à travers', 'après', 'avant', 'pendant',
    'alors', 'quand', 'si', 'comme', 'parce que', 'parce', 'mais', 'ou', 'et', 'donc',
    'si', 'car', 'lorsque', 'puisque', 'qu', 'quel', 'quelle', 'quels', 'quelles',
    'ainsi', 'autant', 'autre', 'autres', 'celui', 'celle', 'ceux', 'celles',
    'chaque', 'ci', 'ça', 'cela', 'ce', 'ceci', 'celui-ci', 'celle-ci',
    'celui-là', 'celle-là', 'cent', 'certain', 'certaine', 'certaines', 'certains',
    'ceux-ci', 'ceux-là', 'chaque', 'combien', 'comme', 'd', 'dans', 'des', 'du', 'deux',
    'devant', 'donc', 'dont', 'duquel', 'elle', 'elles', 'en', 'encore', 'entre',
    'envers', 'est', 'et', 'eu', 'eux', 'fin', 'fut', 'hormis', 'hui', 'huit', 'ici',
    'il', 'ils', 'je', 'jusque', 'l', 'la', 'le', 'les', 'leur', 'leurs', 'lors',
    'lui', 'là', 'ma', 'mais', 'me', 'même', 'mes', 'moi', 'moins', 'mon', 'ne', 'ni',
    'nombreuses', 'nombreux', 'notre', 'nous', 'ou', 'où', 'par', 'parmi', 'pas',
    'peu', 'plus', 'plupart', 'pour', 'pourquoi', 'quand', 'que', 'quel', 'quelle',
    'quelles', 'quels', 'qui', 'quoi', 'sa', 'sans', 'se', 'sept', 'ses', 'si',
    'sien', 'soi', 'soit', 'son', 'sont', 'sous', 'soyez', 'sujet', 'sur', 'ta',
    'tandis', 'te', 'tel', 'telle', 'telles', 'tels', 'tes', 'toi', 'ton', 'tous',
    'tout', 'toute', 'toutes', 'un', 'une', 'va', 'vers', 'voici', 'voilà', 'vont',
    'votre', 'vous', 'vu', 'ça', 's', 'n', 'c', 'a', 'm', 'j', 'y', 't', 'ces', 
    'dit', 'cet', 'oui', 'non', 'était', 'est', 'être', 'été', 'ai', 'puis', 'avez', 
    'avait', 'avais', 'eût', 'très', 'cette', 'point', 'fois', 'fit', 'aussi', 'suis' 
]
texte_complet = open(chemin_du_texte, encoding="utf-8").read()

Bien que nous ayons nommé nos variables `chemin_du_texte`, `mots_vides`, `nombre_de_mots_voulu` et `texte_complet`, nous aurions pu les nommer presque n'importe comment.

Les noms de variables peuvent être aussi longs ou courts que vous le souhaitez, et ils peuvent inclure :
- lettres en majuscules et en minuscules (A-Z)
- chiffres (0-9)
- traits de soulignement (_)

Cependant, les noms de variables *ne peuvent pas* inclure :
- ❌ d'autres signes de ponctuation (-.!?@)
- ❌ des espaces ( )
- ❌ un mot réservé Python

In [32]:
str = 15

ex : chemin_du_texte, chemin, texte, t

In [36]:
variable_2 = 3

### Noms de variables pertinents !
Lorsque vous commencez à coder, vous serez presque certainement tenté d'utiliser des noms de variables extrêmement courts comme `f`. Vos doigts vont se fatiguer. Votre café va perdre de son efficacité. Vous verrez d'autres personnes utiliser des variables comme `f`. Vous vous promettrez sûrement de vous rappeler ce que signifie `f`. Mais vous ne le ferez probablement pas.

Alors, résistez à la tentation des mauvais noms de variables ! Des noms de variables clairs et précis vont :

* rendre votre code plus lisible (tant pour vous que pour les autres)
* renforcer votre compréhension de Python et ce qui se passe dans le code

In [43]:
import re

In [40]:
# ici la variable var prend la valeur 45
var = 45

In [41]:
var

45

In [17]:
def dem(t):
    tm = t.lower()
    ms = re.split("\W+", tm)
    return ms

f = "../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt"
ft = open(f, encoding="utf-8").read()

m_r = dem(ft)

In [45]:
def decouper_en_mots(texte):
    texte_minuscule = texte.lower()
    mots_separes = re.split("\\W+", texte_minuscule)
    return mots_separes

chemin_du_texte = "../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt"
texte = open(chemin_du_texte, encoding="utf-8").read()

mots_resultants = decouper_en_mots(texte)

### A vous !

In [46]:
!ls ../data/txt/
# windows : !dir ..\data\txt\

1830_Stendhal_Le-Rouge-et-le-noir.txt
1841_Sand-George_Un-hiver-a-Majorque_morse.txt
1841_Sand-George_Un-hiver-a-Majorque.txt
1843_Balzac-Honore-de_Eugenie-Grandet.txt
1843_Balzac-Honore-de_Illusions-perdues.txt
1843_Balzac-Honore-de_Le-Pere-Goriot.txt
1844_Balzac-Honore-de_Sarrasine.txt
1845_Balzac-Honore-de_Le-Chef-d-oeuvre-inconnu.txt
1883_Guy-de-Maupassant_Contes-de-la-Becasse.txt
1892_Verne-Jules_Le-Chateau-des-Carpathes.txt
1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt
1909_Zevaco-Michel_Nostradamus.txt
1930_Colette_Sido.txt


Ensuite, attribuez chemin_du_texte au chemin d'accès correspondant ci-dessous. Assurez-vous d'explorer ce qui se passe lorsque vous modifiez les valeurs de nombre_de_mots_voulu et mots_vides également.

In [48]:
# Import des modules nécessaires
import re  # Module pour les expressions régulières
from collections import Counter  # Objet de comptage

# Fonction pour découper le texte en mots
def decouper_en_mots(un_morceau_de_texte):
    texte_minuscule = un_morceau_de_texte.lower()  # Convertir en minuscules
    mots_separes = re.split("\\W+", texte_minuscule)  # Séparer les mots
    return mots_separes  # Retourner la liste de mots

# Chemin d'accès du texte
chemin = "../data/txt/1892_Verne-Jules_Le-Chateau-des-Carpathes.txt"
# Nombre de mots les plus fréquents à afficher
nombre_de_mots_voulu = 35

# Liste des mots vides à exclure
mots_vides = ['elle', 'on', 'nous', 'vous', 'ils', 'elles',
    'le', 'la', 'les', 'un', 'une', 'des', 'mon', 'ma', 'mes', 'ton', 'ta', 'tes',
    'son', 'sa', 'ses', 'notre', 'votre', 'leurs', 'de', 'du', 'l', 'à', 'au', 'aux', 'en', 'par', 'pour', 'avec',
    'sur', 'sous', 'dans', 'vers', 'contre', 'à travers', 'après', 'avant', 'pendant',
    'alors', 'quand', 'si', 'comme', 'parce que', 'parce', 'mais', 'ou', 'et', 'donc',
    'si', 'car', 'lorsque', 'puisque', 'qu', 'quel', 'quelle', 'quels', 'quelles',
    'ainsi', 'autant', 'autre', 'autres', 'celui', 'celle', 'ceux', 'celles',
    'chaque', 'ci', 'ça', 'cela', 'ce', 'ceci', 'celui-ci', 'celle-ci',
    'celui-là', 'celle-là', 'cent', 'certain', 'certaine', 'certaines', 'certains',
    'ceux-ci', 'ceux-là', 'chaque', 'combien', 'comme', 'd', 'dans', 'des', 'du', 'deux',
    'devant', 'donc', 'dont', 'duquel', 'elle', 'elles', 'en', 'encore', 'entre',
    'envers', 'est', 'et', 'eu', 'eux', 'fin', 'fut', 'hormis', 'hui', 'huit', 'ici',
    'il', 'ils', 'je', 'jusque', 'l', 'la', 'le', 'les', 'leur', 'leurs', 'lors',
    'lui', 'là', 'ma', 'mais', 'me', 'même', 'mes', 'moi', 'moins', 'mon', 'ne', 'ni',
    'nombreuses', 'nombreux', 'notre', 'nous', 'ou', 'où', 'par', 'parmi', 'pas',
    'peu', 'plus', 'plupart', 'pour', 'pourquoi', 'quand', 'que', 'quel', 'quelle',
    'quelles', 'quels', 'qui', 'quoi', 'sa', 'sans', 'se', 'sept', 'ses', 'si',
    'sien', 'soi', 'soit', 'son', 'sont', 'sous', 'soyez', 'sujet', 'sur', 'ta',
    'tandis', 'te', 'tel', 'telle', 'telles', 'tels', 'tes', 'toi', 'ton', 'tous',
    'tout', 'toute', 'toutes', 'un', 'une', 'va', 'vers', 'voici', 'voilà', 'vont',
    'votre', 'vous', 'vu', 'ça', 's', 'n', 'c', 'a', 'm', 'j', 'y', 't', 'ces', 
    'dit', 'cet', 'oui', 'non', 'était', 'est', 'être', 'été', 'ai', 'puis', 'avez', 
    'avait', 'avais', 'eût', 'très', 'cette', 'point', 'fois', 'fit', 'aussi', 'suis' 
]
# Lire le texte complet depuis le fichier
texte_complet = open(chemin, encoding="utf-8").read()

# Découper le texte en mots
tous_les_mots = decouper_en_mots(texte_complet)

# Filtrer les mots significatifs en enlevant les mots vides
mots_significatifs = [mot for mot in tous_les_mots if mot not in mots_vides]

# Compter le nombre d'occurrences de chaque mot significatif
conteur_mots_significatifs = Counter(mots_significatifs)

# Extraire les mots les plus fréquents
mots_significatifs_frequents = conteur_mots_significatifs.most_common(nombre_de_mots_voulu)

# Afficher les mots les plus fréquents
print("Les", nombre_de_mots_voulu, "mots les plus fréquents sont :")
print(mots_significatifs_frequents)

Les 35 mots les plus fréquents sont :
[('franz', 245), ('château', 152), ('docteur', 149), ('nic', 148), ('burg', 146), ('deck', 142), ('comte', 134), ('bien', 129), ('maître', 129), ('gortz', 124), ('jeune', 122), ('werst', 119), ('stilla', 107), ('baron', 103), ('koltz', 97), ('village', 93), ('quelques', 89), ('forestier', 88), ('carpathes', 86), ('rien', 86), ('voix', 82), ('répondit', 80), ('télek', 79), ('frik', 77), ('jusqu', 77), ('patak', 77), ('rotzko', 75), ('étaient', 70), ('nuit', 70), ('donjon', 69), ('aurait', 66), ('quelque', 64), ('rodolphe', 64), ('avoir', 61), ('faire', 60)]


In [49]:
derniere_variable = "Je suis une autre variable !"

In [52]:
print(derniere_variable)

Je suis une autre variable !


#### Possible ?

In [51]:
derniere_variable*2

'Je suis une autre variable !Je suis une autre variable !'

In [53]:
var = derniere_variable+' , il y en a 2'

In [54]:
var

'Je suis une autre variable ! , il y en a 2'

In [55]:
var = var + 2

TypeError: can only concatenate str (not "int") to str

### Typage -> Fondamentaux de Python

Prochain Notebook !