# Les Bases de Python

## Les Types de Données

<img src="https://hips.hearstapps.com/digitalspyuk.cdnds.net/16/08/1456483171-pokemon2.jpg?resize=768:*" >

Il existe quatre types de données essentiels en Python, chacun ayant des fonctionnalités et capacités différentes :

- Chaînes de caractères (Texte)

- Entiers (Nombres entiers)

- Flottants (Nombres décimaux)

- Booléens (Vrai/Faux)

Examinez les variables `chemin_du_texte` et `nombre_de_mots_voulu` dans le code de comptage de mots ci-dessous.

Quelles différences remarquez-vous entre ces deux variables et leurs valeurs correspondantes ?

In [3]:
# Import des modules nécessaires
import re  # Module pour les expressions régulières
from collections import Counter  # Objet de comptage

# Fonction pour découper le texte en mots
def decouper_en_mots(un_morceau_de_texte):
    texte_minuscule = un_morceau_de_texte.lower()  # Convertir en minuscules
    mots_separes = re.split("\W+", texte_minuscule)  # Séparer les mots
    return mots_separes  # Retourner la liste de mots

# Chemin d'accès du texte
chemin_du_texte = "../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt"

# Nombre de mots les plus fréquents à afficher
nombre_de_mots_voulu = 40


| Data Type       | Explanation          | Example  |
| ------------- |:-------------:| -----:|
| String     | Texte | ```"../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt"``` |
| Integer     | Nombre Entier      |   ```40``` |
| Float | Nombre Décimal      |   ```40.2``` |
| Boolean | True/False     |   ```False``` |

### Vérifier les Types de Données

- avec type() var str/int, "eheh", x

## String

Une *chaîne de caractères* est un type de données Python qui est traité comme du texte, même s'il contient un nombre. Les chaînes de caractères sont toujours encapsulées entre des guillemets simples `'c'est une chaîne'` ou des guillemets doubles `"c'est une chaîne"`.

In [None]:
'Ceci est une chaîne de caractères'

In [None]:
"Ceci est également une chaîne de caractères, même si elle contient un nombre comme 42"

In [None]:
Ceci n'est pas une string

In [12]:
string = "Arsène Lupin n'est pas un vrai méchant, il est même plutôt gentil"

type()

### f-String

Un type spécial de chaîne de caractères que nous allons utiliser dans ce cours s'appelle une *f-string*. Une f-string, abréviation de "formatted string literal", vous permet d'insérer une variable directement dans une chaîne de caractères. [Les f-strings ont été introduites avec la version 3.6 de Python](https://docs.python.org/3/whatsnew/3.6.html#new-features).

Une f-string doit commencer par un `f` en dehors des guillemets. Ensuite, à l'intérieur des guillemets, la variable insérée doit être placée entre des accolades `{}`.

In [13]:
print(f"Lupin est un gentil cambrioleur: \n\n'{string}'")

Lupin est un gentil cambrioleur: 

'Arsène Lupin n'est pas un vrai méchant, il est même plutôt gentil'


## Integers & Floats

Un *entier* et un *flottant* (abrégé en *nombre à virgule flottante* / nombre décimale) sont deux types de données Python pour représenter des nombres. Les entiers représentent des nombres entiers. Les flottants représentent des nombres avec des décimales. Ils n'ont pas besoin d'être placés entre guillemets.

In [4]:
type(40)

int

In [5]:
type(40.00004)

float

| Operation       | Explanation                                                                      |
|-----------------|-----------------------------------------------------------------------------|
| `x` + `y`           | sum of `x` and `y`                                                              |
| `x` - `y`           | difference of `x` and `y`                                                       |
| `x` * `y`           | product of `x` and `y`                                                          |
| `x` / `y`           | quotient of ``x`` and `y`                                                         |
| ``x`` // `y`          | floored quotient of `x` and
`y`                                                 |
| `x` % `y`           | remainder of `x` / `y`                                                          |
| -`x`              | `x` negated                                                                   |
| +`x`              | `x` unchanged                                                                 |
| `abs(x)`          | absolute value or magnitude of `x`                                         |
| `int(x)`          | `x` converted to integer                                                      |
| `float(x)`        | `x` converted to floating point                                               |
| `pow(x, y)`       | `x` to the power `y`                                                            |
| `x` ** `y`          | `x` to the power `y`                                                            |


### Multiplication

x, y, x*y

#### Exponents

#### Remainder

## Booleans

Booleans are "truth" values. They report on whether things in your Python universe are `True` or `False`. There are the only two options for a boolean: `True` or `False`. 

<div class="admonition pythonreview" name="html-admonition" style="background: lightgreen; padding: 10px">
<p class="title">Révision Python</p>
<p>Rappelez-vous la différence entre un signe égal simple `=` et un double signe égal `==` ?</p>
 
<ul>
<li>Un signe égal simple `=` est utilisé pour l'attribution de variables</li> 
<li>Un double signe égal `==` est utilisé comme opérateur d'égalité</li>
</div>

In [None]:
Lupin = 'serie netflix'

In [None]:
Lupin == 'serie netflix'

In [None]:
type(Lupin == 'serie netflix')

In [None]:
Lupin == "roman d'aventure"

## TypeError

Si vous n'utilisez pas le bon "type" de données pour une méthode ou une fonction particulière, vous obtiendrez une `TypeError` (erreur de type).

Voyons ce qui se passe si nous changeons le "type" de données de `nombre_de_mots_voulu` en une chaîne de caractères `"40"` au lieu d'un entier.

In [9]:
# Import des modules nécessaires
import re  # Module pour les expressions régulières
from collections import Counter  # Objet de comptage

# Fonction pour découper le texte en mots
def decouper_en_mots(un_morceau_de_texte):
    texte_minuscule = un_morceau_de_texte.lower()  # Convertir en minuscules
    mots_separes = re.split("\W+", texte_minuscule)  # Séparer les mots
    return mots_separes  # Retourner la liste de mots

# Chemin d'accès du texte
chemin_du_texte = "../data/txt/1907_Leblanc-Maurice_Arsene-Lupin-gentleman-cambrioleur.txt"

# Nombre de mots les plus fréquents à afficher
nombre_de_mots_voulu = '40'

# Liste des mots vides à exclure
mots_vides = ['je', 'tu', 'il', 'elle', 'on', 'nous', 'vous', 'ils', 'elles',
    'le', 'la', 'les', 'un', 'une', 'des', 'mon', 'ma', 'mes', 'ton', 'ta', 'tes',
    'son', 'sa', 'ses', 'notre', 'votre', 'leurs', 'de', 'du', 'l', 'à', 'au', 'aux', 'en', 'par', 'pour', 'avec',
    'sur', 'sous', 'dans', 'vers', 'contre', 'à travers', 'après', 'avant', 'pendant',
    'alors', 'quand', 'si', 'comme', 'parce que', 'parce', 'mais', 'ou', 'et', 'donc',
    'si', 'car', 'lorsque', 'puisque', 'qu', 'quel', 'quelle', 'quels', 'quelles',
    'ainsi', 'autant', 'autre', 'autres', 'celui', 'celle', 'ceux', 'celles',
    'chaque', 'ci', 'ça', 'cela', 'ce', 'ceci', 'celui-ci', 'celle-ci',
    'celui-là', 'celle-là', 'cent', 'certain', 'certaine', 'certaines', 'certains',
    'ceux-ci', 'ceux-là', 'chaque', 'combien', 'comme', 'd', 'dans', 'des', 'du', 'deux',
    'devant', 'donc', 'dont', 'duquel', 'elle', 'elles', 'en', 'encore', 'entre',
    'envers', 'est', 'et', 'eu', 'eux', 'fin', 'fut', 'hormis', 'hui', 'huit', 'ici',
    'il', 'ils', 'je', 'jusque', 'l', 'la', 'le', 'les', 'leur', 'leurs', 'lors',
    'lui', 'là', 'ma', 'mais', 'me', 'même', 'mes', 'moi', 'moins', 'mon', 'ne', 'ni',
    'nombreuses', 'nombreux', 'notre', 'nous', 'ou', 'où', 'par', 'parmi', 'pas',
    'peu', 'plus', 'plupart', 'pour', 'pourquoi', 'quand', 'que', 'quel', 'quelle',
    'quelles', 'quels', 'qui', 'quoi', 'sa', 'sans', 'se', 'sept', 'ses', 'si',
    'sien', 'soi', 'soit', 'son', 'sont', 'sous', 'soyez', 'sujet', 'sur', 'ta',
    'tandis', 'te', 'tel', 'telle', 'telles', 'tels', 'tes', 'toi', 'ton', 'tous',
    'tout', 'toute', 'toutes', 'un', 'une', 'va', 'vers', 'voici', 'voilà', 'vont',
    'votre', 'vous', 'vu', 'ça', 's', 'n', 'c', 'a', 'm', 'j', 'y', 't', 'ces', 
    'dit', 'cet', 'oui', 'non', 'était', 'est', 'être', 'été', 'ai', 'puis', 'avez', 
    'avait', 'avais', 'eût', 'très', 'cette', 'point', 'fois', 'fit', 'aussi', 'suis' 
]

# Lire le texte complet depuis le fichier
texte_complet = open(chemin_du_texte, encoding="utf-8").read()

# Découper le texte en mots
tous_les_mots = decouper_en_mots(texte_complet)

# Filtrer les mots significatifs en enlevant les mots vides
mots_significatifs = [mot for mot in tous_les_mots if mot not in mots_vides]

# Compter le nombre d'occurrences de chaque mot significatif
conteur_mots_significatifs = Counter(mots_significatifs)

# Extraire les mots les plus fréquents
mots_significatifs_frequents = conteur_mots_significatifs.most_common(nombre_de_mots_voulu)

# Afficher les mots les plus fréquents
print("Les", nombre_de_mots_voulu, "mots les plus fréquents sont :")
print(mots_significatifs_frequents)

TypeError: '>=' not supported between instances of 'str' and 'int'

### Conversion de type pour palier cela