# 1. La librairie Polars

Laura Darenne, laura.darenne@inalco.fr

## 1.1. Rappel sur la création d'un environnement

Pour créer un environnement python : `python -m venv env_name`.

Pour activer l'environnement : `source env_name/bin/activate`.

Pour afficher toutes les librairies et les dépendances téléchargées dans l'environnement : `pip freeze`.

Pour désactiver l'environnement : `deactivate`.

Pour supprimer un environnement : `rm -r env_name`.

## 1.2. Installation de la librairie polars

Pour installer la librairie polars : `pip install "polars[all]"`.

Pour importer la librairie : `import polars as pl`.

## 1.3. Rappel des différents types de fichiers

### CSV, *Comma-separated values*

Un fichier CSV est un fichier texte où les valeurs sont séparées par des virgules. Chaque ligne correspond à une information.

```csv
Nom,Âge,Ville
Alice,30,Paris
Bob,25,Lyon
```

### TSV, *Tab-separated values*

Un fichier TSV est similaire à un CSV, mais les valeurs sont séparées par des tabulations au lieu de virgules.

```tsv
Nom   Âge    Ville
Alice  30    Paris
Bob    25    Lyon
```

### JSON, *JavaScript Object Notation*

JSON est à l'origine un format de données textuel dérivé de la notation des objets du langage JavaScript. C'est un format léger d'échange de données, facile à lire et à écrire pour les humains, et facile à analyser et à générer pour les machines. Il est basé sur une collection de paires clé/valeur.

```json
[
  {"Nom": "Alice", "Âge": 30, "Ville": "Paris"},
  {"Nom": "Bob", "Âge": 25, "Ville": "Lyon"}
]
```

### JSONL, *JSON Lines*

JSONL est un format où chaque ligne est un objet JSON. C'est utile pour traiter des flux de données ou des fichiers volumineux.

```json
{"Nom": "Alice", "Âge": 30, "Ville": "Paris"}
{"Nom": "Bob", "Âge": 25, "Ville": "Lyon"}
```

## 1.4. Polars, Pandas et les dataframes

Les dataframes sont une structure de données utilisée pour organiser, manipuler et stocker des données de manière tabulaire, similaire à une feuille de calcul ou à une table dans une base de données relationnelle.

1. Un dataframe est composé de lignes et de colonnes corresondant à des *observations* et à des *séries*.
2. Les colonnes d'un dataframe peuvent contenir des types de données différents : des entiers, des flottants, des chaînes de caractères, etc.
3. Les dataframes offrent des méthodes intégrées pour filtrer, trier, agréger, fusionner et joindre des données, ce qui rend la manipulation des données plus intuitive et plus rapide.
4. Les dataframes sont compatibles avec de nombreux formats de données, y compris CSV, JSON, Excel, SQL, etc., ce qui facilite l'importation et l'exportation de données.
5. Les dataframes sont souvent utilisés dans l'analyse des données car ils permettent de calculer facilement des statistiques descriptives, de gérer les valeurs manquantes, et de visualiser les données.

## 1.5. Pourquoi utilisé cela plutôt que d'ouvrir le fichier avec la fonction `with open()` ?

Polars est codé en `Rust` et a été conçu pour simplifier la lecture, l'écriture et la manipulation des données (parfois en quantité importante). Polars exploite les calculs parallèles pour traiter rapidement de grandes quantités de données alors que `with open()` nécessite de parcourir les fichiers ligne par ligne ce qui est moins efficace pour les gros volumes de données.

Les dataframes permettent aussi tout une panoplie d'outils pour la manipulation des données : le filtrage, le tri, l'agrégation, et la transformation. Ils gèrent automatiquement les types de données (et leurs erreurs associées) alors que `with open()` nécessite une conversion manuelle des types de données à partir des chaînes de caractères lues. 

Les dataframes sont également compatibles avec de nombreux outils (comprendre librairies) d'analyse et de visualisation.

# 2. Et tout de suite le TP

In [23]:
import polars as pl

## 2.1. Créer un dataframe

In [24]:
# à partir d'un dictionnaire
tableau = {
    'A': [1, 2, 3], 
    'B': ['a', 'b', 'c'], 
    'C': [[1, 2], [3, 4], [5, 6]]
}
df = pl.DataFrame(tableau)
df

A,B,C
i64,str,list[i64]
1,"""a""","[1, 2]"
2,"""b""","[3, 4]"
3,"""c""","[5, 6]"


In [25]:
# à partir d'une liste de dictionnaire
tableau = [
    {'A': 1, 'B': 'a'}, 
    {'A': 2, 'B': 'b'},
    {'A': 3, 'B': 'c'}
]
df = pl.DataFrame(tableau)
df

A,B
i64,str
1,"""a"""
2,"""b"""
3,"""c"""


## 2.2. Découverte des données


2 fichiers CSV :
- comments.csv
- videos.csv


lien ici : https://filesender.renater.fr/?s=download&token=9cd2048f-28c3-47d4-9ba3-9b8194a1bbae/

Pour ouvrir un fichier avec Polars, vous pouvez vous référer à la documentation ici : https://docs.pola.rs/api/python/stable/reference/io.html

Un fichier CSV s'ouvre comme ceci :

In [26]:
df = pl.read_csv('videos.csv', separator=',')
df.head() # permet de n'observer que les 5 premières lignes

video_id,video_title,published_at,channel_id,view_count,like_count,comment_count,has_captions,category,tags
str,str,str,str,i64,i64,i64,bool,str,str
"""1_UCKSs88fw""","""ÉTAT DE LA FRANCE : CE MENSONG…","""2025-01-19T16:45:53Z""","""UC9hHeywcPBnLglqnQRaNShQ""",121721,11072,749,False,"""News & Politics""","""trump|macron|investiture|bayro…"
"""Hc9UD6iilNY""","""FRANCE : LA SITUATION POLITIQU…","""2024-12-22T16:30:04Z""","""UC9hHeywcPBnLglqnQRaNShQ""",68517,6937,566,False,"""News & Politics""","""macron|bayrou|1er ministre|que…"
"""-32lgROAmDQ""","""QUI VEUT LA PEAU DES AGRICULTE…","""2024-11-25T16:37:23Z""","""UC9hHeywcPBnLglqnQRaNShQ""",57009,6944,696,False,"""News & Politics""","""agriculteur|en colère|agricult…"
"""BI_fweGoRJU""","""TRUMP RÉÉLU : QUELLES IMPLICAT…","""2024-11-12T16:29:44Z""","""UC9hHeywcPBnLglqnQRaNShQ""",129165,11879,1327,False,"""News & Politics""","""trump|elon musk|tesla|starligh…"
"""D1pQ6c1T8X4""","""MOLDAVIE, GÉORGIE, BRICS : L'E…","""2024-10-31T16:37:10Z""","""UC9hHeywcPBnLglqnQRaNShQ""",166996,14032,1206,False,"""News & Politics""","""macron|barnier|économie|budget…"


#### Le fichier videos.csv

Le fichier *videos.csv* est composé des metadonnées de vidéos extraits de YouTube. Il est composé comme ceci.

|Variable|Description|Type|
|:-:|:-|:-:|
|*video_id*|identifiant unique donné par YouTube à la vidéo|String|
|*video_title*|titre de la vidéo|String|
|*published_at*|date et heure de publication à l'origine au format ISO 8601 mais transformé juste après au format Datetime|Datetime|
|*channel_id*|identifiant unique donné par YouTube à la chaîne|String|
|*view_count, like_count, comment_count*|nombre de vues, likes, commentaires de la vidéo|Int64|
|*has_captions*|Facteur à deux niveaux pour qualifier les résidents de Toronto (*Yes*) et les autres (*No*).|Bool|
|*category*|nom de la catégorie donné par le youtubeur|String|
|*tags*|liste de mots choisis par le youtubeur, s’il le souhaite, pour décrire la vidéo|String|

Le format de date ISO 8601 se compose comme ceci :
- `2024-07-16T16:07:10Z`
- `annee-mois-joursTheures:minutes:secondesZ`

`datetime` est un format python pour la manipulation des dates et des heures. 

In [27]:
df = df.with_columns(
    pl.col('published_at').str.to_datetime()
) 
df.head()

video_id,video_title,published_at,channel_id,view_count,like_count,comment_count,has_captions,category,tags
str,str,"datetime[μs, UTC]",str,i64,i64,i64,bool,str,str
"""1_UCKSs88fw""","""ÉTAT DE LA FRANCE : CE MENSONG…",2025-01-19 16:45:53 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",121721,11072,749,False,"""News & Politics""","""trump|macron|investiture|bayro…"
"""Hc9UD6iilNY""","""FRANCE : LA SITUATION POLITIQU…",2024-12-22 16:30:04 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",68517,6937,566,False,"""News & Politics""","""macron|bayrou|1er ministre|que…"
"""-32lgROAmDQ""","""QUI VEUT LA PEAU DES AGRICULTE…",2024-11-25 16:37:23 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",57009,6944,696,False,"""News & Politics""","""agriculteur|en colère|agricult…"
"""BI_fweGoRJU""","""TRUMP RÉÉLU : QUELLES IMPLICAT…",2024-11-12 16:29:44 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",129165,11879,1327,False,"""News & Politics""","""trump|elon musk|tesla|starligh…"
"""D1pQ6c1T8X4""","""MOLDAVIE, GÉORGIE, BRICS : L'E…",2024-10-31 16:37:10 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",166996,14032,1206,False,"""News & Politics""","""macron|barnier|économie|budget…"


## 2.3. Jouer avec les colonnes et les lignes

Vous pouvez aussi obtenir la liste des noms de colonnes :

In [28]:
df.columns

['video_id',
 'video_title',
 'published_at',
 'channel_id',
 'view_count',
 'like_count',
 'comment_count',
 'has_captions',
 'category',
 'tags']

In [29]:
type(df.columns)

list

La taille de votre dataframe :

In [30]:
df.shape

(370, 10)

In [31]:
type(df.shape)

tuple

Le nombre d'observations :

In [32]:
df.height

370

In [33]:
type(df.height)

int

Le nombre de séries :

In [34]:
df.width

10

Chaque série (colonne) peut être interrogée individuellement comme ceci :

In [35]:
df["video_id"]

video_id
str
"""1_UCKSs88fw"""
"""Hc9UD6iilNY"""
"""-32lgROAmDQ"""
"""BI_fweGoRJU"""
"""D1pQ6c1T8X4"""
…
"""vxZ6U0Njc6M"""
"""WPbT04SgpzY"""
"""e3MvTSKhcLA"""
"""PTM5AzmhmNk"""


La technique du slicing permet d'accéder à des observations :

In [36]:
df[8]

video_id,video_title,published_at,channel_id,view_count,like_count,comment_count,has_captions,category,tags
str,str,"datetime[μs, UTC]",str,i64,i64,i64,bool,str,str
"""8gR67m5pPak""","""DÉFICIT : C'EST PIRE QUE VOUS …",2024-09-29 16:04:15 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",323930,19829,2163,False,"""News & Politics""","""déficit|dette|taux|emprunt|tou…"


Vous pouvez aussi filtrer les observations :

In [37]:
df.filter(pl.col("has_captions") == True)

video_id,video_title,published_at,channel_id,view_count,like_count,comment_count,has_captions,category,tags
str,str,"datetime[μs, UTC]",str,i64,i64,i64,bool,str,str
"""YffVoIf7uBU""","""COMMENT MACRON A RÉUSSI SON CO…",2024-07-16 16:07:10 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",135723,11823,1678,true,"""News & Politics""","""macron|gouvernement|législativ…"
"""1Lkpj6wOr6I""","""NON, LE MARCHÉ UNIQUE EUROPÉEN…",2024-06-05 16:05:50 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",72275,8578,721,true,"""News & Politics""","""gabriel attal|jordan bardella|…"
"""zcv-SjUf58I""","""AGRICULTURE 🇫🇷 : L’IMPASSE MON…",2024-02-18 17:05:08 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",79845,7329,608,true,"""News & Politics""","""agriculteurs|agriculteur|bio|s…"
"""NbDjt8w7nzE""","""POUR EN FINIR AVEC LES ÉOLIENN…",2023-11-30 16:30:05 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",115914,7007,1122,true,"""News & Politics""","""macron|tatiana ventose|greta t…"
"""I9kNkrkuFBg""","""RELANCER UNE PRODUCTION NATION…",2023-08-31 15:30:09 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",17172,1035,61,true,"""News & Politics""","""Fil d'actu|tommy lasserre|jacq…"
…,…,…,…,…,…,…,…,…,…
"""LE2OH6Oa8ho""","""[Fil d'Actu #29] Violences pol…",2016-05-05 18:38:03 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",20507,870,85,true,"""Entertainment""","""violences policières|taranis|h…"
"""Vgk_VZ00T0o""","""[Fil d'Actu #28] Mc Donald's, …",2016-04-28 17:12:17 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",17654,677,55,true,"""Entertainment""","""Mc Do|Mc Donald's|McDonald|fas…"
"""zYks0I4d_oE""","""[Fil d'Actu #27] Secret des af…",2016-04-21 18:42:20 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",13836,756,38,true,"""Entertainment""","""Luxleaks|Panama Papers|Antoine…"
"""AOVf3s-c0fM""","""[Fil d'Actu spécial] Nuit Debo…",2016-04-13 11:48:10 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",22703,897,93,true,"""News & Politics""","""Nuit Debout"""


In [38]:
from datetime import datetime, timezone

In [39]:
df.filter(pl.col("published_at") > datetime(2023, 1, 2, tzinfo=timezone.utc))

video_id,video_title,published_at,channel_id,view_count,like_count,comment_count,has_captions,category,tags
str,str,"datetime[μs, UTC]",str,i64,i64,i64,bool,str,str
"""1_UCKSs88fw""","""ÉTAT DE LA FRANCE : CE MENSONG…",2025-01-19 16:45:53 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",121721,11072,749,false,"""News & Politics""","""trump|macron|investiture|bayro…"
"""Hc9UD6iilNY""","""FRANCE : LA SITUATION POLITIQU…",2024-12-22 16:30:04 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",68517,6937,566,false,"""News & Politics""","""macron|bayrou|1er ministre|que…"
"""-32lgROAmDQ""","""QUI VEUT LA PEAU DES AGRICULTE…",2024-11-25 16:37:23 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",57009,6944,696,false,"""News & Politics""","""agriculteur|en colère|agricult…"
"""BI_fweGoRJU""","""TRUMP RÉÉLU : QUELLES IMPLICAT…",2024-11-12 16:29:44 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",129165,11879,1327,false,"""News & Politics""","""trump|elon musk|tesla|starligh…"
"""D1pQ6c1T8X4""","""MOLDAVIE, GÉORGIE, BRICS : L'E…",2024-10-31 16:37:10 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",166996,14032,1206,false,"""News & Politics""","""macron|barnier|économie|budget…"
…,…,…,…,…,…,…,…,…,…
"""CEqfd2zDsxs""","""NON, MACRON NE « RÉINDUSTRIALI…",2023-07-31 15:30:05 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",236412,15120,2256,false,"""News & Politics""","""macron|réindustrialisation|tat…"
"""sJJY2e9qGoE""","""POUR EN FINIR AVEC LES ÉOLIENN…",2023-07-10 16:00:44 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",179898,10611,2078,false,"""News & Politics""","""jancovici|greta thunberg|solai…"
"""NQvh5_m7_-4""","""ÉCONOMIE : ILS NOUS MENTENT DE…",2023-04-14 16:00:22 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",328055,22271,3176,false,"""News & Politics""","""macron|retraite|pib|économie|f…"
"""NxXaMEQMwCQ""","""DÉFI AUX FACT-CHECKEURS""",2023-04-12 16:00:12 UTC,"""UC9hHeywcPBnLglqnQRaNShQ""",94824,11925,1370,false,"""News & Politics""","""fil d'actu|tatiana ventose|mac…"
