# Présentation du Notebook
#### Ce notebook est un exemple de manipulation du corpus avec Pandas.

In [2]:
# On importe la bibliothèque
import pandas as pd

In [3]:
# Lecture du fichier TSV
df = pd.read_csv('../data/clean/donnees.tsv', sep='\t')

In [4]:
# Afficher les premières lignes du DataFrame
print(df.head())

                                                text language_code
0  เอนโทรปีของข้อมูล - วิกิพีเดียข้ามไปเนื้อหาเมน...            th
1                                          2491(ค.ศ.            th
2  1948) ชื่อA Mathematical Theory of Communicati...            th
3  }นั่นคือ เอนโทรปีของเหตุการณ์ x คือ ผลรวม (บนท...            th
4  }เมื่อ K เป็นค่าคงตัวใดๆ (และจะเห็นได้ว่ามันเป...            th


In [5]:
# Afficher les noms des colonnes
print(df.columns)

Index(['text', 'language_code'], dtype='object')


In [6]:
# Accéder à une colonne spécifique
print(df['language_code'])

0            th
1            th
2            th
3            th
4            th
         ...   
2588    sr-cyrl
2589    sr-cyrl
2590    sr-cyrl
2591    sr-cyrl
2592    sr-cyrl
Name: language_code, Length: 2593, dtype: object


In [9]:
# Filtrer les lignes en fonction d'une condition, ici la langue française
filtre_fr = df['language_code'] == 'fr'
# Appliquer le filtre pour sélectionner les lignes correspondantes
fr_df = df[filtre_fr]

In [11]:
fr_df

Unnamed: 0,text,language_code
900,Entropie de Shannon — WikipédiaAller au conten...,fr
901,Cette source peut être un texte écrit dans une...,fr
902,Elle a été introduite parClaude Shannon.Du poi...,fr
903,"Ainsi, si une source envoie toujours le même s...",fr
904,"En effet, un récepteur qui connaît seulement l...",fr
...,...,...
991,"(ISBN978-0-471-24195-9,lire en ligne)↑Les code...",fr
992,"Une phrase comme ""nous obtenons la série suiva...",fr
993,"De même, explique Brillouin, si on utilise d'a...",fr
994,Voyez lesconditions d’utilisationpour plus de ...,fr


In [12]:
print(fr_df['text'])

900    Entropie de Shannon — WikipédiaAller au conten...
901    Cette source peut être un texte écrit dans une...
902    Elle a été introduite parClaude Shannon.Du poi...
903    Ainsi, si une source envoie toujours le même s...
904    En effet, un récepteur qui connaît seulement l...
                             ...                        
991    (ISBN978-0-471-24195-9,lire en ligne)↑Les code...
992    Une phrase comme "nous obtenons la série suiva...
993    De même, explique Brillouin, si on utilise d'a...
994    Voyez lesconditions d’utilisationpour plus de ...
995    En cas de réutilisation des textes de cette pa...
Name: text, Length: 96, dtype: object


In [10]:
# Trier le DataFrame par une colonne spécifique, ici selon la langue et par ordre lexicographique du code des langues

# Par défaut, ascending=True
#df_trie = df.sort_values(by='language_code')
df_trie = df.sort_values(by='language_code', ascending=True)
#df_trie = df.sort_values(by='language_code', ascending=False)

df_trie

Unnamed: 0,text,language_code
2069,A Mathematical Theory of Communication.Bell Sy...,af
2073,Sien dieAlgemene Voorwaardesvir meer inligting...,af
2070,"(PDF, archived fromhere)Hierdie artikel is ’ns...",af
2071,Voel vry om Wikipedia te help deur dituit te b...,af
2059,Entropie (Inligtingsteorie) - WikipediaGaan na...,af
...,...,...
2017,"(PDF, archived fromhere（页面存档备份，存于互联网档案馆）)^Doug...",zh
2019,"第9章“熵及其妖”.The Information: A History, a Theory...",zh
2020,"高博 (翻译), 楼伟珊 (审校), 高学栋 (审校), 李松峰 (审校) 1.人民邮电出版社.",zh
2015,"(PDF, archived fromhere（页面存档备份，存于互联网档案馆）)^Shan...",zh


In [10]:
# Ajouter une nouvelle colonne calculée, ici comme le contenu est de type chaine de caractères, on va concaténer les contenus des colonnes 1 et 2 pour 
df['nom_nouvelle_colonne'] = df['language_code'] + df['text']
print(df['nom_nouvelle_colonne'])

0       thเอนโทรปีของข้อมูล - วิกิพีเดียข้ามไปเนื้อหาเ...
1                                             th2491(ค.ศ.
2       th1948) ชื่อA Mathematical Theory of Communica...
3       th}นั่นคือ เอนโทรปีของเหตุการณ์ x คือ ผลรวม (บ...
4       th}เมื่อ K เป็นค่าคงตัวใดๆ (และจะเห็นได้ว่ามัน...
                              ...                        
2588    sr-cyrlSpringer.ISBN978-1556080104.Introductio...
2589    sr-cyrlOpen access.Description of information ...
2590    sr-cyrlInformation Theory for Intelligent Peop...
2591    sr-cyrlShort introduction to the axioms of inf...
2592    sr-cyrlПогледајтеуслове коришћењаза детаље.Пол...
Name: nom_nouvelle_colonne, Length: 2593, dtype: object


In [None]:
# Écrire le DataFrame dans un nouveau fichier TSV
#df.to_csv('nouveau_fichier.tsv', sep='\t', index=False)