Sur ce module, nous examinons les moyens de lire et d'analyser les données dans les fichiers.

## 02_01 Lire fichier texte

Python prend en charge un certain nombre de bibliothèques standard et personnalisées pour lire des fichiers de tous types dans des variables Python.

In [1]:
import os

#Lire les fichiers en utilisant une librairie standard de Python
with open(os.getcwd()+ "/Essentiel-Apache-Spark.txt", 'r') as fh:  
    filedata = fh.read()
    
#Afficher les 200 premiers caractères du fichier
print("Données lues à partir du fichier : ", filedata[0:200] )

Données lues à partir du fichier :  Si vous vous intÃ©ressez au big data, vous connaissez certainement Apache Spark. Savez-vous pourquoi Spark est le framework de prÃ©dilection pour le traitement de donnÃ©es massives ? Pourquoi est-il a


## 02_02 Lecture avec NLTK CorpusReader

Lire le même fichier texte à l'aide d'un CorpusReader

NLTK prend en charge plusieurs CorpusReaders selon le type de source de données. Détails disponibles sur http://www.nltk.org/howto/corpus.html


In [2]:
#installez nltk à partir de l'invite anaconda en utilisant "pip install nltk"
import nltk
#Télécharger le package punkt, utilisé une partie des autres commandes
nltk.download('punkt')

from nltk.corpus.reader.plaintext import PlaintextCorpusReader

#Lire le fichier dans un corpus. La même commande peut lire un répertoire entier
corpus=PlaintextCorpusReader(os.getcwd(),"Essentiel-Apache-Spark.txt")

#Afficher le contenu brut du corpus
print(corpus.raw())

Si vous vous intéressez au big data, vous connaissez certainement Apache Spark. Savez-vous pourquoi Spark est le framework de prédilection pour le traitement de données massives ? Pourquoi est-il autant apprécié notamment pour déployer les algorithmes de machine learning ? Découvrez ce cours sur Apache PySpark pour répondre à toutes vos questions. À travers de multiples exemples et mises en pratique, le professeur associé en technologies de l'information et techniques d'optimisation, vous donne toutes les clés pour analyser efficacement des données à grande échelle avec Apache Spark et Python.


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 02_03 Explorer le corpus

La bibliothèque de corpus prend en charge un certain nombre de fonctions pour extraire des mots, des paragraphes et des phrases du corpus

In [4]:
#Extraire les ID de fichiers du corpus
print("Fichier dans le corpus : ", corpus.fileids())

#Extract paragraphs from the corpus
paragraphs=corpus.paras()
print("\n Nombre total de paragraphs corpus : ", len(paragraphs))

#Extraire des phrases du corpus
sentences=corpus.sents()
print("\n Nombre totale de phrases dans ce corpus : ", len(sentences))
print("\n Première phrase : ", sentences[0])

#Extraire des mots du corpus
print("\n Mots dans le corpus : ",corpus.words() )

Fichier dans le corpus :  ['Essentiel-Apache-Spark.txt']

 Nombre total de paragraphs corpus :  1

 Nombre totale de phrases dans ce corpus :  5

 Première phrase :  ['Si', 'vous', 'vous', 'intéressez', 'au', 'big', 'data', ',', 'vous', 'connaissez', 'certainement', 'Apache', 'Spark', '.']

 Mots dans le corpus :  ['Si', 'vous', 'vous', 'intéressez', 'au', 'big', ...]


## 02_04 Analyser le corpus

La bibliothèque NLTK fournit un certain nombre de fonctions pour analyser les distributions et les agrégats des données du corpus.

In [5]:
#Trouver la distribution de fréquence des mots dans le corpus
course_freq_dist=nltk.FreqDist(corpus.words())

#Afficher les mots les plus couramment utilisés
print("Top 10 des mots du corpus : ", course_freq_dist.most_common(10))

#Trouver la distribution d'un mot spécifique
print("\n Distribution pour le mots \"Spark\" : ",course_freq_dist.get("Spark"))

Top 10 des mots du corpus :  [('vous', 5), ('de', 5), ('pour', 4), (',', 3), ('Apache', 3), ('Spark', 3), ('.', 3), ('le', 3), ('et', 3), ('-', 2)]

 Distribution pour le mots "Spark" :  3
