# LECTURE LIGNE PAR LIGNE

Ce notebook a pour objectif d’introduire les principales méthodes pour lire et écrire des fichiers en Python, en mettant l’accent sur les formats les plus courants en sciences sociales :

- fichiers texte (.txt)
- tableaux de données (.csv, .xlsx) avec pandas
- données structurées au format JSON



Avant de lire ou écrire un fichier, il faut comprendre où il se trouve. On utilise la bibliotheque os presentée dans le notebook 1.

In [8]:
import os
os.listdir()

['4_Dictionaries.ipynb',
 '6_lire_ecrire_des_fichiers.ipynb',
 '.DS_Store',
 '7_pandas.ipynb',
 '3_Listes.ipynb',
 '5_boucles_conditions_list_comprehension.ipynb',
 '1-Intro2Jupyter.ipynb',
 'SlidesIntro.pdf',
 '2_Les_variables_en_Python.ipynb',
 'data',
 'SlidesS1.key',
 'sol_3_ex_dictionnaires_ex6.ipynb']

In [9]:
os.listdir('data') # liste les fichiers dans le dossier data. Le fichier que nous voulons lire s'y trouve!

['.DS_Store',
 'sim_tweets.json',
 'Python4SHS',
 'sim_tweets.csv',
 'sim_tweets.txt']

### LECTURE FICHIER TEXT

In [10]:
# defintion d'une variable avec le path relatif au script et le nom du fichier
infile = "data/sim_tweets.txt" 

In [11]:
# je vais lire le fichier ligne par ligne et enregistrer chaque ligne dans une liste

listOfLines = [] #creation d'une liste vide pour stocker les lignes du fichier


for line in open(infile):  # itération sur chaque ligne du fichier
    text=line.strip() #enleve les espaces superflus 
    text=text.lower() # je peux modifier le texte par exemple mettre le texte en minuscule
    listOfLines.append(text)  # ajout de la ligne à la liste 



In [13]:
listOfLines[:10]

["l'immigration est une richesse pour la société. #debatpublic",
 'un débat apaisé est nécessaire. #europe',
 'un débat apaisé est nécessaire. #immigration #accueil',
 'la diversité culturelle est un atout. #migration',
 "l'immigration manque de régulation. #europe #migration",
 'il faut mieux contrôler les frontières. #frontieres #migration',
 "les capacités d'accueil sont limitées. #debatpublic",
 "l'accueil des migrants est une responsabilité collective. #migration #accueil",
 'la diversité culturelle est un atout. #politiquemigratoire',
 "l'immigration est une richesse pour la société. #politiquemigratoire"]

On a vu comment ecrire un fichier de texte dans le notebook sur les listes.

### LECTURE FICHIER CSV

Pour travailler avec les tableau nous utilisons la bibliotheque Pandas (Notebook 7).

In [14]:
infile = "data/sim_tweets.csv"

Avant de lire un fichier csv avec Python, il est essentiel d’identifier le séparateur des colonnes.
Un séparateur (ou delimiter) est le caractère qui sépare les valeurs d’une ligne.

Les séparateurs les plus courants sont : 
- virgule ,
- point-virgule ; 
- tab \t


Pour le verifier j'ai 2 option:
- ouvrir le fichier avec un éditeur de texte (attention à la taille du fichier avant de l'ouvrir avec un éditeur)
- lire les premières lignes en Python

In [15]:
# ex: lire les premières lignes en Python
i=0
for line in open(infile):
    print(line.strip())
    i=i+1
    if i==5: #la boucle s'arrete après 5 lignes
        break
    

date,user,profil_user,nb_followers,contenu_tweet,nb_retweets
2024-01-13,user04,enseignant,2303,L'immigration est une richesse pour la société. #DebatPublic,62
2024-01-16,user02,etudiant,817,Un débat apaisé est nécessaire. #Europe,55
2025-01-01,user07,infirmiere,4514,Un débat apaisé est nécessaire. #Immigration #Accueil,107
2024-06-23,user14,patron_pme,2326,La diversité culturelle est un atout. #Migration,39


Le séparateur est une virgule.

In [16]:
# lecture d'un fichier CSV avec pandas
import pandas as pd

df = pd.read_csv(infile, sep=",") # spécifier le séparateur de colonnes qu'on avait vu dans le fichier

In [17]:
df.head(10) #premieres 10 lignes du tableau

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets
0,2024-01-13,user04,enseignant,2303,L'immigration est une richesse pour la société...,62
1,2024-01-16,user02,etudiant,817,Un débat apaisé est nécessaire. #Europe,55
2,2025-01-01,user07,infirmiere,4514,Un débat apaisé est nécessaire. #Immigration #...,107
3,2024-06-23,user14,patron_pme,2326,La diversité culturelle est un atout. #Migration,39
4,2024-02-19,user13,ouvrier,2990,L'immigration manque de régulation. #Europe #M...,88
5,2024-02-10,user13,ouvrier,4572,Il faut mieux contrôler les frontières. #Front...,75
6,2024-12-04,user02,etudiant,1916,Les capacités d'accueil sont limitées. #DebatP...,74
7,2024-08-20,user09,chercheur,3038,L'accueil des migrants est une responsabilité ...,41
8,2025-01-08,user18,cadre_prive,2055,La diversité culturelle est un atout. #Politiq...,41
9,2024-04-27,user02,etudiant,312,L'immigration est une richesse pour la société...,80


### ÉCRITURE FICHIER CSV

In [18]:
outfile = "data/opinions_migration_output.txt" #creation du nom du fichier de sortie
df.to_csv(outfile, sep="\t", index=False) #écriture du dataframe dans un fichier csv avec tab comme séparateur et sans index

### LECTURE FICHIER JSON -> SEQUENCE DE DICTIONNAIRES

In [22]:
infile='data/sim_tweets.json' # nom fichier au format ndjson

import json
with open(infile, "r", encoding="utf-8") as f:
    data = json.load(f)  # lit tout le contenu du fichier et le convertit en objets Python -> liste de dictionnaires
    

In [23]:
data[0]

{'date': '2024-01-13',
 'user': 'user04',
 'profil_user': 'enseignant',
 'nb_followers': 2303,
 'contenu_tweet': "L'immigration est une richesse pour la société. #DebatPublic",
 'nb_retweets': 62}