# <center> Gestion des fichiers csv </center>

In [1]:
import pandas as pd

## Création d'un fichier csv

### Avec un dataframe

In [None]:
# Exemple avec une seule colonne : les infos sont stockées dans une liste

df = pd.DataFrame(liste_isbn, columns = ['ISBN'])
    
df.to_csv('test.csv',sep=',', index='False')

df = pd.read_csv('test.csv', index_col=0)

#### Masquer colonne "Unnamed:0

In [None]:
df = pd.read_csv('isbn_dataframe.csv', index_col=0)

## Ajouter une colonne

In [None]:
# à partir d'une liste
df['nouveau_nom'] = liste

## Renommer les colonnes d'un df :

`df.columns = ["Auteur", "Titre", "Edition", "Date", "ISBN"]`

`df.to_csv("test.csv", index=False)`

## Supprimer des colonnes dans un csv/df :

Supprimer une seule colonne :
`df.drop('colonne', inplace=True, axis=1)`

Supprimer plusieurs colonnes :
`df.drop(['colonne1', 'colonne2'], inplace=True, axis=1)`

## Changer l'ordre des colonnes d'un df :

`df = df[['Auteur','Titre','Edition','Date','ISBN']]`

`df.to_csv("test.csv", index=False)`

---

## Supprimer les doublons d'un csv

In [4]:
df = pd.read_csv('data_ISBN.csv')
df.head(5)

Unnamed: 0,Auteur(s),Titre,Edition,Date,ISBN
0,Robert Goffin,Analyse microéconomique,Dalloz-Sirey,1993,9782247013838
1,,Livres hebdo,,1993,9782130447450
2,OECD,Global Forum On Transparency And Exchange Of I...,OECD Publishing,2015,9789264237650
3,Jean-Louis Laville,Les services de proximité en Europe - pour une...,Syros,1992,9782867387463
4,Marie-Luise Herschtel,L'économie de la Communauté européenne,Armand Colin,1993,9782200212773


In [None]:
# Suppression
df.drop_duplicates(subset=None, inplace=True)

# Sauvegarde
df.to_csv("isbn_df_tri.csv", index=False)

## Fusion de 2 dataframes = concaténation

In [61]:
# importing pandas
import pandas as pd
  
# merging two csv files
df = pd.concat(
    map(pd.read_csv, ['data1.csv', 'data2.csv']), ignore_index=True)

# Sauvegarde
df.to_csv("propre.csv", index=False)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 177 entries, 0 to 176
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Auteur(s)  169 non-null    object
 1   Titre      177 non-null    object
 2   Edition    110 non-null    object
 3   Date       177 non-null    int64 
 4   ISBN       177 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 7.0+ KB


In [52]:
# Suppression
df.drop_duplicates(subset=None, inplace=True)

# Sauvegarde
df.to_csv("test_data_propre.csv", index=False)

---

## Suppression d'une ligne en fonction de l'index 

`df.drop([7], axis=0, inplace=True)`

Nécessite une sauvegarde :
`df.to_csv("test_source.csv", index=False)`

## Suppression de plusieurs lignes en fonctions de l'index

In [None]:
df.drop([7, 8, 10, 34], axis=0, inplace=True)

Nécessite une sauvegarde : `df.to_csv("test_source.csv", index=False)`

---

## Remplacer une valeur par une autre

In [None]:
# replace
df['Auteur(s)'] = df['Auteur(s)'].str.replace("De ", "", regex=False)

# Sauvegarde du csv 
df.to_csv("nom.csv", index=False)

## Remplacer des valeurs par une autre

In [None]:
df['Auteur(s)'] = df['Auteur(s)'].replace(to_replace =["[none]", "[None]", "nones",], 
                            value ="None")

# Sauvegarde du csv 
df.to_csv("nom.csv", index=False)

---

## Détecter des valeurs nulles 

In [1]:
import pandas as pd 

df=pd.read_csv("bdd_26.csv")
df

Unnamed: 0,Auteur(s),Titre,Edition,Date,ISBN
0,Pierre Vidal-Naquet,Le choix de l'histoire - pourquoi et comment j...,Arléa,2007,9782869597624
1,Ian Kershaw,Choix fatidiques - dix décisions qui ont chang...,Seuil,2012,9782757829707
2,Jean-Claude Barreau,"Sans la nation, le chaos",Editions du Toucan,2012,9782810004676
3,François Bousquet,La Droite buissonnière,Rocher,2017,9782268089898
4,Pascal Picq,Il était une fois la paléoanthropologie - Quel...,Odile Jacob,2010,9782738124944
...,...,...,...,...,...
267,Henri Irénée Marrou,L'Eglise de l'Antiquité tardive (303-604),Seuil,1985,9782020087476
268,Henri Irénée Marrou,Décadence romaine ou Antiquité tardive ? (IIIe...,Seuil,1977,9782020047135
269,Aurélien Géron,Machine Learning avec Scikit-Learn - Mise en o...,Dunod,2019,9782100790654
270,Matt Harrison,Machine learning: les fondamentaux,First,2020,9782412056028


In [3]:
nan_auteur = pd.isnull(df['Auteur(s)'])

In [6]:
print(nan_auteur[nan_auteur==True])

Series([], Name: Auteur(s), dtype: bool)


---

## Changer la valeur d'une cellule

`df.loc[index, 'colonne']= nouvelle_valeur`

## Changer le type d'une colonne 

`df.Date = df.Date.astype(int)`

## Changer le type de plusieurs colonnes

`df = pd.read_csv("weather.tsv", sep="\t",  
                 dtype={'Day': str,'Wind':int64})
df.dtypes`

## Changer l'index d'un df

`df = df.set_index('nouvel_index')`

Ou :

`df = pd.read_csv('name.csv', index_col=0,)`

qui met la première colonne en index.

## Conversion d'une colonne en datetime

`df['colonne'] = pd.to_datetime(df['colonne'])`

## Récupérer des valeurs précises

`df.loc[df['colonne'] == value]`

`df.loc[df['colonne'].isin([value1, value2, value3, ...])]`

## Ouvrir un csv en timeseries

`df = pd.read_csv('nom.csv', index_col='Date', parse_dates=True)`