# 3. Manipuler les colonnes

## Manipuler des colonnes
```python
# Renomme les colonnes
df.columns = ['nouv_nom_col_A', 'nouv_nom_col_B']

# Modifie l'ordre des colonnes, permet aussi d'en supprimer
df = df[['nom_colonne_B', 'nom_colonne_A', 'nom_colonne_C']]

# Retourne un dataframe sans la colonne indiquée
df.drop('nom_colonne', axis=1)

# Fonctionne aussi avec une liste
df.drop(['nom_colonne_A', 'nom_colonne_B'] axis=1)
```

## Créer des colonnes
```python
# Crée une colonne avec la valeur donnée pour chaque ligne
df['nouv_colonn'] = valeur

# Remplit la colonne avec les valeurs de la liste, mais il faut qu'il y en ait le même nombre que de lignes
df['nouv_colonn'] = [val_1, val_2, val_3] 

# Concatène les valeurs des deux colonnes dans une nouvelles (si ce sont des caractères)
df['nouv_colonn'] = df['nom_col_A'] + df['nom_col_B']
```

## Modifier le type de donnée d'une colonne
```python
# Retourne le type d'une colonne
df['Creation Date'].dtype

# Modifie le type d'une colonne en date
df['Col_Date'] = dg['Col_Date'].astype(np.datetime64)

# Modifie le type d'une colonne en date
df['Col_Date'] = pd.to_datetime(dg['Col_Date']) 
```

## Dessiner un diagramme en secteurs
```python
# Dessine le diagramme
plt.pie(x=liste_des_valeurs, labels=liste_etiquettes_des_valeurs, autopct='%.1f%%')

# Ajoute un titre au diagramme
plt.title('Titre', fontsize=16)
```

In [None]:
# Importer les bibliothèques essentielles
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Afficher toutes les colonnes
pd.set_option('display.max_columns', None)

In [None]:
# Chargement des données
df = pd.read_csv('Data/items_reduced.csv', dtype=str)

In [None]:
# Affichage des dix premières lignes
df.head(10)

## Réordonner et renommer les colonnes

In [None]:
df.columns

In [None]:
# Réordonner les colonnes
dg = df[['Title', 'Permanent Location', 'Call Number',
       'Barcode', 'Material Type']].copy()

In [None]:
dg.columns

In [None]:
# Renommer les colonnes
dg.columns = ['Titre', 'Emplacement', 'Cote', 'Code-barres', 'Type de ressource']
dg.head()

## Créer une nouvelle colonne

In [None]:
# Créer une nouvelle colonne avec le nombre d'exemplaire, ici 1 vu que chaque ligne représente un exemplaire
dg['Nb exemplaires'] = 1

In [None]:
# Créer une colonne à partir des données d'autres colonnes
# Exemple pour créer une colonne qui concatène la cote et l'emplacement
dg['Emplacement - cote'] = dg['Emplacement']
dg.head()

In [None]:
# Ajout de ' / ' à chaque valeur de la colonne
dg['Emplacement - cote'] += ' / '
dg.head()

In [None]:
# Ajout de la cote à la fin du champ
dg['Emplacement - cote'] += dg['Cote']
dg.head()

In [None]:
# Même opération en plus simple
dg['Emplacement / cote'] = dg['Emplacement'] + ' / ' + dg['Cote']
dg.head()

## Suppression d'une colonne

In [None]:
# La méthode "drop" permet de supprimer des lignes avec axis=0 et des colonnes avec axis=1
dg.drop('Emplacement - cote', axis=1)

In [None]:
# Cette expression produit le même résultat, mais est moins explicite
dg[['Titre', 'Emplacement', 'Cote', 'Code-barres', 'Type de ressource', 'Emplacement / cote']]

## Modification du type de données
En général, Pandas reconnaît bien les types de données, mais il arrive parfois qu'il soit nécessaire de les définir manuellement.

[https://pbpython.com/pandas_dtypes.html](https://pbpython.com/pandas_dtypes.html)

In [None]:
# Chargement des données
df = pd.read_csv('Data/items.csv', dtype=str)
df.columns

In [None]:
dg = df[['Barcode', 'Material Type', 'Creation Date']].copy()
dg.head()

In [None]:
# Le plus souvent le type 'O' signiifie en fait chaîne de caractères
dg['Creation Date'].dtype

In [None]:
# dg['Creation Date'] = dg['Creation Date'].astype(np.datetime64)
dg['Creation Date'] = pd.to_datetime(dg['Creation Date'])
dg['Creation Date'].dtype

In [None]:
# Création d'une colonne avec l'année de création
dg['Creation year'] = dg['Creation Date'].dt.year
dg.head()

In [None]:
# Sélection des exemplaires créés en 2021 uniquement
dh = dg.loc[dg['Creation Date'].dt.year==2021].copy()
dh.head()

In [None]:
# Nombre de nouvelles acquisitions par type de matériel en 2021
dh['Material Type'].value_counts()

In [None]:
# Définit une figure ainsi que sa taille
fig = plt.figure(figsize=(10, 6))
ax = sns.countplot(x=dh['Material Type'])

# Modifie l'orientation des étiquettes et ajuste l'alignement
plt.xticks(rotation=45, ha='right')

_ = plt.title('New items in 2021 by material type', pad=20, fontsize=16)

In [None]:
# Récupère en tant que série le décompte des valeurs
d_material_type = dh['Material Type'].value_counts()
print('Nb total: ', d_material_type.sum())
d_material_type

In [None]:
# Pour visualiser les données, les types trop rares ne sont pas pertinents et doivent être regroupés sous "Other"
d_material_type_summary = d_material_type.iloc[:5].copy()
d_material_type_summary['Other'] +=  d_material_type.iloc[5:].sum()
print('Nb total: ', d_material_type_summary.sum())
d_material_type_summary

# => Le nombre total est identique

In [None]:
# Création du diagramme en secteurs
fig = plt.figure(figsize=(8, 5))
plt.pie(x=d_material_type_summary, labels=d_material_type_summary.index, autopct='%.1f%%')
_ = plt.title('New items in 2021 by material type', fontsize=16)