# 1. Chargement et sauvegarde des données

## Importation de base
```python
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
```

## Lecture des données
```python
df = pd.read_csv('items.csv')
df = pd.read_csv('items.csv', sep='\t') # Fichier séparé par des tabulations
df = pd.read_excel('items.xlsx')
df = pd.read_excel('items.xlsx', dtype=str) # Convertit toutes les colonnes en texte
```

## Ecriture des données
```python
df.to_csv('processed_items.csv', index=False)
df.to_csv('processed_items.csv', index=False, sep='\t')
df.to_excel('processed_items.xlsx')
```

## Explorer les données
```python
len(df) # Nombre de lignes
df.shape # Taille du dataframe
df.info() # Information sur chaque colonne
df.columns # Affiche les colonnes

# Affiche le nombre d'observations pour chaque valeur de la colonne
df['column_name'].value_counts() 
```

## Afficher les données
```python
df.head() # affiche les premières lignes, 5 par défaut
df.tail() # affiche les premières lignes, 5 par défaut
pd.set_option("display.max_columns", None) # Affiche toutes les colonnes
```

## Visualisations
```python
# Affiche un diagramme en colonnes avec le nombre d'observations de chaque donnée, version horizontale
sns.countplot(y=df['Permanent Location'])

# Affiche un diagramme en colonnes avec le nombre d'observations de chaque donnée, version verticale
sns.countplot(x=df['Permanent Location'])

# Définit la taille du graphique
plt.figure(figsize=(10, 6))

# pivote de 45° les étiquettes de l'axe des x et aligne vers la droite
plt.xticks(rotation=45, ha='right')

# Enregistre une image, définit la résolution, assure que l'image n'est pas coupée
fig.savefig('Resultat/permanent_locations.png', dpi=200, bbox_inches='tight')` 
```

In [None]:
# Bibliothèques utilisées
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

## CSV

In [None]:
# Chargement des données
df = pd.read_csv('Data/items.csv')

# Affichage des 10 première lignes
df.head(10)

In [None]:
# Afficher les colonnes
df.columns

In [None]:
# Option pour afficher toutes les colonnes
pd.set_option("display.max_columns", None)
df.head(3)

In [None]:
# Nombre de lignes
len(df)

In [None]:
# Forme du DataFrame
df.shape

In [None]:
# Informations générales
df.info()

In [None]:
df = pd.read_csv('Data/items.csv', dtype=str)
df.info()

In [None]:
df.head(3)

In [None]:
# Afficher les colonnes
df.columns

In [None]:
# Afficher une seule colonne
df['Permanent Location']

In [None]:
# Afficher les décomptes pour une colonnes
df['Permanent Location'].value_counts()

In [None]:
# Barres horizontales
sns.countplot(y=df['Permanent Location'])

In [None]:
# Barres verticales
sns.countplot(x=df['Permanent Location'])

In [None]:
# Définit une figure ainsi que sa taille
fig = plt.figure(figsize=(10, 6))
ax = sns.countplot(x=df['Permanent Location'])

# Modifie l'orientation des étiquettes et ajuste l'alignement
plt.xticks(rotation=45, ha='right')

_ = plt.title('Nb items by location', pad=20, fontsize=16)

In [None]:
# Enregistrement de l'image
fig.savefig('Resultat/permanent_locations_bad.png', dpi=200)

L'image est tronquée, cela se produit parfois quand on modifie des éléments qui les font sortir de la zone de l'image.
![Mauvaise image](Resultat/permanent_locations_bad.png "Nb items by location")

In [None]:
# Enregistrement de l'image
fig.savefig('Resultat/permanent_locations.png', dpi=200, bbox_inches='tight')

In [None]:
df.to_csv('Resultat/items_sample.csv', index=False)

### Inclure ou non l'index dans l'export
Il est souvent utile de ne pas inclure l'index quand on exporte les données vers CSV ou Excel. En effet, cela transforme l'index en première colonne et cela n'est pas toujours pertinent.