# Analyse et visualisation de données avec Python
## Types de données et formats
Questions
* Quels sont les types de données dans un DataFrame?
* Pourquoi est-ce que le type de données est important?

Objectifs
* Connaître les deux principaux types de données dans Python : texte et numérique.
* Examiner les différents types dans un DataFrame.
* Modifier le format des valeurs dans un DataFrame.
* Décrire comment le type de données peut affecter les opérations.
* Convertir d'un type à l'autre.
* Gérer les valeurs nulles (NaN), les transformer.
* Écrire les données manipulées dans un fichier CSV.

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv("../data/surveys.csv")

## Types de données
### Vérifier le type de données pour chaque colonne

In [None]:
surveys_df['month'].dtype

In [None]:
surveys_df.dtypes

Types Python | Types Pandas | Description
:-----------:|:------------:|:-----------
`str`        | `object`    | Le type le plus générique, utilisé si une colonne a un mélange de types
`int`        | `int64`     | Entiers de 64 bits
`float`      | `float64`   | Valeurs numériques avec décimales, ou avec des NaN
 N/A         | `datetime64`| Valeurs de temps ou de dates

## Manipuler nos données

In [None]:
surveys_df['month'] = surveys_df['month'].astype('str')
surveys_df['month'].dtype

In [None]:
surveys_df['month'].describe()

In [None]:
surveys_df['year'].describe()

### Exercice - Modifier les types
Essayez de convertir la colonne `plot_id` au type Python `float`. Ensuite, essayez de convertir `weight` en entiers `int64`.

In [None]:
surveys_df['plot_id'].astype("float")

In [None]:
# Qu'arrive-t-il si on essaie de convertir les weight en int64?
surveys_df['weight'].astype('int64')

## Recréer des données manquantes

In [None]:
print(surveys_df['weight'].count(), surveys_df['weight'].mean())

In [None]:
df1 = surveys_df.copy()

In [None]:
# Pour une valeur moyenne stable
averageW = df1['weight'].mean()
df1['weight'] = df1['weight'].fillna(averageW)

In [None]:
print(df1['weight'].count(), df1['weight'].mean())

## Sauvegarder un DataFrame dans un fichier CSV

In [None]:
df_na = surveys_df.dropna()
df_na

In [None]:
df_na.to_csv('surveys_complete.csv', index=False)