# Introduction à la manipulation des données avec pandas en Python

## Python pour la manipulation des données

`Python` n'est pas à proprement parler un langage de programmation ou un logiciel pour la manipulation des données, comme peuvent l'être par exemple le langage de programmation `R`, les logiciels commerciaux `SPSS` (IBM), `SAS` (SAS) ou encore `Excel` (Microsoft) qui ont su dominer le marché des plateformes statistiques via leur lien natif avec les systèmes de gestion de base de données.

Néanmoins, la langage `Python` de par sa versatilité et les très nombreux développements de sa communauté, a rapidement des capacités de traitement et manipulation des données très évoluées. En 2008 est apparue la librairie [pandas](https://pandas.pydata.org/index.html) (Python for Data Analysis) permettant l'import, la lecture, le traitement de données souvent volumineuses ainsi que la connection des serveurs SQL. La librairie `pandas` s'est rapidement installée dans le paysage de la data science et bien que n'ayant peu de fonctions de modélisation statistique ou de machine learning, de nombreux projets de machine learning vont utiliser `pandas` comme pré-traitement des données.

## Résumé

On commence par l'import du module `pandas` (directement installé avec les versions récentes de la distribution Anaconda sinon `pip install pandas`)

In [1]:
import pandas as pd

Pour connaître toutes les méthodes et attributs d'un module (un module est un objet en `Python`), on peut utiliser la commande `dir`

In [2]:
dir(pd)

['Categorical',
 'CategoricalDtype',
 'CategoricalIndex',
 'DataFrame',
 'DateOffset',
 'DatetimeIndex',
 'DatetimeTZDtype',
 'ExcelFile',
 'ExcelWriter',
 'Float64Index',
 'Grouper',
 'HDFStore',
 'Index',
 'IndexSlice',
 'Int16Dtype',
 'Int32Dtype',
 'Int64Dtype',
 'Int64Index',
 'Int8Dtype',
 'Interval',
 'IntervalDtype',
 'IntervalIndex',
 'MultiIndex',
 'NaT',
 'Panel',
 'Period',
 'PeriodDtype',
 'PeriodIndex',
 'RangeIndex',
 'Series',
 'SparseArray',
 'SparseDataFrame',
 'SparseDtype',
 'SparseSeries',
 'TimeGrouper',
 'Timedelta',
 'TimedeltaIndex',
 'Timestamp',
 'UInt16Dtype',
 'UInt32Dtype',
 'UInt64Dtype',
 'UInt64Index',
 'UInt8Dtype',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__docformat__',
 '__file__',
 '__git_version__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_hashtable',
 '_lib',
 '_libs',
 '_np_version_under1p13',
 '_np_version_under1p14',
 '_np_version_under1p15',
 '_np_version_under1p16',
 '_np_version_under1p17

Il y a énormément de méthodes, le but de cette formation n'est pas de tout décrire. Néanmoins pour donner une idée de la versatilité de `pandas`, on va afficher toutes les méthodes qui commencent par `read`

In [3]:
[method for method in dir(pd) if method.startswith('read')]

['read_clipboard',
 'read_csv',
 'read_excel',
 'read_feather',
 'read_fwf',
 'read_gbq',
 'read_hdf',
 'read_html',
 'read_json',
 'read_msgpack',
 'read_parquet',
 'read_pickle',
 'read_sas',
 'read_sql',
 'read_sql_query',
 'read_sql_table',
 'read_stata',
 'read_table']

Ainsi on peut importer des données de formats très différents : `csv`, `excel`, `html`, `sas` et autres