# TP Pandas

<b>Pandas</b> est une <a href="/wiki/Biblioth%C3%A8que_logicielle" title="Bibliothèque logicielle">bibliothèque</a> écrite pour le langage de programmation <a href="/wiki/Python_(langage)" title="Python (langage)">Python</a> permettant la manipulation et l'<a href="/wiki/Analyse_des_donn%C3%A9es" title="Analyse des données">analyse des données</a>. Elle propose en particulier des <a href="/wiki/Structure_de_donn%C3%A9es" title="Structure de données">structures de données</a> et des opérations de manipulation de <a href="/wiki/Tableau_(structure_de_donn%C3%A9es)" title="Tableau (structure de données)">tableaux numériques</a> et de <a href="/wiki/S%C3%A9rie_temporelle" title="Série temporelle">séries temporelles</a>. 
</p><p>Pandas est un <a href="/wiki/Logiciel_libre" title="Logiciel libre">logiciel libre</a> sous <a href="/wiki/Licence_BSD" title="Licence BSD">licence BSD</a><sup id="cite_ref-2" class="reference"><a href="#cite_note-2"><span class="cite_crochet">[</span>2<span class="cite_crochet">]</span></a></sup>. Son nom est dérivé du terme <i>Panel Data</i> (en français "<a href="/wiki/Donn%C3%A9es_de_panel" title="Données de panel">données de panel</a>", un terme d'<a href="/wiki/%C3%89conom%C3%A9trie" title="Économétrie">économétrie</a> pour les <a href="/wiki/Jeu_de_donn%C3%A9es" title="Jeu de données">jeux de données</a> qui comprennent des observations sur plusieurs périodes de temps pour les mêmes individus). Son nom est également un jeu de mots sur l'expression "Python Data Analysis".
</p><p>Entre 2007 à 2010, Wes McKinney a commencé à construire ce qui allait devenir Pandas alors qu'il était chercheur dans la société américaine AQR Capital.
</p>
<mw:tocplace></mw:tocplace>
<h2><span id="Structures_de_donn.C3.A9es"></span><span class="mw-headline" id="Structures_de_données">Structures de données</span></h2>
<p>Les principales structures de données gérées par cette bibliothèque sont&nbsp;:
</p>
<ul><li><a href="/wiki/S%C3%A9rie_(math%C3%A9matiques)" title="Série (mathématiques)">séries</a>&nbsp;: stockage des données selon une <a href="/wiki/Dimension" class="mw-disambig" title="Dimension">dimension</a> - grandeur en fonction d'un index</li>
<li>DataFrames&nbsp;: stockage des données selon 2 dimensions - lignes et colonnes</li>
<li>Panels&nbsp;: représentation des données selon 3 dimensions</li>
<li>Panels4D ou DataFrames avec des index hiérarchiques aussi nommés MultiIndex&nbsp;: représentation des données selon plus de 3 dimensions - <a href="/wiki/Hypercube" title="Hypercube">hypercube</a>.</li></ul>
<h2><span id="Fonctionnalit.C3.A9s_de_la_biblioth.C3.A8que"></span><span class="mw-headline" id="Fonctionnalités_de_la_bibliothèque">Fonctionnalités de la bibliothèque</span></h2>
<ul><li>l'objet DataFrame pour manipuler des données aisément et efficacement avec des index pouvant être des chaines de caractères&nbsp;;</li>
<li>des outils pour lire et écrire des données structurées en mémoire depuis et vers différents formats&nbsp;: <a href="/wiki/Comma-separated_values" title="Comma-separated values">fichiers CSV</a>, fichiers textuels, fichier du tableur <a href="/wiki/Microsoft_Excel" title="Microsoft Excel">Microsoft Excel</a>, <a href="/wiki/Base_de_donn%C3%A9es" title="Base de données">base de données</a> <a href="/wiki/SQL" class="mw-redirect" title="SQL">SQL</a> ou le format rapide et permettant de gérer de gros volume de données nommé <a href="/wiki/HDF5" class="mw-redirect" title="HDF5">HDF5</a>&nbsp;;</li>
<li>alignement intelligent des données et gestion des données manquantes (NaN = not a number). alignement des données basé sur des étiquettes (chaines de caractères). tri selon divers critères de données totalement désordonnées&nbsp;;</li>
<li>Redimensionnement et <a href="/wiki/Tableau_crois%C3%A9_dynamique" title="Tableau croisé dynamique">table pivot ou pivot table en anglais (aussi nommé tableau croisé dynamique)</a>&nbsp;;</li>
<li><a href="/wiki/Fusion_de_donn%C3%A9es" title="Fusion de données">Fusion</a> et <a href="/wiki/Jointure_(informatique)" title="Jointure (informatique)">jointure</a> de large volume de données</li>
<li>Analyse de séries temporelles</li></ul>
<p>Les voies critiques de la bibliothèque sont écrits en <a href="/wiki/Cython" title="Cython">Cython</a> ou <a href="/wiki/C_(langage)" title="C (langage)">C</a><sup id="cite_ref-3" class="reference"><a href="#cite_note-3"><span class="cite_crochet">[</span>3<span class="cite_crochet">]</span></a></sup>.
</p>
<br>Source : wikipedia

# 1 création de données

In [18]:
# import de librairies
import pandas as pd
import matplotlib.pyplot as plt

#Affichage avec la bibliothèque graphique intégrée à Notebook
%matplotlib inline

In [4]:
# Pandas permet de récupérer directement des données tabulaires en ligne, par exemple
url = 'http://bit.ly/uforeports'
df_ufo = pd.read_csv(url)            
df_ufo 

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00
...,...,...,...,...,...
18236,Grant Park,,TRIANGLE,IL,12/31/2000 23:00
18237,Spirit Lake,,DISK,IA,12/31/2000 23:00
18238,Eagle River,,,WI,12/31/2000 23:45
18239,Eagle River,RED,LIGHT,WI,12/31/2000 23:45


# 2 Transformations

In [9]:
# Convertissez la colonne Time au format datetime, afin que pandas puisse exploiter ces données comme une série temporelle
# renommez cette colonne Date et mettez cette colonne en index

In [13]:
df_ufo.index = pd.to_datetime(df_ufo.Time)

In [11]:
# Remplacez les valeurs NaN par des chaines vides

# 3 Analyse

In [17]:
# combien d'observations ont été faites en 2000 ? en 1969 ? (on peut utiliser les fonctions de datetime : df_ufo.index.year)

In [23]:
# quels sont les mois ou il y a le plus d'observations ? Pouvez-vous expliquer le résultat ?

# 4 Visualisation

In [None]:
# Tracez la courbe du nombre d'observations par année