<img src = "images/3_logos.png" width = 600, align = "center">
<br>
<h1 align=center><font size = 5>Pandas jongle avec les données</font></h1>

Pandas dispose de nombreuses autres fonctionnaliées de traitement des données afin de faciliter le travail du Data Scientist.<br>

Jeux de données utilisés dans ce notebook : 
- Fulldatad.csv
- Marathon.txt
- titanic.xls

In [1]:
import pandas as pd
import numpy as np

# Quelque réglages
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 25)

## Données temporelles

La librairie `datetime` permet de manipuler le format des données temporelles j'usquà la nanoseconde.

In [2]:
from datetime import datetime

In [3]:
now = datetime.now()
now

datetime.datetime(2019, 1, 6, 13, 36, 0, 861289)

In [4]:
now.day

6

In [5]:
now.weekday()

6

D'autres objets, plus simples, permettent de gérer les dates et les heures séparément :

In [6]:
from datetime import date, time

In [7]:
time(13, 24)

datetime.time(13, 24)

In [8]:
d=date(2015, 9, 3)
d

datetime.date(2015, 9, 3)

In [9]:
d.strftime("%d/%m/%y")

'03/09/15'

Les opérations sur les dates sont facilitées :

In [10]:
age = now - datetime(1970, 9, 3)
age

datetime.timedelta(days=17657, seconds=48960, microseconds=861289)

In [11]:
age.days/365.

48.37534246575343

In [12]:
football = pd.read_csv("C:/Users/Dell/Desktop/td_python/data/fulldata.csv")
football.head()

                Name Nationality National_Position  National_Kit  \
0  Cristiano Ronaldo    Portugal                LS           7.0   
1       Lionel Messi   Argentina                RW          10.0   
2             Neymar      Brazil                LW          10.0   
3        Luis Suárez     Uruguay                LS           9.0   
4       Manuel Neuer     Germany                GK           1.0   

           Club Club_Position  Club_Kit Club_Joining  Contract_Expiry  Rating  \
0   Real Madrid            LW       7.0   07/01/2009           2021.0      94   
1  FC Barcelona            RW      10.0   07/01/2004           2018.0      93   
2  FC Barcelona            LW      11.0   07/01/2013           2021.0      92   
3  FC Barcelona            ST       9.0   07/11/2014           2021.0      92   
4     FC Bayern            GK       1.0   07/01/2011           2021.0      92   

      ...      Long_Shots Curve Freekick_Accuracy Penalties  Volleys  \
0     ...              90    81 

In [13]:
football.Club_Joining.dtype

dtype('O')

La première étape consiste à convertir les données temporelles au bon format.

Le package `dateutil` inclu un parser qui detecte le format dans les chaines de caractères et les converti automatiquement.

In [14]:
from dateutil.parser import parse

In [15]:
parse(football.Club_Joining.loc[0])

datetime.datetime(2009, 7, 1, 0, 0)

In [16]:
football.head()

                Name Nationality National_Position  National_Kit  \
0  Cristiano Ronaldo    Portugal                LS           7.0   
1       Lionel Messi   Argentina                RW          10.0   
2             Neymar      Brazil                LW          10.0   
3        Luis Suárez     Uruguay                LS           9.0   
4       Manuel Neuer     Germany                GK           1.0   

           Club Club_Position  Club_Kit Club_Joining  Contract_Expiry  Rating  \
0   Real Madrid            LW       7.0   07/01/2009           2021.0      94   
1  FC Barcelona            RW      10.0   07/01/2004           2018.0      93   
2  FC Barcelona            LW      11.0   07/01/2013           2021.0      92   
3  FC Barcelona            ST       9.0   07/11/2014           2021.0      92   
4     FC Bayern            GK       1.0   07/01/2011           2021.0      92   

      ...      Long_Shots Curve Freekick_Accuracy Penalties  Volleys  \
0     ...              90    81 

Pandas dispose de la méthode `to_datetime` qui parse and et converti une Series de chaines de caracrtères formatées en un format `datetime`.

In [17]:
pd.to_datetime(football.Club_Joining)

0       2009-07-01
1       2004-07-01
2       2013-07-01
3       2014-07-11
4       2011-07-01
5       2011-07-01
6       2014-07-01
7       2013-09-02
8       2016-07-01
9       2011-07-26
10      2011-07-14
11      2012-07-01
           ...    
17576   2015-05-05
17577   2014-09-01
17578   2016-09-21
17579   2016-08-30
17580   2016-12-02
17581   2015-06-30
17582   2016-01-01
17583   2016-02-01
17584   2016-01-01
17585   2015-03-03
17586   2016-03-02
17587   2014-01-30
Name: Club_Joining, Length: 17588, dtype: datetime64[ns]

Bien entendu pour les valeurs manquantes Pandas asignalera les cellules par `NaT`.

In [18]:
pd.to_datetime([None])

DatetimeIndex(['NaT'], dtype='datetime64[ns]', freq=None)

## Opérations sur les DataFrames

6 Opérations principales issues de SQL ou de Excel sont disponibles :<br>
- filter : on sélectionne un sous-ensemble de lignes qui vérifie une condition
- union : concaténation de deux jeux de données 
- sort : tri
- group by : grouper des lignes qui partagent une valeur commune
- join : fusionner deux jeux de données en associant les lignes qui partagent une valeur commune
- pivot : utiliser des valeurs présentes dans colonne comme noms de colonnes


Pour la suite de ce Notebook , nous alons utiliser les données contenues dans le fichier data/Marathon.txt.

In [19]:
data = pd.read_csv("C:/Users/Dell/Desktop/td_python/data/marathon.txt", sep="\t", names=["ville", "annee", "temps","secondes"])
print(data.columns)
print("villes",set(data.ville))
print("annee",list(set(data.annee)))

Index(['ville', 'annee', 'temps', 'secondes'], dtype='object')
villes {'CHICAGO', 'BERLIN', 'FUKUOKA', 'NEW YORK', 'AMSTERDAM', 'BOSTON', 'STOCKOLM', 'LONDON', 'PARIS'}
annee [1947, 1948, 1949, 1950, 1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011]


### Filtrage
De nombreuses opération de filtrage sont possibles dans Pandas : <br>
<ul><li><a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.filter.html">filter</a>,
<a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.mask.html">mask</a>,<a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.where.html">where</a></li>
<li><a class="reference external" href="http://stackoverflow.com/questions/11869910/pandas-filter-rows-of-dataframe-with-operator-chaining">pandas: filter rows of DataFrame with operator
chaining</a></li>
<li><a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/indexing.html">Indexing and Selecting
Data</a></li></ul>


In [20]:
m_71 = data[ data.annee == 1971 ]
m_71

        ville  annee     temps  secondes
112   FUKUOKA   1971  02:12:51      7971
204  NEW YORK   1971  02:22:54      8574
285    BOSTON   1971  02:18:45      8325

In [21]:
m_71_Bos = data [ (data.annee == 1971) &  (data.ville=='BOSTON')]
m_71_Bos.head()

      ville  annee     temps  secondes
285  BOSTON   1971  02:18:45      8325

Il est aussi possible d'utiliser la méthode `query`

In [22]:
m_71_Bos = data.query( '(annee == 1971) & (ville == "BOSTON")')
m_71_Bos

      ville  annee     temps  secondes
285  BOSTON   1971  02:18:45      8325

### Jointures
Pour plus d'infos : <br>
<ul>
<li><a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html">concat</a></li>
<li><a href="http://pandas.pydata.org/pandas-docs/stable/merging.html">Merge, join, and
concatenate</a></li>
</ul>

In [23]:
concat_ligne = pd.concat((data,data))
data.shape,concat_ligne.shape

((359, 4), (718, 4))

In [24]:
concat_col = pd.concat((data,data), axis=1)
data.shape,concat_col.shape

((359, 4), (359, 8))

### Sort : Le tri

In [25]:
tri = data.sort_values( ["annee", "ville"], ascending=[0,1])
tri.head()

        ville  annee     temps  secondes
35     BERLIN   2011  02:03:38      7418
325    BOSTON   2011  02:03:02      7382
202    LONDON   2011  02:04:40      7480
0       PARIS   2011  02:06:29      7589
276  STOCKOLM   2011  02:14:07      8047

### Group by

Cette opération consiste à grouper les lignes qui partagent une caractéristique commune 
<ul class="simple">
<li><a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html">groupby</a></li>
<li><a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sum.html">sum</a>,
<a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.cumsum.html">cumsum</a>,
<a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.mean.html">mean</a>,
<a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.count.html">count</a></li>
<li><a class="reference external" href="http://sql.sh/cours/group-by">SQL GROUP BY</a></li>
<li><a class="reference external" href="http://pandas.pydata.org/pandas-docs/dev/groupby.html">Group By:
split-apply-combine</a></li>
<li><a class="reference external" href="http://stackoverflow.com/questions/15322632/python-pandas-df-groupby-agg-column-reference-in-agg">group by
customisé</a></li>
<li><a class="reference external" href="http://stackoverflow.com/questions/32188867/fast-way-to-get-index-of-top-k-elements-of-every-column-in-a-pandas-dataframe">fast way to get index of top-k elements of every column in a pandas
dataframe</a></li>
</ul>

In [26]:
group = data.groupby('annee')
group

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x0000021A424242B0>

In [27]:
nb = group.count()
nb.sort_index(ascending=False).head()

       ville  temps  secondes
annee                        
2011       5      5         5
2010       9      9         9
2009       9      9         9
2008       9      9         9
2007       9      9         9

In [28]:
nb = group.sum()
nb.sort_index(ascending=False).head(5)

       secondes
annee          
2011      37916
2010      68673
2009      68873
2008      68932
2007      70076

In [29]:
nb = group.mean()
nb.sort_index(ascending=False).head()

          secondes
annee             
2011   7583.200000
2010   7630.333333
2009   7652.555556
2008   7659.111111
2007   7786.222222

Il est toujours possible d'aggréger les résultats avec une fonction personalisée :

In [30]:
def avg_entier(x):
    return int(x.mean())
nb = data[["annee","secondes"]].groupby("annee").agg(avg_entier).reset_index()
nb.head()

   annee  secondes
0   1947      9945
1   1948      9445
2   1949      9626
3   1950      9047
4   1951      9013

On veut extraire les deux meilleurs temps par ville :

In [31]:
series = data.groupby(["ville"]).apply(lambda r: r["secondes"].nsmallest(2))

In [32]:
indices = [t[1] for t in series.index]

In [33]:
data.loc[indices].head(10)

         ville  annee     temps  secondes
171  AMSTERDAM   2010  02:05:44      7544
170  AMSTERDAM   2009  02:06:18      7578
35      BERLIN   2011  02:03:38      7418
38      BERLIN   2008  02:03:59      7439
325     BOSTON   2011  02:03:02      7382
324     BOSTON   2010  02:05:52      7552
357    CHICAGO   2009  02:05:41      7541
347    CHICAGO   1999  02:05:42      7542
74     FUKUOKA   2009  02:05:18      7518
75     FUKUOKA   2008  02:06:10      7570

### join (merge ou fusion)
<p>Fusionner deux tables consiste à apparier les lignes de la première
table avec celle de la seconde si certaines colonnes de ces lignes
partagent les mêmes valeurs. On distingue quatre cas :</p>
<ul class="simple">
<li><code class="docutils literal"><span class="pre">INNER</span> <span class="pre">JOIN</span></code> - <strong>inner</strong> : on garde tous les appariements réussis</li>
<li><code class="docutils literal"><span class="pre">LEFT</span> <span class="pre">OUTER</span> <span class="pre">JOIN</span></code> - <strong>left</strong> : on garde tous les appariements
réussis et les lignes non appariées de la table de gauche</li>
<li><code class="docutils literal"><span class="pre">RIGHT</span> <span class="pre">OUTER</span> <span class="pre">JOIN</span></code> - <strong>right</strong> : on garde tous les appariements
réussis et les lignes non appariées de la table de droite</li>
<li><code class="docutils literal"><span class="pre">FULL</span> <span class="pre">OUTER</span> <span class="pre">JOIN</span></code> - <strong>outer</strong> : on garde tous les appariements
réussis et les lignes non appariées des deux tables</li>

On souhaite ajouter une colonne pays aux marathons se déroulant dans les villes suivantes.

In [34]:
new = [  {"V":'BOSTON', "C":"USA"},
            {"V":'NEW YORK', "C":"USA"},
            {"V":'BERLIN', "C":"Germany"},
            {"V":'LONDON', "C":"UK"},
            {"V":'PARIS', "C":"France"}]
pays = pd.DataFrame(new)
pays

         C         V
0      USA    BOSTON
1      USA  NEW YORK
2  Germany    BERLIN
3       UK    LONDON
4   France     PARIS

In [35]:
data_pays = data.merge(pays, left_on="ville", right_on="V")
pd.concat([data_pays.head(n=2),data_pays.tail()])

      ville  annee     temps  secondes       C       V
0     PARIS   2011  02:06:29      7589  France   PARIS
1     PARIS   2010  02:06:41      7601  France   PARIS
189  BOSTON   2007  02:14:13      8053     USA  BOSTON
190  BOSTON   2008  02:07:45      7665     USA  BOSTON
191  BOSTON   2009  02:08:42      7722     USA  BOSTON
192  BOSTON   2010  02:05:52      7552     USA  BOSTON
193  BOSTON   2011  02:03:02      7382     USA  BOSTON

### pivot (tableau croisé dynamique)

Cette opération consiste à créer une seconde table en utilisant utiliser les valeurs d’une colonne comme nom de colonnes.
<ul class="simple">
<li><a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pivot.html">pivot</a>,
<a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.tools.pivot.pivot_table.html">pivot_table</a></li>
<li><a class="reference external" href="http://pandas.pydata.org/pandas-docs/stable/reshaping.html">Reshaping and Pivot
Tables</a></li>
<li><a class="reference external" href="http://fr.wikipedia.org/wiki/Tableau_crois%C3%A9_dynamique">Tableau croisé dynamique -
wikipédia</a></li>
</ul>

In [36]:
piv = data.pivot("annee","ville","temps")
piv

ville AMSTERDAM    BERLIN    BOSTON   CHICAGO   FUKUOKA    LONDON  NEW YORK  \
annee                                                                         
1947        NaN       NaN       NaN       NaN  02:45:45       NaN       NaN   
1948        NaN       NaN       NaN       NaN  02:37:25       NaN       NaN   
1949        NaN       NaN       NaN       NaN  02:40:26       NaN       NaN   
1950        NaN       NaN       NaN       NaN  02:30:47       NaN       NaN   
1951        NaN       NaN       NaN       NaN  02:30:13       NaN       NaN   
1952        NaN       NaN       NaN       NaN  02:27:59       NaN       NaN   
1953        NaN       NaN       NaN       NaN  02:27:26       NaN       NaN   
1954        NaN       NaN       NaN       NaN  02:24:55       NaN       NaN   
1955        NaN       NaN       NaN       NaN  02:23:16       NaN       NaN   
1956        NaN       NaN       NaN       NaN  02:25:15       NaN       NaN   
1957        NaN       NaN       NaN       NaN  02:21

In [37]:
titanic = pd.read_excel("C:/Users/Dell/Desktop/td_python/data/titanic.xls")
titanic.head()

   pclass  survived                                             name     sex  \
0       1         1                    Allen, Miss. Elisabeth Walton  female   
1       1         1                   Allison, Master. Hudson Trevor    male   
2       1         0                     Allison, Miss. Helen Loraine  female   
3       1         0             Allison, Mr. Hudson Joshua Creighton    male   
4       1         0  Allison, Mrs. Hudson J C (Bessie Waldo Daniels)  female   

       age  sibsp  parch  ticket      fare    cabin embarked boat   body  \
0  29.0000      0      0   24160  211.3375       B5        S    2    NaN   
1   0.9167      1      2  113781  151.5500  C22 C26        S   11    NaN   
2   2.0000      1      2  113781  151.5500  C22 C26        S  NaN    NaN   
3  30.0000      1      2  113781  151.5500  C22 C26        S  NaN  135.0   
4  25.0000      1      2  113781  151.5500  C22 C26        S  NaN    NaN   

                         home.dest  
0                     St 

Femmes et enfants d'abord ?

1. Utiliser `groupby` pour calculer la proportion de survivants par sexe.
2. Calculer la même proportion, mais cette fois ci par class et sexe.
3. Créer une catégorie age : enfants (moins de 14 ans), adolescents (14-20), adultes (21-64), et senior(65+), puis calculer les proportions de survivants par age categorie, classe et sexe.

In [40]:
titanic.groupby('sex').survived.sum()

sex
female    339
male      161
Name: survived, dtype: int64

In [46]:
titanic.groupby(['sex','pclass']).survived.sum()

sex     pclass
female  1         139
        2          94
        3         106
male    1          61
        2          25
        3          75
Name: survived, dtype: int64

<hr>
Copyright &copy; 2018 Hatem & Driss @NEEDEMAND