<a href="https://colab.research.google.com/github/lipug/datascience/blob/main/PY001_NFE_204_Pandas_pour_datascience.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pourquois Python et pandas?

Une des taches du datascientiste commence par la récuparation des données pertinante, puis éventuellement les stocké. 


Dans ce parcours d'apprentissage complémentaire, vous vous familiariserez avec Pandas et découvrirez les tenants et les aboutissants de la façon dont vous pouvez l'utiliser pour récupérer et analyser des données avec Python et ensuite les archiver.

Pandas change la donne pour la science des données et l'analyse, en particulier si vous êtes arrivé à Python parce que vous recherchiez quelque chose de plus puissant qu'Excel et VBA. Pandas utilise des structures de données rapides, flexibles et expressives conçues pour rendre le travail avec des données relationnelles ou étiquetées (NoSql) à la fois facile et intuitif.

Nous utiliserons Pandas comme pivot depuis et vers les BD Nosql: mongodeb, cassandra et elasticserch



SEANCE PY001: Vous disposez d'un vaste ensemble de données riche en informations intéressantes, mais vous ne savez pas par où commencer à l'explorer? Vous souhaitez générer des statistiques à partir de celui-ci, mais elles ne sont pas si faciles à extraire? Ce sont précisément les cas d'utilisation où Pandas et Python peuvent vous aider! Avec ces outils, vous serez en mesure de découper un vaste ensemble de données en parties gérables et de tirer un aperçu de ces informations.

Dans cette premières séance "Pandas", vous apprendrez à:

* Calculez des métriques sur vos données
* Effectuer des requêtes et des agrégations de base
* Découvrez et gérez les données incorrectes, les incohérences et les valeurs manquantes
* Visualisez vos données avec des tracés
* Vous découvrirez également les différences entre les principales structures de données utilisées par Pandas et Python. 

Pour suivre, vous pouvez obtenir tous les exemples de code de ce didacticiel sur le lien ci-dessous:

[Dans github](https://github.com/lipug/datascience)

# Un utilitaire pour lire des url (c'est du Python!)

In [1]:
import requests

download_url = "https://github.com/lipug/datascience/raw/main/packages/lire.py"
target_path = "lire.py"

response = requests.get(download_url)
response.raise_for_status()    # Verifier tout est ok
with open(target_path, "wb") as f:
    f.write(response.content)
print("C'est fait....")

C'est fait....


.... explications ...

# Montrons un avant goût des capacités des Pandas DataFrame.

In [7]:
l = ['https://github.com/fivethirtyeight/data/raw/master/nba-elo/nbaallelo.csv']

In [8]:
import lire

In [9]:
lire.read_from_url(l[0])

('https://github.com/fivethirtyeight/data/raw/master/nba-elo/nbaallelo.csv',
 'nbaallelo.csv')

In [10]:
import pandas as pd
nba = pd.read_csv("nbaallelo.csv")
type(nba)

pandas.core.frame.DataFrame

In [29]:
# ou directement
nba_f_url = pd.read_csv(l[0])
type(nba_f_url)

pandas.core.frame.DataFrame

In [None]:
# Avons nous lu la m^me chose?
nba == nba_f_url

On a suivi la convention d'importation de Pandas en Python avec l'alias pd. Ensuite, vous utilisez `.read_csv()` pour lire l'ensemble de données et le stocker en tant qu'objet DataFrame dans la variable nba.

Vous pouvez voir combien de données nba contient:

In [12]:
print(len(nba),nba.shape)

126314 (126314, 23)


Vous utilisez la fonction intégrée Python `len()` pour déterminer le nombre de lignes. Vous utilisez également l'attribut `.shape du DataFrame` pour voir sa dimensionnalité. Le résultat est un tuple contenant le nombre de lignes et de colonnes.

Vous savez maintenant qu'il y a 126 314 lignes et 23 colonnes dans votre ensemble de données. Mais comment être sûr que l'ensemble de données contient vraiment des statistiques de basket-ball? Vous pouvez jeter un œil aux cinq premières lignes avec `.head()`:

In [13]:
nba.head()

Unnamed: 0,gameorder,game_id,lg_id,_iscopy,year_id,date_game,seasongame,is_playoffs,team_id,fran_id,pts,elo_i,elo_n,win_equiv,opp_id,opp_fran,opp_pts,opp_elo_i,opp_elo_n,game_location,game_result,forecast,notes
0,1,194611010TRH,NBA,0,1947,11/1/1946,1,0,TRH,Huskies,66,1300.0,1293.2767,40.29483,NYK,Knicks,68,1300.0,1306.7233,H,L,0.640065,
1,1,194611010TRH,NBA,1,1947,11/1/1946,1,0,NYK,Knicks,68,1300.0,1306.7233,41.70517,TRH,Huskies,66,1300.0,1293.2767,A,W,0.359935,
2,2,194611020CHS,NBA,0,1947,11/2/1946,1,0,CHS,Stags,63,1300.0,1309.6521,42.012257,NYK,Knicks,47,1306.7233,1297.0712,H,W,0.631101,
3,2,194611020CHS,NBA,1,1947,11/2/1946,2,0,NYK,Knicks,47,1306.7233,1297.0712,40.692783,CHS,Stags,63,1300.0,1309.6521,A,L,0.368899,
4,3,194611020DTF,NBA,0,1947,11/2/1946,1,0,DTF,Falcons,33,1300.0,1279.6189,38.864048,WSC,Capitols,50,1300.0,1320.3811,H,L,0.640065,


Bien qu'il soit pratique de voir toutes les colonnes, vous n'aurez probablement pas besoin de six décimales! Changez-le en deux:

In [15]:
pd.set_option("display.precision", 2)

Pour vérifier que vous avez correctement modifié les options, vous pouvez exécuter à nouveau .head () ou afficher les cinq dernières lignes avec .tail () à la place:

In [16]:
nba.tail()

Unnamed: 0,gameorder,game_id,lg_id,_iscopy,year_id,date_game,seasongame,is_playoffs,team_id,fran_id,pts,elo_i,elo_n,win_equiv,opp_id,opp_fran,opp_pts,opp_elo_i,opp_elo_n,game_location,game_result,forecast,notes
126309,63155,201506110CLE,NBA,0,2015,6/11/2015,100,1,CLE,Cavaliers,82,1723.41,1704.39,60.31,GSW,Warriors,103,1790.96,1809.98,H,L,0.55,
126310,63156,201506140GSW,NBA,0,2015,6/14/2015,102,1,GSW,Warriors,104,1809.98,1813.63,68.01,CLE,Cavaliers,91,1704.39,1700.74,H,W,0.77,
126311,63156,201506140GSW,NBA,1,2015,6/14/2015,101,1,CLE,Cavaliers,91,1704.39,1700.74,60.01,GSW,Warriors,104,1809.98,1813.63,A,L,0.23,
126312,63157,201506170CLE,NBA,0,2015,6/16/2015,102,1,CLE,Cavaliers,97,1700.74,1692.09,59.29,GSW,Warriors,105,1813.63,1822.29,H,L,0.48,
126313,63157,201506170CLE,NBA,1,2015,6/16/2015,103,1,GSW,Warriors,105,1813.63,1822.29,68.52,CLE,Cavaliers,97,1700.74,1692.09,A,W,0.52,


Vous pouvez découvrir d'autres possibilités de .head () et .tail () avec un petit exercice. Pouvez-vous imprimer les trois dernières lignes de votre DataFrame? Développez le bloc de code ci-dessous pour voir la solution:

In [None]:
# completer
nba.

Semblable à la bibliothèque standard Python, les fonctions de Pandas sont également fournies avec plusieurs paramètres facultatifs. Chaque fois que vous tombez sur un exemple qui semble pertinent mais qui est légèrement différent de votre cas d'utilisation, consultez la [documentation officielle](https://pandas.pydata.org/pandas-docs/stable/). Il y a de bonnes chances que vous trouviez une solution en modifiant certains paramètres facultatifs!

# Apprendre à connaître vos données

Vous avez importé un fichier CSV avec la bibliothèque Pandas Python et jeté un premier coup d'œil au contenu de votre ensemble de données. Jusqu'à présent, vous n'avez vu que la taille de votre ensemble de données et ses premières et dernières lignes. Vous devez apprendre à examiner vos données de manière plus systématique.

## Affichage des types de données
La première étape pour connaître vos données consiste à découvrir les différents types de données qu'elles contiennent. Bien que vous puissiez mettre n'importe quoi dans une liste, les colonnes d'un DataFrame contiennent des valeurs d'un type de données spécifique. Lorsque vous comparez les structures de données Pandas et Python, vous verrez que ce comportement rend les Pandas beaucoup plus rapides!

Vous pouvez afficher toutes les colonnes et leurs types de données avec .info ():

In [17]:
nba.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126314 entries, 0 to 126313
Data columns (total 23 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   gameorder      126314 non-null  int64  
 1   game_id        126314 non-null  object 
 2   lg_id          126314 non-null  object 
 3   _iscopy        126314 non-null  int64  
 4   year_id        126314 non-null  int64  
 5   date_game      126314 non-null  object 
 6   seasongame     126314 non-null  int64  
 7   is_playoffs    126314 non-null  int64  
 8   team_id        126314 non-null  object 
 9   fran_id        126314 non-null  object 
 10  pts            126314 non-null  int64  
 11  elo_i          126314 non-null  float64
 12  elo_n          126314 non-null  float64
 13  win_equiv      126314 non-null  float64
 14  opp_id         126314 non-null  object 
 15  opp_fran       126314 non-null  object 
 16  opp_pts        126314 non-null  int64  
 17  opp_elo_i      126314 non-nul

Pour plus d'informations, consultez [le guide de démarrage officiel](https://pandas.pydata.org/pandas-docs/stable/getting_started/).

## Affichage des statistiques de base
Maintenant que vous avez vu quels types de données se trouvent dans votre ensemble de données, il est temps d'avoir un aperçu des valeurs que contient chaque colonne. Vous pouvez le faire avec `.describe()`:

In [18]:
nba.describe()

Unnamed: 0,gameorder,_iscopy,year_id,seasongame,is_playoffs,pts,elo_i,elo_n,win_equiv,opp_pts,opp_elo_i,opp_elo_n,forecast
count,126314.0,126314.0,126314.0,126314.0,126314.0,126314.0,126314.0,126314.0,126314.0,126314.0,126314.0,126314.0,126314.0
mean,31579.0,0.5,1988.2,43.53,0.06,102.73,1495.24,1495.24,41.71,102.73,1495.24,1495.24,0.5
std,18231.93,0.5,17.58,25.38,0.24,14.81,112.14,112.46,10.63,14.81,112.14,112.46,0.22
min,1.0,0.0,1947.0,1.0,0.0,0.0,1091.64,1085.77,10.15,0.0,1091.64,1085.77,0.02
25%,15790.0,0.0,1975.0,22.0,0.0,93.0,1417.24,1416.99,34.1,93.0,1417.24,1416.99,0.33
50%,31579.0,0.5,1990.0,43.0,0.0,103.0,1500.95,1500.95,42.11,103.0,1500.95,1500.95,0.5
75%,47368.0,1.0,2003.0,65.0,0.0,112.0,1576.06,1576.29,49.64,112.0,1576.06,1576.29,0.67
max,63157.0,1.0,2015.0,108.0,1.0,186.0,1853.1,1853.1,71.11,186.0,1853.1,1853.1,0.98


.describe () analyse uniquement les colonnes numériques par défaut, mais vous pouvez fournir d'autres types de données si vous utilisez le paramètre include:



In [19]:
import numpy as np
nba.describe(include=np.object)

Unnamed: 0,game_id,lg_id,date_game,team_id,fran_id,opp_id,opp_fran,game_location,game_result,notes
count,126314,126314,126314,126314,126314,126314,126314,126314,126314,5424
unique,63157,2,12426,104,53,104,53,3,2,231
top,197311220VIR,NBA,4/13/2011,BOS,Lakers,BOS,Lakers,H,L,at New York NY
freq,2,118016,30,5997,6024,5997,6024,63138,63157,440


Jetez un œil aux colonnes team_id et fran_id. Votre ensemble de données contient 104 ID d'équipe différents, mais seulement 53 ID de franchise différents. De plus, l'ID d'équipe le plus fréquent est BOS, mais l'ID de franchise le plus fréquent est Lakers. Comment est-ce possible? Vous devrez explorer un peu plus votre ensemble de données pour répondre à cette question.

## Explorer votre ensemble de données
L'analyse exploratoire des données peut vous aider à répondre à des questions sur votre ensemble de données. Par exemple, vous pouvez examiner la fréquence à laquelle des valeurs spécifiques apparaissent dans une colonne:

In [20]:
nba["team_id"].value_counts()

BOS    5997
NYK    5769
LAL    5078
DET    4985
PHI    4533
       ... 
DTF      60
PIT      60
INJ      60
TRH      60
SDS      11
Name: team_id, Length: 104, dtype: int64

In [21]:
nba["fran_id"].value_counts()

Lakers          6024
Celtics         5997
Knicks          5769
Warriors        5657
Pistons         5650
Sixers          5644
Hawks           5572
Kings           5475
Wizards         4582
Spurs           4309
Bulls           4307
Pacers          4227
Thunder         4178
Rockets         4154
Nuggets         4120
Nets            4106
Suns            4080
Bucks           4034
Trailblazers    3870
Cavaliers       3810
Clippers        3733
Jazz            3555
Mavericks       3013
Heat            2371
Pelicans        2254
Magic           2207
Timberwolves    2131
Grizzlies       1657
Raptors         1634
Hornets          894
Colonels         846
Squires          799
Spirits          777
Stars            756
Sounds           697
Baltimore        467
Floridians       440
Condors          430
Capitols         291
Olympians        282
Sails            274
Stags            260
Bombers          249
Steamrollers     168
Packers           72
Redskins          65
Rebels            63
Denver       

Il semble qu'une équipe nommée "Lakers" ait joué 6024 matchs, mais seuls 5078 d'entre eux ont été joués par les Lakers de Los Angeles (LAL). Découvrez qui est l'autre équipe "Lakers":

In [22]:
nba.loc[nba["fran_id"] == "Lakers", "team_id"].value_counts()

LAL    5078
MNL     946
Name: team_id, dtype: int64

En effet, les Lakers de Minneapolis («MNL») ont disputé 946 matchs. Vous pouvez même savoir quand ils ont joué à ces jeux:

In [23]:
nba.loc[nba["team_id"] == "MNL", "date_game"].min()

'1/1/1949'

In [24]:
nba.loc[nba["team_id"] == "MNL", "date_game"].max()

'4/9/1959'

In [25]:
nba.loc[nba["team_id"] == "MNL", "date_game"].agg(("min", "max"))

min    1/1/1949
max    4/9/1959
Name: date_game, dtype: object

In [26]:
nba.loc[nba["team_id"] == "BOS", "date_game"].agg(("min", "max"))

min    1/1/1948
max    6/9/2012
Name: date_game, dtype: object

On dirait que les Lakers de Minneapolis ont joué entre les années 1949 et 1959. Cela explique pourquoi vous pourriez ne pas reconnaître cette équipe!

Vous avez également découvert pourquoi l'équipe des Boston Celtics «BOS» a joué le plus de matchs de l'ensemble de données. Analysons également un peu leur histoire. Découvrez combien de points les Celtics de Boston ont marqués au cours de tous les matchs contenus dans cet ensemble de données. Développez le bloc de code ci-dessous pour la solution:

In [27]:
nba.loc[nba["team_id"] == "BOS", "pts"].sum()

626484