# Opérations sur les données (en recherche et développement)

## Introduction 

Python permet de gérer différents formats de données à travers Numpy et Pandas. 

Dans ce qui suit, nous présentons quelques exemples d'application sur les données issus de chacune des modules.

## Opérations sur les données avec Numpy

Pour manipuler des données numériques, le module Numpy utilise des tableaux à N dimensions (ndarray). Un tableau ndarray permet de:

- décrire la collection d'objets du même type.
- faciliter l'accès aux éléments de la collection en utilisant un indice.
- instancier des objets de la classe ndarray


*** Question ***
Comment construire un tableau ndarray?

*** Réponse ***
La méthode la plus consiste à utiliser le constructeur de plus bas niveau ndarray.

In [1]:
# On charge le module numpy
import numpy as np

# On crée un tableau (une matrice)
t = np.array([[1, 2, 3], [4, 5, 6]])
print(type(t))

<class 'numpy.ndarray'>


In [2]:
print(t.shape)

(2, 3)


In [3]:
# Par défaut, on code sur 64 bits
t.dtype

dtype('int64')

In [4]:
# Si on veut coder sur 32 bits
t = np.array([[1, 2, 3], [4, 5, 6]], np.int32)
print(t.dtype)

int32


In [5]:
"""
Pour connaître toutes les méthodes opérant sur 
le tableau t, il suffit d'écrire 
dir(t)
"""

"\nPour connaître toutes les méthodes opérant sur \nle tableau t, il suffit d'écrire \ndir(t)\n"

- Notons bien que il en existe plusieurs méthodes et fonctions utilisées pour créer un tableau. Elles sont synthetisées sur ce lien https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.array-creation.html#routines-array-creation

In [6]:
# on initialise une matrice nulle
A = np.zeros((5,5))

# On veut connaitre la forme de cette matrice
print(A.shape)
print(type(A.shape))
# Attention A.shape est un tuple donc on peut 
# accéder à ces éléments

(5, 5)
<class 'tuple'>


In [7]:
# Pour changer la valeur d'un élément de A
A[0,2] = 1000.
print(A)

[[   0.    0. 1000.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]
 [   0.    0.    0.    0.    0.]]


In [8]:
# Pour remplir la diagonale de A par des
# valeurs aléatoires

for i in range(A.shape[0]):
    A[i,i] = np.random.rand()

print(A)

[[8.81073753e-01 0.00000000e+00 1.00000000e+03 0.00000000e+00
  0.00000000e+00]
 [0.00000000e+00 9.25936295e-01 0.00000000e+00 0.00000000e+00
  0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 4.59241871e-01 0.00000000e+00
  0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 1.00612844e-01
  0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  6.54886471e-01]]


In [9]:
# Remplir un tableau avec des complexes
t = np.array([1, 2, 3], dtype = complex) 
print(t)

[1.+0.j 2.+0.j 3.+0.j]


## Opérations sur les données avec Pandas

Le module Pandas gère les données avec des DataFrame, des Series et des Panels.

### Les Séries (Series)

Une série est un tableau étiqueté unidimensionnel capable de contenir des données de tout type (entier, chaîne, flottant, objets python, etc.). Les étiquettes d'axe sont collectivement appelées indice (index).

*** Comment créer une série à partir d'un tabelau numpy (ndarray) ? ***

*** Réponse ***

In [10]:
# On charge le module pandas
import pandas as pd


data = np.array(['bob','karim','chloe','david'])
s = pd.Series(data)
print(type(s))
print(s)



# Je vous laisse le plaisir
# de voir l'ensemble de méthodes
# opérant sur l'objet s

# dir(s)

<class 'pandas.core.series.Series'>
0      bob
1    karim
2    chloe
3    david
dtype: object


### DataFrame de Pandas

Un DataFrame (trame de données) est une structure de données bidimensionnelle, donc les données sont alignées de manière tabulaire en lignes et en colonnes.



In [11]:
# On charge le module pandas
import pandas as pd


data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rang1','rang2','rang3','rang4'])
print(df)

       Age   Name
rang1   28    Tom
rang2   34   Jack
rang3   29  Steve
rang4   42  Ricky
