# Array Numpy classique (brut), Array Numpy structuré, Dataframe Pandas

| Action                                   | Array structuré NumPy         | Array brut NumPy            | DataFrame Pandas               |
|------------------------------------------|--------------------------------|------------------------------|--------------------------------|
| Stocker des données typées par colonne   | ✅ Oui (typage strict)          | ⚠️ Non (même type imposé)      | ✅ Oui (souple, typage par colonne) |
| Colonnes nommées                         | ✅ Oui                         | ❌ Non                       | ✅ Oui                         |
| Calculs vectorisés / matriciels          | ❌ Limité                      | ✅ Oui                       | ✅ Oui + gestion des NaN       |
| Calcul colonne par colonne               | 🔸 Possible mais manuel        | ✅ Simple                    | ✅ Ultra simple (nom de colonne) |
| Gestion des données manquantes (NaN)     | ❌ Non natif                   | ⚠️ Possible avec dtype=object | ✅ Oui, très bien intégré       |
| Fusion / Jointure                        | ❌ Non natif                   | ❌ Non                       | ✅ Puissant (merge, join, SQL-like)      |
| Facilité de manipulation (filtrage, tri) | ⚠️ Plus complexe               | ⚠️ Basique                   | ✅ Simple et clair             |
| Gestion des dimensions                   | ✅ 1D uniquement               | ✅ Multi-dimensionnel (nD)    | ✅ 2D (DataFrame) / 1D (Series) |


Le array strucuré de Numpy est un peu comme un dataframe de Pandas (avec des noms de colonnes, et simule le fait d'avoir des lignes et des colonnes). Davantage utile pour présenter des données. Il peremt de typer les colonnes.

Le array classique (brut) de Numpy est ce pour quoi Numpy est fait : ultraperformant, tous les calculs matriciels , produits, inverses... sont rapides et simples. Du point de vue des types de données, le array classique est fait d'éléments tous du même "type" : il accepte n'importe quoi, mais il va se typer lui-même en prenant le type de données qui englobe tout le monde. Si je mets dans un array des entier, des nombres décimaux et du texte, il va considérer chaque élément comme du texte. Les array/tableaux peuvent être à 1D, 2D ou beaucoup plus.

Le dataframe de Pandas est un tableau à deux dimensions, le truc qui ressemble le plus à une table dans SQL. Beaucoup de fonctionnalités de manipulation de données, mais moins performant que Numpy sur les calculs bruts sur des nombres stockés dans des array/tableaux. En fait, Pandas vit une "couche" au-dessus de Numpy. Il supporte des types mixtes. Les "tableaux" pandas peuvent être à 1D (series) ou à 2D (dataframe)

# Types de données : attention !!

 ⚠️ Attention aux types de données et à leur gestion différente ! On peut avoir des données tronquées, notamment pour les array classique/brut de Numpy.
 Il vaut donc mieux définir le type de données lors de la création du tableau, pour éviter de perdre de l'information. En Pandas, ce problème ne se pose pas. 



In [3]:
import numpy as np

array_entiers = np.array([[1, 2], [3, 4]])
print(array_entiers.dtype) # il va dire int32 ou int64 ; bref, il va prendre des entiers
print(array_entiers) # il va afficher le tableau avec des entiers

array_decimaux = np.array([[1, 2], [8., 4]])
print("\n",array_decimaux.dtype) # il va dire float64 car il voit 2.0 cad un float / nombre décimal, il va donc prendre ce type là comme étant le type de données de chaque élément.
print(array_decimaux) # il va afficher le tableau avec des float
#Le type de données des éléments du array sont fixés lors de la création. 
#Remarque : si on "modifie" le array avec column_stack ou np.hstack, en fait il crée un noubel array, donc il va s'ajuster à la nouvelle colonne.

#Par contre si on modifie la valeur d'un élément, il ne va pas changer le type de données du array.
array_entiers[0, 0] = 1.7 # on remplace le premier élément qui vaut 1 (entier) par un float (1.7)
print("\n",array_entiers.dtype) # il va dire int32 ou int64 ; bref, il va prendre des entiers, on PERD de l'information !
print(array_entiers) #  

# Il vaut donc mieux définir le type de données lors de la création du tableau, pour éviter de perdre de l'information.
#On peut le faire en précisant le type de données lors de la création du tableau avec l'argument dtype.     
array_decimaux = np.array([[1, 2.0], [3, 4]], dtype=np.float32) # on précise le type de données float32

import pandas as pd

df = pd.DataFrame([[1, 2], [3, 4]], columns=["A", "B"])
print("\n",df)

df[0,0] = 1.7 # on remplace le premier élément qui vaut 1 (entier) par un float (1.7)
print("\n",df) 

int32
[[1 2]
 [3 4]]

 float64
[[1. 2.]
 [8. 4.]]

 int32
[[1 2]
 [3 4]]

    A  B
0  1  2
1  3  4

    A  B  (0, 0)
0  1  2     1.7
1  3  4     1.7


## Lire des valeurs, lignes, colonnes, ... dans un array Numpy brut ou structuré, et dans un dataframe de Pandas

In [4]:
import numpy as np
import pandas as pd

In [5]:
Array_brut = np.array([
    [1, 'Alice', 'Math', 15.0],
    [2, 'Bob', 'Math', 18.0],
    [3, 'Alice', 'Phys', 14.0],
    [4, 'Eve', 'Math', np.nan]
], dtype=object)

print("Array brut :")
print(Array_brut)
print(type(Array_brut)) # type : <class 'numpy.ndarray'>
print(Array_brut.dtype) # dtype : object, car il y a des types différents dans le tableau (int, str, float, np.nan) 


dtype = [('id', 'i4'), ('nom', 'U10'), ('matière', 'U10'), ('note', 'f4')]
array_structuré  = np.array([
    (1, 'Alice', 'Math', 15.0),
    (2, 'Bob', 'Math', 18.0),
    (3, 'Alice', 'Phys', 14.0),
    (4, 'Eve', 'Math', np.nan)
], dtype=dtype)

print("\nArray structuré, c'est un élément à une dimension, attention ! On ne voit pas le nom des colonnes:")
print(array_structuré)
print(type(array_structuré)) # type : <class 'numpy.ndarray'>  
print(array_structuré.dtype) # dtype : [('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')]


df_pandas = pd.DataFrame(array_structuré)
print("\n",df_pandas)
print(type(df_pandas)) # type : <class 'pandas.core.frame.DataFrame'>
print(df_pandas.dtypes) # dtype : id int32, nom object, matière object, note float32

Array brut :
[[1 'Alice' 'Math' 15.0]
 [2 'Bob' 'Math' 18.0]
 [3 'Alice' 'Phys' 14.0]
 [4 'Eve' 'Math' nan]]
<class 'numpy.ndarray'>
object

Array structuré, c'est un élément à une dimension, attention ! On ne voit pas le nom des colonnes:
[(1, 'Alice', 'Math', 15.) (2, 'Bob', 'Math', 18.)
 (3, 'Alice', 'Phys', 14.) (4, 'Eve', 'Math', nan)]
<class 'numpy.ndarray'>
[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')]

    id    nom matière  note
0   1  Alice    Math  15.0
1   2    Bob    Math  18.0
2   3  Alice    Phys  14.0
3   4    Eve    Math   NaN
<class 'pandas.core.frame.DataFrame'>
id           int32
nom         object
matière     object
note       float32
dtype: object


In [6]:
Array_brut



array([[1, 'Alice', 'Math', 15.0],
       [2, 'Bob', 'Math', 18.0],
       [3, 'Alice', 'Phys', 14.0],
       [4, 'Eve', 'Math', nan]], dtype=object)

In [7]:
array_structuré

array([(1, 'Alice', 'Math', 15.), (2, 'Bob', 'Math', 18.),
       (3, 'Alice', 'Phys', 14.), (4, 'Eve', 'Math', nan)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

Notez que le array structuré est TOUJOURS à une dimension ! Il simule une table grâce à ses propriétés dtype et dtype.names

## Lire/sélectionner un élément précis

### Array Numpy classique / Brut

In [8]:
print("Array brut :")
print(Array_brut[2,3])

Array brut :
14.0


In [10]:
array_structuré

array([(1, 'Alice', 'Math', 15.), (2, 'Bob', 'Math', 18.),
       (3, 'Alice', 'Phys', 14.), (4, 'Eve', 'Math', nan)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

### Array Numpy Structuré



In [9]:
print("\nArray structuré :")
print(array_structuré[2][3]) # Affiche la note de Alice en Physique : la 4ème "colonne" (colonne 3 car on compte à partir de 0) de la 3ème "ligne" (ligne 2)
# Accéder à la note d'Alice en physique (filtres)
note_alice = array_structuré[(array_structuré['nom'] == 'Alice') & (array_structuré['matière'] == 'Phys') ]['note']
print("\nNote d'Alice :", note_alice)


Array structuré :
14.0

Note d'Alice : [14.]


### Dataframe Pandas

Pandas n’a pas de df[[ligne],[colonne]] comme NumPy.

Mais avec .iloc, tu peux faire la même chose avec des listes ou des slices (les deux points :) !

C’est ça qu’on appelle « indexation basée sur position » en Pandas.

In [40]:
# Filtrer Alice en Physique et lire la valeur de sa note
note_alice_phys = df_pandas[(df_pandas['nom'] == 'Alice') & (df_pandas['matière'] == 'Phys')]['note'].iloc[0]
print(df_pandas[(df_pandas['nom'] == 'Alice') & (df_pandas['matière'] == 'Phys')]['note'])

print("\nLe iloc va prendre la valeur de la note dans le tableau filtré. Ce dernier a un index 2 que je ne veux pas dans le réponse")
print("La note d'Alice en Physique est :", note_alice_phys)

print(df_pandas.iloc[2, 3]) # Affiche la note de Alice en Physique : la 4ème "colonne" (colonne 3 car on compte à partir de 0) de la 3ème "ligne" (ligne 2)



2    14.0
Name: note, dtype: float32

Le iloc va prendre la valeur de la note dans le tableau filtré. Ce dernier a un index 2 que je ne veux pas dans le réponse
La note d'Alice en Physique est : 14.0
14.0


In [41]:
# Filtrer Alice en Physique et lire la valeur de sa note
note_alice_phys = df_pandas[(df_pandas['nom'] == 'Alice') & (df_pandas['matière'] == 'Phys')]['note'].iloc[0]
print(df_pandas[(df_pandas['nom'] == 'Alice') & (df_pandas['matière'] == 'Phys')]['note'])

print("\nLe iloc va prendre la valeur de la note dans le tableau filtré. Ce dernier a un index 2 que je ne veux pas dans le réponse")
print("La note d'Alice en Physique est :", note_alice_phys)

print(df_pandas.iloc[2, 3]) # Affiche la note de Alice en Physique : la 4ème "colonne" (colonne 3 car on compte à partir de 0) de la 3ème "ligne" (ligne 2)

2    14.0
Name: note, dtype: float32

Le iloc va prendre la valeur de la note dans le tableau filtré. Ce dernier a un index 2 que je ne veux pas dans le réponse
La note d'Alice en Physique est : 14.0
14.0


In [42]:
print("Ligne 2, toutes les colonnes :")
print(df_pandas.iloc[2,:])  # ligne 2 (la 3ème), toutes les colonnes

print("Colonne 3, toutes les lignes :")
print(df_pandas.iloc[:,3])  # toutes les lignes, colonne 3 (la 4ème)

print(df_pandas['note'])

Ligne 2, toutes les colonnes :
id             3
nom        Alice
matière     Phys
note        14.0
Name: 2, dtype: object
Colonne 3, toutes les lignes :
0    15.0
1    18.0
2    14.0
3     NaN
Name: note, dtype: float32
0    15.0
1    18.0
2    14.0
3     NaN
Name: note, dtype: float32


## Lire un ligne/colonne précise. 


### Array Numpy classique / Brut

In [44]:

Array_brut 
print("Ligne 2, toutes les colonnes :")
print(Array_brut[2,:])  # ligne 2 (la 3ème), toutes les colonnes
print(Array_brut[2,:].shape, "C'est un élément à 1 dimension") #sa shape est (nombre de colonne,) cad 1D, on n'a plus de notion de ligne ou colonne. Car on a séelctionné une seule ligne, mais on n'a pas pris la ligne en tant que ligne, seulement ses éléments (pas de crochets autour des éléments)
print("ou")
print(Array_brut[[2],:])  # ligne 2 (la 3ème), toutes les colonnes ; ici le [2] indique une liste de lignes, et la liste contient un seul élément. La réponse sera un sous-ensemble de lignes du tableau, donc ce sera un objet à 2D, sa shpae sera (1,nombre de colonnes).
print(Array_brut[[2],:].shape, "C'est un élément à 2 D, un peu comme une table dans SQL, tronquée à seul enregistrement, cela reste une table") #sa shape est (1,nombre de colonne,) cad 2D, car on a pris une seule ligne. On a mis des crochets autour de la ligne pour indiquer qu'on veut une liste de lignes, et la liste contient un seul élément. La réponse sera un sous-ensemble de lignes du tableau, donc ce sera un objet à 2D.

print("\nColonne 3, toutes les lignes :")
print(Array_brut[:,3])  # toutes les lignes, colonne 3 (la 4ème)    

Ligne 2, toutes les colonnes :
[3 'Alice' 'Phys' 14.0]
(4,) C'est un élément à 1 dimension
ou
[[3 'Alice' 'Phys' 14.0]]
(1, 4) C'est un élément à 2 D, un peu comme une table dans SQL, tronquée à seul enregistrement, cela reste une table

Colonne 3, toutes les lignes :
[15.0 18.0 14.0 nan]


In [45]:
Array_brut

array([[1, 'Alice', 'Math', 15.0],
       [2, 'Bob', 'Math', 18.0],
       [3, 'Alice', 'Phys', 14.0],
       [4, 'Eve', 'Math', nan]], dtype=object)

### Array Numpy structuré
Il est en fait un objet 1D, donc à strictement parler, Il n'y a pas de notion de ligne et colonne pour un array structuré

In [None]:
print("Ligne 2, toutes les colonnes :")
print(array_structuré[2])  # ligne 2 (la 3ème), toutes les colonnes

print("Colonne 3, toutes les lignes :")
print(array_structuré['nom'])  # Dans les arrays structurés, la notion de "colonne" passe par le nom (data['note']) et non par une position numérique comme dans un array brut.


Ligne 2, toutes les colonnes :
(3, 'Alice', 'Phys', 14.)
Colonne 3, toutes les lignes :
['Alice' 'Bob' 'Alice' 'Eve']


### Dataframe Pandas

In [48]:
print("Ligne 2, toutes les colonnes :")
print(df_pandas.iloc[2,:])  # ligne 2 (la 3ème), toutes les colonnes

print("Colonne 3, toutes les lignes :")
print(df_pandas.iloc[:,3])  # toutes les lignes, colonne 3 (la 4ème)

print(df_pandas['note']) 

Ligne 2, toutes les colonnes :
id             3
nom        Alice
matière     Phys
note        14.0
Name: 2, dtype: object
Colonne 3, toutes les lignes :
0    15.0
1    18.0
2    14.0
3     NaN
Name: note, dtype: float32
0    15.0
1    18.0
2    14.0
3     NaN
Name: note, dtype: float32


## Lire plusieurs lignes/colonnes précises
On peut utiliser 
- des listes d'indices (de lignes/colonnes)
- des slices (tranches) via le symbole ":"

On parle parfois de "fancy indexing ()" qui est un façon créative de sélectionner des données (via des listes d'indices, des filtres booléens)

### Array Numpy classique / Brut

In [50]:
print("\nLigne 0 et 2, toutes les colonnes :")
print(Array_brut[[0,2],:])  # ligne 0 et 2 (mais pas ligne 1), toutes les colonnes, on met des crochets pour indiquer qu'on liste plusieurs lignes, sinon il pense qu'on passe à dimension suivante

print("\nLignes 0 à 3 ,3 non inclus, toutes les colonnes :")
print(Array_brut[0:3,:])  # lignes 0,1 et 2 (de 0 à 3, 3 non inclus), toutes les colonnes

print("\nColonne 2, toutes les lignes :")
print(Array_brut[:,2])  # toutes les lignes, colonne 2 (la 3ème)

print("\nLignes 0 à 3 ,3 non inclus, colonnes 1 et 2 :")
print(Array_brut[0:3,[1,3]])  # lignes 0,1 et 2 (de 0 à 3, 3 non inclus), colonnes 1 et 3 

print("\nLignes 0 à 3 ,3 non inclus, colonnes 1 et 2 :")
print(Array_brut[0:3,:])  # lignes 0,1 et 2 (de 0 à 3, 3 non inclus), toutes les colonnes




Ligne 0 et 2, toutes les colonnes :
[[1 'Alice' 'Math' 15.0]
 [3 'Alice' 'Phys' 14.0]]

Lignes 0 à 3 ,3 non inclus, toutes les colonnes :
[[1 'Alice' 'Math' 15.0]
 [2 'Bob' 'Math' 18.0]
 [3 'Alice' 'Phys' 14.0]]

Colonne 2, toutes les lignes :
['Math' 'Math' 'Phys' 'Math']

Lignes 0 à 3 ,3 non inclus, colonnes 1 et 2 :
[['Alice' 15.0]
 ['Bob' 18.0]
 ['Alice' 14.0]]

Lignes 0 à 3 ,3 non inclus, colonnes 1 et 2 :
[[1 'Alice' 'Math' 15.0]
 [2 'Bob' 'Math' 18.0]
 [3 'Alice' 'Phys' 14.0]]


### Array Numpy structuré
Il est en fait un objet 1D, donc à strictement parler, Il n'y a pas de notion de ligne et colonne pour un array structuré

In [13]:
array_structuré

array([(1, 'Alice', 'Math', 15.), (2, 'Bob', 'Math', 18.),
       (3, 'Alice', 'Phys', 14.), (4, 'Eve', 'Math', nan)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

In [None]:
# A VOUS
#Le slicing fonctionne-t-il ? pour les lignes, pour les colonnes ?

#Tentative pour les lignes (les records)
print("Slicing pour les lignes :")

array_structuré[0:3] # lignes 0,1 et 2 (de 0 à 3, 3 non inclus)


Slicing pour les lignes :


array([(1, 'Alice', 'Math', 15.), (2, 'Bob', 'Math', 18.),
       (3, 'Alice', 'Phys', 14.)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

In [15]:
array_structuré #affiche tout le tableau, pas de slicing

array([(1, 'Alice', 'Math', 15.), (2, 'Bob', 'Math', 18.),
       (3, 'Alice', 'Phys', 14.), (4, 'Eve', 'Math', nan)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

In [16]:
array_structuré[3] # toutes les colonnes, ligne 3 (la 4ème)

(4, 'Eve', 'Math', nan)

In [None]:
array_structuré[:] # toutes les lignes, toutes les colonnes

array([(1, 'Alice', 'Math', 15.), (2, 'Bob', 'Math', 18.),
       (3, 'Alice', 'Phys', 14.), (4, 'Eve', 'Math', nan)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

In [None]:
array_structuré[0:] # toutes les lignes, toutes les colonnes

array([(1, 'Alice', 'Math', 15.), (2, 'Bob', 'Math', 18.),
       (3, 'Alice', 'Phys', 14.), (4, 'Eve', 'Math', nan)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

In [None]:
array_structuré[2,3] # ne fonctionne pas des qu'on essaie de mettre une 2'me dimension 

IndexError: too many indices for array: array is 1-dimensional, but 2 were indexed

In [24]:
array_structuré[1:-1] # j'affiche en commençant par la 2ème ligne (1) et en terminant par l'avant-dernière ligne (-1), toutes les colonnes

array([(2, 'Bob', 'Math', 18.), (3, 'Alice', 'Phys', 14.)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

In [25]:
array_structuré[2:] # j'affiche en commençant par la 3ème ligne et je prends tout le reste

array([(3, 'Alice', 'Phys', 14.), (4, 'Eve', 'Math', nan)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

In [26]:
array_structuré[:-3] # j'affiche tout sauf les 3 dernières lignes 


array([(1, 'Alice', 'Math', 15.)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

In [30]:
#EN conclusion, le slicing fonctionne pour les lignes, mais pas pour les colonnes.OU plutôt, on peut afficher des elements de cette dimension, en retirant des éléments ou debut ou a la fin.
array_structuré[:-2]

array([(1, 'Alice', 'Math', 15.), (2, 'Bob', 'Math', 18.)],
      dtype=[('id', '<i4'), ('nom', '<U10'), ('matière', '<U10'), ('note', '<f4')])

### Dataframe Pandas
Pour l'approche avec des slices/tranches (en utilisant ":"), on passe simplement 
- par iloc si on fonctionne avec des numéros d'indice de colonne
- par loc si on fonctionne avec les noms de colonne

In [None]:
print(df_pandas.loc[:,'nom']) # toutes les lignes, colonne 'nom'

0    Alice
1      Bob
2    Alice
3      Eve
Name: nom, dtype: object


In [None]:
print("\nLigne 0 et 2, toutes les colonnes :")
print(df_pandas.iloc[[0,2],:])  # ligne 0 et 2 (mais pas ligne 1), toutes les colonnes, on met des crochets pour indiquer qu'on liste plusieurs lignes, sinon il pense qu'on passe à dimension suivante

print("\nLignes 0 à 3 ,3 non inclus, toutes les colonnes :")
print(df_pandas.iloc[0:3,:])  # lignes 0,1 et 2 (de 0 à 3, 3 non inclus), toutes les colonnes

print("\nColonne 2, toutes les lignes :")
print(df_pandas.iloc[:,2])  # toutes les lignes, colonne 2 (la 3ème)

print("\nLignes 0 à 3 ,3 non inclus, colonnes 1 et 2 :")
print(df_pandas.iloc[0:3,[1,3]])  # lignes 0,1 et 2 (de 0 à 3, 3 non inclus), colonnes 1 et 3 

print("\nLignes 0 à 3 ,3 non inclus, colonnes 1 et 2 :")
print(df_pandas.iloc[0:3,:])  # lignes 0,1 et 2 (de 0 à 3, 3 non inclus), toutes les colonnes

### Remarque : la différence entre deux Numpy array de shape respectives (4,) et (1,4)

Les deux se ressemblent fortement. Dans l'exemple ci-dessous, on a l'impression que les deux sont le contenu d'une ligne, c'est tout.

[3 'Alice' 'Phys' 14.0]
Il y une shape de (4,) C'est un élément à 1 dimensions, c'est une liste plate 

[[3 'Alice' 'Phys' 14.0]]
Il a une shape de (1,4) C'est un élément à 2 dimensions


Conseils :
- pour des calculs vectorisés, reshape ton array pour être explicite.
- Pour des données tabulaires, (1,4) est plus clair et plus fiable.
- Pour une simple liste de valeurs, (4,) suffit.

Utilisation | Préféré  |
|-----------| ---------|
| Manipuler des vecteurs simples | (4,) (plus léger) |
| Travailler avec des matrices / DataFrames / machine learning | (1,4) (plus sûr) |

In [None]:
# Deux versions d'un vecteur
a = np.array([1, 2, 3, 4])        # Shape : (4,)
b = np.array([[1, 2, 3, 4]])      # Shape : (1,4)

# Soit un vecteur
c = np.array([[5], [6], [7], [8]])  # Shape : (4,1)

# Tentative de produit matriciel   # @ est l'opérateur de produit matriciel, * est le produit élément par élément ou "produit Hadamard"
try:
    print(a @ c)  # Produit avec un vecteur 1D
except ValueError as e:
    print(f"Erreur avec a @ c : {e}")

# Produit avec un array 2D
print(b @ c)  # Produit avec une matrice 2D

[70]
[[70]]


Même si ça ne plante pas, ça peut être une source de confusion, car :

si tu enchaînes des calculs matriciels après, le shape peut casser la chaîne (par exemple .T ou @ suivant).

le résultat n’a pas la même forme :
un scalaire float ≠ une matrice [[valeur]].

In [None]:
#POur convertir un tableau 1D en tableau 2D, on peut utiliser reshape
print("a avant son reshape")
print(a)  # a est un tableau 1D de shape (4,)
print(a.shape)  # Shape : (4,)
a_reshaped = a.reshape(1, -1)  # Reshape pour obtenir une matrice 2D (1,4)
print("a reshaped :")
print(a_reshaped)
print(a_reshaped.shape)  # Shape : (1,4)


a avant son reshape
[1 2 3 4]
(4,)
a reshaped :
[[1 2 3 4]]
(1, 4)


## Lire un sous-ensemble

### Array Numpy classique / Brut

In [None]:
print(df_pandas.iloc)
print("\nLigne 0, 2ème colonne suivi de ligne 1, 3ème colonne :")
print(df_pandas.iloc[[0,1],[2,3]])

print(df_pandas.iloc[[0,1],2:4])  # lignes 0 et 1, colonnes 2 à 3 (3 non inclus)
print(df_pandas.iloc[[0,1],2:])  # lignes 0 et 1, colonnes 2 à fin
print(df_pandas.iloc[[0,1],:])  # lignes 0 et 1, toutes les colonnes
print(df_pandas.iloc[1:,2:])  # lignes 1 à la fin, colonne 2 à la fin

[[1 'Alice' 'Math' 15.0]
 [2 'Bob' 'Math' 18.0]
 [3 'Alice' 'Phys' 14.0]
 [4 'Eve' 'Math' nan]]

Ligne 0, 2ème colonne suivi de ligne 1, 3ème colonne :
['Math' 18.0]
[['Math' 15.0]
 ['Math' 18.0]]
[['Math' 15.0]
 ['Math' 18.0]]
[[1 'Alice' 'Math' 15.0]
 [2 'Bob' 'Math' 18.0]]
[['Math' 18.0]
 ['Phys' 14.0]
 ['Math' nan]]


### Array Numpy classique / Brut

In [None]:
#A VOUS

### Dataframe Pandas
Pour l'approche avec des slices/tranches (en utilisant ":"), on passe simplement 
- par iloc si on fonctionne avec des numéros d'indice de colonne
- par loc si on fonctionne avec les noms de colonne

In [None]:
print(df_pandas.loc[:, 'nom':]) # toutes les lignes, toutes les colonnes après et incluant la colonne 'nom'
print(df_pandas.loc[:, 'nom':'matière']) # toutes les lignes, toutes les colonnes entre 'nom' et 'matière' (inclus)
print(df_pandas.loc[1:3, 'nom':'matière']) # lignes 1 à 3, toutes les colonnes entre 'nom' et 'matière' (inclus)

     nom matière  note
0  Alice    Math  15.0
1    Bob    Math  18.0
2  Alice    Phys  14.0
3    Eve    Math   NaN
     nom matière
0  Alice    Math
1    Bob    Math
2  Alice    Phys
3    Eve    Math
     nom matière
1    Bob    Math
2  Alice    Phys
3    Eve    Math


# Modifier l'ordre des lignes

#A VOUS, soyez systématique : pour chaque cas : array classique, strucutré et dataframe

# Modifier un élément (une valeur) précis

#A VOUS, soyez systématique : pour chaque cas : array classique, strucutré et dataframe

# Ajouter une ligne / une colonne

#A VOUS, soyez systématique : pour chaque cas : array classique, strucutré et dataframe
dans quel cas est-ce une modification d,un objet existant vs la création d'un tout nouvel objet

# Supprimer une ligne / une colonne

#A VOUS, soyez systématique : pour chaque cas : array classique, strucutré et dataframe
dans quel cas est-ce une modification d,un objet existant vs la création d'un tout nouvel objet