### manipulation du dataframe

In [2]:
import pandas as pd
import numpy as np
from time import time
rng = np.random.default_rng(seed=int(time()))
pd.__version__


'2.1.4'

In [39]:
df = pd.read_csv(
    "users.csv",
    sep=";",
    encoding="utf8",
    usecols=list(range(3)) + [4],
    index_col=0,
    na_values=["???", "--"]
)
df.head(2), df.tail(2)
# technique "immutable"
df.astype({
    "age": "i2",
    "size": "f4"
}).dtypes


name     object
age       int16
size    float32
dtype: object

In [17]:
## rappel entre les méthodes mutables et les fonctions "immutables" qui retourne
lst = [1, 2, 3]
# méthode qui modifie l'objet sous jacent et ne retourne pas
print(lst.append(4))
print(lst)
# fonction qui retourne mais ne modifie pas le sous jacent
f = lambda l, item: l + [item]
f(lst, 5), lst


None


([1, 2, 3, 4, 5], [1, 2, 3, 4])

In [27]:
# attention au passage par référence donc bien donner une copie creuse
df_alt = df.copy()
# technique, mutable
print(df.drop(columns="age", inplace=True))
df_alt

None


Unnamed: 0,name,age,size
user1,jimmy,28,1.73
user2,Joan,33,
user3,Paul,76,1.85


In [32]:
# la colonne est un objet de classe Series
df["name"], type(df["name"])

(user1    jimmy
 user2     Joan
 user3     Paul
 Name: name, dtype: object,
 pandas.core.series.Series)

In [44]:
# sélection de plusieurs colonnes: subset
df[ ["name", "size"] ]
new_columns = df.columns.to_list()
rng.shuffle(new_columns)
df[new_columns]

Unnamed: 0,size,name,age
user1,1.73,jimmy,28
user2,,Joan,33
user3,1.85,Paul,76


In [47]:
# slicing normal : slicing des lignes 
df[0:-1]

Unnamed: 0,name,age,size
user1,jimmy,28,1.73
user2,Joan,33,


In [50]:
# slicing sur les indexes
# convention != du slicing python puisque les index ne sont pas une relation d'ordre
# la valeur de fin est comprise
df.loc["user1":"user2"]

Unnamed: 0,name,age,size
user1,jimmy,28,1.73
user2,Joan,33,


In [55]:
# sélection liste + colonnes
df.loc["user1":"user2", "name"]
df.loc["user1":"user2", ["name", "size"]]
df.loc[:, "name":"age"]

Unnamed: 0,name,age
user1,jimmy,28
user2,Joan,33
user3,Paul,76


### Filtrage et données manquantes

In [61]:
# broadcasting
df["age"] + 1
df[["age","size"]] + 1
# df["age"] = df["age"] + 1
df["age"] += 1
df

Unnamed: 0,name,age,size
user1,jimmy,30,1.73
user2,Joan,35,
user3,Paul,78,1.85


In [63]:
df == 35
df[df == 35]


Unnamed: 0,name,age,size
user1,,,
user2,,35.0,
user3,,,


In [72]:
# filtres de lignes et sélection de colonnes
# chaînage des filtres même opérateurs & | ~
# possibiité de transformer les séries de types str avec S.str.???
df.loc[(df["age"] < 40) & (df["name"].str.lower() != "joan"), ["age", "size"]]

Unnamed: 0,age,size
user1,30,1.73


In [75]:
# sélection par les indices entiers == numpy
df.iloc[0:2,0:2]
# un élément unique
df.at["user1","age"]
df.iat[0, 2]

1.73

In [78]:
# agrégats simples
df["age"].mean(), df["size"].max()
# description des aggrégats simples
df.describe()

Unnamed: 0,age,size
count,3.0,2.0
mean,47.666667,1.79
std,26.388129,0.084853
min,30.0,1.73
25%,32.5,1.76
50%,35.0,1.79
75%,56.5,1.82
max,78.0,1.85


In [81]:
# filtre des lignes dans lesquelles on trouve du nan
# le nan de pandas permet de calculer les aggrégats != numpy 
# => le dropna permet de trouver les données intègres
df.dropna()
df.fillna(0)

Unnamed: 0,name,age,size
user1,jimmy,30,1.73
user2,Joan,35,0.0
user3,Paul,78,1.85
