## Copies et vues en Pandas

Les tableaux, DataFrames, peuvent contenir une quantité importante de données aussi il est bon d'éviter les copies, même temporaires, lorsque c'est possible. Ainsi extraire un sous-tableau pour le consulter ne demande pas de copie.
Si maintenant on désire le modifier alors il faut se poser la question de la modification du tableau d'origine.

En pratique Pandas choisit s'il fait une copie ou une vue. S'il a fait une vue, une modification du sous-tableau modifiera le tableau principal ce qui ne sera pas le cas s'il a fait une copie. Aussi Pandas envoie un message d'avertissement pour souligner l'incertitude.

## Copies and views in Pandas

DataFrames can contain a large amount of data so it is good to avoid copies, even temporary, where possible. Thus extracting a sub-table to consult it does not require a copy.
If now we want to change it then we must ask the question of the modification of the original table.

In practice Pandas chooses if it makes a copy or a view. If it made a view a side effects like changing the main board, might happen. On the other hand if it made a copy modifications will not change the main DataFrame. Therefore Pandas sends a warning message to underlign the risk.

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({'A':list('qwer'), 'B':list('asdf')})
df

Unnamed: 0,A,B
0,q,a
1,w,s
2,e,d
3,r,f


In [3]:
df2 = df.loc[1:3,:]
df.loc[2,'B'] = 'X'   # warning, here 2 is a label (by chance it has the same value than the index)
df2.loc[1,'A'] = 'Z'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


`df2` is **potentially** a copy of part of `df` (but it can be a view).

`df2` est **potentiellement** une copie d'une partie de` df` (mais ce peut être une vue).

In [4]:
from IPython.display import display
display(df, df2)

Unnamed: 0,A,B
0,q,a
1,Z,s
2,e,X
3,r,f


Unnamed: 0,A,B
1,Z,s
2,e,X
3,r,f


Nous pouvons donc voir ici que **`df2` est une vue de` df`** puisqu'un changement sur l'un d'eux est visible sur l'autre (les deux ont X et Z).

Cependant, si j’ajoute une colonne à `df2`, elle devient une copie, mais seulement après que nous avons changé l’une de ses valeurs !

In [9]:
df = pd.DataFrame({'A':list('qwer'), 'B':list('asdf')})
df2 = df.loc[1:3,:]
df2['C'] = df.A + df.B  # makes things to become weird
df.loc[2,'B'] = 'X'     # will also modify df2
df2.loc[1,'A'] = 'Z'    # will NOT modify df, df2 is a copy of df now
df.loc[3,'B'] = 'Y'     # will not modify df2
display(df, df2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


Unnamed: 0,A,B
0,q,a
1,w,s
2,e,X
3,r,Y


Unnamed: 0,A,B,C
1,Z,s,ws
2,e,X,ed
3,r,f,rf


Note that the result might be different since you never know if Pandas sees df2 as a view or a copy.

Notez que le résultat peut être différent puisque vous ne savez jamais si Pandas voit df2 comme une vue ou une copie.

## `copy` pour être sûr d'avoir une copie

Vous voulez être sûr du résultat, donc

* si vous souhaitez copier une partie d'un DataFrame, utilisez `copy`
* si vous voulez travailler sur une vue, ne définissez pas de nouvelle variable, conservez le nom d'origine même s'il s'agit de découper à chaque fois

In [6]:
df = pd.DataFrame({'A':list('qwer'), 'B':list('asdf')})
df2 = df.loc[1:3,:].copy()
df.loc[1,'A'] = 'X'
df2.loc[2,'B'] = 'Z'
display(df, df2)

Unnamed: 0,A,B
0,q,a
1,X,s
2,e,d
3,r,f


Unnamed: 0,A,B
1,w,s
2,e,Z
3,r,f


# Exercice

In [21]:
df = pd.DataFrame({'A':list('abcd'), 'B':list('wxyz')})
df

Unnamed: 0,A,B
0,a,w
1,b,x
2,c,y
3,d,z


ATTENTION: en python, x = y ne veut pas dire "donne à x la valeur contenue dans y", mais "fais pointer X vers la même chose que ce que tu fais pointer Y vers"

In [51]:
x = "salut"
y = x
y is x

True

In [52]:
# Faites pointer df2 vers df
df2 = 

In [53]:
df2 is df

True

In [54]:
# Notez que si vous définissez deux dataframes indépendamment, vous n'aurez pas ce pb
df = pd.DataFrame({'A':list('abcd'), 'B':list('wxyz')})
df2 = pd.DataFrame({'A':list('abcd'), 'B':list('wxyz')})
df is df2

False

In [58]:
# Faites une copie de df
df = pd.DataFrame({'A':list('abcd'), 'B':list('wxyz')})
df2 = 

In [59]:
# Vérifiez que cette copie ne pointe pas vers la même référence que df


False

{{ PreviousNext("pd01 -- Pandas indexing.ipynb", "pd03 -- Cleaning a dataframe.ipynb")}}