In [1]:
import pandas as pd

![](images/its_a_trap.jpeg)

## Dtypes

### Les conversions dangereuses

In [2]:
df = pd.DataFrame({"A":[3.4, 3, 12]})

In [3]:
df.dtypes

A    float64
dtype: object

In [4]:
df.astype("int32")

Unnamed: 0,A
0,3
1,3
2,12


Pas de souci, on peut convertir les float en int pour garder de la place en mémoire et pandas fait la troncation tout seul 🎉🥂 !

In [5]:
pd.DataFrame({"A":[30000000.4, 3, 12]}).astype("int8")

Unnamed: 0,A
0,-128
1,3
2,12


😭

Il faut faire attention sur les conversions et s'assurer que le type d'arrivée est compatible avec le type initial.

In [6]:
pd.DataFrame({"A":[3.141592653589793238462643383279, 3.0, 12.0]})#.astype("int8")

Unnamed: 0,A
0,3.141593
1,3.0
2,12.0


In [7]:
pd.DataFrame({"A":[3.141592653589793238462643383279, 3.0, 12.0]}).astype("float16")

Unnamed: 0,A
0,3.140625
1,3.0
2,12.0


#### Mixed dtypes

In [8]:
df = pd.DataFrame(list(range(100)))

In [9]:
df.dtypes

0    int64
dtype: object

In [10]:
df.iloc[2] = "coucou"

In [11]:
df.dtypes

0    object
dtype: object

In [12]:
type(df.iloc[5].values[0])

int

Il arrive souvent d'avoir des mixed dtypes en lisant un csv car pandas les lis en chunk, puis attribue un type.   
Souvent sur les départements, 2A et 2B vont générer des mixed dtypes sur la série.

#### L'index qui joue des tours

In [13]:
df1 = pd.DataFrame(list(range(100)))
df2 = pd.DataFrame(list(range(100)))

In [14]:
df1["Somme"] = df1+df2

In [15]:
df1  # On a bien créé la somme de la colonne de df1  et de la conlonne de df2

Unnamed: 0,0,Somme
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8
...,...,...
95,95,190
96,96,192
97,97,194
98,98,196


In [16]:
df2.index = list(range(50, 150))

In [17]:
df2

Unnamed: 0,0
50,0
51,1
52,2
53,3
54,4
...,...
145,95
146,96
147,97
148,98


In [18]:
df1["Somme"] = df1+df2

In [19]:
df1

Unnamed: 0,0,Somme
0,0,
1,1,
2,2,
3,3,
4,4,
...,...,...
95,95,140.0
96,96,142.0
97,97,144.0
98,98,146.0


Il manque les 50 premières valeurs. Ce comportement vaut aussi pour les conditions, les masks, etc !

In [20]:
df1 = pd.DataFrame(list(range(100)))
df2 = pd.DataFrame(list(range(100)))

In [21]:
df1

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4
...,...
95,95
96,96
97,97
98,98


### View vs copy

https://pandas.pydata.org/docs/user_guide/basics.html?highlight=dtype#copying

### Approximations en python

In [27]:
(19/155)*(155/19)

0.9999999999999999

In [28]:
a = (19/155)

In [29]:
a*(1/a)

1.0

In [30]:
b = (155/19)

In [31]:
a * b

0.9999999999999999

##### Heureusement il y a numpy

In [32]:
import numpy as np

In [33]:
a = np.array([19])/np.array([155])
b = np.array([155])/np.array([19])

In [34]:
a * b

array([1.])

In [35]:
(
    (np.array([19]) / np.array([155]))
    * (np.array([155]) / np.array([19]))
)

array([1.])

In [37]:
(
    (np.array([7]) / np.array([2153]))
    * (np.array([2153]) / np.array([7]))
)

array([1.])