https://pandas.pydata.org/docs/user_guide/basics.html?highlight=dtype#dtypes

In [1]:
import numpy as np
import pandas as pd

`float` nombre à virgule, ou entiers avec na  
`int` integer sans NA  
`object` tout type d'objets (mixed dtypes entre autre).  

Ils sont souvent suivit d'un nombre qui indique le nombre de bit consacré à stocker de la donnée.

[la documentation numpy](https://numpy.org/doc/stable/user/basics.types.html)

Et plus le type est petit, moins il prend de vive (ou sur disque en fonction du format de stockage).

In [3]:
s = pd.Series(list(range(10**7)))

In [9]:
s.memory_usage()

80000128

In [8]:
s.astype("int32").memory_usage()

40000128

In [10]:
s.astype("float32").memory_usage()

40000128

### Exemple lecture csv

In [15]:
df = pd.read_csv("../Download/2019.txt", sep="|")

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3142952 entries, 0 to 3142951
Data columns (total 43 columns):
 #   Column                      Dtype  
---  ------                      -----  
 0   Code service CH             float64
 1   Reference document          float64
 2   1 Articles CGI              float64
 3   2 Articles CGI              float64
 4   3 Articles CGI              float64
 5   4 Articles CGI              float64
 6   5 Articles CGI              float64
 7   No disposition              int64  
 8   Date mutation               object 
 9   Nature mutation             object 
 10  Valeur fonciere             object 
 11  No voie                     float64
 12  B/T/Q                       object 
 13  Type de voie                object 
 14  Code voie                   object 
 15  Voie                        object 
 16  Code postal                 float64
 17  Commune                     object 
 18  Code departement            object 
 19  Code commune         

In [13]:
df.shape[0]/10**6

3.142952

On voit que la surface du premier lot n'est pas une float

In [14]:
df.iloc[:, 25]

0           19,27
1             NaN
2             NaN
3             NaN
4             NaN
            ...  
3142947    101,40
3142948     43,70
3142949     48,50
3142950     38,65
3142951       NaN
Name: Surface Carrez du 1er lot, Length: 3142952, dtype: object

### On peut convertir un dtype sur un dtype différent

In [8]:
df["Valeur fonciere"].str.replace(",", ".").astype("float")

0            37220.0
1           185100.0
2           185100.0
3           209000.0
4           134900.0
             ...    
3142947    1400000.0
3142948    1400000.0
3142949     620000.0
3142950     370000.0
3142951      44000.0
Name: Valeur fonciere, Length: 3142952, dtype: float64

⚠️ Il n'existe aucun méchanisme pour vérifier que la conversion se passe bien...

In [13]:
s = pd.Series(list(range(10**7)))

In [15]:
s.astype("int8")

0            0
1            1
2            2
3            3
4            4
          ... 
9999995    123
9999996    124
9999997    125
9999998    126
9999999    127
Length: 10000000, dtype: int8

Un nan n'est pas égal à un nan

In [3]:
np.nan == np.nan

False

In [7]:
type(np.nan)

float