# Exemple amb dades faltants. Clients.

Disposem al fitxer `clients.csv` de dades sobre clients, amb el nom, l'edat i els ingressos. 

En aquest exemple anem a fer ús de Pandas per emplenar les dades faltants.

In [34]:
# Importem les llibreríes necessàries

import matplotlib.pyplot as plt
import pandas as pd

# Carreguem les dades des del CSV
dades=pd.read_csv("./clientes.csv")

# Mostrem les dades
dades

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,,70.0,20000.0
3,Carmen,49.0,22000.0
4,,,
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


Una vegada carregat, anem a veure com tractar dades faltants.

In [35]:
# Veiem quins valors són nuls a la columna  "nombre"
print(dades["nombre"].isnull())

0    False
1    False
2     True
3    False
4     True
5    False
6    False
7    False
8    False
Name: nombre, dtype: bool


In [36]:
# I ara veiem quines files són:
noms_nuls=dades[dades["nombre"].isnull()]
noms_nuls

Unnamed: 0,nombre,edad,ingreso
2,,70.0,20000.0
4,,,


In [37]:
# També podem consultar quines columnes tenen dades nul·les
print(dades.isnull().any())

nombre     True
edad       True
ingreso    True
dtype: bool


In [38]:
# Una manera de tractar les dades és eliminar les fileres amb qualsevol valor nul:
dades_no_nul = dades.dropna()#dropna=dropea los nombres nulos
dades_no_nul

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
3,Carmen,49.0,22000.0
5,Mario,30.0,15800.0


In [39]:
# O bé eliminar aquelles fileres que només tinguen la columna "nombre" a nul:
dades_nom_no_nul = dades.dropna(subset=["nombre"])
dades_nom_no_nul

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
3,Carmen,49.0,22000.0
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


In [40]:
# Una altra opció és omplir els valors nuls a la columna "nombre" amb la paraula "Desconegut"
# Observeu com en aquest cas, fent ús d'inplace=True estem modificant el DataFrame original, en lloc 
# d'obtenir un Dataframe nou amb els valora emplenats.
dades["nombre"].fillna("Desconegut", inplace=True)
dades


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dades["nombre"].fillna("Desconegut", inplace=True)


Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,Desconegut,70.0,20000.0
3,Carmen,49.0,22000.0
4,Desconegut,,
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


In [41]:
# També podem omplir els valors nuls a la columna "edad" amb la mitjana de les edats.
# Observeu com aci també fem ús d'inilace=True
mitjana_edat = dades["edad"].mean()
dades["edad"].fillna(mitjana_edat, inplace=True)
dades

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dades["edad"].fillna(mitjana_edat, inplace=True)


Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,Desconegut,70.0,20000.0
3,Carmen,49.0,22000.0
4,Desconegut,39.333333,
5,Mario,30.0,15800.0
6,Pedro,39.333333,17400.0
7,Gustavo,27.0,
8,Carlos,39.333333,


In [42]:
# I emplenar la columna "ingreso" amb la moda dels ingressos
# Aci també fem ús d'inilace=True
moda_ingres = dades["ingreso"].mode()[0]
dades["ingreso"].fillna(moda_ingres, inplace=True)
dades

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dades["ingreso"].fillna(moda_ingres, inplace=True)


Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,Desconegut,70.0,20000.0
3,Carmen,49.0,22000.0
4,Desconegut,39.333333,15800.0
5,Mario,30.0,15800.0
6,Pedro,39.333333,17400.0
7,Gustavo,27.0,15800.0
8,Carlos,39.333333,15800.0


In [44]:
from sklearn import preprocessing

dades['ingreso'] = preprocessing.MinMaxScaler().fit_transform(dades['ingreso'].values.reshape(-1,1))
dades

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,0.0
1,Luisa,25.0,0.193548
2,Desconegut,70.0,0.677419
3,Carmen,49.0,1.0
4,Desconegut,39.333333,0.0
5,Mario,30.0,0.0
6,Pedro,39.333333,0.258065
7,Gustavo,27.0,0.0
8,Carlos,39.333333,0.0


In [45]:
dades['edad'] = preprocessing.MinMaxScaler().fit_transform(dades['edad'].values.reshape(-1,1))
dades

Unnamed: 0,nombre,edad,ingreso
0,Juan,0.222222,0.0
1,Luisa,0.0,0.193548
2,Desconegut,1.0,0.677419
3,Carmen,0.533333,1.0
4,Desconegut,0.318519,0.0
5,Mario,0.111111,0.0
6,Pedro,0.318519,0.258065
7,Gustavo,0.044444,0.0
8,Carlos,0.318519,0.0
