In [1]:
#import bibliotheque
import pandas as pd
import numpy as np

# read data 

df = pd.read_csv("property data.csv")

#voir les premiere ligne des datas

df.head()


Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3.0,1.0,1000
1,100002000.0,197.0,LEXINGTON,N,3.0,1.5,--
2,100003000.0,,LEXINGTON,N,,1.0,850
3,100004000.0,201.0,BERKELEY,12,1.0,,700
4,,203.0,BERKELEY,Y,3.0,2.0,1600


#### Quels sont les caracteristiques (les variables significatives)

- St_Num : numero de rue
- st_name : nom de rue
- own_occupied : proprietaire de la residence
- num_bedrooms : nombre de chambres


#### Les types de variables attendus

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PID           8 non-null      float64
 1   ST_NUM        7 non-null      float64
 2   ST_NAME       9 non-null      object 
 3   OWN_OCCUPIED  8 non-null      object 
 4   NUM_BEDROOMS  7 non-null      object 
 5   NUM_BATH      8 non-null      object 
 6   SQ_FT         8 non-null      object 
dtypes: float64(2), object(5)
memory usage: 632.0+ bytes


#### Valeurs manquantes standard

Ce sont des valeurs manquantes que Pandas peut détecter.

In [3]:
df

Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3,1,1000
1,100002000.0,197.0,LEXINGTON,N,3,1.5,--
2,100003000.0,,LEXINGTON,N,,1,850
3,100004000.0,201.0,BERKELEY,12,1,,700
4,,203.0,BERKELEY,Y,3,2,1600
5,100006000.0,207.0,BERKELEY,Y,,1,800
6,100007000.0,,WASHINGTON,,2,HURLEY,950
7,100008000.0,213.0,TREMONT,Y,1,1,
8,100009000.0,215.0,TREMONT,Y,na,2,1800


In [4]:
df['ST_NUM']

0    104.0
1    197.0
2      NaN
3    201.0
4    203.0
5    207.0
6      NaN
7    213.0
8    215.0
Name: ST_NUM, dtype: float64

In [5]:
df['ST_NUM'].isnull()

0    False
1    False
2     True
3    False
4    False
5    False
6     True
7    False
8    False
Name: ST_NUM, dtype: bool

En regardant la colonne, nous pouvons voir que Pandas a rempli l'espace vide avec "NA". En utilisant la isnull()méthode, nous pouvons confirmer que la valeur manquante et « NA » ont été reconnus comme des valeurs manquantes. Les deux réponses booléennes sont True.

#### Valeurs manquantes non standard

Parfois, il peut s'agir de valeurs manquantes ayant des formats différents.


In [6]:
df["NUM_BEDROOMS"]

0      3
1      3
2    NaN
3      1
4      3
5    NaN
6      2
7      1
8     na
Name: NUM_BEDROOMS, dtype: object

In [7]:
df["NUM_BEDROOMS"].isnull()

0    False
1    False
2     True
3    False
4    False
5     True
6    False
7    False
8    False
Name: NUM_BEDROOMS, dtype: bool

On remarque que le "na" n'est pas consideré par pandas comme une valeur manquante

Si plusieurs utilisateurs saisissent manuellement des données, il s'agit d'un problème courant. Peut-être que j'aime utiliser "n/a" mais vous aimez utiliser "na".

Un moyen simple de détecter ces différents formats est de les mettre dans une liste. Ensuite, lorsque nous importons les données, Pandas les reconnaîtra immédiatement. Voici un exemple de la façon dont nous le ferions.

In [8]:
# Faire une liste des types de valeurs manquantes 
missing_values = ["n/a", "na", "--"] 
df = pd.read_csv("property data.csv", na_values = missing_values)

df["NUM_BEDROOMS"]

0    3.0
1    3.0
2    NaN
3    1.0
4    3.0
5    NaN
6    2.0
7    1.0
8    NaN
Name: NUM_BEDROOMS, dtype: float64

In [9]:
df["NUM_BEDROOMS"].isnull()

0    False
1    False
2     True
3    False
4    False
5     True
6    False
7    False
8     True
Name: NUM_BEDROOMS, dtype: bool

#### Valeurs manquantes inattendues

Jusqu'à présent, nous avons vu des valeurs manquantes standard et des valeurs manquantes non standard. Et si nous avons un type inattendu ?
Par exemple, si notre fonctionnalité est censée être une chaîne, mais qu'il existe un type numérique, alors techniquement, il s'agit également d'une valeur manquante.
Jetons un coup d'œil à la colonne « Propriétaire occupé » pour voir de quoi je parle.

In [10]:
df["OWN_OCCUPIED"]

0      Y
1      N
2      N
3     12
4      Y
5      Y
6    NaN
7      Y
8      Y
Name: OWN_OCCUPIED, dtype: object

Nous voyons que la ligne 3 est 12 alors que nous attendons une chaine de caractere soit Y ou N

On peut transformer les valeurs inatendus en NaN

- Parcourez la colonne OWN_OCCUPIED
- Essayez de transformer l'entrée en un entier
- Si l'entrée peut être changée en un entier, entrez une valeur manquante
- Si le nombre ne peut pas être un entier, nous savons que c'est une chaîne, alors continuez

In [11]:
i = 0
for row in df["OWN_OCCUPIED"]:
    try:
        int(row)
        df.loc[i,"OWN_OCCUPIED"]=np.nan
    except ValueError:
        pass
    i += 1

Dans le code, nous parcourons chaque entrée de la colonne « Propriétaire occupé ». Pour essayer de changer l'entrée en un entier, nous utilisons int(row).

Si la valeur peut être changée en un entier, nous changeons l'entrée en une valeur manquante en utilisant Numpy's np.nan.
D'un autre côté, s'il ne peut pas être changé en un entier, nous passcontinuons.

Vous remarquerez que j'ai utilisé tryet except ValueError. C'est ce qu'on appelle la gestion des exceptions , et nous l'utilisons pour gérer les erreurs.

Si nous devions essayer de changer une entrée en un entier et qu'elle ne pouvait pas être modifiée, alors un ValueErrorserait renvoyé et le code s'arrêterait. Pour faire face à cela, nous utilisons la gestion des exceptions pour reconnaître ces erreurs et continuer.
Un autre élément important du code est la .locméthode. Il s'agit de la méthode préférée de Pandas pour modifier les entrées en place. Pour plus d'informations à ce sujet, vous pouvez consulter la documentation Pandas .

Maintenant que nous avons étudié les différentes manières de détecter les valeurs manquantes, nous allons voir comment les résumer et les remplacer.

In [12]:
df.isnull().sum()

PID             1
ST_NUM          2
ST_NAME         0
OWN_OCCUPIED    2
NUM_BEDROOMS    3
NUM_BATH        1
SQ_FT           2
dtype: int64

In [13]:
# verification rapide pour voir s'il y a des valeurs manquqntes

print(df.isnull().values.any())

True


In [14]:
# trouver le nombre total de valeur manquqntes
df.isnull().sum().sum()

11

### Remplacement

Souvent, vous devrez trouver comment gérer les valeurs manquantes.
Parfois, vous voudrez simplement supprimer ces lignes, d'autres fois vous les remplacerez.

Comme je l'ai mentionné plus tôt, cela ne doit pas être pris à la légère. Nous allons passer en revue quelques imputations de base, mais pour une approche statistique détaillée du traitement des données manquantes , consultez ces superbes diapositives du data scientist Matt Brems.
Cela étant dit, vous voulez peut-être simplement remplir les valeurs manquantes avec une seule valeur.

In [15]:
# remplacecr les valeurs manquantes par un nombre 

df["ST_NUM"].fillna(125, inplace=True)


# en utilisant une imputation base sur l'emplacement

df.loc[2,'ST_NUM'] = 125

# Remplacez par la médiane 
median = df['NUM_BEDROOMS'].median() 
df['NUM_BEDROOMS'].fillna(median, inplace=True)

In [16]:
df


Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3.0,1,1000.0
1,100002000.0,197.0,LEXINGTON,N,3.0,1.5,
2,100003000.0,125.0,LEXINGTON,N,2.5,1,850.0
3,100004000.0,201.0,BERKELEY,,1.0,,700.0
4,,203.0,BERKELEY,Y,3.0,2,1600.0
5,100006000.0,207.0,BERKELEY,Y,2.5,1,800.0
6,100007000.0,125.0,WASHINGTON,,2.0,HURLEY,950.0
7,100008000.0,213.0,TREMONT,Y,1.0,1,
8,100009000.0,215.0,TREMONT,Y,2.5,2,1800.0


In [17]:
# nous supprimons les lignes avec au moins une valeur Nan (valeur nulle)

df.dropna()


Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3.0,1,1000.0
2,100003000.0,125.0,LEXINGTON,N,2.5,1,850.0
5,100006000.0,207.0,BERKELEY,Y,2.5,1,800.0
8,100009000.0,215.0,TREMONT,Y,2.5,2,1800.0


In [21]:
#Suppression de lignes si toutes les valeurs de cette ligne sont manquantes.

df.dropna(how = 'all')

Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3.0,1,1000.0
1,100002000.0,197.0,LEXINGTON,N,3.0,1.5,
2,100003000.0,125.0,LEXINGTON,N,2.5,1,850.0
3,100004000.0,201.0,BERKELEY,,1.0,,700.0
4,,203.0,BERKELEY,Y,3.0,2,1600.0
5,100006000.0,207.0,BERKELEY,Y,2.5,1,800.0
6,100007000.0,125.0,WASHINGTON,,2.0,HURLEY,950.0
7,100008000.0,213.0,TREMONT,Y,1.0,1,
8,100009000.0,215.0,TREMONT,Y,2.5,2,1800.0


In [22]:
#supprimons une colonne qui a au moins 1 valeurs manquantes
df.dropna(axis = 1)

Unnamed: 0,ST_NUM,ST_NAME,NUM_BEDROOMS
0,104.0,PUTNAM,3.0
1,197.0,LEXINGTON,3.0
2,125.0,LEXINGTON,2.5
3,201.0,BERKELEY,1.0
4,203.0,BERKELEY,3.0
5,207.0,BERKELEY,2.5
6,125.0,WASHINGTON,2.0
7,213.0,TREMONT,1.0
8,215.0,TREMONT,2.5


In [23]:
# Suppression de lignes avec au moins 1 valeur nulle dans le fichier CSV.

df.dropna(axis = 0, how ='any')

Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3.0,1,1000.0
2,100003000.0,125.0,LEXINGTON,N,2.5,1,850.0
5,100006000.0,207.0,BERKELEY,Y,2.5,1,800.0
8,100009000.0,215.0,TREMONT,Y,2.5,2,1800.0


In [18]:
# python 3.x
import pandas as pd
fruit_list = [ ('Orange', 34, 'Yes' ) ,
             ('Mango', 24, 'No' ) ,
             ('banana', 14, 'No' ) ,
             ('Apple', 44, 'Yes' ) ,
             ('Pineapple', 64, 'No') ,
             ('Kiwi', 84, 'Yes')  ]
  
#Create a DataFrame object
df2 = pd.DataFrame(fruit_list, columns = 
                  ['Name' , 'Price', 'Stock']) 
df2

Unnamed: 0,Name,Price,Stock
0,Orange,34,Yes
1,Mango,24,No
2,banana,14,No
3,Apple,44,Yes
4,Pineapple,64,No
5,Kiwi,84,Yes


In [19]:
# Get names of indexes for which column Stock has value No
indexNames = df2[ df2['Stock'] == 'No' ].index

indexNames

Int64Index([1, 2, 4], dtype='int64')

In [20]:
# Delete these row indexes from dataFrame
df2.drop(indexNames , inplace=True)
print(df2)

     Name  Price Stock
0  Orange     34   Yes
3   Apple     44   Yes
5    Kiwi     84   Yes
