# Pandas DataFrame - Missing Data Pandas Operations

În această parte o să aruncăm o privire peste metodele disponibile în Pandas pentru operațiile ce țin de valorile lipsă din cadrul unui DataFrame

In [2]:
# importing the libraries
import numpy as np
import pandas as pd

Pentru această parte din tutorial o să ne folosim de np.nan care retunează o valoare de tipul Not a Number

In [3]:
np.nan

nan

Ce este de reținut cu aceste valori este faptul că ar trebuie să nu folosim comparația standard din Python cu valorile de tip np.nan. Dacă comarăm două valori de acest fel folosind comparație standard din Python (==) atunci această compartație o să returneze False

In [4]:
np.nan == np.nan

False

Logica generală de ce se returnează False este faptul că din moment ce nu știm exact ce valoare conține np.nan, știm doar că acolo lipsește o valore, nu putem ști sigur dacă două valori de tipul np.nan sunt egale. Pentru a face această comparație, atunci o să se utilizeze cuvântul cheie 'is'

In [5]:
np.nan is np.nan

True

Fișierul csv cu care o să lucrăm acuma, care conține și valori de tipul NaN poartă denumirea de movie_scores.csv. Să citim acest fișier într-un DataFrame

In [6]:
df = pd.read_csv('../data/03-Pandas/movie_scores.csv')

In [7]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


DataFrame-ul de mai sus este unul destul de mic (doar 5 rânduri și 6 coloane) și are și anumite valori lispă. Putem observa că este prezent un rând unde nu avem nicio valoare, iar pentru un alt rând există două coloane care nu au valori. O să verificăm acuma și o să selectăm unde există valori nule în cadrul acestui DataFrame. Pentru a face asta o să utilizăm metoda 'isnull()'. Metoda respectivă retunrează o mapare a DataFrame-ului existent cu valori booleane unde True semnifică faptul că este o valorea nulă acolo, iar False semnifică că nu este o valoarea nulă

In [8]:
df.isnull()

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,False,False,False,False,False,False
1,True,True,True,True,True,True
2,False,False,False,False,True,True
3,False,False,False,False,False,False
4,False,False,False,False,False,False


Opusul acestei metode este metoda 'notnull()'

In [9]:
df.notnull()

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,True,True,True,True,True,True
1,False,False,False,False,False,False
2,True,True,True,True,False,False
3,True,True,True,True,True,True
4,True,True,True,True,True,True


Putem să utilizăm date din coloane (adică să extragem datele din cadrul unor coloane sub formă de Series) și să utilizăm acele metode pentru valori nule (isnull() și notnull()) pentru a selecta rânduri care conțin date nule sau care nu conțin (în funcție de ce metodă utilizăm). O să selectăm datele unde nu avem date care lipsesc în cadrul coloanei 'pre_movie_score'. Putem să ne utilizăm de aceste două metode împreună cu partea de filtrare condițională pentru a selecta anumite date care ne interesează

In [10]:
df[df['pre_movie_score'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


După ce am văzut cum anume putem să selectăm anumite valori pe baza metodelor 'isnull()' și 'notnull()' împreună cu filtrarea condițională, să aruncăm o privire acuma peste cele trei opțiuni pe care le avem la dispoziție pentru valorile nule din cadrul unui set de date. Pentru opțiunea de păstrare de date, nu avem ce să facem aici, pur și simplu citim un set de date într-un DataFrame împreună cu datele care lipsesc și păstrăm în acest fel DataFrame-ul (cu valorile lipsă)

În ceea ce privește partea în care ștergem datele există o metodă pentru așa ceva, și anume 'dropna()'. Este recomanda ca la început să apelăm help() pentru această metodă pentru a înțelege cum anume funcționează această metodă.

In [11]:
help(df.dropna)

Help on method dropna in module pandas.core.frame:

dropna(axis: 'Axis' = 0, how: 'str' = 'any', thresh=None, subset: 'IndexLabel' = None, inplace: 'bool' = False) method of pandas.core.frame.DataFrame instance
    Remove missing values.
    
    See the :ref:`User Guide <missing_data>` for more on which values are
    considered missing, and how to work with missing data.
    
    Parameters
    ----------
    axis : {0 or 'index', 1 or 'columns'}, default 0
        Determine if rows or columns which contain missing values are
        removed.
    
        * 0, or 'index' : Drop rows which contain missing values.
        * 1, or 'columns' : Drop columns which contain missing value.
    
        .. versionchanged:: 1.0.0
    
           Pass tuple or list to drop on multiple axes.
           Only a single axis is allowed.
    
    how : {'any', 'all'}, default 'any'
        Determine if row or column is removed from DataFrame, when we have
        at least one NA or all NA.
    
      

Utilizând acest help putem să vedem parametrii care sunt necesari pentru această funcție. Primul parametru este cel de 'axis' prin care îi spunem pe baza cărei axe să se realizeze această ștergere de date nule (pe baza rândurilor sau a coloanelor). Cel de al doilea parametru esențial este ce 'how'. Îm mod default este setat la 'any' și mai are și varianta de 'all'. Ce reprezintă acest arument este modul prin care să se facă această ștergere. Când este setat la 'any', atunci dacă un rând are o valoare lipsă pentru oricare dintre coloane, atunci o să șteargă acel rând. Pentru 'all', trebuie să fie date lipsă din toate coloanele pentru a șterge un anumit rând. O să tot rulăm metoda de dropna(), de fiecare dată tot aducând câte un argument în plus pentru a vedea diferențele

Dacă se utilizează metoda 'dropna()' fără a se specifica ceva argument, atunci o să se șteargă toate reîndurile din cadrul unui DataFrame care are date lipse din orice coloană. Pentru a vedea diferența, o să afișăm DataFrame-ul complet iar după o să aplicăm metoda 'dropna()'

In [12]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [13]:
df.dropna()

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


Prin aplicarea metode 'dropna()' se șterg rândurile de pe index-ul 1 și 2 deoarece acestea sunt singurele care au avut anumite date lispă.  În situația în care dorim să ștergem doar acel rând care are toate datele lipsă atunci putem să ne utilizăm de parametrul 'thresh='. Acestui argument trebuie să îi oferim ca și valoare un număr integer care să reprezintă numărul de date pe care să îl conțină pentru a nu se face drop la acel rând. De exemplu, dacă îi oferim valoarea 1 atunci dacă un anumit rând are o coloană unde are valore, iar restul lipsesc, atunci nu o să șteargă rândul respectiv

In [14]:
df.dropna(thresh=1)

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


În acest moment, rândul cu index-ul 2 nu a fost șterg deaorece acesta are coloane în care sunt prezente anumite date.

În continuare o să aruncăm o privire peste argumentul axis. Acest argument este setat în mod default la 0, ceea se înseamnă să aplice această metodă pe primul ax al DataFrame-ului, adică pe rânduri, să șteargă rândurile. Dacă setăm axis=1 (adică să aplice metoda pe coloane) atunci comanda aceasta o să șteargă tot ce există în acest DataFrame

In [15]:
df.dropna(axis=1)

0
1
2
3
4


De ce anume se întâmplă așa ceva? În acest moment codul șterge o coloană dacă acea coloană are anumite date care lipsesc în orice rând din cadrul DataFrame-ului. Din moment ce rândul de pe index-ul 1 nu are nicio valoare, prin urmare în fiecare coloană există cel puțin un rând care nu are nico valoare, din acest moment se face drop la toate coloanele. De cele mai multe ori însă o să avem nevoie să ștergem rânduri din cadrul unui DataFrame, din această cauză de cele mai multe ori nu o să fim nevoiți să specificăm ceva pentru argumentul 'axis' (deoarece este setat default pentru rânduri)

Următorul argument la care trebuie să ne uităm este cel de 'subset'. Prin intermediul acestui argument putem să specificăm doar anumite coloane care să fie luate în considerare atunci când să se facă drop la anumite date dintr-un DataFrame. Ceea ce trebuie să îi oferim acestui argument este fie un string cu numele coloanei atunci când dorim să facem referință doar la o coloană, fie o listă de valori (pentru cazurile în care dorim să facem referință la mai multe valori)

In [16]:
df.dropna(subset='last_name')

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


După ce am aruncat o privire la modul în care putem să ștergem datele care lipsesc, acuma este momentul să ne uităm peste modalitățile prin care putem să înlocuim aceste date lipsă. Pentru situația aceasta avem la dispoziție metoda 'fillna()'. Din nou, pentru început este recomandat să apelăm metoda help() pentru această funcție

In [17]:
help(df.fillna)

Help on method fillna in module pandas.core.frame:

fillna(value: 'object | ArrayLike | None' = None, method: 'FillnaOptions | None' = None, axis: 'Axis | None' = None, inplace: 'bool' = False, limit=None, downcast=None) -> 'DataFrame | None' method of pandas.core.frame.DataFrame instance
    Fill NA/NaN values using the specified method.
    
    Parameters
    ----------
    value : scalar, dict, Series, or DataFrame
        Value to use to fill holes (e.g. 0), alternately a
        dict/Series/DataFrame of values specifying which value to use for
        each index (for a Series) or column (for a DataFrame).  Values not
        in the dict/Series/DataFrame will not be filled. This value cannot
        be a list.
    method : {'backfill', 'bfill', 'pad', 'ffill', None}, default None
        Method to use for filling holes in reindexed Series
        pad / ffill: propagate last valid observation forward to next valid
        backfill / bfill: use next valid observation to fill gap.
  

Cea mai simplă modalitate este de îi oferi acestei metode o valoare ca și argument, iar atunci când se face asta, fiecare valorea ce este reprezentată ca fiind de tipul NaN o să fie înlocuită cu valoare oferită ca și argument

In [18]:
df.fillna('NEW VALUE!!!')

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,NEW VALUE!!!,NEW VALUE!!!,NEW VALUE!!!,NEW VALUE!!!,NEW VALUE!!!,NEW VALUE!!!
2,Hugh,Jackman,51.0,m,NEW VALUE!!!,NEW VALUE!!!
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


Problema este că atunci când se face asta poate avem diferite tipuri de date în anumite coloane. De exemplu, în DataFrame-ul de mai sus pentru valorile din coloana 'age' trebuie să avem valori numerice, dar din moment ce s-a oferit un string pentru metoda de fillna() atunci acea coloană o să fie transformată într-un string deoarece în acest moment conține și string-uri. Din acest motiv de cele mai multe ori metoda aceasta este folosită doar pentru câte o coloană în parte. Să înlocuim acum datele lipsă doar din cadrul coloanei 'pre_movie_score' cu valoarea 0

In [19]:
df['pre_movie_score'].fillna(0)

0    8.0
1    0.0
2    0.0
3    6.0
4    7.0
Name: pre_movie_score, dtype: float64

Din moment ce am obținut un Series, putem să îl atribuim acelei coloane pentru a se realiza modificările respective

In [None]:
# Do not run this cell
df['pre_movie_score'] = df['pre_movie_score'].fillna(0)

Ce anume se poate face cu ajutorul acestei metode, este să utilizăm o anumită funcție de statistică pentru a putea înlocui datele lipsă cu valoare medie din cadrul acelei coloane. Pentru a afla valoarea medie putem să utilizăm metoda 'mean()'

In [20]:
df['pre_movie_score'].mean()

7.0

Codul de mai sus putem să îl oferim ca și argument pentru metoda fillna(), iar astfel acele valori ce erau nule o să fie înlocuite cu valoarea medie din cadrul acelei coloane. Metoda mean() calculează valoarea medie fără a lua în cosiderare valorile nule din acea coloană, iar pentru DataFrame-ul curent ia în calcul doar 3 valori, valorile inițiale care sunt trecute ca și valori numerice

In [21]:
df['pre_movie_score'].fillna(df['pre_movie_score'].mean())

0    8.0
1    7.0
2    7.0
3    6.0
4    7.0
Name: pre_movie_score, dtype: float64

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Cum să comparăm două valori nule (acestea se compară utilizând cuvântul cheie is)

        np.nan is np.nan # returnează True

        np.nan == np.nan # returnează False

    2. Cum să verificăm ce date sunt considerate nule (sau care nu sunt considerate nule) dintr-un DataFrame

        df.isnull() # mapare a DataFrame-ului cu valori booleane unde True înseamnă că este o valorea nulă

        df.notnull() # mapare a DataFrame-ului cu valori booleane unde Tre înseamnă că nu avem o valoare nulă

    3. Cum să eliminăm valorile nule dintr-un DataFrame

        df.dropna()

        df.dropna(axis=1)

        df.dropna(thresh=1)
        
        df.dropna(subset=['last_name'])

    4. Cum să înlocuim valorile nule din cadrul unui DataFrame

        df.fillna('NEW VALUE!!!')

        df['pre_movie_score'].fillna(0)

        df['pre_movie_score'].fillna(df['pre_movie_score'].mean(0))