In [7]:
import pandas as pd
import numpy as np
import os


df = pd.read_csv('Top 100 most Streamed - Sheet1.csv')
df.head(2)

Unnamed: 0,title,artist,top genre,year,beats.per.minute,energy,danceability,loudness.dB,liveness,valance,length,acousticness,speechiness,popularity
0,Blinding Lights,The Weeknd,canadian contemporary r&b,2020,171,73,51,-6,9,33,200,0,6,91
1,Watermelon Sugar,Harry Styles,pop,2019,95,82,55,-4,34,56,174,12,5,88


1. isna() / isnull()

Both do the same thing: detect missing values.

They return True if a value is missing (NaN) and False otherwise.

Example: Count missing values in each column

In [9]:
df.isnull()

# DataFrame of True/False for all cells

Unnamed: 0,title,artist,top genre,year,beats.per.minute,energy,danceability,loudness.dB,liveness,valance,length,acousticness,speechiness,popularity
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,False,False,False,False,False,False,False,False,False,False,False,False,False,False
96,False,False,False,False,False,False,False,False,False,False,False,False,False,False
97,False,False,False,False,False,False,False,False,False,False,False,False,False,False
98,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [10]:
df['artist'].isnull()
# Check only in 'artist' column

0     False
1     False
2     False
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Name: artist, Length: 100, dtype: bool

In [11]:
df.isna()
# Same as isnull()

Unnamed: 0,title,artist,top genre,year,beats.per.minute,energy,danceability,loudness.dB,liveness,valance,length,acousticness,speechiness,popularity
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,False,False,False,False,False,False,False,False,False,False,False,False,False,False
96,False,False,False,False,False,False,False,False,False,False,False,False,False,False
97,False,False,False,False,False,False,False,False,False,False,False,False,False,False
98,False,False,False,False,False,False,False,False,False,False,False,False,False,False


2. notnull()

The opposite of isna().

Returns True if the value exists (not missing).

Example: Filter rows where artist is not missing

In [14]:
df.notnull()
# True where value exists

Unnamed: 0,title,artist,top genre,year,beats.per.minute,energy,danceability,loudness.dB,liveness,valance,length,acousticness,speechiness,popularity
0,True,True,True,True,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,True,True,True,True,True,True,True,True,True,True,True,True,True,True
96,True,True,True,True,True,True,True,True,True,True,True,True,True,True
97,True,True,True,True,True,True,True,True,True,True,True,True,True,True
98,True,True,True,True,True,True,True,True,True,True,True,True,True,True


In [15]:
df['year'].notnull()
 # Only on 'year' column

0     True
1     True
2     True
3     True
4     True
      ... 
95    True
96    True
97    True
98    True
99    True
Name: year, Length: 100, dtype: bool

 3. fillna()

Replaces missing values with something else.

In [16]:
df['popularity'].fillna(0)
#replace nan with 0

0     91
1     88
2     88
3     86
4     86
      ..
95    66
96    66
97    66
98    56
99    53
Name: popularity, Length: 100, dtype: int64

In [None]:
df['artist'].fillna('unknown')

df.fillna(method='ffill') -- # forward fill (use previous value)
df.fillna(method='bfill') -- # backward fill (use next value)
df.fillna(df.mean(numeric_only=True)) --  # replace with column means

 4. dropna()

Removes rows (or columns) with missing values.
Example: Drop all songs missing artist

In [None]:
df.dropna()
# drop rows with ANY NaN

In [None]:
df.dropna(how='all')
# drop rows only if ALL values NaN

In [None]:
df.dropna(subset=['artist'])
# drop rows where 'artist' is NaN

In [None]:
df.dropna(axis=1)
 # drop columns with NaN