# Missing Data

Often data sources are incomplete, which means you will have missing data, you have 3 basic options for filling in missing data (you will personally have to make the decision for what is the right approach:

* Just keep the missing data points.
* Drop them missing data points (including the entire row)
* Fill them in with some other value.

Let's cover examples of each of these methods!

## Keeping the missing data
A few machine learning algorithms can easily deal with missing data, let's see what it looks like:

In [1]:
from pyspark.sql import SparkSession
# May take a little while on a local computer
spark = SparkSession.builder.appName("missingdata").getOrCreate()

In [2]:
df = spark.read.csv("ContainsNull.csv",header=True,inferSchema=True)

In [3]:
df.show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John| null|
|emp2| null| null|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+



Notice how the data remains as a null.

## Drop the missing data

You can use the .na functions for missing data. The drop command has the following parameters:

    df.na.drop(how='any', thresh=None, subset=None)
    
    * param how: 'any' or 'all'.
    
        If 'any', drop a row if it contains any nulls.
        If 'all', drop a row only if all its values are null.
    
    * param thresh: int, default None
    
        If specified, drop rows that have less than `thresh` non-null values.
        This overwrites the `how` parameter.
        
    * param subset: 
        optional list of column names to consider.

In [4]:
# Drop any row that contains missing data
df.na.drop().show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp4|Cindy|456.0|
+----+-----+-----+



In [5]:
# Has to have at least 2 NON-null values
# 행에 적어도 두 개의 null이 아닌 값이 있어야 제거된다.
df.na.drop(thresh=2).show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John| null|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+



In [6]:
# drop method에는 how 인자가 있는데 default값이 'any'이다.
# null값이 있기만해도 제거한다는 의미이다.
df.na.drop(how='any').show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp4|Cindy|456.0|
+----+-----+-----+



In [7]:
# 'all'은 모든 값이 null인 행을 제거한다는 의미이다.
df.na.drop(how='all').show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John| null|
|emp2| null| null|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+



In [8]:
# 모든 행의 null값을 기준으로 하지 않고
# 특정 컬럼의 null값을 기준으로할 때 subset을 사용한다.
# how의 default가 'any'이므로 Sales컬럼의 값이 null인 행만을 제거한다는 의미이다.
df.na.drop(subset=["Sales"]).show()
# Name 컬럼에 null값이 있는 행을 볼 수 있다.

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+



## Fill the missing values

We can also fill the missing values with new values. If you have multiple nulls across multiple data types, Spark is actually smart enough to match up the data types. For example:

In [10]:
df.printSchema()

root
 |-- Id: string (nullable = true)
 |-- Name: string (nullable = true)
 |-- Sales: double (nullable = true)



In [11]:
df.na.fill('NEW VALUE').show()
# Name컬럼의 null값만이 'NEW VALUE'로 대체되었다.
# 대체값이 string이기 때문에 string타입의 컬럼인 Name만 대체된 것이다.

+----+---------+-----+
|  Id|     Name|Sales|
+----+---------+-----+
|emp1|     John| null|
|emp2|NEW VALUE| null|
|emp3|NEW VALUE|345.0|
|emp4|    Cindy|456.0|
+----+---------+-----+



In [12]:
df.na.fill(0).show()
# 숫자를 넣으니 Sales컬럼의 null값만 대체되는것을 볼 수 있다.

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John|  0.0|
|emp2| null|  0.0|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+



Usually you should specify what columns you want to fill with the subset parameter

In [13]:
# subset을 이용해 대체하고자 하는 컬럼을 명시할 수 있다.
# 명시하지 않아도 스파크가 자동으로 대체했겠지만 명시하는것을 권장한다.
df.na.fill('No Name',subset=['Name']).show()

+----+-------+-----+
|  Id|   Name|Sales|
+----+-------+-----+
|emp1|   John| null|
|emp2|No Name| null|
|emp3|No Name|345.0|
|emp4|  Cindy|456.0|
+----+-------+-----+



A very common practice is to fill values with the mean value for the column, for example:

In [14]:
from pyspark.sql.functions import mean
mean_val = df.select(mean(df['Sales'])).collect()

mean_val

[Row(avg(Sales)=400.5)]

In [15]:
mean_val[0]

Row(avg(Sales)=400.5)

In [16]:
# 저번 시간에 asDict를 이용해 dictionary로 변환하여 값을 확인할 수 있었다.
# 인덱스를 사용해서도 값을 확인할 수 있다.
# Weird nested formatting of Row object!
mean_val[0][0]

400.5

In [17]:
mean_sales = mean_val[0][0]

In [18]:
# ["Sales"]는 subset을 의미한다.
df.na.fill(mean_sales,["Sales"]).show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John|400.5|
|emp2| null|400.5|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+



In [28]:
# One (very ugly) one-liner
# 가독성을 위해 추천하지 않는다.
df.na.fill(df.select(mean(df['Sales'])).collect()[0][0],['Sales']).show()

+----+-----+-----+
|  Id| Name|Sales|
+----+-----+-----+
|emp1| John|400.5|
|emp2| null|400.5|
|emp3| null|345.0|
|emp4|Cindy|456.0|
+----+-----+-----+



That is all we need to know for now!