# Dealing with Missing Data - Lab

## Introduction

In this lab, we'll work through strategies for data cleaning and dealing with null values (NaNs).

## Objectives
* Detect missing data in Pandas using .describe(), .info(), .isnull and .notnull
* Replace/drop missing data in Pandas using .fillna and .dropna


## Dataset

In this lab, we'll continue working with the _Titanic Survivors_ dataset, which can be found in `titanic.csv`.

Before we can get going, we'll need to import the usual libraries.  In the cell below, import:
* `pandas` as `pd`
* `numpy` as `np`
* `matplotlib.pyplot` as `plt`
* set `%matplotlib inline`

In [2]:
# Import necessary libraries below
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Now, let's get started by reading in the data from the **titanic.csv** file and storing it in a DataFrame in the `df` variable below. Subsequently, be sure to preview the data.

In [3]:
df =  pd.read_csv("titanic.csv")

## Finding Null Values in a DataFrame

Before we can deal with null values, we first need to find them. There are several easy ways to detect them.  We will start by answering very general questions, such as "does this DataFrame contain any null values?", and then narrowing our focus each time the answer to a question is "yes".

We'll start by checking to see if the DataFrame contains **any** null values (NaNs) at all. 

**_Hint_**: If you do this correctly, it will require method chaining, and will return a boolean value for each column.  

In [7]:
#Your code here
df.isna().sum()

Unnamed: 0       0
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Now we know which columns contain null values, but not how many. 

In the cell below, check chain a different method with `isna()` to check how many total null values are in each column.  

Expected Output:

```
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64```

In [None]:
#Your code here

Now that we know how many null values exist in each column, we can make some decisions about how to deal with them.  

We'll deal with each column individually, and employ a different strategy for each.  


### Dropping the Column

The first column we'll deal with is the `Cabin` column.  We'll begin by examining this column more closely. 


In the cell below:
* Determine what percentage of rows in this column contain missing values
* Print out the number of unique values in this column

In [10]:
#Your code here
cabin_percentage = 1-(df["Cabin"].isna().sum() / (len(df["Cabin"])))
cabin_percentage

0.2289562289562289

With this many missing values, it's probably best for us to just drop this column completely.

In the cell below:

* drop the `Cabin` column in place from the `df` DataFrame
* Then, check the remaining number of null values in the data set by using the code you wrote previously.  

In [17]:
#Your code here
df.drop(df["Cabin"],axis = 0)

KeyError: "[nan 'C85' nan 'C123' nan nan 'E46' nan nan nan 'G6' 'C103' nan nan nan\n nan nan nan nan nan nan 'D56' nan 'A6' nan nan nan 'C23 C25 C27' nan nan\n nan 'B78' nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan 'D33' nan 'B30' 'C52' nan nan nan nan nan 'B28' 'C83' nan\n nan nan 'F33' nan nan nan nan nan nan nan nan 'F G73' nan nan nan nan nan\n nan nan nan nan nan nan nan 'C23 C25 C27' nan nan nan 'E31' nan nan nan\n 'A5' 'D10 D12' nan nan nan nan 'D26' nan nan nan nan nan nan nan 'C110'\n nan nan nan nan nan nan nan 'B58 B60' nan nan nan nan 'E101' 'D26' nan\n nan nan 'F E69' nan nan nan nan nan nan nan 'D47' 'C123' nan 'B86' nan\n nan nan nan nan nan nan nan 'F2' nan nan 'C2' nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan 'E33' nan nan nan 'B19' nan nan nan 'A7' nan\n nan 'C49' nan nan nan nan nan 'F4' nan 'A32' nan nan nan nan nan nan nan\n 'F2' 'B4' 'B80' nan nan nan nan nan nan nan nan nan 'G6' nan nan nan\n 'A31' nan nan nan nan nan 'D36' nan nan 'D15' nan nan nan nan nan 'C93'\n nan nan nan nan nan 'C83' nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan 'C78' nan nan 'D35' nan nan 'G6' 'C87' nan nan nan nan 'B77' nan\n nan nan nan 'E67' 'B94' nan nan nan nan 'C125' 'C99' nan nan nan 'C118'\n nan 'D7' nan nan nan nan nan nan nan nan 'A19' nan nan nan nan nan nan\n 'B49' 'D' nan nan nan nan 'C22 C26' 'C106' 'B58 B60' nan nan nan 'E101'\n nan 'C22 C26' nan 'C65' nan 'E36' 'C54' 'B57 B59 B63 B66' nan nan nan nan\n nan nan 'C7' 'E34' nan nan nan nan nan 'C32' nan 'D' nan 'B18' nan 'C124'\n 'C91' nan nan nan 'C2' 'E40' nan 'T' 'F2' 'C23 C25 C27' nan nan nan 'F33'\n nan nan nan nan nan 'C128' nan nan nan nan 'E33' nan nan nan nan nan nan\n nan nan nan 'D37' nan nan 'B35' 'E50' nan nan nan nan nan nan 'C82' nan\n nan nan nan nan nan nan nan nan nan nan nan 'B96 B98' nan nan 'D36' 'G6'\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan 'C78'\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan 'E10'\n 'C52' nan nan nan 'E44' 'B96 B98' nan nan 'C23 C25 C27' nan nan nan nan\n nan nan 'A34' nan nan nan 'C104' nan nan 'C111' 'C92' nan nan 'E38' 'D21'\n nan nan 'E12' nan 'E63' nan nan nan nan nan nan nan nan nan nan 'D' nan\n 'A14' nan nan nan nan nan nan nan nan 'B49' nan 'C93' 'B37' nan nan nan\n nan 'C30' nan nan nan 'D20' nan 'C22 C26' nan nan nan nan nan 'B79' 'C65'\n nan nan nan nan nan nan 'E25' nan nan 'D46' 'F33' nan nan nan 'B73' nan\n nan 'B18' nan nan nan 'C95' nan nan nan nan nan nan nan nan 'B38' nan nan\n 'B39' 'B22' nan nan nan 'C86' nan nan nan nan nan 'C70' nan nan nan nan\n nan 'A16' nan 'E67' nan nan nan nan nan nan nan nan nan nan nan nan\n 'C101' 'E25' nan nan nan nan 'E44' nan nan nan 'C68' nan 'A10' nan 'E68'\n nan 'B41' nan nan nan 'D20' nan nan nan nan nan nan nan 'A20' nan nan nan\n nan nan nan nan nan nan 'C125' nan nan nan nan nan nan nan nan 'F4' nan\n nan 'D19' nan nan nan 'D50' nan 'D9' nan nan 'A23' nan 'B50' nan nan nan\n nan nan nan nan nan 'B35' nan nan nan 'D33' nan 'A26' nan nan nan nan nan\n nan nan nan nan nan nan 'D48' nan nan 'E58' nan nan nan nan nan nan\n 'C126' nan 'B71' nan nan nan nan nan nan nan 'B51 B53 B55' nan 'D49' nan\n nan nan nan nan nan nan 'B5' 'B20' nan nan nan nan nan nan nan 'C68'\n 'F G63' 'C62 C64' 'E24' nan nan nan nan nan 'E24' nan nan 'C90' 'C124'\n 'C126' nan nan 'F G73' 'C45' 'E101' nan nan nan nan nan nan 'E8' nan nan\n nan nan nan 'B5' nan nan nan nan nan nan 'B101' nan nan 'D45' 'C46'\n 'B57 B59 B63 B66' nan nan 'B22' nan nan 'D30' nan nan 'E121' nan nan nan\n nan nan nan nan 'B77' nan nan nan 'B96 B98' nan 'D11' nan nan nan nan nan\n nan 'E77' nan nan nan 'F38' nan nan 'B3' nan 'B20' 'D6' nan nan nan nan\n nan nan 'B82 B84' nan nan nan nan nan nan 'D17' nan nan nan nan nan\n 'B96 B98' nan nan nan 'A36' nan nan 'E8' nan nan nan nan nan 'B102' nan\n nan nan nan 'B69' nan nan 'E121' nan nan nan nan nan 'B28' nan nan nan\n nan nan 'E49' nan nan nan 'C47' nan nan nan nan nan nan nan nan nan 'C92'\n nan nan nan 'D28' nan nan nan 'E17' nan nan nan nan 'D17' nan nan nan nan\n 'A24' nan nan nan 'D35' 'B51 B53 B55' nan nan nan nan nan nan 'C50' nan\n nan nan nan nan nan nan 'B42' nan 'C148' nan] not found in axis"

### Computing Placeholder Values

Recall that another common strategy for dealing with null values is to replace them with the mean or median for that column.  We'll begin by investigating the current version of the `'Age'` column.  

In the cell below:

* Plot a histogram of values in the `'Age'` column with 80 bins (1 for each year).   
* Print out the mean and median for the column.  

In [None]:
# Your code here

From the visualization above, we can see the data has a slightly positive skew. 

In the cell below, replace all null values in the `'Age'` column with the median of the column.  **Do not hard code this value--use the methods from pandas or numpy to make this easier!**  Do this replacement in place on the DataFrame. 

In [None]:
# Your code here

Now that we've replaced the values in the `'Age'` column, let's confirm that they've been replaced.  

In the cell below, check how many null values remain in the dataset.  

In [None]:
# Your code here

Great! Now we need to deal with the two pesky null values in the `'Embarked'` column.  

### Dropping Rows That Contain Null Values

Perhaps the most common solution to dealing with null values is to simply drop any rows that contain them.  Of course, this is only a good idea if the number dropped does not constitute a significant portion of our dataset.  Often, you'll need to make the overall determination to see if dropping the values is an acceptable loss, or if it is a better idea to just drop an offending column (e.g. the `'Cabin'` column) or to impute placeholder values instead.

In the cell below, use the appropriate built-in DataFrame method to drop the rows containing null values. Do this in place on the DataFrame.  

In [None]:
# Your code here

Great! We've dealt with all the **_obvious_** null values, but we should also take some time to make sure that there aren't symbols or numbers included that are meant to denote a missing value. 

### Missing Values with Placeholders

A common thing to see when working with datasets is missing values denoted with a preassigned code or symbol.  Let's check to ensure that each categorical column contains only what we expect.

In the cell below, return the unique values in the `'Embarked'`, `'Sex'`, `'Pclass'`, and `'Survived'` columns to ensure that there are no values in there that we don't understand or can't account for.  

In [None]:
# Your code here

It Looks like the `'Pclass'` column contains some missing values denoted by a placeholder! 

In the cell below, investigate how many placeholder values this column contains.  Then, deal with these null values using whichever strategy you believe is most appropriate in this case.  

In [None]:
# Your code here

In [None]:
# Your code here

**_Question:_** What is the benefit of treating missing values as a separate valid category?  What is the benefit of removing or replacing them? What are the drawbacks of each? Finally, which strategy did you choose? Explain your choice below. 

Write your answer below this line:
______________________________________________________________________________________________________

Now, let's do a final check to ensure that there are no more null values remaining in this dataset.  

In the cell below, reuse the code you wrote at the beginning of the notebook to check how many null values our dataset now contains.  

In [None]:
# Your code here

Great! Those all seem in line with our expectations.  We can confidently say that this dataset contains no pesky null values that will mess up our analysis later on!

## Summary

In this lab, we learned:
* How to detect null values in our dataset
* How to deal with null values by dropping rows
* How to deal with null values by imputing mean/median values 
* Strategies for detecting null values encoded with a placeholder