# Data Wrangling
## Objectives

*   Handle missing values
*   Correct data format
*   Standardize and normalize data


<h2>What is the purpose of data wrangling?</h2>


Data wrangling is the process of converting data from the initial format to a format that may be better for analysis.

<h3>Import data</h3>

<h4>Import pandas</h4> 


In [16]:
import pandas as pd

Use the Pandas method <b>read_csv()</b> to load the data from the web address. Set the parameter  "names" equal to the Python list "headers".


In [14]:
df = pd.read_csv('data.csv')

Use the method <b>head()</b> to display the first five rows of the dataframe.


In [13]:
# To see what the data set looks like, we'll use the head() method.
print(df.head(10))

              username  rating  \
0           3629pkcerq       5   
1              b*****8       5   
2              m*****2       5   
3              n*****u       5   
4              p*****8       5   
5           anhthu8761       5   
6     thuydung19129995       5   
7           lan1291999       5   
8  phanthitragiang2208       5   
9              b*****6       5   

                                             comment  
0  Hình ảnh chỉ mang tc nhận xu, mn nên mua nha h...  
1  Mua ở shop 2 lần rồi , giao đúng số lượng , ch...  
2  Vải quần ổn. Quần như hình \nĐóng gói sp cẩn t...  
3  Vải k mỏng cũng k dày. Vải túi  quần k giống m...  
4  Chất vải khá ổn, giao hàng cũng nhanh,...........  
5  Quần xinh cực luôn ắ mn rẻ mà chất lượng giao ...  
6  quần vải đẹp chất mịn.Đã giặt rồi mặc lên from...  
7  Hình ảnh mang tính chất nhận xu \nQuần đẹp lắm...  
8  Sorry hình ảnh k liên quan. \nMình mua đồ lần ...  
9  Quần đẹp lắm nha mọi người ơiiii, chất vải siê...  


As we can see, several question marks appeared in the dataframe; those are missing values which may hinder our further analysis.

<div>So, how do we identify all those missing values and deal with them?</div> 

<b>How to work with missing data?</b>

Steps for working with missing data:

<ol>
    <li>Identify missing data</li>
    <li>Deal with missing data</li>
    <li>Correct data format</li>
</ol>


<h2 id="identify_handle_missing_values">Identify and handle missing values</h2>

<h3 id="identify_missing_values">Identify missing values</h3>
<h4>Convert "?" to NaN</h4>
In the car dataset, missing data comes with the question mark "?".
We replace "?" with NaN (Not a Number), Python's default missing value marker for reasons of computational speed and convenience. Here we use the function: 
 <pre>.replace(A, B, inplace = True) </pre>
to replace A by B.


In [19]:
import numpy as np

# replace "?" to NaN
df.replace(" ", np.nan, inplace = True)
df.head(5)

Unnamed: 0,username,rating,comment
0,3629pkcerq,5,"Hình ảnh chỉ mang tc nhận xu, mn nên mua nha h..."
1,b*****8,5,"Mua ở shop 2 lần rồi , giao đúng số lượng , ch..."
2,m*****2,5,Vải quần ổn. Quần như hình \nĐóng gói sp cẩn t...
3,n*****u,5,Vải k mỏng cũng k dày. Vải túi quần k giống m...
4,p*****8,5,"Chất vải khá ổn, giao hàng cũng nhanh,..........."
...,...,...,...
95,x.changgg,5,"giao nhanh, vải ok, giá rẻ mình, rất đáng mua ..."
96,n*****b,5,"chất lượng sản phẩm tuyệt vời, vải đẹp , giao ..."
97,hothikhanhly1501,5,"Hàng giao nhanh, đẹp, giống hình,, cơ mà size ..."
98,maihan309,5,Eo67 mac size S vẫn hoie rộng ạhhhhh🌀🌀🌀🌀💞💞💞💞💞💞...


<h4>Evaluating for Missing Data</h4>

The missing values are converted by default. We use the following functions to identify these missing values. There are two methods to detect missing data:

<ol>
    <li><b>.isnull()</b></li>
    <li><b>.notnull()</b></li>
</ol>
The output is a boolean value indicating whether the value that is passed into the argument is in fact missing data.


In [33]:
missing_data = df.isnull()
missing_data.head(5)

Unnamed: 0,username,rating,comment
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False


"True" means the value is a missing value while "False" means the value is not a missing value.


<h4>Count missing values in each column</h4>
<p>
Using a for loop in Python, we can quickly figure out the number of missing values in each column. As mentioned above, "True" represents a missing value and "False" means the value is present in the dataset.  In the body of the for loop the method ".value_counts()" counts the number of "True" values. 
</p>


In [34]:
for column in missing_data.columns.values.tolist():
    print(column)
    print (missing_data[column].value_counts())
    print("")    

username
False    2559
True        8
Name: username, dtype: int64

rating
False    2567
Name: rating, dtype: int64

comment
False    2567
Name: comment, dtype: int64



In [30]:
# simply drop whole row with NaN in "commnet" column
df.dropna(subset=["comment"],
           inplace=True)

# reset index, because we droped two rows

username
False    3011
True        9
Name: username, dtype: int64

rating
False    3020
Name: rating, dtype: int64

comment
False    2567
True      453
Name: comment, dtype: int64



In [35]:
df.head()

Unnamed: 0,username,rating,comment
0,3629pkcerq,5,"Hình ảnh chỉ mang tc nhận xu, mn nên mua nha h..."
1,b*****8,5,"Mua ở shop 2 lần rồi , giao đúng số lượng , ch..."
2,m*****2,5,Vải quần ổn. Quần như hình \nĐóng gói sp cẩn t...
3,n*****u,5,Vải k mỏng cũng k dày. Vải túi quần k giống m...
4,p*****8,5,"Chất vải khá ổn, giao hàng cũng nhanh,..........."
