# Import Pandas
- Once Pandas is installed, import it in your applications by adding the import keyword:

In [37]:
import pandas as pd
import matplotlib.pyplot as plt

# Read CSV Files

In [38]:
df = pd.read_csv('../data/raw/accident_region.csv')

In [39]:
print(df.to_string())

                    region         province       type number of victims in 2565 number of victims in 2566 number of victims in 2567 number of victims in 2568  Unnamed: 7  Unnamed: 8  Unnamed: 9  Unnamed: 10  Unnamed: 11  Unnamed: 12  Unnamed: 13
0        กรุงเทพและปริมณฑล    กรุงเทพมหานคร    บาดเจ็บ                   118,118                   143,168                    19,471                    20,265         NaN         NaN         NaN          NaN          NaN          NaN          NaN
1        กรุงเทพและปริมณฑล          นนทบุรี    บาดเจ็บ                    18,842                    16,380                     2,323                     2,301         NaN         NaN         NaN          NaN          NaN          NaN          NaN
2        กรุงเทพและปริมณฑล         ปทุมธานี    บาดเจ็บ                    22,756                    19,812                     2,708                     2,936         NaN         NaN         NaN          NaN          NaN          NaN          NaN
3        กรุ

# Manually Drop Extra Columns

In [40]:
# df = df.iloc[:, :7]

In [41]:
# print(df.to_string())

## Removes columns that have all NaN values

In [42]:
df = df.dropna(axis=1, how="all")

In [43]:
print(df.to_string())

                    region         province       type number of victims in 2565 number of victims in 2566 number of victims in 2567 number of victims in 2568
0        กรุงเทพและปริมณฑล    กรุงเทพมหานคร    บาดเจ็บ                   118,118                   143,168                    19,471                    20,265
1        กรุงเทพและปริมณฑล          นนทบุรี    บาดเจ็บ                    18,842                    16,380                     2,323                     2,301
2        กรุงเทพและปริมณฑล         ปทุมธานี    บาดเจ็บ                    22,756                    19,812                     2,708                     2,936
3        กรุงเทพและปริมณฑล      สมุทรปราการ    บาดเจ็บ                    34,528                    33,649                     4,708                     4,922
4                 ภาคเหนือ        เชียงใหม่    บาดเจ็บ                    35,741                    32,192                     4,630                     5,057
5                 ภาคเหนือ         เชียงราย   

# Info About the Data

In [44]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 231 entries, 0 to 230
Data columns (total 7 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   region                     231 non-null    object
 1   province                   231 non-null    object
 2   type                       231 non-null    object
 3   number of victims in 2565  231 non-null    object
 4   number of victims in 2566  231 non-null    object
 5   number of victims in 2567  231 non-null    object
 6   number of victims in 2568  231 non-null    object
dtypes: object(7)
memory usage: 12.8+ KB
None


# Data Cleaning
Data cleaning means fixing bad data in your data set.

Bad data could be:

- Empty cells
- Data in wrong format
- Wrong data
- Duplicates

## Remove Rows
One way to deal with empty cells is to remove rows that contain empty cells.

This is usually OK, since data sets can be very big, and removing a few rows will not have a big impact on the result

In pandas, `NA` (Not Available) values represent missing or null data in a dataset. 

> Note: By default, the dropna() method returns a new DataFrame, and will not change the original.

In [45]:
# df = df.dropna()

In [46]:
# print(df.to_string())

## Replace Empty Values
Another way of dealing with empty cells is to insert a new value instead.

This way you do not have to delete entire rows just because of some empty cells.

The `fillna()` method allows us to replace empty cells with a value:

In [47]:
df.fillna(0, inplace = True)

In [48]:
print(df.to_string())

                    region         province       type number of victims in 2565 number of victims in 2566 number of victims in 2567 number of victims in 2568
0        กรุงเทพและปริมณฑล    กรุงเทพมหานคร    บาดเจ็บ                   118,118                   143,168                    19,471                    20,265
1        กรุงเทพและปริมณฑล          นนทบุรี    บาดเจ็บ                    18,842                    16,380                     2,323                     2,301
2        กรุงเทพและปริมณฑล         ปทุมธานี    บาดเจ็บ                    22,756                    19,812                     2,708                     2,936
3        กรุงเทพและปริมณฑล      สมุทรปราการ    บาดเจ็บ                    34,528                    33,649                     4,708                     4,922
4                 ภาคเหนือ        เชียงใหม่    บาดเจ็บ                    35,741                    32,192                     4,630                     5,057
5                 ภาคเหนือ         เชียงราย   

## Removing Duplicates
To remove duplicates, use the `drop_duplicates()` method.

In [49]:
df.drop_duplicates(inplace = True)

## Wrong Data
"Wrong data" does not have to be "empty cells" or "wrong format", it can just be wrong

## Replacing Values
One way to fix wrong values is to replace them with something else.

In [50]:
df.columns.size

7

In [51]:
for col in range(3, df.columns.size):
    for row in df.index:
        # df.columns[col] is column name
        if df.loc[row, df.columns[col]] == '(Blank)':
            df.loc[row, df.columns[col]] = 0

In [52]:
print(df.to_string())

                    region         province       type number of victims in 2565 number of victims in 2566 number of victims in 2567 number of victims in 2568
0        กรุงเทพและปริมณฑล    กรุงเทพมหานคร    บาดเจ็บ                   118,118                   143,168                    19,471                    20,265
1        กรุงเทพและปริมณฑล          นนทบุรี    บาดเจ็บ                    18,842                    16,380                     2,323                     2,301
2        กรุงเทพและปริมณฑล         ปทุมธานี    บาดเจ็บ                    22,756                    19,812                     2,708                     2,936
3        กรุงเทพและปริมณฑล      สมุทรปราการ    บาดเจ็บ                    34,528                    33,649                     4,708                     4,922
4                 ภาคเหนือ        เชียงใหม่    บาดเจ็บ                    35,741                    32,192                     4,630                     5,057
5                 ภาคเหนือ         เชียงราย   

## Save cleaned data

In [53]:
df.to_csv("../data/cleaned/accident_region_cleaned.csv", index=False)