# 1. Preparing the data for analysis

Sebelum memulai analisis, penting bagi Anda untuk terlebih dahulu memeriksa dan membersihkan dataset, agar bekerja dengannya menjadi proses yang lebih efisien. Dalam bab ini, Anda akan berlatih memperbaiki tipe data, menangani nilai yang hilang, dan menjatuhkan kolom dan baris sambil mempelajari tentang *Stanford Open Policing Project dataset*.

In [1]:
# Import the pandas library as pd
import pandas as pd

# Assign url file
file_police = 'https://assets.datacamp.com/production/repositories/1497/datasets/62bd9feef451860db02d26553613a299721882e8/police.csv'
file_weather = 'https://assets.datacamp.com/production/repositories/1497/datasets/02f3fb2d4416d3f6626e1117688e0386784e8e55/weather.csv'

## Stanford Open Policing Project dataset

### Examining the dataset

Sepanjang kursus ini, Anda akan menganalisis kumpulan pemberhentian lalu lintas di Rhode Island yang dikumpulkan oleh [Stanford Open Policing Project](https://openpolicing.stanford.edu/).

Sebelum memulai analisis, penting bagi Anda untuk membiasakan diri dengan dataset. Dalam latihan ini, Anda akan membaca dataset dengan pandas, memeriksa beberapa baris pertama, dan kemudian menghitung jumlah nilai yang hilang.

In [4]:
# Read 'police.csv' into a DataFrame named ri
ri = pd.read_csv(file_police)

# Examine the head of the DataFrame
ri.head()

Unnamed: 0,state,stop_date,stop_time,county_name,driver_gender,driver_race,violation_raw,violation,search_conducted,search_type,stop_outcome,is_arrested,stop_duration,drugs_related_stop,district
0,RI,2005-01-04,12:55,,M,White,Equipment/Inspection Violation,Equipment,False,,Citation,False,0-15 Min,False,Zone X4
1,RI,2005-01-23,23:15,,M,White,Speeding,Speeding,False,,Citation,False,0-15 Min,False,Zone K3
2,RI,2005-02-17,04:15,,M,White,Speeding,Speeding,False,,Citation,False,0-15 Min,False,Zone X4
3,RI,2005-02-20,17:15,,M,White,Call for Service,Other,False,,Arrest Driver,True,16-30 Min,False,Zone X1
4,RI,2005-02-24,01:20,,F,White,Speeding,Speeding,False,,Citation,False,0-15 Min,False,Zone X3


In [5]:
# Count the number of missing values in each column
print(ri.isnull().sum())

state                     0
stop_date                 0
stop_time                 0
county_name           91741
driver_gender          5205
driver_race            5202
violation_raw          5202
violation              5202
search_conducted          0
search_type           88434
stop_outcome           5202
is_arrested            5202
stop_duration          5202
drugs_related_stop        0
district                  0
dtype: int64


**Note** : Sepertinya sebagian besar kolom memiliki setidaknya beberapa nilai yang hilang. Kita akan mencari cara untuk menangani nilai-nilai ini di latihan berikutnya!

### Dropping columns

Seringkali, DataFrame akan berisi kolom yang tidak berguna untuk analisis Anda. Kolom seperti itu harus dijatuhkan dari DataFrame, agar Anda lebih mudah fokus pada kolom yang tersisa.

Dalam latihan ini, Anda akan menjatuhkan kolom `county_name` karena hanya berisi nilai yang hilang, dan Anda akan menjatuhkan kolom `state` karena semua lalu lintas berhenti terjadi di satu negara (Rhode Island). Dengan demikian, kolom ini dapat dijatuhkan karena tidak mengandung informasi yang berguna.

In [6]:
# Examine the shape of the DataFrame
print(ri.shape)

# Drop the 'county_name' and 'state' columns
ri.drop(['county_name', 'state'], axis='columns', inplace=True)

# Examine the shape of the DataFrame (again)
print(ri.shape)

(91741, 15)
(91741, 13)


**Note** : Kita akan terus menghapus data yang tidak perlu dari DataFrame di latihan berikutnya.

### Dropping rows

Ketika Anda tahu bahwa kolom tertentu akan sangat penting untuk analisis Anda, dan hanya sebagian kecil dari baris yang kehilangan nilai dalam kolom itu, sering kali masuk akal untuk menghapus baris tersebut dari dataset.

Selama kursus ini, kolom `driver_gender` akan sangat penting bagi banyak analisis Anda. Karena hanya sebagian kecil dari baris yang hilang `driver_gender`, kami akan menghapus baris itu dari dataset.

In [7]:
# Count the number of missing values in each column
print(ri.isnull().sum())

# Drop all rows that are missing 'driver_gender'
ri.dropna(subset=['driver_gender'], inplace=True)

# Count the number of missing values in each column (again)
print(ri.isnull().sum())

# Examine the shape of the DataFrame
print(ri.shape)

stop_date                 0
stop_time                 0
driver_gender          5205
driver_race            5202
violation_raw          5202
violation              5202
search_conducted          0
search_type           88434
stop_outcome           5202
is_arrested            5202
stop_duration          5202
drugs_related_stop        0
district                  0
dtype: int64
stop_date                 0
stop_time                 0
driver_gender             0
driver_race               0
violation_raw             0
violation                 0
search_conducted          0
search_type           83229
stop_outcome              0
is_arrested               0
stop_duration             0
drugs_related_stop        0
district                  0
dtype: int64
(86536, 13)


**Note** : Kita telah menghapus sekitar 5.000 baris, yang merupakan sebagian kecil dari dataset, dan sekarang hanya satu kolom yang tersisa dengan nilai yang hilang.

## Using proper data types

### Finding an incorrect data type

Atribut `dtypes` dari DataFrame `ri` telah dicetak untuk Anda. Tugas Anda adalah menjelajahi DataFrame `ri` di IPython Shell untuk menentukan tipe data kolom mana yang harus diubah.

In [8]:
ri.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 86536 entries, 0 to 91740
Data columns (total 13 columns):
stop_date             86536 non-null object
stop_time             86536 non-null object
driver_gender         86536 non-null object
driver_race           86536 non-null object
violation_raw         86536 non-null object
violation             86536 non-null object
search_conducted      86536 non-null bool
search_type           3307 non-null object
stop_outcome          86536 non-null object
is_arrested           86536 non-null object
stop_duration         86536 non-null object
drugs_related_stop    86536 non-null bool
district              86536 non-null object
dtypes: bool(2), object(11)
memory usage: 8.1+ MB


**Note** : `is_arrested` harusnya memiliki tipe data `bool`. Kita akan memperbaiki tipe data kolom `is_arrested` di latihan berikutnya.

### Fixing a data type

Kita melihat dalam latihan sebelumnya bahwa kolom `is_arrested` saat ini memiliki tipe data `object`. Dalam latihan ini, kita akan mengubah tipe data menjadi `bool`, yang merupakan tipe paling cocok untuk kolom yang berisi nilai `True` dan `False`.

Memperbaiki tipe data akan memungkinkan kita untuk menggunakan operasi matematika pada kolom `is_arrested` yang tidak akan mungkin terjadi sebaliknya.

In [9]:
# Examine the head of the 'is_arrested' column
print(ri.is_arrested.head())

# Change the data type of 'is_arrested' to 'bool'
ri['is_arrested'] = ri.is_arrested.astype('bool')

# Check the data type of 'is_arrested' 
print(ri.is_arrested.dtype)

0    False
1    False
2    False
3     True
4    False
Name: is_arrested, dtype: object
bool


**Note** : Yang terbaik adalah memperbaiki masalah tipe data ini lebih awal, sebelum Anda memulai analisis Anda.

## Creating a DatetimeIndex

### Combining object columns

Saat ini, tanggal dan waktu setiap perhentian lalu lintas disimpan dalam kolom objek terpisah: `stop_date` dan `stop_time`.

Dalam latihan ini, Anda akan menggabungkan dua kolom ini menjadi satu kolom, dan kemudian mengonversinya menjadi format `datetime`. Ini akan memungkinkan atribut berbasis tanggal yang nyaman yang akan kita gunakan nanti dalam kursus.

In [10]:
# Concatenate 'stop_date' and 'stop_time' (separated by a space)
combined = ri.stop_date.str.cat(ri.stop_time, sep=' ')

# Convert 'combined' to datetime format
ri['stop_datetime'] = pd.to_datetime(combined)

# Examine the data types of the DataFrame
print(ri.dtypes)

stop_date                     object
stop_time                     object
driver_gender                 object
driver_race                   object
violation_raw                 object
violation                     object
search_conducted                bool
search_type                   object
stop_outcome                  object
is_arrested                     bool
stop_duration                 object
drugs_related_stop              bool
district                      object
stop_datetime         datetime64[ns]
dtype: object


**Note** : Sekarang kita siap untuk mengatur kolom `stop_datetime` sebagai indeks.

### Setting the index

Langkah terakhir yang akan Anda ambil dalam bab ini adalah mengatur kolom `stop_datetime` sebagai indeks DataFrame. Dengan mengganti indeks default dengan `DatetimeIndex`, Anda akan membuatnya lebih mudah untuk menganalisis dataset berdasarkan tanggal dan waktu, yang akan berguna nanti dalam kursus!

In [11]:
# Set 'stop_datetime' as the index
ri.set_index('stop_datetime', inplace=True)

# Examine the index
print(ri.index)

# Examine the columns
print(ri.columns)

DatetimeIndex(['2005-01-04 12:55:00', '2005-01-23 23:15:00',
               '2005-02-17 04:15:00', '2005-02-20 17:15:00',
               '2005-02-24 01:20:00', '2005-03-14 10:00:00',
               '2005-03-29 21:55:00', '2005-04-04 21:25:00',
               '2005-07-14 11:20:00', '2005-07-14 19:55:00',
               ...
               '2015-12-31 13:23:00', '2015-12-31 18:59:00',
               '2015-12-31 19:13:00', '2015-12-31 20:20:00',
               '2015-12-31 20:50:00', '2015-12-31 21:21:00',
               '2015-12-31 21:59:00', '2015-12-31 22:04:00',
               '2015-12-31 22:09:00', '2015-12-31 22:47:00'],
              dtype='datetime64[ns]', name='stop_datetime', length=86536, freq=None)
Index(['stop_date', 'stop_time', 'driver_gender', 'driver_race',
       'violation_raw', 'violation', 'search_conducted', 'search_type',
       'stop_outcome', 'is_arrested', 'stop_duration', 'drugs_related_stop',
       'district'],
      dtype='object')


**Note** : Sekarang setelah Anda membersihkan dataset, Anda dapat mulai menganalisisnya di bab berikutnya.