# Data Exploration

EDA (Exploratory Data Analysis) ini merupakan bagian dimana kita akan melakukan eksplorasi data dengan tujuan untuk memahami data dan bahkan menjawab pertanyaan dengan data. Pada bagian data exploration ini kita akan mengaplikasikan teknik statistik yang sudah dipelajari sebelumnya.

Contoh explore data (exploring data):
- cara import data
- cara mendapatkan insight dari data

menjawab pertanyaan dengan data (answering question):
- mencari fakta dari data
- menggali informasi dari data

bagaimana cara explore data:
- time to practice

In [1]:
import pandas as pd
import numpy as np

#### Exploring Data

sekarang kita akan import data dari website. Data ini adalah data tentang penggunaan alkohol di seluruh dunia.

In [3]:
df = pd.read_csv('http://bit.ly/drinksbycountry')
df.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
1,Albania,89,132,54,4.9,Europe
2,Algeria,25,0,14,0.7,Africa
3,Andorra,245,138,312,12.4,Europe
4,Angola,217,57,45,5.9,Africa


kita akan mencoba mendapatkan insight dengan fungsi yang sederhana

In [4]:
df.describe()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


describe() digunakan untuk menjabarkan data yang kita miliki dalam bentuk statistik namun kolom yang dapat didescribe hanyalah kolom yang berisi data angka.

Dari data di atas kita bisa mengetahui mayoritas negara mengonsumsi beer dengan melihat hubungan antara mean dan std (**mean - std** hingga **mean + std**). Kita juga dapat mengetahui bahwa ada negara yang tidak mengonsumsi alkohol sama sekali dari nilai minimum (0). Kita juga bisa memprediksi outlier, coba lihat pada bagian **wine_servings**, nilai mediannya saja 8, meannya hanya 49 dan Q3 nya hanya 59 tetapi nilai maksimumnya mencapai 370 yang menunjukkan bahwa kemungkinan besar ada outlier.


apakah data string tidak bisa dilihat data statistiknya? **bisa duonk**

gunakan describe(include='all')

In [5]:
df.describe(include='all')

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
count,193,193.0,193.0,193.0,193.0,193
unique,193,,,,,6
top,North Korea,,,,,Africa
freq,1,,,,,53
mean,,106.160622,80.994819,49.450777,4.717098,
std,,101.143103,88.284312,79.697598,3.773298,
min,,0.0,0.0,0.0,0.0,
25%,,20.0,4.0,1.0,1.3,
50%,,76.0,56.0,8.0,4.2,
75%,,188.0,128.0,59.0,7.2,


jika kita lihat kolom country, **unique** adalah jumlah data unik, **top** adalah data yang paling sering keluar dan berhubung semua negara unik sehingga semua negara bisa menjadi **top** dengan **freq** nya 1. Begitu pula dengan continent, namun **top** nya adalah Africa dengan **freq** nya berjumlah 53 artinya ada 53 data berisi Africa.

Bagaimana jika kita ingin mengetahui info kolom dalam data?

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
country                         193 non-null object
beer_servings                   193 non-null int64
spirit_servings                 193 non-null int64
wine_servings                   193 non-null int64
total_litres_of_pure_alcohol    193 non-null float64
continent                       193 non-null object
dtypes: float64(1), int64(3), object(2)
memory usage: 9.1+ KB


info di atas menunjukkan banyak informasi seperti type data, bahkan kolom yang memiliki nilai kosong. Kebetulan dari data di atas semuanya **non-null** artinya tidak ada nilai kosong. Kita juga bisa mengetahui memory usage dari data tersebut.

#### Answering the Question

- Ada berapa total country dari tiap continent dari dataset?

In [16]:
df['continent'].value_counts() #yang ini cukup sih sebenernya

Africa           53
Europe           45
Asia             44
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

In [17]:
df['continent'].value_counts().sort_values()

South America    12
Oceania          16
North America    23
Asia             44
Europe           45
Africa           53
Name: continent, dtype: int64

In [18]:
df['continent'].value_counts().sort_values(ascending=False)

Africa           53
Europe           45
Asia             44
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64