# Data Exploration

EDA (Exploratory Data Analysis) ini merupakan bagian dimana kita akan melakukan eksplorasi data dengan tujuan untuk memahami data dan bahkan menjawab pertanyaan dengan data. Pada bagian data exploration ini kita akan mengaplikasikan teknik statistik yang sudah dipelajari sebelumnya.

Contoh explore data (exploring data):
- cara import data
- cara mendapatkan insight dari data

menjawab pertanyaan dengan data (answering question):
- mencari fakta dari data
- menggali informasi dari data

bagaimana cara explore data:
- time to practice

In [2]:
import pandas as pd
import numpy as np

#### Exploring Data

sekarang kita akan import data dari website. Data ini adalah data tentang penggunaan alkohol di seluruh dunia.

In [3]:
df = pd.read_csv('http://bit.ly/drinksbycountry')
df.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
1,Albania,89,132,54,4.9,Europe
2,Algeria,25,0,14,0.7,Africa
3,Andorra,245,138,312,12.4,Europe
4,Angola,217,57,45,5.9,Africa


kita akan mencoba mendapatkan insight dengan fungsi yang sederhana

In [4]:
df.describe()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


describe() digunakan untuk menjabarkan data yang kita miliki dalam bentuk statistik namun kolom yang dapat didescribe hanyalah kolom yang berisi data angka.

Dari data di atas kita bisa mengetahui mayoritas negara mengonsumsi beer dengan melihat hubungan antara mean dan std (**mean - std** hingga **mean + std**). Kita juga dapat mengetahui bahwa ada negara yang tidak mengonsumsi alkohol sama sekali dari nilai minimum (0). Kita juga bisa memprediksi outlier, coba lihat pada bagian **wine_servings**, nilai mediannya saja 8, meannya hanya 49 dan Q3 nya hanya 59 tetapi nilai maksimumnya mencapai 370 yang menunjukkan bahwa kemungkinan besar ada outlier.


apakah data string tidak bisa dilihat data statistiknya? **bisa duonk**

gunakan describe(include='all')

In [5]:
df.describe(include='all')

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
count,193,193.0,193.0,193.0,193.0,193
unique,193,,,,,6
top,Togo,,,,,Africa
freq,1,,,,,53
mean,,106.160622,80.994819,49.450777,4.717098,
std,,101.143103,88.284312,79.697598,3.773298,
min,,0.0,0.0,0.0,0.0,
25%,,20.0,4.0,1.0,1.3,
50%,,76.0,56.0,8.0,4.2,
75%,,188.0,128.0,59.0,7.2,


jika kita lihat kolom country, **unique** adalah jumlah data unik, **top** adalah data yang paling sering keluar dan berhubung semua negara unik sehingga semua negara bisa menjadi **top** dengan **freq** nya 1. Begitu pula dengan continent, namun **top** nya adalah Africa dengan **freq** nya berjumlah 53 artinya ada 53 data berisi Africa.

Bagaimana jika kita ingin mengetahui info kolom dalam data?

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
country                         193 non-null object
beer_servings                   193 non-null int64
spirit_servings                 193 non-null int64
wine_servings                   193 non-null int64
total_litres_of_pure_alcohol    193 non-null float64
continent                       193 non-null object
dtypes: float64(1), int64(3), object(2)
memory usage: 9.1+ KB


info di atas menunjukkan banyak informasi seperti type data, bahkan kolom yang memiliki nilai kosong. Kebetulan dari data di atas semuanya **non-null** artinya tidak ada nilai kosong. Kita juga bisa mengetahui memory usage dari data tersebut.

#### Answering the Question

- Ada berapa total country dari tiap continent dari dataset?

In [7]:
df['continent'].value_counts() #yang ini cukup sih sebenernya

Africa           53
Europe           45
Asia             44
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

In [8]:
df['continent'].value_counts().sort_values()

South America    12
Oceania          16
North America    23
Asia             44
Europe           45
Africa           53
Name: continent, dtype: int64

In [9]:
df['continent'].value_counts().sort_values(ascending=False)

Africa           53
Europe           45
Asia             44
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

- Berapa negara di Asia yang tidak mengonsumsi beer?

Kita akan melakukan filtering, pertama kita akan melihat negara negara di Asia

In [10]:
df[df['continent'] == 'Asia']

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
12,Bahrain,42,63,7,2.0,Asia
13,Bangladesh,0,0,0,0.0,Asia
19,Bhutan,23,0,0,0.4,Asia
24,Brunei,31,2,1,0.6,Asia
30,Cambodia,57,65,1,2.2,Asia
36,China,79,192,8,5.0,Asia
46,North Korea,0,0,0,0.0,Asia
77,India,9,114,0,2.2,Asia
78,Indonesia,5,1,0,0.1,Asia


sip, sekarang kita akan melihat negara Asia yang **beer_servings** nya samadengan **0**

In [11]:
df[(df['continent'] == 'Asia') & (df['beer_servings'] == 0)]

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
13,Bangladesh,0,0,0,0.0,Asia
46,North Korea,0,0,0,0.0,Asia
79,Iran,0,0,0,0.0,Asia
90,Kuwait,0,0,0,0.0,Asia
103,Maldives,0,0,0,0.0,Asia
128,Pakistan,0,0,0,0.0,Asia
149,Saudi Arabia,0,5,0,0.1,Asia


data di atas adalah negara-negara di Asia yang tidak mengonsumsi beer, sekarang bagaimana jika kita ingin menghitung jumlahnya?

In [12]:
len(df[(df['continent'] == 'Asia') & (df['beer_servings'] == 0)])

8

- negara di Eropa yang mengonsumsi wine dengan intesitas lebih dari 100

sama seperti sebelumnya tapi kita akan mencari negara di Eropa yang **wine_servings**nya lebih dari 100

In [13]:
df[(df['continent'] == 'Europe') & (df['wine_servings'] > 100)]

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
3,Andorra,245,138,312,12.4,Europe
9,Austria,279,75,191,9.7,Europe
16,Belgium,295,84,212,10.5,Europe
42,Croatia,230,87,254,10.2,Europe
44,Cyprus,192,154,113,8.2,Europe
45,Czech Republic,361,170,134,11.8,Europe
48,Denmark,224,81,278,10.4,Europe
61,France,127,151,370,11.8,Europe
64,Georgia,52,100,149,5.4,Europe
65,Germany,346,117,175,11.3,Europe


In [14]:
len(df[(df['continent'] == 'Europe') & (df['wine_servings'] > 100)])

28

- negara apa yang paling banyak mengonsumsi spirit di benua Afrika?

kita lihat dulu negara-negara di Afrika

In [15]:
df[df['continent'] == 'Africa']

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
2,Algeria,25,0,14,0.7,Africa
4,Angola,217,57,45,5.9,Africa
18,Benin,34,4,13,1.1,Africa
22,Botswana,173,35,35,5.4,Africa
26,Burkina Faso,25,7,7,4.3,Africa
27,Burundi,88,0,0,6.3,Africa
28,Cote d'Ivoire,37,1,7,4.0,Africa
29,Cabo Verde,144,56,16,4.0,Africa
31,Cameroon,147,1,4,5.8,Africa
33,Central African Republic,17,2,1,1.8,Africa


sekarang kita sorting secara **descending** berdasarkan **spirit_servings**. Karena kita hanya ingin tahu yang paling banyak mengonsumsi spirit jadi kita cukup ambil data teratasnya saja

In [17]:
df[(df['continent'] == 'Africa')].sort_values(['spirit_servings'], ascending=False).head(1)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
96,Liberia,19,152,2,3.1,Africa


sip, sekarang kita tau bahwa negara di benua Afrika yang mengonsumsi spirit terbanyak adalah Liberia. Haram ya jangan ikutan!

- berapa rata-rata konsumsi alkohol dari tiap benua?

langsung aja lah ya biar cepet, ez ini mah

In [21]:
df.groupby(['continent']).mean().sort_values(['total_litres_of_pure_alcohol'], ascending=False)

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Europe,193.777778,132.555556,142.222222,8.617778
South America,175.083333,114.75,62.416667,6.308333
North America,145.434783,165.73913,24.521739,5.995652
Oceania,89.6875,58.4375,35.625,3.38125
Africa,61.471698,16.339623,16.264151,3.007547
Asia,37.045455,60.840909,9.068182,2.170455


nah eta