# Import pandas dan membaca file csv menggunakan encoding 'latin-1'

Encoding default membaca file csv yang digunakan pandas adalah 'UTF-8', mengubah encoding pandas menjadi 'latin-1' agar file bisa dibaca oleh pandas

In [1]:
import pandas as pd

df = pd.read_csv("BELGIUM_POPULATION_STRUCTURE_2018.csv", encoding='latin-1')

# Memilah kolom yang bertipe data angka 

Membuat variabel **numeric_columns** untuk menampung dataset, dataset akan dipilah menggunakan *"select_dtypes(include=['number'])"* sehingga hanya memilih kolom yang bertipe numerik

In [2]:
numeric_columns = df.select_dtypes(include=['number'])

# Menampilkan statistik dataset yang bertipe numerik

1. Membuat variabel **stats** untuk menampung statistik dataset yang bertipe numerik
2. Mengisi value variabel **stats** dengan *"numeric_columns.describe()"* untuk menampilkan statistik dataset yang bertipe numerik

In [3]:
stats = numeric_columns.describe()

## Menampilkan Rata Rata

Menggunakan *".loc['mean']"* pada variabel stats

In [4]:
print("Rata-rata:")
print(stats.loc['mean'])

Rata-rata:
MUNICIPALITY REFNIS CODE    45795.085029
DISTRICT REFNIS CODE        45754.592646
PROVINCE REFNIS CODE        43842.168913
REGION REFNIS CODE           2517.923673
AGE                            52.607527
POPULATION                     24.442695
Name: mean, dtype: float64


## Menampilkan Standar Deviasi

Menggunakan *".loc['std']"* pada variabel **stats**

In [5]:
print("Standar Deviasi:")
print(stats.loc['std'])

Standar Deviasi:
MUNICIPALITY REFNIS CODE    23956.614057
DISTRICT REFNIS CODE        23950.946921
PROVINCE REFNIS CODE        24106.756939
REGION REFNIS CODE            584.591526
AGE                            23.467469
POPULATION                     63.746827
Name: std, dtype: float64


## Menampilkan Nilai Minimum

Menggunakan *".loc['min']"* pada variabel **stats**

In [6]:
print("Nilai Minimum:")
print(stats.loc['min'])

Nilai Minimum:
MUNICIPALITY REFNIS CODE    11001.0
DISTRICT REFNIS CODE        11000.0
PROVINCE REFNIS CODE        10000.0
REGION REFNIS CODE           2000.0
AGE                             0.0
POPULATION                      1.0
Name: min, dtype: float64


## Menampilkan Nilai Maksimum

Menggunakan *".loc['max']"* pada variabel **stats**

In [7]:
print("Nilai Maksimum:")
print(stats.loc['max'])

Nilai Maksimum:
MUNICIPALITY REFNIS CODE    93090.0
DISTRICT REFNIS CODE        93000.0
PROVINCE REFNIS CODE        90000.0
REGION REFNIS CODE           4000.0
AGE                           100.0
POPULATION                   2936.0
Name: max, dtype: float64


## Menampilkan Kuartil Pertama(Q1)

Menggunakan *".quantile(0.25)"* pada variabel **numeric_columns** untuk menampilkan 25% data terendah

In [8]:
print("Kuartil Pertama (Q1):")
print(numeric_columns.quantile(0.25))

Kuartil Pertama (Q1):
MUNICIPALITY REFNIS CODE    24033.0
DISTRICT REFNIS CODE        24000.0
PROVINCE REFNIS CODE        20002.0
REGION REFNIS CODE           2000.0
AGE                            35.0
POPULATION                      2.0
Name: 0.25, dtype: float64


## Menampilkan Kuartil Kedua(Q2)

*".loc['50%']"* pada variabel **stats** untuk menampilkan median atau kuartil kedua(Q2)

In [9]:
print("Kuartil Kedua (Q2 atau Median):")
print(stats.loc['50%'])

Kuartil Kedua (Q2 atau Median):
MUNICIPALITY REFNIS CODE    44043.0
DISTRICT REFNIS CODE        44000.0
PROVINCE REFNIS CODE        40000.0
REGION REFNIS CODE           2000.0
AGE                            53.0
POPULATION                      7.0
Name: 50%, dtype: float64


## Menampilkan Kuartil Ketiga(Q3)

Menggunakan *".quantile(0.75)"* pada variabel **numeric_stats** untuk menampilkan 25% data tertinggi

In [10]:
print("Kuartil Ketiga (Q3):")
print(numeric_columns.quantile(0.75))

Kuartil Ketiga (Q3):
MUNICIPALITY REFNIS CODE    63035.0
DISTRICT REFNIS CODE        63000.0
PROVINCE REFNIS CODE        60000.0
REGION REFNIS CODE           3000.0
AGE                            71.0
POPULATION                     25.0
Name: 0.75, dtype: float64


# Menampilkan 10 record pertama dari dataset dengan attribute bertipe angka.

Menggunakan *'head(10)'* pada variabel **numeric_stats** untuk menampilkan 10 data pertama yang bertipe angka

In [11]:
print(numeric_columns.head(10))

   MUNICIPALITY REFNIS CODE  DISTRICT REFNIS CODE  PROVINCE REFNIS CODE  \
0                     71024                 71000               70000.0   
1                     71037                 71000               70000.0   
2                     71011                 71000               70000.0   
3                     71016                 71000               70000.0   
4                     71017                 71000               70000.0   
5                     71020                 71000               70000.0   
6                     71022                 71000               70000.0   
7                     71022                 71000               70000.0   
8                     71045                 71000               70000.0   
9                     71017                 71000               70000.0   

   REGION REFNIS CODE  AGE  POPULATION  
0                2000   39          42  
1                2000   82          24  
2                2000   42          51  
3         

# Menampilkan informasi jumlah record, jumlah attribute, nama attribute, jumlah attribute dengan tipe angka.

Membuat variabel **total_records** untuk menampung jumlah record keseluruhan

In [12]:
total_records = len(df)

Membuat variabel **total_attributes** untuk menampung jumlah attribute keseluruhan

In [13]:
total_attributes = df.shape[1]

Membuat variabel **attributes** untuk menampung semua nama kolom dalam bentuk list

In [14]:
attributes = df.columns.tolist()

Membuat variabel **total_numeric_attributes** untuk menampung jumlah semua kolom yang bertipe numerik/angka

In [15]:
total_numeric_attributes = len(df.select_dtypes(include=['number']).columns)

Membuat variabel **info_dict** bertipe dictionary untuk menampung semua data dengan "Jumlah Record", "Jumlah Attribute", "Nama Attribute", "Jumlah Attribute Numerik" sebagai key dan valuenya adalah variabel-variabel yang telah dibuat sebelumnya, pada value dari key "Nama Attribute" terdapat *",\n".join(attributes)*, ini digunakan untuk menghilangkan format penampilan data oleh variabel yang bertipe list.

In [16]:
info_dict = {
    "Jumlah Record" : total_records,
    "Jumlah Attribute" : total_attributes,
    "Nama Attribute" : ", \n".join(attributes),
    "Jumlah Attribute Numerik" : total_numeric_attributes
}

i = 1
for key, value in info_dict.items():
    print("==========================================")
    if key == "Nama Attribute":
        print(f"{i} | {key} : \n{value}")
    else:
        print(f"{i} | {key} : {value}")    
    i+=1
    
print("==========================================")

1 | Jumlah Record : 465418
2 | Jumlah Attribute : 13
3 | Nama Attribute : 
MUNICIPALITY REFNIS CODE, 
MUNICIPALITY NAME, 
DISTRICT REFNIS CODE, 
DISTRICT NAME, 
PROVINCE REFNIS CODE, 
PROVINCE NAME, 
REGION REFNIS CODE, 
REGION NAME, 
GENDER, 
NATIONALITY, 
CIVIL CODE STATUS, 
AGE, 
POPULATION
4 | Jumlah Attribute Numerik : 6


# Menampilkan nilai dataset pada baris yang dimulai dari 3 digit NIM akhir(066) hingga data terakhir dan kolom ke 4 hingga kolom terakhir menggunakan ke 2 metode slice.

Menggunakan metode *".iloc[66:, 3:]"* memanggil data ke-66 hingga akhir di kolom ke-4 hingga terakhir

In [17]:
df.iloc[66:, 3:]

Unnamed: 0,DISTRICT NAME,PROVINCE REFNIS CODE,PROVINCE NAME,REGION REFNIS CODE,REGION NAME,GENDER,NATIONALITY,CIVIL CODE STATUS,AGE,POPULATION
66,Hasselt,70000.0,Limburg,2000,Flemish Region,M,Belgian,Married,25,22
67,Hasselt,70000.0,Limburg,2000,Flemish Region,M,Belgian,Married,64,77
68,Hasselt,70000.0,Limburg,2000,Flemish Region,F,Belgian,Married,34,178
69,Hasselt,70000.0,Limburg,2000,Flemish Region,F,Belgian,Married,26,54
70,Hasselt,70000.0,Limburg,2000,Flemish Region,F,Belgian,Married,31,27
...,...,...,...,...,...,...,...,...,...,...
465413,Namen,90000.0,Namen,3000,Walloon Region,F,Alien,Divorced,64,1
465414,Sint-Niklaas,40000.0,Oost-Vlaanderen,2000,Flemish Region,M,Alien,Divorced,67,2
465415,Sint-Niklaas,40000.0,Oost-Vlaanderen,2000,Flemish Region,M,Alien,Divorced,74,1
465416,Sint-Niklaas,40000.0,Oost-Vlaanderen,2000,Flemish Region,M,Alien,Divorced,81,1


Menggunakan metode *".loc[66:, df.columns[3:]]"* memanggil data ke-66 hingga akhir di kolom ke-4 hingga terakhir

In [18]:
df.loc[66:, df.columns[3:]]

Unnamed: 0,DISTRICT NAME,PROVINCE REFNIS CODE,PROVINCE NAME,REGION REFNIS CODE,REGION NAME,GENDER,NATIONALITY,CIVIL CODE STATUS,AGE,POPULATION
66,Hasselt,70000.0,Limburg,2000,Flemish Region,M,Belgian,Married,25,22
67,Hasselt,70000.0,Limburg,2000,Flemish Region,M,Belgian,Married,64,77
68,Hasselt,70000.0,Limburg,2000,Flemish Region,F,Belgian,Married,34,178
69,Hasselt,70000.0,Limburg,2000,Flemish Region,F,Belgian,Married,26,54
70,Hasselt,70000.0,Limburg,2000,Flemish Region,F,Belgian,Married,31,27
...,...,...,...,...,...,...,...,...,...,...
465413,Namen,90000.0,Namen,3000,Walloon Region,F,Alien,Divorced,64,1
465414,Sint-Niklaas,40000.0,Oost-Vlaanderen,2000,Flemish Region,M,Alien,Divorced,67,2
465415,Sint-Niklaas,40000.0,Oost-Vlaanderen,2000,Flemish Region,M,Alien,Divorced,74,1
465416,Sint-Niklaas,40000.0,Oost-Vlaanderen,2000,Flemish Region,M,Alien,Divorced,81,1


# Menampilkan jumlah nilai dari semua attribute yang bernilai object

Membuat variabel **object_columns** untuk menampung semua kolom yang bertipe object

In [19]:
object_columns = df.select_dtypes(include=['object'])

Membuat variabel **attributes_names** untuk menampung semua nama kolom dan dibuat list dan membuat variabel **info_dict** untuk menampung semua nama kolom(key) dan jumlah nilai(value)

In [20]:
attributes_names = object_columns.columns.tolist()
info_dict = {}

Menggunakan perulangan untuk memasukkan semua nama kolom ke dalam variabel **info_dict** sebagai key dan jumlah nilai menjadi value nya

In [21]:
for column in attributes_names:
    info_dict[column] = df[column].value_counts()

Perulangan untuk menampilkan data yang ada di variabel **info_dict**

In [22]:
i = 1
for key, value in info_dict.items():
    # print("------------------------------------------------------")
    print("\n======================================================")
    print(f"{i}| {key} \n------------------------------------------------------\n{value}")
    i+=1


1| MUNICIPALITY NAME 
------------------------------------------------------
Antwerpen     1293
Brussel       1257
Luik          1253
Charleroi     1238
Schaarbeek    1224
              ... 
Herbeumont     440
Horebeke       428
Daverdisse     423
Mesen          411
Herstappe       79
Name: MUNICIPALITY NAME, Length: 589, dtype: int64

2| DISTRICT NAME 
------------------------------------------------------
 Halle-Vilvoorde      29061
 Antwerpen            25681
 Leuven               22803
 Turnhout             22149
 Nijvel               22119
 Verviers             21663
 Luik                 21625
 Brussel-Hoofdstad    21425
 Gent                 15786
 Hasselt              14914
 Charleroi            13179
 Namen                12326
 Maaseik              12020
 Bergen               11392
 Mechelen             10854
 Thuin                10645
 Hoei                 10592
 Dinant               10050
 Tongeren              9962
 Kortrijk              9453
 Borgworm              8283
