In [20]:
import pandas as pd

Notebook ini bertujuan untuk mengolah data kode negara berdasarkan ISO 3166-1 sebagai pengganti ISO 3155-3:2013 yang sudah tidak dapat diakses. Data yang diambil berdasarkan link yang tertera dibawah, dipindahkan kedalam excel dan di proses pada jupyter notebook ini.  
Source : https://en.wikipedia.org/wiki/List_of_sovereign_states_and_dependent_territories_by_continent_(data_file)

In [21]:
data = pd.read_excel('Country(alpha3code).xlsx')
data = data.drop(columns=['a-2','#'])
data.head()

Unnamed: 0,Continent,a-3,Name
0,AS,AFG,"Afghanistan, Islamic Republic of"
1,EU,ALB,"Albania, Republic of"
2,AN,ATA,Antarctica (the territory South of 60 deg S)
3,AF,DZA,"Algeria, People's Democratic Republic of"
4,OC,ASM,American Samoa


Dari data yang ada, hanya diambil kolom yang dibutuhkan yaitu `Continent`, `a-3`, `Name`  
`a-2` merupakan kode negara dalam 2 huruf dan `#` merupakan kode negara dalam 3 digit

In [22]:
# Cek Missing Value
data.isna().sum()

Continent    42
a-3           3
Name          0
dtype: int64

Terdapat Missing Value pada `Continent` dan nama negara. Setelah ditelusuri kode benua `NA` terpaca sebagai NaN

In [23]:
# Fill missing value menggunakan 'NA' (North America)
data['Continent'].fillna('NA', inplace=True)

In [24]:
# Finding a-3 missing value index
data[data['a-3'].isnull()].index.tolist()

[259, 260, 261]

In [25]:
# Missing Value DataFrame
data.iloc[[259, 260, 261],:]

Unnamed: 0,Continent,a-3,Name
259,AS,,United Nations Neutral Zone
260,AS,,Spratly Islands
261,OC,,Disputed Territory


Ketiga value diatas merupakan zona neutral atau sedang dispute, tidak dipakai maka akan di drop

In [26]:
# Droping Missing Value for Dispute / Neutral Territory
data.drop(index=[259,260,261], inplace=True)

Terdapat perbedaan kode negara antara ISO 3155-3:2013 dengan ISO 3166-1, yaitu :  
- East Timor dari TMP menjadi TLS  
- Canada dari CN menjadi CAN  

Maka DataFrame akan disesuaikan menjadi TMP dan CN

In [27]:
data.loc[data['a-3']=='TLS','a-3'] = 'TMP'
data.loc[data['a-3']=='CAN','a-3'] = 'CN'

In [28]:
# Droping Kolom 'Name' karena tidak digunakan untuk analisa
data.drop(columns='Name', inplace=True)

# Exporting csv
data.to_csv('alpha3code.csv', index=False)