# Data Collection 

In [1]:
import requests
import pandas as pd
import numpy as np
import seaborn as sns
import time
import matplotlib.pyplot as plt

In [2]:
api_key = 'db1d901da4114fca80d47ab2fd4eb480'
url = 'https://data.egov.kz/api/v4/state_schools/v1?source={"size": 9999}'
params = {'apiKey': api_key}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, params=params, headers=headers)
data = response.json()

In [3]:
df = pd.DataFrame(data)
df.to_csv('state_schools.csv')

In [4]:
df

Unnamed: 0,id,education_,area_id,sdu_load_i,student_co,region_nam,address,geo_coordi,area_name,region_id,district_n,long,district_i,establish_,lat
0,3,ОСО,114039,45408.495312500003,35,Акмолинская область,Ялань 1,"51.906716, 69.854728",с.Воробьевка,11,Буландынский район,69.854728,1140,26543,51.906716
1,6,ОСО,114031,45408.495312500003,48,Акмолинская область,Достык 44,"52.387028, 70.395137",с.Тастыозек,11,Буландынский район,70.395137,1140,28369,52.387028
2,11,ОСО,117063,45408.495312500003,105,Акмолинская область,Мира 4,"52.656624, 69.867274",с.Успено-юрьевка,11,Бурабайский район,69.867274,1170,29465,52.656624
3,16,ОСО,117035,45408.495312500003,298,Акмолинская область,Кенесары 25,"53.086290,70.301354",п.Бурабай,11,Бурабайский район,70.301354,1170,35451,53.086290
4,21,ОСО,117020,45408.495312500003,620,Акмолинская область,Абылай Хана 78,"52.931668,70.196550",г.Щучинск,11,Бурабайский район,70.196550,1170,25447,52.931668
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7089,7067,ОСО,116630,45408.495312500003,93,Акмолинская область,Отеміс 26,"51.04591961068501, 70.92286026983538",с.Отемис,11,Целиноградский район,70.92286026983538,1166,44724,51.04591961068501
7090,7072,ОСО,615530,45408.495312500003,371,Туркестанская область,Ш.Уалиханов 172 құрылыс,"43.3782181, 68.0875867",с. Космезгил,61,район Сауран,68.0875867,6155,45182,43.3782181
7091,7077,ОСО,195220,45408.495312500003,1353,Алматинская область,203 1394/1,"43.51715, 76.814832",г.Каскелен,19,Карасайский район,76.814832,1952,45166,43.51715
7092,7082,ОСО,431010,45408.495312500003,411,Кызылординская область,Бәйтерек 1,"44.85655694542948, 65.58266158956202",г.Кызылорда,43,Кызылорда Г.А.,65.58266158956202,4310,45231,44.85655694542948


In [5]:
# Let's check type of data we have:
df.dtypes

id            object
education_    object
area_id       object
sdu_load_i    object
student_co    object
region_nam    object
address       object
geo_coordi    object
area_name     object
region_id     object
district_n    object
long          object
district_i    object
establish_    object
lat           object
dtype: object

# Data Cleaning

In [6]:
# Firstly i should drop not needed columns
columns = ['sdu_load_i', 'geo_coordi', 'establish_']

df.drop(columns, axis=1, inplace=True)

In [7]:
# Before clean null values we should check unique values of each column and correct their dtypes
#1
df['id'].unique()
df['id'] = df['id'].astype(int)
#2
df['education_'].unique()
#3
df['area_id'].unique()
df['area_id'] = df['area_id'].astype(int)
#4
df['student_co'].unique()
df['student_co'] = df['student_co'].astype(int)
#5
df['region_nam'].unique()
#6
df['address'].unique()
#7
df['area_name'].unique()
#8
df['region_id'].unique()
df['region_id'] = df['region_id'].astype(int)
#9
df['district_n'].unique()
#10
df['long'].unique()
df['long'] = df['long'].astype(float)
#11
df['district_i'].unique()
df['district_i'] = df['district_i'].astype(int)
#12
df['lat'].unique()
df['lat'] = df['lat'].astype(float)

In [8]:
# I want to change ID of regions correctly
df['region_nam'].unique()

array(['Акмолинская область', 'Атырауская область', 'Актюбинская область',
       'область Жетісу', 'Алматинская область',
       'Западно-Казахстанская область', 'область Ұлытау',
       'Карагандинская область', 'Костанайская область',
       'Жамбылская область', 'Кызылординская область',
       'Мангистауская область', 'Туркестанская область', 'г.Шымкент',
       'Павлодарская область', 'Северо-Казахстанская область',
       'область Абай', 'Восточно-Казахстанская область', 'г.Астана',
       'г.Алматы'], dtype=object)

In [9]:
# Define the mapping dictionary
region_mapping = {
    'г.Астана': '01',
    'г.Алматы': '02',
    'Акмолинская область': '03',
    'Актюбинская область': '04',
    'Алматинская область': '05',
    'Атырауская область': '06',
    'Западно-Казахстанская область': '07',
    'Жамбылская область': '08',
    'Карагандинская область': '09',
    'Костанайская область': '10',
    'Кызылординская область': '11',
    'Мангистауская область': '12',
    'Туркестанская область': '13',
    'Павлодарская область': '14',
    'Северо-Казахстанская область': '15',
    'Восточно-Казахстанская область': '16',
    'г.Шымкент': '17',
    'область Абай': '18',
    'область Жетісу': '19',
    'область Ұлытау': '20'
}

# Map the values in 'region_nam' column using the mapping dictionary
df['region_id'] = df['region_nam'].map(region_mapping)

In [10]:
df['region_id'] = df['region_id'].astype(int)
df['region_id'].unique()

array([ 3,  6,  4, 19,  5,  7, 20,  9, 10,  8, 11, 12, 13, 17, 14, 15, 18,
       16,  1,  2])

In [11]:
df.dtypes

id              int64
education_     object
area_id         int64
student_co      int64
region_nam     object
address        object
area_name      object
region_id       int64
district_n     object
long          float64
district_i      int64
lat           float64
dtype: object

In [13]:
# Let`s check we have null values,duplicates or not?
df.isnull().sum()

id            0
education_    0
area_id       0
student_co    0
region_nam    0
address       0
area_name     0
region_id     0
district_n    0
long          0
district_i    0
lat           0
dtype: int64

In [14]:
df = df.drop_duplicates()
df

Unnamed: 0,id,education_,area_id,student_co,region_nam,address,area_name,region_id,district_n,long,district_i,lat
0,3,ОСО,114039,35,Акмолинская область,Ялань 1,с.Воробьевка,3,Буландынский район,69.854728,1140,51.906716
1,6,ОСО,114031,48,Акмолинская область,Достык 44,с.Тастыозек,3,Буландынский район,70.395137,1140,52.387028
2,11,ОСО,117063,105,Акмолинская область,Мира 4,с.Успено-юрьевка,3,Бурабайский район,69.867274,1170,52.656624
3,16,ОСО,117035,298,Акмолинская область,Кенесары 25,п.Бурабай,3,Бурабайский район,70.301354,1170,53.086290
4,21,ОСО,117020,620,Акмолинская область,Абылай Хана 78,г.Щучинск,3,Бурабайский район,70.196550,1170,52.931668
...,...,...,...,...,...,...,...,...,...,...,...,...
7089,7067,ОСО,116630,93,Акмолинская область,Отеміс 26,с.Отемис,3,Целиноградский район,70.922860,1166,51.045920
7090,7072,ОСО,615530,371,Туркестанская область,Ш.Уалиханов 172 құрылыс,с. Космезгил,13,район Сауран,68.087587,6155,43.378218
7091,7077,ОСО,195220,1353,Алматинская область,203 1394/1,г.Каскелен,5,Карасайский район,76.814832,1952,43.517150
7092,7082,ОСО,431010,411,Кызылординская область,Бәйтерек 1,г.Кызылорда,11,Кызылорда Г.А.,65.582662,4310,44.856557


In [15]:
# Perfect,we did not have any duplicates and null values

# Data Wrangling

In [16]:
df

Unnamed: 0,id,education_,area_id,student_co,region_nam,address,area_name,region_id,district_n,long,district_i,lat
0,3,ОСО,114039,35,Акмолинская область,Ялань 1,с.Воробьевка,3,Буландынский район,69.854728,1140,51.906716
1,6,ОСО,114031,48,Акмолинская область,Достык 44,с.Тастыозек,3,Буландынский район,70.395137,1140,52.387028
2,11,ОСО,117063,105,Акмолинская область,Мира 4,с.Успено-юрьевка,3,Бурабайский район,69.867274,1170,52.656624
3,16,ОСО,117035,298,Акмолинская область,Кенесары 25,п.Бурабай,3,Бурабайский район,70.301354,1170,53.086290
4,21,ОСО,117020,620,Акмолинская область,Абылай Хана 78,г.Щучинск,3,Бурабайский район,70.196550,1170,52.931668
...,...,...,...,...,...,...,...,...,...,...,...,...
7089,7067,ОСО,116630,93,Акмолинская область,Отеміс 26,с.Отемис,3,Целиноградский район,70.922860,1166,51.045920
7090,7072,ОСО,615530,371,Туркестанская область,Ш.Уалиханов 172 құрылыс,с. Космезгил,13,район Сауран,68.087587,6155,43.378218
7091,7077,ОСО,195220,1353,Алматинская область,203 1394/1,г.Каскелен,5,Карасайский район,76.814832,1952,43.517150
7092,7082,ОСО,431010,411,Кызылординская область,Бәйтерек 1,г.Кызылорда,11,Кызылорда Г.А.,65.582662,4310,44.856557


In [17]:
df.describe()

Unnamed: 0,id,area_id,student_co,region_id,long,district_i,lat
count,7094.0,7094.0,7094.0,7094.0,7094.0,7094.0,7094.0
mean,3547.5,405418.477869,523.709614,10.303919,69.49138,4053.813504,47.698719
std,2048.005737,201591.987032,646.276261,5.140419,8.72143,2015.951905,4.151947
min,1.0,101010.0,2.0,1.0,42.354191,1010.0,40.598983
25%,1774.25,231035.25,85.0,6.0,65.688369,2310.0,43.356469
50%,3547.5,391610.0,260.0,10.0,69.908489,3916.0,48.457667
75%,5320.75,612010.0,743.75,14.0,76.623732,6120.0,51.181952
max,7094.0,791910.0,6314.0,20.0,86.57107,7919.0,55.315684


In [18]:
# Rename our columns 
df.rename(columns={
    'id': 'ID',
    'education_': 'Education_Level',
    'area_id': 'Area_ID',
    'student_co': 'Student_Count',
    'region_nam': 'Region_Name',
    'address': 'Address',
    'area_name': 'Area_Name',
    'region_id': 'Region_ID',
    'district_n': 'District_Name',
    'long': 'Longitude',
    'district_i': 'District_ID',
    'lat': 'Latitude'
}, inplace=True)

In [22]:
# We changed order of columns to see them more comfortable
new_order = ['ID', 'Education_Level', 'Region_ID', 'Region_Name', 'Area_ID', 'Area_Name', 
             'District_ID', 'District_Name','Address', 'Student_Count', 'Longitude', 'Latitude']

df = df[new_order]

In [23]:
df

Unnamed: 0,ID,Education_Level,Region_ID,Region_Name,Area_ID,Area_Name,District_ID,District_Name,Address,Student_Count,Longitude,Latitude
0,3,ОСО,3,Акмолинская область,114039,с.Воробьевка,1140,Буландынский район,Ялань 1,35,69.854728,51.906716
1,6,ОСО,3,Акмолинская область,114031,с.Тастыозек,1140,Буландынский район,Достык 44,48,70.395137,52.387028
2,11,ОСО,3,Акмолинская область,117063,с.Успено-юрьевка,1170,Бурабайский район,Мира 4,105,69.867274,52.656624
3,16,ОСО,3,Акмолинская область,117035,п.Бурабай,1170,Бурабайский район,Кенесары 25,298,70.301354,53.086290
4,21,ОСО,3,Акмолинская область,117020,г.Щучинск,1170,Бурабайский район,Абылай Хана 78,620,70.196550,52.931668
...,...,...,...,...,...,...,...,...,...,...,...,...
7089,7067,ОСО,3,Акмолинская область,116630,с.Отемис,1166,Целиноградский район,Отеміс 26,93,70.922860,51.045920
7090,7072,ОСО,13,Туркестанская область,615530,с. Космезгил,6155,район Сауран,Ш.Уалиханов 172 құрылыс,371,68.087587,43.378218
7091,7077,ОСО,5,Алматинская область,195220,г.Каскелен,1952,Карасайский район,203 1394/1,1353,76.814832,43.517150
7092,7082,ОСО,11,Кызылординская область,431010,г.Кызылорда,4310,Кызылорда Г.А.,Бәйтерек 1,411,65.582662,44.856557


### ID: ''Unique identifier for each school record.''
### Education_Level: ''Level of education provided by the school.''
### Region_ID: ''Unique identifier for the region where the school is located.''
### Region_Name: ''Name of the region where the school is located.''
### Area_ID: ''Unique identifier for the area where the school is located.''
### Area_Name: ''Name of the area where the school is located.''
### District_ID: ''Unique identifier for the district where the school is located.''
### District_Name: ''Name of the district where the school is located.''
### Address: ''Street address of the school.''
### Student_Count: ''Number of students enrolled in the school.''
### Longitude: ''Longitude coordinate of the school's location.''
### Latitude: ''Latitude coordinate of the school's location.''

In [32]:
# Here we found our schools from which we graduated

In [31]:
df[df['ID'] == 6727]

Unnamed: 0,ID,Education_Level,Region_ID,Region_Name,Area_ID,Area_Name,District_ID,District_Name,Address,Student_Count,Longitude,Latitude
7025,6727,ОСО,2,г.Алматы,751710,Медеуский район,7517,Медеуский район,Жетбаева 15,1602,77.141619,43.358891


In [30]:
df[df['ID'] == 688]

Unnamed: 0,ID,Education_Level,Region_ID,Region_Name,Area_ID,Area_Name,District_ID,District_Name,Address,Student_Count,Longitude,Latitude
4419,688,ОСО,6,Атырауская область,231010,г.Атырау,2310,Атырау Г.А.,Ж. Досмухамбетова 10,292,51.925399,47.100757


In [20]:
df.to_csv('Schools.csv', index=False)