<h1 align=center><font size = 5>Створення карт за допомогою Python</font></h1>

## Вступ

В цій лабораторній ми подивимось як можна створювати карти для різних об'єктів та цілей. Ми відійдемр від бібліотеки Matplotlib і попрацюємо з іншою бібліотекою візуалізації у Python **Folium**. **Folium** має єдине призначення - візуалізація геопросторових даних. Є й інші альтернативні бібліотеки візуалізації геопросторових даних, такі як **plotly**, однак вони мають обмежену кількість безкоштовних запитів, в той час як **Folium** є абсолютно безкоштовним. 

# Дослідження датасетів за допомогою Pandas та Matplotlib<a id="0"></a>

Інструментарій: В лабораторній виконується обробка даних за допомогою бібліотек [*pandas*](http://pandas.pydata.org/) та [**Numpy**](http://www.numpy.org/), аналіз та візуалізація. Головною бібліотекою для візуалізації буде [**Folium**](https://github.com/python-visualization/folium/).

Опис датасетів (не оптрібно завантажувати з цих посилань):

1. Злочини департамента поліції Сан-Франциско за 2016 рік - [Police Department Incidents](https://data.sfgov.org/Public-Safety/Police-Department-Incidents-Previous-Year-2016-/ritf-b9ki) з публічного порталу даних Сан-Франциско. Дані одержані з системі звітності про злочини департамента поліції Сан-Франциско. Адреси та назви локацій були анонімізовані - перенесені у середини кварталу або на перехрестя. 

2. Іміграційні дані Канади з 1980 до 2013 року - [International migration flows to and from selected countries - The 2015 revision](http://www.un.org/en/development/desa/population/migration/data/empirical2/migrationflows.shtml) з сайту ООН. Датасет містить річні дані про потоки міжнародної міграції, записані за країною призначення. У даних представлена як еміграція так і імміграція населення, з урахуванням місця народження, громадянства та місця попереднього/майбутнього проживання як для громадян, так і для іноземців. 

# Завантажте та підготуйте дані <a id="2"></a>

Імпортуємо основні бібліотеки:

In [1]:
import numpy as np  
import pandas as pd 

# Вступ до Folium <a id="4"></a>

**Folium** це потужна бібліотека Python, яка надає можливість стоворення Leaflet maps (сама карта, тобто її відображення у браузері, реалізовано за домогою бібліотеки javaScript - Leaflet. Звідси й назва) декількох типів. Оскільки такі карти є інтерактивними, їх зручно застосовувати при створенні дешбордів.

З офіційної документації **Folium**:

> Folium поєднує в собі переваги засобів оброблення інформації Python екосистеми та створення карт на Leaflet.js бібліотеці. Працюйте зі своїми даними у Python та візуалізуйте їх у Leaflet map за допомогою Folium.

> Folium дозволяє легко візуалізувати дані, оброблені в Python, у Leaflet map. Він дозволяє приєднати дані до візуалізації у фонових карт.

#### Давайте інсталюємо **Folium**

In [2]:
!pip3 install Folium 
import folium

print("\nFolium installed and imported!")


Folium installed and imported!


Створення світової карти є простим у **Folium**. Ви можете легко створити об'єкт **Folium** *Map* об'єкт і візуалізувати його. Також, чудовою є їх інтерактивність, тобто ви можете збільшити масштаб карти у будь-якому регіоні, що вас цікавить, не дивлячись на початковий масштаб.

In [3]:
# Визначаємо світову карту
world_map = folium.Map()

# Відображаємо світову карту
world_map

Вперед. Спробуйте збільшувати за зменшувати мастаб карти вище, що визначити її максимальні можливості.

Ви можете кастомізувати початкові значення вашої карти за допомогою встановлення центру карти та масштабу.

Всі локації карти визначаються їх відповідними координатами - за широтою та довготою (*Latitude* and *Longitude*). Наприклад, ви можете створити карту та встановити центр по координатам **[0, 0]**.

Для цього центру, можна встановити масштаб за дефолтом. Створіть карту з центром у Канаді та пограйтесь з зумом.

In [4]:
# визначаємо центр карти світу у Канаді та встановлюємо невеликий рівень наближеня
world_map = folium.Map(location=[56.130, -106.35], zoom_start=2)

# відображаємо карту світу
world_map

Тепер давайте створимо карту з більшим наближенням.

In [5]:
# визначаємо центр карти світу у Канаді та встановлюємо великий рівень наближеня
world_map = folium.Map(location=[56.130, -106.35], zoom_start=8)

# відображаємо карту світу
world_map

Як ви побачили, чим більше збільшення - тим більшим буде наближення на карті.

### Створіть карту, яка буде відцентрована на будинку в якому ви живете, або прожили багато часу, з великим наближенням

In [6]:
## напишіть ваш код тут
gurt_map = folium.Map(location=[50.43589697120201, 30.64076261119674], zoom_start=16)
gurt_map

Ще одна цікава можливість **Folium** полягає в тому, що ви можете використовувати різні стилі карти. 

### A. Stamen Toner Maps (карта-тонер) (Stamen - дизайн студія https://stamen.com/)

Можна використати висококонтрасну ЧБ (чорно-білу) карту. Вона підходить для дослідження гібридних даних, вигинів річок та прибережних зон.

Давайте створимо Stamen Toner map.

In [7]:
# створюємо Stamen Toner map вашої улюбленої локації, наближення оберіть самостійно
world_map = folium.Map(location=[46.44547187197359, 30.62075006632381], zoom_start=8, tiles='Stamen Toner')

# відображаємо карту
world_map

Пограйтесь з наближенням, щоб зрозуміти чим цей тип карти відрізняється від початкового.

### B. Stamen Terrain Maps (топографічна карта)

Це карта, яка відображає природні кольори рослинності та затінення пагорбів. Також тут використовують просунуте маркування та  лініями позначені дороги з двостороннім шляхом.

Давайте створимо Stamen Terrain map з довільним наближенням.

In [8]:
# Створіть Stamen Toner map локації, використаної вище
world_map = folium.Map(location=[46.44547187197359, 30.62075006632381], zoom_start=12, tiles='Stamen Terrain')

# візуалізуйте карти
world_map

Пограйтесь з наближенням, щоб побачити основні відмінності цього стилю зі Stamen Toner та дефолтним. 

### C. Mapbox Bright Maps (Mapbox - інший розробник карт)

Ці карти дуже схожі на дефолтні, крім того, що кордони країн та регіонів не видимі при малому наближенні. Крім того, на картах за дефолтом найменування країн виконано на офіційній для цієї країни мові, у *Mapbox Bright* всі найменування відображає англійською.

Давайте зробимо таку карту. Пограйтесь з картою, щоб зрозуміти як вона працює.

In [9]:
# створіть карту у Mapbox Bright стилі.
world_map = folium.Map(tiles="CartoDB positron")
# world_map = folium.Map(tiles="CartoDB positron")

# Map tileset to use. Can choose from this list of built-in tiles:
# ”OpenStreetMap” ”Stamen Terrain”, “Stamen Toner”, “Stamen Watercolor”  ”CartoDB positron”, “CartoDB dark_matter”

# візуалізуйте карту
world_map

Зараз цей тип карти вже не існує. ЛОЛ! Прочитайте уважно текст помилки і знайдіть які ще типи карт можуть бути створені у **Folium**. Спробуйте зрозуміти, чим вони відрізняються.

### Оберіть один з типів карт, що не були використані у цьому документі, та побудуйте карту України

In [10]:
## пишіть ваш код тут
Ukraine_map = folium.Map(location = [49.104441549889614, 31.39161763286255], zoom_start=6, tiles='CartoDB dark_matter')
Ukraine_map

# Карти з маркерами <a id="6"></a>


Завантажимо датасет у *pandas*:

In [11]:
df_incidents = pd.read_csv('Police_Department_Incidents_-_2016_.csv')

print("Dataset read into pandas dataframe!")

Dataset read into pandas dataframe!


Давайте подивимось на перші рядки цього датасету.

In [12]:
df_incidents.head()

Unnamed: 0,IncidntNum,Category,Descript,DayOfWeek,Date,Time,PdDistrict,Resolution,Address,X,Y,Location,PdId
0,120058272,WEAPON LAWS,POSS OF PROHIBITED WEAPON,Friday,01/29/2016 12:00:00 AM,11:00,SOUTHERN,"ARREST, BOOKED",800 Block of BRYANT ST,-122.403405,37.775421,"(37.775420706711, -122.403404791479)",12005827212120
1,120058272,WEAPON LAWS,"FIREARM, LOADED, IN VEHICLE, POSSESSION OR USE",Friday,01/29/2016 12:00:00 AM,11:00,SOUTHERN,"ARREST, BOOKED",800 Block of BRYANT ST,-122.403405,37.775421,"(37.775420706711, -122.403404791479)",12005827212168
2,141059263,WARRANTS,WARRANT ARREST,Monday,04/25/2016 12:00:00 AM,14:59,BAYVIEW,"ARREST, BOOKED",KEITH ST / SHAFTER AV,-122.388856,37.729981,"(37.7299809672996, -122.388856204292)",14105926363010
3,160013662,NON-CRIMINAL,LOST PROPERTY,Tuesday,01/05/2016 12:00:00 AM,23:50,TENDERLOIN,NONE,JONES ST / OFARRELL ST,-122.412971,37.785788,"(37.7857883766888, -122.412970537591)",16001366271000
4,160002740,NON-CRIMINAL,LOST PROPERTY,Friday,01/01/2016 12:00:00 AM,00:30,MISSION,NONE,16TH ST / MISSION ST,-122.419672,37.76505,"(37.7650501214668, -122.419671780296)",16000274071000


Отже, кожний рядок складається з 13 ознак:
> 1. **IncidntNum**: Номер інцидента
> 2. **Category**: Категорія інцидента або злочину
> 3. **Descript**: Опис інцидента або злочина
> 4. **DayOfWeek**: День тижня, коли інцидент трапився
> 5. **Date**: Дата, коли інцидент трапився
> 6. **Time**: Час, коли інцидент трапився
> 7. **PdDistrict**: Районний департамент поліції
> 8. **Resolution**: Постанова злочину, стосовно того чи був затриманий злочинець чи ні
> 9. **Address**: Найближча адреса, де інцидент мав місце
> 10. **X**: значення довготи розташування злочина
> 11. **Y**: значення широти розташування злочина
> 12. **Location**: довгота та ширина у вигляді кортежу
> 13. **PdId**: ID поліцейського департаменту

Давайте подивимось, скільки записів у цьому датасеті

In [13]:
## напишіть ваш код нижче
df_incidents.shape

(150500, 13)

Отже, наш датафрейм складається з 150,5 тис. злочинів, які мали місце у 2016 році. Щоб зменшити використання ресурсів, давайте попрацюємо з першою 1000 інцидентів датасету.

In [14]:
# Зменьшіть датасет до його перших 500 записів
df_incidents = df_incidents.head(500)

Давайте перевіримо, що датасет дійсно містить 500 злочинів.

In [15]:
df_incidents.shape

(500, 13)

Тепер, коли кількість даних зменшено, давайте візуалізуємо ці злочини у м. Сан-Франциско. Будемо використовувати дефолтний стиль та рівень наближення 12.

In [16]:
# Широта та довгота Сан-Франциско
latitude = 37.77
longitude = -122.42

In [17]:
# Створіть карту та візуалізуйте її
# Напишіть ваш код тут
sanfran_map = folium.Map(location=[37.77, -122.42], zoom_start=12)
sanfran_map

Тепер будемо накладати маркери злочинів на карту. Щоб зробити це у **Folium**, слід створити *feature group* з її власними властивостями та стилістикою, а потім - додати її на карту.

Нижче буде використовуватись функція zip(). Знайдіть цю функцію, подивіться як вона працює та допишіть приклад, який характеризує її використання.

In [18]:
a = [1, 2, 3, 4, 5]
b = [1, 2, 3, 4, 5]
## напишіть ваш код тут
result = zip(a,b)
print(list(result))

[(1, 1), (2, 2), (3, 3), (4, 4), (5, 5)]


In [19]:
# Створюємо екземпляр FeatureGroup
incidents = folium.map.FeatureGroup()

# Перебираємо перші 1000 значень і включаємо їх у FeatureGroup
for lat, lng, in zip(df_incidents.Y, df_incidents.X):
    incidents.add_child(
        folium.features.CircleMarker(
            [lat, lng],
            radius = 5,
            color = "yellow",
            fill_color = "blue",
            fill_opacity=0.9
        )
    )

# Додаємо інцинденти на карту
sanfran_map.add_child(incidents)

Також можна додати текст, який буде спливати при наведенні мишки на маркер. Давайте зробимо так, що кожен маркер міг показати категорію злочинів, до якого він відноситься.

In [20]:
# Створюємо екземпляр FeatureGroup
incidents = folium.map.FeatureGroup()

# Перебираємо перші 1000 значень і включаємо їх у FeatureGroup
for lat, lng, in zip(df_incidents.Y, df_incidents.X):
    incidents.add_child(
        folium.features.CircleMarker(
            [lat, lng],
            radius = 5, # визначаємо, наскільки виликим буде кружок маркера
            color = "yellow",
            fill_color = "blue",
            fill_opacity=0.6
        )
    )

# Додаємо спливаючий текст до кожного маркеру на карті
latitudes = list(df_incidents.Y)
longitudes = list(df_incidents.X)
labels = list(df_incidents.Category)

for lat, lng, label in zip(latitudes, longitudes, labels):
    folium.Marker([lat, lng], popup=label).add_to(sanfran_map)    
    
# додаємо інцинденти на карту
sanfran_map.add_child(incidents)

Чи це не прекрасно? Тепер ви знаєте, до якої категорії злочинів відноситься кожен з маркерів. Але карта виглядає дуже перевантаженою всіма цими маркерами. Однак, у **Folium** існує цікаве рішення цієї проблеми, а саме - об'єднання сусідніх маркерів по кластерам, при цьому, кожний кластер буде отримувати кількість випадків, які в ньому знаходяться. Ці кластери можна розглядати окремо від інших кластерів Сан Франциско.

Для реалізації цього, ми створимо екземпляр *MarkerCluster* та додамо всі дані датафрейму до цього об'єкту.

In [21]:
from folium.plugins import MarkerCluster

# Давайте створимо нову копію карти Сан-Франциско
sanfran_map = folium.Map(location = [latitude, longitude], zoom_start = 12)

# Створимо екземпляр кластерів з маркерами для всіх випадків датафрейму
incidents = MarkerCluster().add_to(sanfran_map)

# Тепер пройдемо через всі значення датафрейму та додамо кожну точку даних у кластер
for lat, lng, label, in zip(df_incidents.Y, df_incidents.X, df_incidents.Category):
    folium.Marker(
        location = [lat, lng],
        icon = None,
        popup = label,
    ).add_to(incidents)

# відображення карти
sanfran_map

Зазначте, що коли ви зменшуєте наближення карти, всі маркери поєднуються в один кластер *глобальний кластер*, який складається зі всіх наявних кластерах на карті. Якщо збільшити наближення, *глобальний кластер* розпадеться на менші. І, якщо, наближувати далі, можна буде дійти до окремих маркерів.

# Choropleth Maps (Фонові картограми) <a id="8"></a>

`Choropleth` map - це тематична карта, на якій всі області зафарбовані кольорами або покриті візерунками пропорційно вимірів певної статистичної змінної, таких як щільність населення або дохід на душу населення. 

Фонова картограма надає можливість легко візуалізувати як відрізняються вимірювання по різним територіями. Нижче наведена фонова картограма США з показником кількості населення на квадратну милю по штатам:

<img src = "https://ibm.box.com/shared/static/2kzaknzdf6crt3n5rx6haskg3wiaklxl.png" width = 600> 

Тепер, давайте створимо власну фонову картограму світу з рівнем міграції населення Канади.

Завантажимо дані у *pandas* датасет:

In [22]:
import pandas as pd
import folium
df_can = pd.read_excel('Canada.xlsx',
                     sheet_name="Canada by Citizenship",
                     skiprows=range(20))                      

print("Data downloaded and read into a dataframe!")

Data downloaded and read into a dataframe!


Давайте подивимось на перші 5 записів датасету.

In [23]:
df_can.head()

Unnamed: 0,Type,Coverage,OdName,AREA,AreaName,REG,RegName,DEV,DevName,1980,...,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013
0,Immigrants,Foreigners,Afghanistan,935,Asia,5501,Southern Asia,902,Developing regions,16,...,2978,3436,3009,2652,2111,1746,1758,2203,2635,2004
1,Immigrants,Foreigners,Albania,908,Europe,925,Southern Europe,901,Developed regions,1,...,1450,1223,856,702,560,716,561,539,620,603
2,Immigrants,Foreigners,Algeria,903,Africa,912,Northern Africa,902,Developing regions,80,...,3616,3626,4807,3623,4005,5393,4752,4325,3774,4331
3,Immigrants,Foreigners,American Samoa,909,Oceania,957,Polynesia,902,Developing regions,0,...,0,0,1,0,0,0,0,0,0,0
4,Immigrants,Foreigners,Andorra,908,Europe,925,Southern Europe,901,Developed regions,0,...,0,0,1,1,0,0,0,0,1,1


Тепер давайте подивимось розміри нашого датасету.

In [24]:
## напишіть ваш код тут
df_can.shape

(197, 43)

Давайте підготуємо дані - внесемо деякі зміни у оригінальний датасет для того, щоб полегшити процес створення візуалізації. 

In [25]:
# Приберемо з датасету стовпчики, не релевантні для нашого дослідження
df_can.drop(['AREA','REG','DEV','Type','Coverage'], axis = 1, inplace = True)

<font color="green"> Коротко опишіть дію функції drop() та значення аргументів</font>

Drop видаляє нам потрібні стовпці ряди, якщо стовпці то axis=1 (по дефолту), якщо 0, то рядки, inplace=True - замінює наш датафрейм на новий без видалених об'єктів

In [26]:
# Давайте перейменуємо деякі стовпчики так, щоб вони стали зрозумілими
df_can.rename (columns = {'OdName':'Country', 'AreaName':'Continent','RegName':'Region'}, inplace = True)

<font color="green"> Яку колекцію потрібно вставити у аргументи функції rename?</font>

вставляємо словник де ключ це стара назва, а нова - значення 

In [27]:
# Тепер зробимо так, щоб всі назви стовпчиків мали тип string
df_can.columns = list(map(str, df_can.columns))

<font color="green"> Як працює заміна назв стовпчиків?</font>

....

<font color="green"> Як працює функція map()? Наведіть приклад</font>
map() дає можливість застосувати функцію до кожного елементу ітерованого об'єкта -> Python викликає функцію один раз для кожного елемента ітерованого об’єкта, який ми передаємо в map(), і повертає змінений елемент у карту об’єкта.

In [28]:
numbers = [10, 15, 21, 33, 42, 55]
mapped_numbers = list(map(lambda x: x * 2 + 3, numbers))
mapped_numbers

[23, 33, 45, 69, 87, 113]

In [29]:
# Додамо стовпчик Total
df_can['Total'] =  df_can.sum (axis = 1)

  df_can['Total'] =  df_can.sum (axis = 1)


<font color="green"> Для чого наводиться (axis = 1)?</font>

щоб стоврити стовпчик, а не рядок

Давайте знову подивимось на перші рядки датасету

In [30]:
df_can.head()

Unnamed: 0,Country,Continent,Region,DevName,1980,1981,1982,1983,1984,1985,...,2005,2006,2007,2008,2009,2010,2011,2012,2013,Total
0,Afghanistan,Asia,Southern Asia,Developing regions,16,39,39,47,71,340,...,3436,3009,2652,2111,1746,1758,2203,2635,2004,58639
1,Albania,Europe,Southern Europe,Developed regions,1,0,0,0,0,0,...,1223,856,702,560,716,561,539,620,603,15699
2,Algeria,Africa,Northern Africa,Developing regions,80,67,71,69,63,44,...,3626,4807,3623,4005,5393,4752,4325,3774,4331,69439
3,American Samoa,Oceania,Polynesia,Developing regions,0,1,0,0,0,0,...,0,1,0,0,0,0,0,0,0,6
4,Andorra,Europe,Southern Europe,Developed regions,0,0,0,0,0,0,...,0,1,1,0,0,0,0,1,1,15


Для того, щоб створити фонову картограму, нам потрібен geojson файл, який визначатиме площу/межі країн, штатів/областей, районів і т.д., які нам потрібні. В нашому випадку, оскільки ми хочемо створити світову карту, нам потрібні geojson дані, які визначають кордони всіх країн. Для зручності, можна використати вже існуючий файл **world_countries.json**.

Тепер давайте створимо карту світу, з центром по координатам **[0, 0]** та наближенням із значенням 2.

In [31]:
world_geo = 'world_countries.json' ## geojson файл

# Створюємо звичайну карту світу
world_map = folium.Map(location=[0, 0], zoom_start=2)

# Створюємо фонову картограму світу з кількістю населення, що емігрувало або іммігрувало з Канади 
# з 1980 до 2013 року
folium.Choropleth(
    geo_data=world_geo,
    data=df_can,
    columns=['Country', 'Total'],
    key_on='feature.properties.name',
    fill_color='YlGn', 
    fill_opacity=0.7, 
    line_opacity=0.2,
    legend_name='Immigration to Canada'
).add_to(world_map)

# YlOrRd
# Відображаємо карту
world_map 

В легенді країни показано, що чим темніший колір країни - тим більша кількість населення мігрувавала з країни. Однак, повноцінно вона не реалізувалась. Причиною цього є не рівномірний розподіл значень від мінімального до максимального.

In [32]:
world_geo = 'world_countries.json' ## geojson файл

# Створюємо звичайну карту світу
world_map = folium.Map(location=[0, 0], zoom_start=2)

# Розділяємо весь діапазон датасету по квантилям
bins = list(df_can["Total"].quantile([0, 0.91, 0.99, 1]))

# Створюємо фонову картограму світу з кількістю населення, що емігрувало або іммігрувало з Канади 
# з 1980 до 2013 року
folium.Choropleth(
    geo_data=world_geo,
    data=df_can,
    columns=['Country', 'Total'],
    key_on='feature.properties.name',
    fill_color='YlGnBu', 
    fill_opacity=1, 
    line_opacity=0.2,
    legend_name='Immigration to Canada',
    nan_fill_color = 'White',
    bins = bins
).add_to(world_map)

world_map

<font color="green"> Спробуйте підібрати такі числа для легенди, щоб вона нормально читалась</font>