## 01. Подготовка на данните
### Съдържание
1. Използвани библиотеки
2. Запознаване със съдържанието на файла
3. Разглеждане на стойностите на отделните колонки
4. Трансформации на колонките
5. Експортиране на финалната версия на файла

#### 1. Използвани библиотеки
Използва се езика за програмиране python, приложените библиотеки са pandas, re, numpy, math, geopy и time. Предварително трябва да се инстралират, ако не са налични.
<br> Използваната методология е CRISP-DM за повече информаця в линка: https://www.sv-europe.com/crisp-dm-methodology/. Всяко изследване зависи от своята област и следването на метологията няма да е на 100%

In [1]:
import pandas as pd
import re
import numpy as np
import math
import geopy
from geopy.geocoders import Nominatim
from geopy.exc import GeocoderTimedOut, GeocoderServiceError
import time

#### 2. Запознаване със съдържанието на файла
Файла се прочита. Ще се работи с целия файла. Съдържат се 1534 реда и 15 колонки, преди да се започват да се правят промени, това се извъшва тук в 
jupyter lab както и в MS Excel или безплатната алтернатива Lbre Office Calc.

In [2]:
data = pd.read_excel('venerable-trees.xlsx')

In [3]:
data.shape

(1534, 15)

Разглеждаме имената на колонките и техния тип. С изключение на колонката Особености другите съдържат малък брой празни редове. Типа на данните е обект, впоследвие това ще бъде променено за да правят нуждните трансформации.

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1534 entries, 0 to 1533
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   №                   1534 non-null   float64
 1   Дървесен вид        1534 non-null   object 
 2   Вид на документа    1534 non-null   object 
 3   Номер на документа  1534 non-null   object 
 4   Дата                1534 non-null   object 
 5   ДВ                  1533 non-null   object 
 6   Населено място      1534 non-null   object 
 7   Община              1534 non-null   object 
 8   Област              1534 non-null   object 
 9   РИОСВ               1534 non-null   object 
 10  Възраст, години     1534 non-null   object 
 11  Височина, м         1507 non-null   object 
 12  Обиколка, м         1531 non-null   object 
 13  Диаметър, м         1533 non-null   object 
 14  Особености          5 non-null      object 
dtypes: float64(1), object(14)
memory usage: 179.9+ KB


#### 3. Разглеждане на стойностите на отделните колонки.
Наблюдава се множество инстанции на записване на повече от 1 инстанция в колонка Дървесен вид.

In [5]:
data['Дървесен вид'].unique()

array(['Източен чинар', 'Чинар (Дом на щъркелите)',
       'Черна мура (Байкушевата мура)', 'Ела', 'Полски бряст', 'Бял бор',
       'Бяла мура', 'Питомен кестен', 'Чинар', 'Ясен', 'Летен дъб',
       'Дъб (лъжник)', 'Орех', 'Бяла топола', 'Цер', 'Топола',
       'Кривата липа', 'Кедър', 'Хималайски кедър', 'Либоцедрус',
       'Кедър, сребрист, атласки', 'Бряст', 'Черна топола', 'Благун',
       'Бук', 'Тис- 80бр.; 1обект', 'Зимен дъб', 'Черен бор',
       'Дъб (горун)', 'Зимен дъб, (летен)', 'Секвоя', 'Лоза',
       'Зимен дъб, "Дядо Тоневия дъб"', 'Явор', 'Шестил', 'Круша', 'Дъб',
       'Черната фурма (Dyospirus lotus)', 'Дъб (вардимски)', 'Габър',
       'Летен дъб - 10 бр.', 'Летен дъб - 16 бр.', 'Смърч',
       'Смърч (13-те братя)', 'Смърч (10-те братя)', 'Черница',
       'Бук-3бр.', 'Цер - 3 бр.', 'Бряст (Черковния бряст)', 'Клен',
       'Цер - 30 бр.', 'Летен дъб с три стебла',
       'Сребристия смърч; семенна плантация',
       'Бял бор; семенна плантация', 'Габър (Кичест

Вид на докумнета са 3 стойности.

In [6]:
data['Вид на документа'].unique()

array(['-', 'Заповед', 'Постановление', 'Препис'], dtype=object)

Номер на докумнета също не е стандартизирано. Тази колонка няма да се използва за анализа и няма да се правят големи промени по нея.

In [7]:
data['Номер на документа'].unique()

array(['-', 1858, 1857, 14282, 738, 961, 3734, 775, 15527, 2276, 3365,
       292, 314, 633, 3223, 1078, 11796, 364, 5337, 2679, 1169, 524, 702,
       1395, 2966, 'ЗП6896', 16788, 15462, 16787, 3383, 11050, 5335, 343,
       293, 294, 4043, 4044, 1120, 774, 2965, 2775, 58, 361, 4040, 1038,
       11049, 995, 1040, 1037, 2592, 8271, 2199, 1044, 1762, 3701, 1301,
       715, 511, 1571, 1394, 13376, 1205, 5336, 1823, 342, 441, 446, 450,
       532, 533, 216, 417, 235, 285, 657, 384, 881, 14, 19, 195, 279, 284,
       759, 583, 1126, 978, 408, 409, 947, 1027, 306, 851, 174, 899, 1138,
       1139, 1254, 1042, 543, 376, 1241, 197, 689, 736, 924, 1049, 201,
       26, 44, 592, 693, 1035, 296, 239, 227, 564, 98, 169, 82, 412, 635,
       737, 842, 843, 1074, 383, 923, 234, 648, 654, 847, 848, 217, 218,
       219, 275, 276, 620, 855, 936, 91, 420, 421, 427, 639, 640, 829,
       859, 159, 112, 538, 668, 193, 831, 861, 157, 433, 576, 27, 28, 365,
       650, 651, 656, 845, 909, 57, 309, 341, 

Данните от колонката Дата са от типа datetime. Тук ни интересува само годината, тя ще бъде извлечена по-надолу.

In [8]:
data['Дата'].head(20)

0                       -
1                       -
2                       -
3     1961-07-29 00:00:00
4     1961-07-29 00:00:00
5     1940-07-23 00:00:00
6                       -
7     1987-08-07 00:00:00
8                       -
9                       -
10                      -
11    1968-06-08 00:00:00
12    1968-06-08 00:00:00
13    1968-06-08 00:00:00
14    1965-10-06 00:00:00
15    1962-03-28 00:00:00
16    1948-11-29 00:00:00
17    1948-11-29 00:00:00
18    1948-11-29 00:00:00
19    1967-12-05 00:00:00
Name: Дата, dtype: object

Данните от колонката ДВ (държавен вестник) няма да ги изпозлваме и няма да ги модифицираме.

In [9]:
data['ДВ'].unique()

array(['-', '73/22.09.1987', '84/1968', '43/1968', '37/1969', '53/1970',
       '99/1969', '44/1967', '43/1968г', '83/1968', '91/1966', '46/1971',
       '59/28.07.1972', '13/13.02.1973', '36/1976', '50/1976',
       datetime.datetime(1948, 10, 22, 0, 0), '69/1978', '74/19.09.1978',
       '77/1978', '86/1978', '35/4.5.1979', '56/1979', '35/06.05.1980',
       '45/1979', '79/1979', '69/02.09.1980', '1/1981', '19/06.03.1981',
       '17/27.02.1981', '34/1981', '35/1981', '36/1981', '79/1981',
       '83/1981', '102/1981', '8/1980', '43/1982', '92/1982', '101/1982',
       '36/1983', '70/1983', '26/1.4.1983', '72/1983', '100/1983',
       '6/1984', '22/22.05.1984', '102/1984', '48/1984', '38/1985',
       '94/06.12.1985', '25/31.03.1987', '63/1987', '71/15.09.1987',
       '85/1987', '2/1988', '23/25.03.1988', '7/1989', '16/26.02.1991',
       '72/1991', '74/31.08.1993', '101/1993', '97/25.11.1994', '55/1996',
       '36/18.04.2003', '54/13.06.2003', '52/1.7.1997', '52/01.07.1997',
     

Колонката Населено място съдържа името на населеното място и допълнителни описания, ще се използва да се извлече името за геореферирането на дърветата. Поради причината, че няма колонка с координати ще се изпловат тези на центъра на населеното място.

In [10]:
data['Населено място'].head(20)

0                          гр. Сандански, лятна къпалня
1                                гр. Сандански, площада
2                                   гр. Мелник, площада
3                                 с. Скрът, край реката
4                      гр. Петрич, на площада срещу БНБ
5                                            гр. Банско
6                                          с. Добринище
7     гр. Криводол, път ІІ-13 км. 14*600 Оръжеен път...
8                                          с. Добринище
9                                          с. Добринище
10                                              с. Гега
11                                     гр.  Гоце Делчев
12                                            с. Борово
13                                           с.  Гърмен
14                                           с. Габрене
15                           гр.  Бургас, м. "Отманлин"
16                            с. Заберново, м. "Тулпан"
17                           с. Звездец, м. "Тет

Колонката Община е добре структурирана, няма нужда от много промени тук.

In [11]:
data['Община'].unique()

array(['Сандански', 'Петрич', 'Банско', 'Враца', 'Гоце Делчев', 'Разлог',
       'Бургас', 'Малко Търново', 'Средец', 'Аксаково', 'Дългопол',
       'Бяла', 'Варна', 'Провадия', 'Горна Оряховица', 'Ботевград',
       'Ружинци', 'Мездра', 'Трявна', 'Габрово', 'Трекляно', 'Невестино',
       'Годеч', 'Трън', 'Бобовдол', 'Луковит', 'Белово', 'Пазарджик',
       'Земен', 'Перник', 'Брезник', 'Никопол', 'Гулянци', 'Асеновград',
       'Калояново', 'Родопи', 'Стамболийски', 'Първомай', 'Карлово',
       'Завет', 'Самуил', 'Дулово', 'Котел', 'Сливен', 'Нова Загора',
       'Твърдица', 'Девин', 'Смолян', 'Чепеларе', 'Чавдар', 'Челопеч',
       'София', 'Етрополе', 'Правец', 'Пордим', 'Павел баня', 'Мъглиж',
       'Стара Загора', 'Братя Даскалови', 'Тервел', 'Добрич', 'Балчик',
       'Харманли', 'Маджарово', 'Смядово', 'Никола Козлево', 'Тунджа',
       'Криводол', 'Елхово', 'Аврен', 'Вълчедръм', 'Вършец', 'Стрелча',
       'Карнобат', 'Несебър', 'Кюстендил', 'Ябланица', 'Брацигово',
       '

Колонката област съдържа имена, които не са области като Аксаково, Димово и Самуил.

In [12]:
data['Област'].unique()

array(['Благоевград', 'Враца', 'Бургас', 'Варна', 'Велико Търново',
       'София', 'Видин', 'Габрово', 'Кюстендил', 'Перник', 'Ловеч',
       'Пазарджик', 'Плевен', 'Пловдив', 'Разград', 'Русе', 'Силистра',
       'Сливен', 'Смолян', 'Стара Загора', 'Добрич', 'Кърджали',
       'Хасково', 'Шумен', 'Ямбол', 'Монтана', 'Ивайловград', '-',
       'Търговище', 'Бургаск', 'Бургаска', 'Пловдивска', 'София-град',
       'Аксаково', 'Димово', 'Хасковска', 'Самуил'], dtype=object)

Колонката РИОСВ е като цяло добре поддържана.

In [13]:
data['РИОСВ'].unique()

array(['Благоевград', 'Враца', 'Бургас', 'Варна', 'Велико Търново',
       'София', 'Монтана', 'Плевен', 'Пазарджик', 'Пловдив', 'Русе',
       'Стара Загора', 'Смолян', 'Хасково', 'Шумен', 'ПП Златни пясъци',
       'НП Витоша', 'ПП Витоша', '-', 'Видин'], dtype=object)

Колонката Възраст, години съдържа чести инстанции на повече от 1 стойност за ред, както и приблизителни стойности. Те ще трябва да се модифицират за анализа.

In [14]:
data['Възраст, години'].unique()

array([500, 550, 400, 1200, 300, 170, 130, 600, 450, '-', 900, 700, 150,
       70, 160, 140, 200, 100, 45, 80, 1000, 250, 240, 57, 190, 110, 1100,
       90, 50, 56, '100/100/100/100/100/100/100/100/100/100/100/100/100',
       210, 220, 650, 350, 370, 280, 270, 180, 330, 120, 76, 230, 159,
       260, 30, 25, 115, 440, 520, 135, 320, 800, 315, 125, 85, 580, 340,
       52, 185, '280/300/200/120',
       '310/290/350/, 260/270/330/, 230/250/, 320/220',
       '300/170/, 170/310', 430, '350/500/600', 502, 360, 60, 116, 128,
       'около 200', 'около 400', '140 г', 'над 250', 'над 350', 'над 200',
       'около 150', 'около 80', 'над 150', 'над 300', 'над 100',
       'над 400', 'около 100', 'около 125', 102, 310, '210/220',
       '128/128/128', 36, 59, 475, 184, 175, 165, 235, 356, 290],
      dtype=object)

Подобно е положението в колонката Височина, м както и в колонката за възрастта.

In [15]:
data['Височина, м'].unique()

array([26, 13, 15, 30, 22, 36, 20, '9,60', 24, 23, '35,50', 17, 18, 16,
       25, 21, 28, 8, 19, '28,50', 32, 5, '16,80', 31, 7, 10, 12, 27, 42,
       '-', 35, 50, '14,50', '27/26/26/23/25/25/26/26/26/17/11/11/6', 40,
       '24,50', 29, '29,50', '26/24/25', 14, 11, 34, 9, '17,35', '16,50',
       '19,50', '17,50', '15,60', '7,50', '22,50', '8,80', '11,20',
       '20,60', '18,50', '20\n11', '26,50', '6,70', '18/19/15.5', '3,50',
       6, '4,60', '12,50', '13,50', '23/23/30/20', '16/16/18',
       '18/18/, 18/19', 15.5, '13', '10', '14', '12', 26.5, '21,50',
       '21,10', '19,20', '25,50', 37, '19,5', 3, 'около 22', 'около 20',
       'около 25', 'около 12', 'около 15', '30/30/30', 4.4, 16.5, 37.5,
       17.5, 7.5, 7.2, 18.5, 6.3, 7.1, 8.5, 6.6, nan], dtype=object)

Отново така е и положението с колонката Обиколка, м.

In [16]:
data['Обиколка, м'].unique()

array(['4,30', '4,60', '3,50', '4,90', '7,8', '4,50', '-', 3.3, 3.2,
       '1,5', '7,60', '7,20', '10,46', '7,10', 5, '5,30', '5,46', '5,15',
       '3,63', '4,25', '3,35', '3,80', '4,93', '2,70', 3, '3,84', '1,80',
       '2,34', '2,49', '7,50', '7,70', '2,10', '9,58', '6,59', '4,65',
       '3,70', 2.75, 2.64, 2.47, '4,80', '4,20', '1,20', 4, '3,65',
       '2,57', '1,10', '2,30', '3,20', '4,52', '3,45', '2,50', '2,75', 6,
       '2,40', '4,6', '13,76', '5,60', '5,70', '2,38', '4,85', '2,20',
       '1,50', '1,40', 2, '5,72', '4,10', '3,40', '3,41', '3,23', '2,1',
       '2,25', '5,45', '3,10',
       ' 1,62/1,10/1,06/0,81/1,04/1,21/1,26/1,16/1,56/0,95/0,68/0,65/0,64/',
       '4,55', '3,83', '5,20', '3,75', '3,90', '2,80', '2,90',
       '2.8/2.6/2.8', '3,60', '5,50', '2,45', '3,92', '1,92', '2,5',
       '4,75', '2,05', '2,35', '8,60', '6,60', 8, 7, '4,71', '3,14',
       '5,80', 6.65, 2.7, '4,70', '3,18', '1,70', '1,90', '0,80', '1,60',
       '2,61', '2,76', '2,67', '2,51', '5,6

Същото е положението в колонката Диаметър, м.

In [17]:
data['Диаметър, м'].unique()

array(['-', '1,8', '0,8', '2,95', 1, '0,98', '0,7', '1,3', '1,08', '1,2',
       '0,6', 2.8, 1.8, '2,8', '1,26', '1,18', '1,6', '0,9', '1,1', '1,4',
       '1,5', '0,65', '0,64', '0,3', '0,55', 0.7, 0.8, 0.6, 0.65, 0.5,
       nan, 1.15, 1.11, 1.43, 1.4, '1,25', '0,1', '0,26', '0.8/0.7/0.8',
       2, '0,61', '1.16/1.2/0.8/0.5', '1,7', '1.2/1.1/1.2', '0,59',
       '0,74', '0,68', '1,05', 1.2, 1.7, 1.3, 0.55, 0.58, '0,45', '1,32',
       '0,5', '0,85', '0,75', '0,06', '0.4-0.8', 0.54, 0.4, 0.94, 0.34,
       0.84, 0.42], dtype=object)

Колонката Особености не съдържа много информация. Няма да има голямо приложение в анализа.

In [18]:
data['Особености'].unique()

array([nan, 'с интересна форма и вид на стъблото и короната',
       'дихотомно разклонен',
       'два основни ствола с обиколка 3.8 и 2.45 м', 'с осем разклонения',
       'Дървото е с две равностойни стъбла от общ корен'], dtype=object)

#### 4. Трансформации на колонките
Няколко колонки са преименовани това са:
1. 'Диаметър, м' > 'Диаметър'
2. 'Обиколка, м' > 'Обиколка'
3. 'Височина, м' > 'Височина'
4. 'Възраст, години' > 'Възраст в години'
<br>

Конвъртираме колонките в тип стринг за да може да се извърешат операции за замяна на ненужни стойностти от тях

In [19]:
data.rename(columns={'Диаметър, м': 'Диаметър'}, inplace=True)
data.rename(columns={'Обиколка, м': 'Обиколка'}, inplace=True)
data.rename(columns={'Височина, м': 'Височина'}, inplace=True)
data.rename(columns={'Възраст, години': 'Възраст в години'}, inplace=True)
data['Възраст в години'] = data['Възраст в години'].astype(str)
data['Височина'] = data['Височина'].astype(str)
data['Обиколка'] = data['Обиколка'].astype(str)
data['Диаметър'] = data['Диаметър'].astype(str)

В клетката от долу се премахват '-' за празни стойнистти, както думи 'около', 'над' и 'г' от година. За интервали се взима средната стойност. Примерно 450-500 се взима 475.

In [20]:
data['Диаметър'] = data['Диаметър'].str.replace('-', '', regex=False)
data['Обиколка'] = data['Обиколка'].str.replace('-', '', regex=False)
data['Височина'] = data['Височина'].str.replace('-', '', regex=False)
data['ДВ'] = data['ДВ'].str.replace('-', '', regex=False)
data['Дата'] = data['Дата'].replace('-', '', regex=False)
data['Номер на документа'] = data['Номер на документа'].replace('-', '', regex=False)
data['Вид на документа'] = data['Вид на документа'].str.replace('-', '', regex=False)
data['Населено място'] = data['Населено място'].replace('-', '', regex=False)
data['Възраст в години'] = data['Възраст в години'].str.replace('-', '', regex=False)
data['Възраст в години'] = data['Възраст в години'].str.replace('над', '', regex=False)
data['Възраст в години'] = data['Възраст в години'].str.replace('nan', '', regex=False)
data['Възраст в години'] = data['Възраст в години'].str.replace('г', '', regex=False)
data['Възраст в години'] = data['Възраст в години'].str.replace('450-500', '475', regex=False)
data['Възраст в години'] = data['Възраст в години'].str.replace('220-250', '235', regex=False)
data['Възраст в години'] = data['Възраст в години'].str.replace('150-250', '200', regex=False)
data['Възраст в години'] = data['Възраст в години'].str.replace('около', '', regex=False).str.strip()
data['Височина'] = data['Височина'].str.replace('около', '', regex=False)
data['Височина'] = data['Височина'].str.replace('nan', '', regex=False)
data['Обиколка'] = data['Обиколка'].str.replace('nan', '', regex=False)
data['Диаметър'] = data['Диаметър'].str.replace('nan', '', regex=False)
data['Височина'] = data['Височина'].str.replace('.', ',', regex=False).str.strip()
data['Обиколка'] = data['Обиколка'].str.replace('.', ',', regex=False).str.strip()
data['Диаметър'] = data['Диаметър'].str.replace('.', ',', regex=False).str.strip()

Създаваме нова колонка Година като взимаме само годинатата от датата.

In [21]:
data['Дата'] = data['Дата'].astype(str)
data['Година'] = data['Дата'].str[:4]

Продължаваме с операциите със замяна на 'с' със 'село' както и 'г' с 'град'. Махат се празни места преди и след стойносите.

In [22]:
data['Име на населеното място'] = data['Населено място'].str.split(', ').str[0].str.split('.').str[1].str.strip()
data['Тип на населеното място'] = data['Населено място'].str.split(', ').str[0].str.split('.').str[0]
data['Тип на населеното място'] = data['Тип на населеното място'].str.lower().replace("'", '', regex=False)
data['Тип на населеното място'] = data['Тип на населеното място'].str.lower().replace('с', 'село', regex=False)
data['Тип на населеното място'] = data['Тип на населеното място'].str.lower().replace('гр', 'град', regex=False)

Създава се нова работна временна колонка 'extracted_number_concise' за извличане на числовата стойност от колонката Дървесен вид посредсвум регекс.

In [23]:
data['extracted_number_concise'] = data['Дървесен вид'].str.extract(r'(\d+(?:\.\d+)?)', expand=False)

Създава се нова работна колонка 'extracted' за премахване на ненужните за анализа стойностти.

In [24]:
data['extracted'] = data.loc[data['extracted_number_concise'].notna(),'Дървесен вид'].str.split('-').str[0]

In [25]:
data['extracted'] = data['extracted'].str.replace(",", '', regex=False)
data['extracted'] = data['extracted'].str.replace("(", '', regex=False)
data['extracted'] = data['extracted'].str.replace(")", '', regex=False)
data['extracted'] = data['extracted'].str.replace(".", '', regex=False)
data['extracted'] = data['extracted'].str.replace("бр", '', regex=False)
data['extracted'] = data['extracted'].str.replace("група", '', regex=False)
data['extracted'] = data['extracted'].str.replace("от", '', regex=False)
data['extracted'] = data['extracted'].str.replace("дървета", '', regex=False)
data['extracted'] = data['extracted'].str.replace("Група", '', regex=False)
data['extracted'] = data['extracted'].str.replace('"', "", regex=False)
data['extracted'] = data['extracted'].str.replace("оя", '', regex=False)
data['extracted'] = data['extracted'].str.replace("-", '', regex=False)
data['extracted'] = data['extracted'].str.replace("обекта", '', regex=False)
data['extracted'] = data['extracted'].str.replace("на", '', regex=False)
data['extracted'] = data['extracted'].str.replace("ой", '', regex=False)
data['extracted'] = data['extracted'].str.replace("вековни", '', regex=False)
data['extracted'] = data['extracted'].str.replace("вече", '', regex=False)
data['extracted'] = data['extracted'].str.replace("Дъбовете  Славейков", '', regex=False)
data['extracted'] = data['extracted'].str.replace("–", '', regex=False)
data['extracted'] = data['extracted'].str.replace(r'\d+(?:\.\d+)?', '', regex=True).str.strip()

Разглеждаме междинна версия на таблицата как изглежда.

In [26]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1534 entries, 0 to 1533
Data columns (total 20 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   №                         1534 non-null   float64
 1   Дървесен вид              1534 non-null   object 
 2   Вид на документа          1534 non-null   object 
 3   Номер на документа        1534 non-null   object 
 4   Дата                      1534 non-null   object 
 5   ДВ                        1532 non-null   object 
 6   Населено място            1534 non-null   object 
 7   Община                    1534 non-null   object 
 8   Област                    1534 non-null   object 
 9   РИОСВ                     1534 non-null   object 
 10  Възраст в години          1534 non-null   object 
 11  Височина                  1534 non-null   object 
 12  Обиколка                  1534 non-null   object 
 13  Диаметър                  1534 non-null   object 
 14  Особенос

За да работим с числови стойноти трябва да ги конвъртираме на тип 'Int64' 64 битово цяло число. Оттук ще вземен индекса на тези редове за да може да ги увеличим в зависимост от извлечената бройка на на дърветата на 1 ред.

In [27]:
data['extracted_number_concise'] = pd.to_numeric(data['extracted_number_concise'], errors='coerce').astype('Int64')
indx = data[data['extracted_number_concise'] > 0]['extracted_number_concise'].index
row_to_repeat = data.iloc[data[data['extracted_number_concise'] > 0]['extracted_number_concise'].index]

Извлекли сме 68 реда. Освен това има допълнителни повторения записани с букви, те са редактирани в екселския файл допълнително.

In [28]:
row_to_repeat.shape

(68, 20)

Създаваме нова таблица или датафрейм df_repeated с толкова повторения спрямо тези извлечените. Това са 637 реда.

In [29]:
df_repeated = pd.DataFrame() 
for i in indx:
    new_row = pd.DataFrame(np.repeat(data.iloc[i].values.reshape(1, -1), data.iloc[i]['extracted_number_concise'], axis=0), columns=data.columns)
    df_repeated = pd.concat([df_repeated, new_row], ignore_index=True)

In [30]:
df_repeated.shape

(637, 20)

In [31]:
#df_repeated.to_excel(r'/home/nitro5/Desktop/data/GIS/2nd_semestur/cartography/df_repeated.xlsx',index=False)

In [32]:
df_cleaned = pd.read_excel(r'df_repeated_cleaned.xlsx')

In [33]:
df_cleaned.shape

(639, 20)

In [34]:
data.shape

(1534, 20)

От първоначалната таблица премахваме тези редове. Остават 1466 реда.

In [35]:
data_selected = data.loc[~data['extracted_number_concise'].notna()]

In [36]:
data_selected.shape

(1466, 20)

Обединяваме 2те таблици в data_merged от неповтарящите се и повтарящите се.

In [37]:
data_merged = pd.concat([data_selected, df_cleaned])

Работните колонки 'extracted', 'extracted_number_concise'вече не се ползват и се премахват.

In [38]:
data_merged = data_merged.drop(['extracted', 'extracted_number_concise'], axis=1) 

Новата таблица е 2105 реда и 18 колонки.

In [39]:
data_merged.shape

(2105, 18)

Отдолу е посочена структурата на таблицата по колонки.

In [40]:
data_merged.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2105 entries, 0 to 638
Data columns (total 18 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   №                        2105 non-null   float64
 1   Дървесен вид             2105 non-null   object 
 2   Вид на документа         2099 non-null   object 
 3   Номер на документа       2099 non-null   object 
 4   Дата                     2099 non-null   object 
 5   ДВ                       1844 non-null   object 
 6   Населено място           2105 non-null   object 
 7   Община                   2105 non-null   object 
 8   Област                   2105 non-null   object 
 9   РИОСВ                    2105 non-null   object 
 10  Възраст в години         1969 non-null   object 
 11  Височина                 2087 non-null   object 
 12  Обиколка                 1947 non-null   object 
 13  Диаметър                 1499 non-null   object 
 14  Особености               32 no

Правим зачиствания на колонките 'Диаметър' и 'Обиколка'.

In [41]:
data_merged['Диаметър'] = data_merged['Диаметър'].replace('', np.nan) 
data_merged['Диаметър'] = data_merged['Диаметър'].str.replace(',', '.') 
data_merged['Диаметър'] = data_merged['Диаметър'].str.replace('0.40.8', '0.4') 
data_merged['Обиколка'] = data_merged['Обиколка'].replace('', np.nan) 
data_merged['Обиколка'] = data_merged['Обиколка'].str.replace(',', '.') 

След това ги конвъртираме в тип флоат или нецяло число.

In [42]:
data_merged['Диаметър'] = data_merged['Диаметър'].astype(float)
data_merged['Обиколка'] = data_merged['Обиколка'].astype(float)

Където има разминаване между диаметъра и обиколката изчисляваме обиколката, като правим допускане, че ствола на дърветата е кръгъл по формулата $C = pi * d$
https://www.cuemath.com/geometry/circumference-of-a-circle/

In [43]:
data_merged['Обиколка'] = np.where(data_merged['Обиколка'].astype(float).isna(), round(math.pi * data_merged['Диаметър'],1), data_merged['Обиколка'])

Преглед на имената на населеното място показва, че има достта грешки, те ще трябва да бъдат премахнати.

In [44]:
data['Име на населеното място'].unique()

array(['Сандански', 'Мелник', 'Скрът', 'Петрич', 'Банско', 'Добринище',
       'Криводол', 'Гега', 'Гоце Делчев', 'Борово', 'Гърмен', 'Габрене',
       'Бургас', 'Заберново', 'Звездец', 'Варовник',
       'Генерал Кантарджиево', 'Гененерал Кантарджиево', 'Лопушна',
       'Бяла', 'Ботево', 'к', 'Варна', 'Черноок', 'Цонево', 'Полница',
       'Скравенската чукла', 'Динково', 'Боденец', 'Кръстец',
       'Редешковци', 'Сушица', 'Църварица', 'Голеш', 'Трън', 'Бобовдол',
       'Луковит', 'Голямо Белово', 'Пазарджик', 'Паталеница', 'Белово',
       'Сестримо', 'Долна Врабча', 'Земен', 'Боснек', 'Долна Секирна',
       'Муселиево', 'Милковица', 'Долни вит', 'Асеновград', nan,
       'Песнопой', 'Белащица', 'Скобелево', 'Куртово Конаре',
       'Дълбок извор', 'Карлово', 'Острово', 'Здравец', 'Черковна',
       'Кипилово', 'Котел', 'Ичера', 'Стоил войвода', 'Бяла Паланка',
       'Сливен', 'Самуилово', 'Триград', 'Смолян', 'Могилица', 'Сивино',
       'Петково', 'Стойките', 'Чепеларе', 'Чавд

Заменяне на такива стойности.

In [45]:
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('', '')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Голяма вода в поземлен имот № 003100 съгласно картата на възстановената собственост', '')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Ямбол в границите на Централен градски парк', 'Ямбол')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Селановци,в частен имот УПИ № 180 парцел VII в кв', 'Селановци')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Долно Ботево,м', 'Долно Ботево')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('на р', '')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Фотиново/с', 'Фотиново')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('1*900 път ІІІ-408 Враца-Голямо Пещене', 'Враца')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('32*900 Силистра-Дулово', 'Силистра')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Етрополе,м', 'Етрополе')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Ал', '')

In [46]:
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Санданси', 'Сандански')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Мелникк', 'Мелник')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Гененерал Кантарджиево', 'Генерал Кантарджиево')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Скравенската чукла', 'Скравена')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Бобовдол', 'Бобов Дол')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Бургасортю', 'Бургас')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Вълчидръм', 'Вълчедръм')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Каменека', 'Вълчедръм')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Вълчидръм', 'Вълчедръм')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Боженците', 'Боженци')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('ександрово', 'Александрово')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Каменикса', 'Каменица')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Мазарчево', 'Мазарачево')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Долна Секира', 'Долна Секирна')
data_merged['Име на населеното място'] = data_merged['Име на населеното място'].str.replace('Осиковска лъкавица', 'Осиковска Лакавица')

Следва геореферирането на дърветата, тук ще се създат 2 фунции едната е за георефериране на точки в България get_coordinates.

In [47]:
def get_coordinates(town_name, country="Bulgaria"):  # Default country is Bulgaria
    """Извличане на координатите от територията на България."""
    geolocator = Nominatim(user_agent="town_coordinates_finder")

    try:
        query = f"{town_name}, {country}" # Always include country for Bulgaria search
        location = geolocator.geocode(query)
        if location:
            return location.latitude, location.longitude
        else:
            return None, None
    except (GeocoderTimedOut, GeocoderServiceError) as e:
        print(f"Error geocoding {town_name}: {e}")
        return None, None
    except Exception as e:
        print(f"An unexpected error occurred: {e}")
        return None, None

Втората функция geocode_dataframe извиква първата и създава 2 нови колонки 'Географска ширина' и 'Географска дължина' и ги натрупва със стойностти.

In [48]:
def geocode_dataframe(df, town_column="town_name"): # No country column needed
    """Geocodes a DataFrame for Bulgaria, adding lat/lon columns."""

    df['Географска ширина'] = None
    df['Географска дължина'] = None

    for index, row in df.iterrows():
        town = row[town_column]
        lat, lon = get_coordinates(town) # Country is now fixed in get_coordinates

        if lat and lon:
            df.loc[index, 'Географска ширина'] = lat
            df.loc[index, 'Географска дължина'] = lon
        else:
            print(f"Could not find coordinates for {town}, Bulgaria") # More specific message

    return df

Последва процес на валидация. Автоматичната класификация е вярна около 75% от случайте, често има села в държавата с повече от 1 име или пък са намерени населени места извън страната. Валидацията в Google Maps.

In [49]:
#data_merged_geolocated = geocode_dataframe(data_merged, 'Име на населеното място')

In [50]:
#data_merged_geolocated.to_excel(r'/home/nitro5/Desktop/data/GIS/2nd_semestur/cartography/data_merged_cleaned_geolocated.xlsx',index=False)

Прочита се валидирания файл.

In [51]:
data_final = pd.read_excel('venerable_trees_cleaned_geolocated.xlsx')

In [52]:
data_final['№'].head()

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
Name: №, dtype: float64

Създаваме нова колонка за дубликатни стойности с 0 за недубликат и 1 за.

In [53]:
data_final['Дубликати'] = data_final['№'].duplicated(keep=False).astype(int).groupby(data_final['№']).transform('sum')

In [54]:
data_final['Дубликати'].unique()

array([ 0,  2,  3,  6,  4,  8,  5, 10, 80, 16, 13, 30,  9, 55, 14, 27, 12,
        7, 20, 15, 11, 24, 28])

In [55]:
data_final.loc[data_final['Дубликати'] == 0, 'Дубликати'] = 1  

In [56]:
data_final['Дубликати'].unique()

array([ 1,  2,  3,  6,  4,  8,  5, 10, 80, 16, 13, 30,  9, 55, 14, 27, 12,
        7, 20, 15, 11, 24, 28])

In [57]:
data_final_numbers = []
counter = 0
for i in data_final['Дубликати']:
    if i == 1:
        counter += i
        data_final_numbers.append(counter)
    else:
        data_final_numbers.append(counter)

На база на нея номерираме редовете с новата колонка 'Номер'.

In [58]:
data_final['Номер'] = data_final_numbers

Финалния списък с колонките представен отдолу.

In [59]:
data_final.columns

Index(['№', 'Дървесен вид', 'Вид на документа', 'Номер на документа', 'Дата',
       'ДВ', 'Населено място', 'Община', 'Област', 'РИОСВ', 'Възраст в години',
       'Височина', 'Обиколка', 'Диаметър', 'Особености', 'Година',
       'Име на населеното място', 'Тип на населеното място',
       'Географска ширина', 'Географска дължина', 'Дубликати', 'Номер'],
      dtype='object')

Поради работата с геореферирането са възникнали грешки. Посочение са повече от 1 стойнст за 1 населено място, където е правена корекция спрямо автоматизирането георефериране. Примери отдолу за Бургас и Варна.

In [60]:
data_final.loc[data_final['Име на населеното място'] == 'Бургас', 'Географска ширина']#.iloc[0]

15      42.498722
190     42.501870
748     42.515283
1024    42.512246
Name: Географска ширина, dtype: float64

In [61]:
data_final.loc[data_final['Име на населеното място'] == 'Варна', 'Географска ширина']#.iloc[0]

27      43.211137
28      43.211137
29      43.211137
30      43.211137
33      43.211137
2000    43.211315
Name: Географска ширина, dtype: float64

In [62]:
data_final.loc[data_final['Име на населеното място'] == 'Говедарци', 'Географска ширина']#.iloc[0]

410    42.262232
Name: Географска ширина, dtype: float64

Всички тези стойностти са в посоченото населено място, но искаме да работим с 1 стойност затова взимаме само първата стойност.

In [63]:
for i in data_final['Име на населеното място']:
    try:
        data_final.loc[data_final['Име на населеното място'] == i, 'Географска ширина'] = data_final.loc[data_final['Име на населеното място'] == i, 'Географска ширина'].iloc[0]
    except:
        pass

Проверка и валидиране отдолу.

In [64]:
data_final.loc[data_final['Име на населеното място'] == 'Бургас', 'Географска ширина']#.iloc[0]

15      42.498722
190     42.498722
748     42.498722
1024    42.498722
Name: Географска ширина, dtype: float64

In [65]:
data_final.loc[data_final['Име на населеното място'] == 'Варна', 'Географска ширина']#.iloc[0]

27      43.211137
28      43.211137
29      43.211137
30      43.211137
33      43.211137
2000    43.211137
Name: Географска ширина, dtype: float64

In [66]:
data_final.loc[data_final['Име на населеното място'] == 'Говедарци', 'Географска ширина']#.iloc[0]

410    42.262232
Name: Географска ширина, dtype: float64

Първо процеса беше направен за 'Географска ширина' повтаряме процеса за 'Географска дължина'.

In [67]:
for i in data_final['Име на населеното място']:
    try:
        data_final.loc[data_final['Име на населеното място'] == i, 'Географска дължина'] = data_final.loc[data_final['Име на населеното място'] == i, 'Географска дължина'].iloc[0]
    except:
        pass

#### 4. Експортиране на финалната версия на файла

In [68]:
#data_final.to_excel(r'/home/nitro5/Desktop/data/GIS/2nd_semestur/cartography/data_final.xlsx',index=False)