# EDA

# I. Предобработка данных

### Подгрузим все библиотеки, которые понадобятся для работы, и посмотрим на наш датасет

In [1]:
import folium
from folium.plugins import FastMarkerCluster
import numpy as np
import pandas as pd
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns
import seaborn.objects as so
from matplotlib.font_manager import FontProperties
import plotly.express as px
import plotly.graph_objs as go
from plotly.offline import iplot
import cufflinks as cf
cf.go_offline()
cf.set_config_file(offline=False, world_readable=True)

In [2]:
df = pd.read_csv("C:\\Users\\user\\OneDrive\\Рабочий стол\\chistoe.csv")
df = df.drop('Unnamed: 0',axis=1)
df.columns = map(str.capitalize,df.columns)
df.head()


Columns (21) have mixed types. Specify dtype option on import or set low_memory=False.



Unnamed: 0,Event_id_cnty,Event_date,Year,Time_precision,Disorder_type,Event_type,Sub_event_type,Actor1,Assoc_actor_1,Inter1,...,Longitude,Geo_precision,Source,Source_scale,Notes,Fatalities,Tags,Timestamp,Index,Classification
0,ALG1,1997-01-01,1997,1,Political violence,Violence against civilians,Attack,GIA: Armed Islamic Group,,2,...,2.789,1,Algeria Watch,Other,5 January: Beheading of 5 citizens in Douaouda...,5,,1582579226,0.624,Lower middle income
1,ALG2,1997-01-02,1997,1,Political violence,Violence against civilians,Attack,GIA: Armed Islamic Group,,2,...,0.883,1,Algeria Watch,Other,Two citizens were beheaded in Hassasna.,2,,1582579226,0.624,Lower middle income
2,ALG3,1997-01-03,1997,1,Political violence,Violence against civilians,Attack,GIA: Armed Islamic Group,,2,...,-0.29,1,Algeria Watch,Other,Two citizens were killed in a raid on the vill...,2,,1582579226,0.624,Lower middle income
3,ALG4,1997-01-04,1997,1,Political violence,Violence against civilians,Attack,GIA: Armed Islamic Group,,2,...,2.829,1,Algeria Watch,Other,4 January: 16 citizens were murdered in the vi...,16,,1582579226,0.624,Lower middle income
4,ALG5,1997-01-05,1997,1,Political violence,Violence against civilians,Attack,GIA: Armed Islamic Group,,2,...,2.789,1,Algeria Watch,Other,5 January: Killing of 18 citizens in the Olivi...,18,,1582579226,0.624,Lower middle income


### Очень важно понять, какие данные содержатся в переменных (столбцах) таблицы. 
>_Более подробная информация о части датасета есть [тут](https://drive.google.com/file/d/1V6456OXxqMpKavzzByrRG3nA6dWcDHTP/view?usp=share_link), я буду ссылаться на неё при описании некоторых переменных, которые принимают много непонятных значений_

### __А теперь немного о том, какую информацию несёт каждый столбец:__
> - <u>Event_id_cnty</u> - Индивидуальный идентификатор по номеру и аббревиатуре страны (обновляется ежегодно)
> - <u>Event_date</u> - День, месяц и год, в которые произошло событие
> - <u>Year</u> - Год, когда произошло событие
> - <u>Time_precision</u> - Цифровой код, указывающий уровень достоверности даты, закодированной для события (<u>примечание:</u> подробнее можно почитать в файле выше)
> - <u>Disorder_type</u> - Вид насилия
> - <u>Event_type</u> - Вид события
> - <u>Sub_event_type</u> - Вид вспомогательного события
> - <u>Actor1</u> - Название субъекта, участвовавшего в конфликте
> - <u>Assoc_actor_1</u> - Название субъекта, связанного с Actor1 или идентифицирующего его
> - <u>Inter1</u> - Цифровой код, указывающий тип Actor1 (<u>примечание:</u> подробнее можно почитать в файле выше)
> - <u>Actor2</u> - Название субъекта, участвовавшего в конфликте
> - <u>Assoc_actor_2</u> - Название субъекта, связанного с Actor2 или идентифицирующего его
> - <u>Inter2</u> - Цифровой код, указывающий тип Actor2 (<u>примечание:</u> подробнее можно почитать в файле выше)
> - <u>Interaction</u> - Цифровой код, указывающий на взаимодействие Actor1 и Actor2 (<u>примечание:</u> подробнее можно почитать в файле выше)
> - <u>Civilian_targeting</u> - Нападение на гражданское население 
> - <u>Iso</u> - Цифровой код для каждой отдельной страны
> - <u>Region,Country,Location,Latitude,Longtitude</u> - Переменные, смысл которых можно оставить без объяснения, так как он довольно очевиден
> - <u>Admin1,Admin2,Admin3</u> - Первый, второй и третий по величине субнациональный административный регион/район, в котором происходило событие
> - <u>Geo_precision</u> - Цифровой код, указывающий уровень достоверности местоположения, закодированного для данного события (<u>примечание:</u> подробнее можно почитать в файле выше)
> - <u>Source</u> - Источник отчета о событии
> - <u>Source_scale</u> - Масштаб (местный, региональный, национальный, международный) источника 
> - <u>Notes</u> - Краткое описание события
> - <u>Fatalities</u> -Количество зарегистрированных смертельных случаев, произошедших во время события
> - <u>Tags</u> - Тэги, в основном, о количестве участвовавших и половой принадлежности
> - <u>Timestamp</u> - Закодированные дата и время события
> - <u>Index</u> - Индекс человеческого развития
> - <u>Classification</u> - Классификация доходов

### <u>Целевыми переменными будут выступать следующие признаки - Index и Classification</u>

### Давайте посмотрим на размерность наших данных

In [3]:
df.shape

(1750716, 33)

#### Получилось неплохо так, 1.7 млн строк и 33 столбца
#### Можно также посмотреть на то, данные каких типов содержатся в нашей таблице:

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1750716 entries, 0 to 1750715
Data columns (total 33 columns):
 #   Column              Dtype  
---  ------              -----  
 0   Event_id_cnty       object 
 1   Event_date          object 
 2   Year                int64  
 3   Time_precision      int64  
 4   Disorder_type       object 
 5   Event_type          object 
 6   Sub_event_type      object 
 7   Actor1              object 
 8   Assoc_actor_1       object 
 9   Inter1              int64  
 10  Actor2              object 
 11  Assoc_actor_2       object 
 12  Inter2              int64  
 13  Interaction         int64  
 14  Civilian_targeting  object 
 15  Iso                 int64  
 16  Region              object 
 17  Country             object 
 18  Admin1              object 
 19  Admin2              object 
 20  Admin3              object 
 21  Location            object 
 22  Latitude            float64
 23  Longitude           float64
 24  Geo_precision       int6

#### Как мы видим, в основном данные типа 'object', но есть и немного числовых. 
#### Кроме того, очень важно определить, есть ли в нашем датафрейме пропуски, давайте посмотрим:

In [5]:
df.isnull().sum()

Event_id_cnty               0
Event_date                  0
Year                        0
Time_precision              0
Disorder_type               0
Event_type                  0
Sub_event_type              0
Actor1                      0
Assoc_actor_1         1075880
Inter1                      0
Actor2                 876900
Assoc_actor_2         1528115
Inter2                      0
Interaction                 0
Civilian_targeting    1469807
Iso                         0
Region                      0
Country                     0
Admin1                    167
Admin2                  51806
Admin3                 909901
Location                    0
Latitude                    0
Longitude                   0
Geo_precision               0
Source                      0
Source_scale                0
Notes                       0
Fatalities                  0
Tags                  1043667
Timestamp                   0
Index                       0
Classification              0
dtype: int

#### Получили данные о пропусках по каждому из столбцов в отдельности, давайте теперь посмотрим на общее количество пропусков во всей таблице:

In [6]:
df.isnull().sum().sum()

6956243

#### Как можно увидеть, пропусков в таблице достаточно много, и причем они все в <u>категориальных</u> переменных. Было бы не совсем правильно заполнить пропуски в признаках такого типа нулями, так как они не несли бы никакой смысловой нагрузки (да и логически нули не особо вписываются), поэтому давайте заполним исходя из того, что у нас нет информации по конкретному значению:

In [7]:
df = df.fillna('No information')

#### Ну и посмотрим на то, сколько теперь у нас стало пропусков:

In [8]:
df.isnull().sum().sum()

0

#### Мы победили, данные в таблице предобработаны, теперь можно приступать к анализу