### Project Number: 0006
## Project Title: Bot Detection

---

# **STAGE 4. DATA WRANGLING**

### Import Libraries

---

In [1]:
# Data manipulation
import pandas as pd
import numpy as np

# Data Visualizations
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

### Import Data

---

In [2]:
# Обобщенный путь к данным 
data_path = r'D:/Data_Science_Project/1. Data Wrangling/[0006] Project 4 - Bot Detection'

In [3]:
# Загрузка и проверка данных 
data = pd.read_feather(data_path + '/bot_detection_pre_prepared.file')

# Зададим id как индекс 
data =  data.set_index(['id'])

# Проверка результата 
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1048573 entries, 0 to 1048572
Data columns (total 18 columns):
 #   Column          Non-Null Count    Dtype         
---  ------          --------------    -----         
 0   country         1048573 non-null  category      
 1   management      1048573 non-null  category      
 2   operating_team  1048573 non-null  category      
 3   city            1001987 non-null  category      
 4   state           1003128 non-null  category      
 5   sec_lvl_domn    729116 non-null   category      
 6   device_type     206532 non-null   category      
 7   operating_sys   1046753 non-null  category      
 8   ip_addr         1048573 non-null  category      
 9   page_url        1048572 non-null  category      
 10  user_agent      1048567 non-null  category      
 11  visit           1048573 non-null  int64         
 12  engd_visit      1048573 non-null  int64         
 13  views           1048573 non-null  int64         
 14  week            10

In [4]:
def verify_data_quality(evaluated_dataset):
    '''
    ФУНКЦИЯ КОМПЛЕКСНОЙ ОЦЕНКИ КАЧЕСТВА ДАННЫХ
    '''
    # Проверка типов данных
    print("Типы данных:\n{}\n".format(evaluated_dataset.dtypes) + '_' * 100+ '\n')
    # Проверка наличия значений NaN
    print("Пропущенные значения:\n{}\n".format(evaluated_dataset.isnull().sum().sum()) + '_' * 100+ '\n')
    # Количество значений, отличных от NaN
    print("Количество значений, отличных от NaN:\n{}\n".format(evaluated_dataset.count().sum()) + '_' * 100+ '\n')
    # Поиск дублирующих строк 
    print("Дублирующих строк:\n{}\n".format(evaluated_dataset.duplicated().sum()) + '_' * 100+ '\n')
    # Форма нарбора данных
    print("Форма нарбора данных:\n{}\n".format(evaluated_dataset.shape) + '_' * 100+ '\n')
    # Тип индекса набора данных
    print("Тип индекса набора данных:\n{}\n".format(evaluated_dataset.index) + '_' * 100+ '\n')

In [5]:
# Оценка качества данных 
verify_data_quality(data)

Типы данных:
country                 category
management              category
operating_team          category
city                    category
state                   category
sec_lvl_domn            category
device_type             category
operating_sys           category
ip_addr                 category
page_url                category
user_agent              category
visit                      int64
engd_visit                 int64
views                      int64
week                       int64
month                      int64
year                       int64
page_vw_ts        datetime64[ns]
dtype: object
____________________________________________________________________________________________________

Пропущенные значения:
1258099
____________________________________________________________________________________________________

Количество значений, отличных от NaN:
17616215
__________________________________________________________________________________________________

## SECTION 4.1 CLEAN DATA


### _Addressing missing or invalid data_

---

 Оценим колличество пропущенных значений в каждой перменной


In [6]:
def enomv_df(data):
    '''
    ОЦЕНКА КОЛИЧЕСТВА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ В НАБОРЕ ДАННЫХ 
    
    ESTIMATING THE NUMBER OF MISSING VALUES IN THE DATA SET (enomv_df)
    '''
    # Колличество пропусков 
    print("Колличество пропусков:\n{}\n".format(data.isna().sum()) + '-' * 100+ '\n')
    # Колличество значений  
    print("Колличество значений:\n{}\n".format(data.count()) + '-' * 100+ '\n')
    # Описательные статистики 
    print("Описательные статистики:\n{}\n".format(data.describe().round(2)) + '-' * 100+ '\n')

In [7]:
# Оценим пропуски в наборе данных
enomv_df(data)

Колличество пропусков:
country                0
management             0
operating_team         0
city               46586
state              45445
sec_lvl_domn      319457
device_type       842041
operating_sys       1820
ip_addr                0
page_url               1
user_agent             6
visit                  0
engd_visit             0
views                  0
week                   0
month                  0
year                   0
page_vw_ts          2743
dtype: int64
----------------------------------------------------------------------------------------------------

Колличество значений:
country           1048573
management        1048573
operating_team    1048573
city              1001987
state             1003128
sec_lvl_domn       729116
device_type        206532
operating_sys     1046753
ip_addr           1048573
page_url          1048572
user_agent        1048567
visit             1048573
engd_visit        1048573
views             1048573
week              1048573


Анализ пропусков показывает, что дальнейший интерес с этой точки зрения представляют следующие переменные 

- city
- state
- sec_lvl_domn
- device_type
- operating_sys
- page_url 
- page_vw_ts

### Анализ уникальных значений

#### city

In [8]:
data['city'].unique()

[SLIDELL, TOKYO, ELK GROVE, SAO FRANCISCO DE GOIAS, BEZONS, ..., PENSARN, POUILLY, AIFFRES, PONTEFRACT, OBERGIESING-FASANGARTEN]
Length: 20643
Categories (20642, object): [SLIDELL, TOKYO, ELK GROVE, SAO FRANCISCO DE GOIAS, ..., POUILLY, AIFFRES, PONTEFRACT, OBERGIESING-FASANGARTEN]

#### state

In [9]:
data['state'].unique()

[LOUISIANA, TOKYO, CALIFORNIA, GOIAS, VAL-D'OISE, ..., GORENJA VAS-POLJANE, PATTANI, CABINDA, MALAMPA, BITLIS]
Length: 1857
Categories (1856, object): [LOUISIANA, TOKYO, CALIFORNIA, GOIAS, ..., PATTANI, CABINDA, MALAMPA, BITLIS]

#### sec_lvl_domn

In [10]:
data['sec_lvl_domn'].unique()

[CHARTER.COM, MOPERA.NET, COMCASTBUSINESS.NET, VIVOZAP.COM.BR, PROXAD.NET, ..., TBS.CO.JP, SCHANTZ.COM, SURETE.QC.CA, GLOBOSAT.COM.BR, PSBA.COM]
Length: 37147
Categories (37146, object): [CHARTER.COM, MOPERA.NET, COMCASTBUSINESS.NET, VIVOZAP.COM.BR, ..., SCHANTZ.COM, SURETE.QC.CA, GLOBOSAT.COM.BR, PSBA.COM]

#### device_type

In [11]:
data['device_type'].unique()

[MOBILEPHONE, TABLET, NaN, SETTOPBOX, OTHER, TV, MEDIAPLAYER, GAMESCONSOLE]
Categories (7, object): [MOBILEPHONE, TABLET, SETTOPBOX, OTHER, TV, MEDIAPLAYER, GAMESCONSOLE]

#### operating_sys

In [12]:
data['operating_sys'].unique()

[IOS_12.1.4, ANDROID_6.0, IOS_12.1.2, ANDROID_9, ANDROID_8.0.0, ..., ANDROID_6.0ZH-CN, IOS_7.1.2, WINDOWSPHONE_7, ANDROID_2.3.7, NUCLEUSPLUS]
Length: 175
Categories (174, object): [IOS_12.1.4, ANDROID_6.0, IOS_12.1.2, ANDROID_9, ..., IOS_7.1.2, WINDOWSPHONE_7, ANDROID_2.3.7, NUCLEUSPLUS]

#### page_url

In [13]:
data['page_url'].unique()

[www.ibm.com/watson/campaign, www.ibm.com/privacy/us/en, www.ibm.com/account/reg/us-en/signup?formid=ur..., www.ibm.com/analytics/br/pt/business-intelligence, www.ibm.com/watson/fr-fr, ..., www.ibm.com/support/knowledgecenter/ssmmm5_9.1..., www.ibm.com/support/knowledgecenter/en/ssygqh_..., align.ustream.tv/channel/23549815/video/115707795, www-01.ibm.com/support/docview.wss?uid=nas8n10..., www.ibm.com/support/knowledgecenter/en/search/...]
Length: 329692
Categories (329691, object): [www.ibm.com/watson/campaign, www.ibm.com/privacy/us/en, www.ibm.com/account/reg/us-en/signup?formid=ur..., www.ibm.com/analytics/br/pt/business-intelligence, ..., www.ibm.com/support/knowledgecenter/en/ssygqh_..., align.ustream.tv/channel/23549815/video/115707795, www-01.ibm.com/support/docview.wss?uid=nas8n10..., www.ibm.com/support/knowledgecenter/en/search/...]

#### page_vw_ts

In [14]:
data['page_vw_ts']

id
0         2019-06-04 05:05:18.023100
1         2019-06-04 05:07:11.014300
2         2019-06-04 05:08:46.081900
3         2019-06-04 05:07:22.033300
4         2019-06-04 05:05:27.027700
                     ...            
1048568   2019-06-04 13:27:37.059600
1048569   2019-06-04 13:27:04.035100
1048570   2019-06-04 13:40:47.060500
1048571   2019-06-04 13:22:12.001900
1048572   2019-06-04 13:39:50.074200
Name: page_vw_ts, Length: 1048573, dtype: datetime64[ns]

### Выводы по анализу уникальных значений

Анализ уникальных значений переменных имеющих пропущенные значения показал, что каждая из переменных принимает широкий диапазон уникальных значений.
Количество уникальных значений переменных:   
- city: 20643
- state: 1857
- sec_lvl_domn: 37147
- device_type: 7
- operating_sys: 175
- page_url: 329692
- page_vw_ts: все значения уникальны

Учитывая выше указанные обстоятельства и цель проекта подготовка для дальнейшего анализа оптимальной стратегией заполнения пропусков является замена значений NaN на Unknown.
Значение пропущенного времени заменим на 0.
Такой подход позволит изучить их на стадии разведочного анализа данных. 

In [15]:
# Заполнение пропущенных значений "Unknown" и 0. 
data_filled =  data
data_filled['city'] = data_filled['city'].cat.add_categories('Unknown').fillna("Unknown")
data_filled['state'] = data_filled['state'].cat.add_categories('Unknown').fillna("Unknown")
data_filled['sec_lvl_domn'] = data_filled['sec_lvl_domn'].cat.add_categories('Unknown').fillna("Unknown")
data_filled['device_type'] = data_filled['device_type'].cat.add_categories('Unknown').fillna("Unknown")
data_filled['operating_sys'] = data_filled['operating_sys'].cat.add_categories('Unknown').fillna("Unknown")
data_filled['page_url'] = data_filled['page_url'].cat.add_categories('Unknown').fillna("Unknown")
data_filled['page_vw_ts'] = data_filled['page_vw_ts'].fillna(0)

In [16]:
# Оценим пропуски в наборе данных 
enomv_df(data)

Колличество пропусков:
country           0
management        0
operating_team    0
city              0
state             0
sec_lvl_domn      0
device_type       0
operating_sys     0
ip_addr           0
page_url          0
user_agent        6
visit             0
engd_visit        0
views             0
week              0
month             0
year              0
page_vw_ts        0
dtype: int64
----------------------------------------------------------------------------------------------------

Колличество значений:
country           1048573
management        1048573
operating_team    1048573
city              1048573
state             1048573
sec_lvl_domn      1048573
device_type       1048573
operating_sys     1048573
ip_addr           1048573
page_url          1048573
user_agent        1048567
visit             1048573
engd_visit        1048573
views             1048573
week              1048573
month             1048573
year              1048573
page_vw_ts        1048573
dtype: int64

### _Filtering to the desired subset of data_

---

Анализ описательных статистик показывает, что переменные week, month, year имеют постоянное значение. Исследуем это детально с помощью анализа уникальных значений для указанных переменных. 

#### week

In [17]:
data_filled['week'].unique()

array([11], dtype=int64)

#### month

In [18]:
data_filled['month'].unique()

array([3], dtype=int64)

#### year

In [19]:
data_filled['year'].unique()

array([2019], dtype=int64)

По результатам оценки уникальных значений видно, что переменные принимают всего одно значение. На этом основании исключим их из набора. 

In [20]:
# Фильтрация набора данных
data_filtered = data_filled.drop(['week', 'month', 'year',], axis=1)
data_filtered.head().T

id,0,1,2,3,4
country,United States,Japan,United States,Brazil,France
management,United States,Japan,United States,Brazil,France
operating_team,North America,Japan,North America,Latin America,Europe
city,SLIDELL,TOKYO,ELK GROVE,SAO FRANCISCO DE GOIAS,BEZONS
state,LOUISIANA,TOKYO,CALIFORNIA,GOIAS,VAL-D'OISE
sec_lvl_domn,CHARTER.COM,MOPERA.NET,COMCASTBUSINESS.NET,VIVOZAP.COM.BR,PROXAD.NET
device_type,MOBILEPHONE,TABLET,MOBILEPHONE,MOBILEPHONE,MOBILEPHONE
operating_sys,IOS_12.1.4,ANDROID_6.0,IOS_12.1.2,ANDROID_6.0,ANDROID_9
ip_addr,287e8e9aeedb50e963906f10cca7ca26ae830154e69220...,d7746df5cc2de7f79584d57c2c082b9acc7697602021a1...,8540464f5f376c7a160d63632f8cbedc96c61158daf9ae...,cb9ffa7be250fc62426a431a4f08bc0c8222f63514ba39...,7ce278be1b02a0253cc0219fa9ceddfe8e91846be343a4...
page_url,www.ibm.com/watson/campaign,www.ibm.com/privacy/us/en,www.ibm.com/account/reg/us-en/signup?formid=ur...,www.ibm.com/analytics/br/pt/business-intelligence,www.ibm.com/watson/fr-fr


## SECTION 4.2 CONCLUSIONS

По результатам процесса подготовки данных выполнены следующие действия: 

- Анализ пропущенных значений: установлено, что следующие переменные имеют пропуски: 
	- city
	- state
	- sec_lvl_domn
	- device_type
	- operating_sys
	- page_url
	- page_vw_ts 
	
- Анализ уникальных значений переменных имеющих пропуски показал, что каждая из переменных принимает широкий диапазон уникальных значений.
	- city: 20643
	- state: 1857
	- sec_lvl_domn: 37147
	- device_type: 7
	- operating_sys: 175
	- page_url: 329692
	- page_vw_ts: все значения уникальны
	
На этом основании и с учетом цели проекта было принято решение, что  для дальнейшего анализа оптимальной стратегией заполнения пропусков является замена значений NaN на Unknown, 
значение пропущенного времени заменим на 0, т.к.такой подход позволит изучить их на стадии разведочного анализа данных. 

Анализ описательных статистик показал, что переменные week, month, year имеют постоянное значение. Дальнейший анализ уникальных значений выявил, что переменные принимают всего одно значение. 
На этом основании принято решение об исключении их из финального набора.


In [21]:
# Сохранение промежуточных результатов для дальнейших исследований 
pd.DataFrame.to_feather(data_filtered.reset_index(), 'bot_detection_wrangled.file')

In [22]:
# Сохраниение результатов итоговых результатов
data_filtered.to_csv('bot_detection_wrangled.csv', sep=',', index=True, encoding='utf-8')