<img width="50px" align="left" style="margin-right:20px" src="http://data.newprolab.com/public-newprolab-com/npl_logo.png"> <b>New Professions Lab</b> <br /> Специалист по большим данным

# Проект 1

# Спрогнозировать пол и возрастную категорию интернет-пользователей по логу посещения сайтов

<img width="110px" align="left" src="http://data.newprolab.com/public-newprolab-com/project01_img0.png?img">

<a href="https://github.com/newprolab/content_bigdata6"><img align="left" src="http://data.newprolab.com/public-newprolab-com/npl.svg"></a>

Одна из задач DMP-системы состоит в том, чтобы по разрозненным даннным, таким, как посещения неким пользователем сайтов, классифицировать его и присвоить ему определённую категорию: пол, возраст, интересы и так далее. В дальнейшем составляется портрет, или профиль, пользователя, на основе которого ему более таргетированно показывается реклама в интернете.

### Задача

Используя доступный набор данных о посещении страниц у одной части пользователей, сделать прогноз относительно **пола и возрастной категории** другой части пользователей. Угадывание (hit) - правильное предсказание и пола, и возрастной категории одновременно.

Мы не ограничиваем вас в выборе инструментов и методов работы с данными. Используйте любые эвристики, внешние источники, парсинг контента страниц — всё, что поможет вам выполнить задачу. Единственное ограничение — никаких ручных действий. Руками проставлять классы нельзя.

Поскольку это ваш проект, который мы наверняка захотите показать другим, уделите его оформлению достаточно времени. Мы рекомендуем сделать весь проект в этом ноутбуке. Снизу, под заданием, вы сможете описать ваше решение.

⏰ **Дедлайн: 25 апреля 2017, 23:59**

In [60]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import re
import os
import json
from urlparse import urlparse
from urllib import urlretrieve, unquote, urlopen
import urllib2
import cookielib
import requests
from newspaper import Article
import nltk
import cPickle as pickle
import html2text
import xml.etree.cElementTree as ET
import bs4

### Обработка данных на вход

Для выполнения работы вам следует взять файл http://data.newprolab.com/data-newprolab-com/project01/gender_age_dataset.txt и положить к себе в директорию `data`:

In [3]:
# First, we download the input data for the project:

data_dir = 'data'
filename = 'gender_age_dataset.txt'
file_path = '/'.join([data_dir,filename])
url = 'http://data.newprolab.com/data-newprolab-com/project01/' + filename

if not os.path.isdir(data_dir): os.mkdir(data_dir)
if not os.path.isfile(file_path):
    print('Downloading ' + filename + '...')
    urlretrieve(url, file_path)
    print('Download completed')

# Wait until you see that all files have been downloaded.
print('OK')

Downloading gender_age_dataset.txt...
Download completed
OK


Он содержит данные о посещении сайтов ~40 000 пользователей, при этом по некоторым из них (~ 35 000) известны их пол и возрастная категория, а по 5 000 - эта информация не известна. В файле есть 4 поля:
* **gender** - пол, принимающий значения `M` (male - мужчина), `F` (female - женщина), `-` (пол неизвестен);
* **age** - возраст, представленный в виде диапазона x-y (строковый тип), или `-` (возрастная категория неизвестна);
* **uid** - идентификатор пользователя, строковая переменная;
* **user_json** - поле json, в котором содержатся записи о посещении сайтов этим пользователем `(url, timestamp)`.

Первое, что обычно делают в таких случаях, — исследуют имеющийся датасет и разбираются, какие же данные мы получили.

Загрузим весь датасет в pandas:

In [20]:
df = pd.read_csv('./gender_age_dataset.txt', sep='\t')

In [None]:
df.shape

In [56]:
pd.isnull(df).sum() > 0

gender       False
age          False
uid          False
user_json    False
dtype: bool

Как мы можем увидить в данные без пропусков

In [34]:
df.groupby('gender').size()

gender
-     5000
F    17440
M    18698
dtype: int64

In [17]:
df.groupby('age').size()

age
-         5000
18-24     4898
25-34    15457
35-44     9360
45-54     4744
>=55      1679
dtype: int64

In [36]:
df.head()

Unnamed: 0,gender,age,uid,user_json
0,F,18-24,d50192e5-c44e-4ae8-ae7a-7cfe67c8b777,"{""visits"": [{""url"": ""http://zebra-zoya.ru/2000..."
1,M,25-34,d502331d-621e-4721-ada2-5d30b2c3801f,"{""visits"": [{""url"": ""http://sweetrading.ru/?p=..."
2,F,25-34,d50237ea-747e-48a2-ba46-d08e71dddfdb,"{""visits"": [{""url"": ""http://ru.oriflame.com/pr..."
3,F,25-34,d502f29f-d57a-46bf-8703-1cb5f8dcdf03,"{""visits"": [{""url"": ""http://translate-tattoo.r..."
4,M,>=55,d503c3b2-a0c2-4f47-bb27-065058c73008,"{""visits"": [{""url"": ""https://mail.rambler.ru/#..."


In [5]:
df.iloc[0].user_json

'{"visits": [{"url": "http://zebra-zoya.ru/200028-chehol-organayzer-dlja-macbook-11-grid-it.html?utm_campaign=397720794&utm_content=397729344&utm_medium=cpc&utm_source=begun", "timestamp": 1419688144068}, {"url": "http://news.yandex.ru/yandsearch?cl4url=chezasite.com/htc/htc-one-m9-delay-86327.html&lr=213&rpt=story", "timestamp": 1426666298001}, {"url": "http://www.sotovik.ru/news/240283-htc-one-m9-zaderzhivaetsja.html", "timestamp": 1426666298000}, {"url": "http://news.yandex.ru/yandsearch?cl4url=chezasite.com/htc/htc-one-m9-delay-86327.html&lr=213&rpt=story", "timestamp": 1426661722001}, {"url": "http://www.sotovik.ru/news/240283-htc-one-m9-zaderzhivaetsja.html", "timestamp": 1426661722000}]}'

In [98]:
jsonv = json.loads('{"visits": [{"url": "http://zebra-zoya.ru/200028-chehol-organayzer-dlja-macbook-11-grid-it.html?utm_campaign=397720794&utm_content=397729344&utm_medium=cpc&utm_source=begun", "timestamp": 1419688144068}, {"url": "http://news.yandex.ru/yandsearch?cl4url=chezasite.com/htc/htc-one-m9-delay-86327.html&lr=213&rpt=story", "timestamp": 1426666298001}, {"url": "http://www.sotovik.ru/news/240283-htc-one-m9-zaderzhivaetsja.html", "timestamp": 1426666298000}, {"url": "http://news.yandex.ru/yandsearch?cl4url=chezasite.com/htc/htc-one-m9-delay-86327.html&lr=213&rpt=story", "timestamp": 1426661722001}, {"url": "http://www.sotovik.ru/news/240283-htc-one-m9-zaderzhivaetsja.html", "timestamp": 1426661722000}]}')
for visit in jsonv.get('visits'):
    print visit['timestamp']

1419688144068
1426666298001
1426666298000
1426661722001
1426661722000


In [5]:
visit_counter=0 
for row in range(df.shape[0]): 
    visits = json.loads(df.iloc[row].user_json)
    visit_counter=visit_counter+len(visits.get('visits'))
print visit_counter

5829507


In [44]:
def ParseHTML_v1(article):
    text = ''
    try:
        article.download()
        article.parse()
        text = article.text
    except Exception as e_download::
        try:
            html = article.html.encode('utf-8')
            text = re.sub(r'\s+', ' ', nltk.clean_html(html))
        except Exception as e_nlrk_clean:
            pass
    return text

In [94]:
def ParseHTML_v2(url):
    text = ''
    try:
        html = urlopen(url).read()
        soup = bs4.BeautifulSoup(html)
        [s.extract() for s in soup(['style', 'script', '[document]', 'head'])]
        text = ' '.join(soup.getText().split())
    except:
        pass
    return text

In [95]:
def get_url(url):
    try:
        a = urlparse(unquote(url.strip()))
        if a.netloc == 'news.yandex.ru':
                if(re.search('(?<=cl4url=).+(html)', url)):
                    url = 'http://' + re.search('(?<=cl4url=).+(html)', url).group(0)
                else:
                    url = 'http://' + re.search('(?<=cl4url=).+', url).group(0)
        stripUrl = str(url).strip()
        return stripUrl
    except Exception as e_get_url_in:
        pass

In [93]:
user_text = ''

for line in list(open('gender_age_dataset_h.txt'))[:2]:
    parts = line.strip().split('\t')
    if len(parts) < 4:
        continue
        
    j = json.loads(parts[3])
    for visit in j['visits']:
        try:
            url = get_url(visit['url'].encode('utf-8'))
        except Exception as e_get_url:
            
        ts = visit['timestamp']
        try:
            article = Article(url, language='ru')
            text  = ParseHTML_v1(article)
            text = ' '.join(text.split())
            user_text = user_text + ' ' + text
        except:
            continue
    
    try:
        print (parts[0]+'\t'+parts[1]+'\t'+parts[2]+'\t'+user_text).encode('utf-8').decode('utf-8')        
        #print '#######1######'
    except:
        try:
            print (parts[0]+'\t'+parts[1]+'\t'+parts[2]+'\t'+user_text).decode('utf-8')
            #print '#######2######'
        except:
            try:
                print (parts[0]+'\t'+parts[1]+'\t'+parts[2]+'\t'+user_text.encode('utf-8'))
                #print '#######3######'
            except:
                try:
                    print (parts[0]+'\t'+parts[1]+'\t'+parts[2]+'\t'+user_text.encode('utf-8').decode('utf-8'))
                    #print '#######4######'
                except:
                    print (parts[0]+'\t'+parts[1]+'\t'+parts[2]+'\t'+'None')
                    #print '#######5######'

F	18-24	d50192e5-c44e-4ae8-ae7a-7cfe67c8b777	 home darknet coq tactics publications projects rĂŠsumĂŠ YOLO: Real-Time Object Detection You only look once (YOLO) is a state-of-the-art, real-time object detection system. On a Titan X it processes images at 40-90 FPS and has a mAP on VOC 2007 of 78.6% and a mAP of 44.0% on COCO test-dev. Model Train Test mAP FLOPS FPS Cfg Weights Old YOLO VOC 2007+2012 2007 63.4 40.19 Bn 45 link SSD300 VOC 2007+2012 2007 74.3 - 46 link SSD500 VOC 2007+2012 2007 76.8 - 19 link YOLOv2 VOC 2007+2012 2007 76.8 34.90 Bn 67 cfg weights YOLOv2 544x544 VOC 2007+2012 2007 78.6 59.68 Bn 40 cfg weights Tiny YOLO VOC 2007+2012 2007 57.1 6.97 Bn 207 cfg weights SSD300 COCO trainval test-dev 41.2 - 46 link SSD500 COCO trainval test-dev 46.5 - 19 link YOLOv2 608x608 COCO trainval test-dev 48.1 62.94 Bn 40 cfg weights Tiny YOLO COCO trainval - - 7.07 Bn 200 cfg weights How It Works Prior detection systems repurpose classifiers or localizers to perform detection. They app

In [40]:
from tqdm import tqdm
import time
urls = []
for row in tqdm(range(df.shape[0])): 
    visits = json.loads(df.iloc[row].user_json)
    for visit in visits.get('visits'):
        if str(visit['url'].encode('utf-8')).startswith('http'):
            urls.append([df.iloc[row]['uid'],visit['url'].encode('utf-8'), df.iloc[row]['gender']+'_'+df.iloc[row]['age']])

100%|██████████| 41138/41138 [52:26<00:00, 13.07it/s]  


In [19]:
input = open('urls.pkl', 'rb')
urls = pickle.load(input)
input.close()
print urls[:10]

In [21]:
def Pars(url):
    parsed_uri = urlparse(url)
    netlog = '{uri.netloc}'.format(uri=parsed_uri)
    try:
        path = '{uri.path}'.format(uri=parsed_uri)
    except:
        path = url
    if netlog == 'news.yandex.ru':
        try:
            if(re.search('(?<=cl4url=).+(html)', url)):
                ya_url = 'http://' + re.search('(?<=cl4url=).+(html)', url).group(0)
                article = Article(ya_url, language='ru')
            else:
                ya_url = 'http://' + re.search('(?<=cl4url=).+', url).group(0)
                article = Article(ya_url, language='ru')
        except:
            article = Article(url, language='ru')
    else:
        article = Article(url, language='ru')

    article.download()
    try:
        article.parse()
    except:
        return ''
    text = article.text
    text = ' '.join(text.split())
    
    try:    
        return (text)
    except:
        print 'Error'

In [22]:
visits_text = []

In [None]:
for url in tqdm(urls[len(visits_text):]):
    visits_text.append(Pars(url[1]))

In [27]:
print len(visits_text)

636


In [153]:
pd.DataFrame(visits_list).to_csv('10_userc_visits', encoding='utf-8', )

Методом `pandas.DataFrame.apply` (хотя не только им) можно применить операцию десериализации json-строк ко всему датасету. Рекомендуем почитать [документацию по методу apply](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html).

Работая с подобными операциями, обратите внимание на kwargs-аргумент `axis`. Часто, забыв его указать, вы примените операцию не к ряду (строке), а к столбцу, что вряд ли входит в ваши планы.

### Очистка данных и feature engineering

Очистка данных и генерация новых фич составит значительную часть вашей работы. Именно здесь вы и должны продемонстрировать знания и креативность: чем лучше окажутся ваши фичи и чем лучше сможете убрать шум из датасета, тем лучших результатов вы достигнете.

Одна из первых вещей, которые можно попробовать — это вытащить домены и использовать их в качестве признаков. Можно воспользоваться функцией:

In [39]:
def url2domain(url):
    url = re.sub('(http(s)*://)+', 'http://', url)
    parsed_url = urlparse(unquote(url.strip()))
    if parsed_url.scheme not in ['http','https']: return None
    netloc = re.search("(?:www\.)?(.*)", parsed_url.netloc).group(1)
    if netloc is not None: return str(netloc.encode('utf8')).strip()
    return None

Поскольку эта часть и есть ваша работа, мы не станем раскрывать все секреты (хотя несколько советов мы всё же дали, посмотрите ниже в разделе Подсказки).

### Деление на train и test сеты, обучение модели, предсказания для test-сета

Давайте теперь оценим размер нашего train и test сетов. Train set:

In [40]:
len(df[~((df.gender == '-') & (df.age == '-'))])

36138

Test set:

In [41]:
len(df[(df.gender == '-') & (df.age == '-')])

5000

In [42]:
len(df) # Весь датасет

41138

Когда вы очистили данные и сгенерировали признаки, которые можно дать на вход алгоритму, следующий этап — это разделить данные на тренировочную и тестовую выборки. Сохраните train и test выборки в отдельных файлах, используя метод `pandas.DataFrame.to_csv`. Либо просто сделайте два датафрейма: `train_df` и `test_df`. Обучите модель на ваш выбор, оцените результат, подумайте, как можно его улучшить.

### Обработка данных на выход
Выходной файл должен быть расположен в корне вашей директории в файле `project01_gender-age.csv`. Чекер будет брать файл именно оттуда.

Файл должен содержать три поля: `uid` (строковый формат), `gender` (строковый формат) и `age` (строковый формат). 

В файле должны быть только те пользователи, у которых пол и возрастная категория изначально неизвестны, и они должны быть **отсортированы по UID по возрастанию значений лексикографически.**

**Важное замечание!** Вы должны дать прогноз хотя бы по 50% пользователей, у которых изначально не указан пол и возрастная категория. Иными словами, вы можете оставить неопределенными не более 50% изначально неопределенных пользователей.

#### Пример выходного файла:

```uid	gender	age
123	F	18-24
456	M	25-34
789	-	-
```

Файл обязательно должен содержать шапку, указанную выше, и все 5 000 записей по неизвестным пользователям. Итого: 5 001 строка.

### Подсказки

1. Есть много различных способов решить данную задачу: можно просто хорошо поработать с урлами и доменами, можно пропарсить содержимое этих урлов (заголовки, текст и т.д.) и воспользоваться неким векторизатором типа TF\*IDF для генерации дополнительных фич, которые уже в дальнейшем вы подадите на вход ML-алгоритму, можно сделать тематическое моделирование (LDA, BigARTM) сайтов и использовать одну или несколько тем в качестве фич.

2. Возможно, что данные грязные и их нужно дополнительно обработать. Спецсимволы, кириллические домены? Уделите этому этапу достаточно времени: здесь чистота датасета важнее, чем выбор алгоритма.

3. Часто бывает, что лучшее решение с точки зрения результата — оно же самое простое. Попробуйте сначала простые способы, простые алгоритмы, прежде чем переходить к тяжёлой артиллерии. Один из вариантов — начать с небольшого RandomForest.

4. Вам почти наверняка понадобится что-то из пакета sklearn. [Документация](http://scikit-learn.org/stable/user_guide.html) — ваш лучший друг.

5. Вы можете сначала предсказать пол, а затем возраст, либо сразу и то, и другое. Экспериментируйте.

6. В Python 2.7 возможны проблемы с юникодом. Способы решения существуют — обращайтесь в slack за советами.

7. Объединяйтесь в команды. Так гораздо веселее и интереснее.

### Проверка
Проверка осуществляется из [Личного кабинета](http://lk.newprolab.com/lab/project01). По файлу будет определяться доля правильно спрогнозированных пользователей (у которых правильно указаны и пол, и возрастная категория).

* В поле `part of users with predicted gender + age` - указана доля пользователей, которая была предсказана от общего числа неизвестных пользователей (пример: по 3 000 был сделан прогноз, а всего было неизвестно 5 000, чекер выдаст 0.6).

* В поле `correctly predicted users / total number of users` - указана доля пользователей, которая была правильно предсказана (совпадает и пол, и возраст) от общего числа всех пользователей (пример: по 3 000 был сделан прогноз, правильно было спрогнозировано 1 500, а всего было неизвестно 5 000, чекер выдаст 0.3)

* В поле `correctly predicted users / number of predicted users` - указана доля пользователей, которая была правильно предсказана (совпадает и пол, и возраст) от общего числа предсказанных пользователей (пример: по 3 000 был сделан прогноз, из них правильно предсказано 1 500, чекер выдаст 0.5).

**Если доля в последнем поле превысит порог 0.28, то проект будет засчитан.**

Лучшей команде, набравшей максимальный результат, мы подарим специальный приз, о котором скажем позднее.

## Ваше решение здесь