# Продвинутый Pandas.

In [17]:
import pandas as pd
import re

## Задача №1.

In [184]:
# Загружаем данные из log файла.
log = pd.read_csv('visit_log.csv', sep=';')
# log.sample(10)

In [9]:
def fill_source_type(row):
    """
    Функция возвращает значения для столбца source_type в зависимости от значений столбца
    'region' и 'trafic_source' по следующей схеме:
    
    Росссия:
    
    Yandex или Google --> organic
    paid или email --> ad
    'traffic_source' --> 'source_type'
    
    Не России:
    
    Yandex или Google --> organic
    paid или email --> other
    'traffic_source' --> 'source_type'
    
    """
    
    if row.traffic_source == 'yandex' or row.traffic_source == 'google':
        return 'organic'
    elif row.traffic_source == 'paid' or row.traffic_source == 'email':
        if row.region == 'Russia':
            return 'ad'
        else:
            return 'other'    
    return row.traffic_source

In [183]:
log['source_type'] = log.apply(fill_source_type, axis=1)
log.sample(10)

Unnamed: 0,timestamp,visit_id,url,region,user_id,traffic_source,source_type
10586,1550043899,a24f753700,https://host.ru/9010367b0b48d2f1b9,Russia,bd234de19f,google,organic
3924,1550004310,603ae47aaa,https://host.ru/2fcb223266880ccf57,Russia,87e5dbb3bb,google,organic
1405,1549989019,4022f6af97,https://host.ru/a8ce0b447c10a1deaa,Australia,9309ef17cf,yandex,organic
5817,1550015684,5abaf331f7,https://host.ru/ae8a036d7f44d0bcd9,Russia,168c52efb5,paid,ad
15214,1550071653,7d216d60e5,https://host.ru/3c19b4ef7371864fa3,Russia,719a7979db,email,ad
8257,1550030091,9cda1c9952,https://host.ru/3004a8273caeef2867,Russia,10eea6274d,direct,direct
12050,1550052710,613255dcc0,https://host.ru/c8d9213a31839f9a3a,Belarus,3b122fa4db,email,other
8759,1550033030,16c1e1f340,https://host.ru/108ce4b365afb7b88e,Russia,4413d1d0aa,direct,direct
17006,1550082442,214c0b1617,https://host.ru/a5dda93e70318570c0,Russia,04a7b7e487,paid,ad
6610,1550020344,ff74685e50,https://host.ru/4adc8a29b212051b04,Russia,3bb11ab63e,google,organic


## Задача №2.

In [23]:
# Загружаем данные по рейтинга.
urls = pd.read_csv('URLs.txt')

# шаблон для новостных сайтов.
pattern = '\/\d{8}-'

urls[urls.url.str.contains(pattern, regex=True)].head(10)

Unnamed: 0,url
3,/politics/36188461-s-marta-zhizn-rossiyan-susc...
4,/world/36007585-tramp-pridumal-kak-reshit-ukra...
5,/science/36157853-nasa-sobiraet-ekstrennuyu-pr...
6,/video/36001498-poyavilis-pervye-podrobnosti-g...
7,/world/36007585-tramp-pridumal-kak-reshit-ukra...
10,/middleeast/36131117-divizion-s-400-ne-zametil...
11,/economics/36065674-rossiyane-vozmutilis-minim...
12,/politics/36118047-otets-24-detey-potreboval-i...
13,/travel/36194479-v-sheremetevo-passazhiry-ustr...
14,/politics/35638742-nesolidno-mariya-zaharova-s...


## Задача №3.

In [64]:
def delta(set_of_number):
    """
    Функция вычисляет размах, разницу между максимальным и минимальным значением, в
    наборе данных.
    
    """
    return set_of_number.max() - set_of_number.min()

In [189]:
# Путь к файлам данных.
path_1 = '../ml-latest-small/'

# Загружаем данные по рейтингам.
ratings = pd.read_csv(path_1 + 'ratings.csv')
# Добовляем столбец данных 'date' с датами когда выставлялись рейтинги. Тип datetime64.
ratings['date'] = pd.to_datetime(ratings['timestamp'], unit='s')

# ult = ratings.groupby('userId').agg({'rating': ['count', 'min', 'max'], 'timestamp':['min', 'max', lambda x: x.max() - x.min()]})

# Группируем данные по userId и вычесляем колличество выставленных оценок
# и время между последним и первым посещением.
ult = ratings.groupby('userId').agg({'rating': ['count'], 'date':[delta]})

# Форматируем название столбцов для удобства.
ult.columns = ['_'.join(col).rstrip('_') for col in ult.columns.values]

# Оставляем пользователей, выставивших больше 100 оценок.
ult_more_than_100 = ult[ult.rating_count > 100]
ult_more_than_100.sample(10)

Unnamed: 0_level_0,rating_count,date_delta
userId,Unnamed: 1_level_1,Unnamed: 2_level_1
83,161,0 days 00:43:15
471,216,390 days 23:29:20
599,192,440 days 03:30:16
598,312,587 days 22:07:27
502,113,399 days 20:43:34
405,412,421 days 10:48:27
486,138,0 days 00:45:58
527,135,0 days 00:37:55
165,487,99 days 09:57:30
373,219,2 days 23:30:44


## Задача №4.

In [24]:
rzd = pd.DataFrame(
    {
        'client_id': [111, 112, 113, 114, 115],
        'rzd_revenue': [1093, 2810, 10283, 5774, 981]
    }
)
rzd

Unnamed: 0,client_id,rzd_revenue
0,111,1093
1,112,2810
2,113,10283
3,114,5774
4,115,981


In [25]:
auto = pd.DataFrame(
    {
        'client_id': [113, 114, 115, 116, 117],
        'auto_revenue': [57483, 83, 912, 4834, 98]
    }
)
auto

Unnamed: 0,client_id,auto_revenue
0,113,57483
1,114,83
2,115,912
3,116,4834
4,117,98


In [26]:
air = pd.DataFrame(
    {
        'client_id': [115, 116, 117, 118],
        'air_revenue': [81, 4, 13, 173]
    }
)
air

Unnamed: 0,client_id,air_revenue
0,115,81
1,116,4
2,117,13
3,118,173


In [27]:
client_base = pd.DataFrame(
    {
        'client_id': [111, 112, 113, 114, 115, 116, 117, 118],
        'address': ['Комсомольская 4', 'Энтузиастов 8а', 'Левобережная 1а', 'Мира 14', 'ЗЖБИиДК 1', 
                    'Строителей 18', 'Панфиловская 33', 'Мастеркова 4']
    }
)
client_base

Unnamed: 0,client_id,address
0,111,Комсомольская 4
1,112,Энтузиастов 8а
2,113,Левобережная 1а
3,114,Мира 14
4,115,ЗЖБИиДК 1
5,116,Строителей 18
6,117,Панфиловская 33
7,118,Мастеркова 4


In [185]:
# Соединяем вместе все данные по типам выручки.
revenue = pd.concat([rzd, auto, air])
all_revenue = revenue.groupby('client_id').sum()
all_revenue

Unnamed: 0_level_0,rzd_revenue,auto_revenue,air_revenue
client_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
111,1093.0,0.0,0.0
112,2810.0,0.0,0.0
113,10283.0,57483.0,0.0
114,5774.0,83.0,0.0
115,981.0,912.0,81.0
116,0.0,4834.0,4.0
117,0.0,98.0,13.0
118,0.0,0.0,173.0


In [176]:
# Добавляем адреса клиентов. 
all_revenue.reset_index()
customer_revenue = all_revenue.merge(client_base, how='left', on = 'client_id')
customer_revenue

Unnamed: 0,client_id,rzd_revenue,auto_revenue,air_revenue,address
0,111,1093.0,0.0,0.0,Комсомольская 4
1,112,2810.0,0.0,0.0,Энтузиастов 8а
2,113,10283.0,57483.0,0.0,Левобережная 1а
3,114,5774.0,83.0,0.0,Мира 14
4,115,981.0,912.0,81.0,ЗЖБИиДК 1
5,116,0.0,4834.0,4.0,Строителей 18
6,117,0.0,98.0,13.0,Панфиловская 33
7,118,0.0,0.0,173.0,Мастеркова 4
