# Pandas и большие файлы

In [None]:
import pandas as pd

### Упражнение
Для каждого пользователя user_id из файла sales_db.csv посчитайте самую дорогую покупку (в столбце cost)

# Объединение датафреймов

### Данные со слайдов

In [None]:
visits = pd.DataFrame(
    {
        'user_id': [11, 22, 55, 11, 77],
        'source': ['ad', 'yandex', 'email', 'google', 'ad']
    }
)

visits = visits[['user_id', 'source']]
visits

In [None]:
purchases = pd.DataFrame(
    {
        'user_id': [11, 22, 55, 11, 99],
        'category': ['Спорт', 'Авто', 'Дача', 'Спорт', 'Авто'],
    }
)

purchases = purchases[['user_id', 'category']]
purchases

In [None]:
visits_grouped = visits.groupby('user_id').count()
visits_grouped.rename(columns={'source': 'visits'}, inplace=True)
visits_grouped

In [None]:
visits.groupby('user_id').count().reset_index()

In [None]:
purchases_pivot = purchases.pivot_table(index='user_id', columns='category', values='user_id', 
                                        aggfunc='size', fill_value=0)
purchases_pivot

In [None]:
purchases_pivot.reset_index()

In [None]:
visits_grouped.join(purchases_pivot)

### LEFT join
Каждой строчке в левой таблице ищет соответствие в правой

In [None]:
visits_grouped.join(purchases_pivot, how='left')

### RIGHT join
Каждой строчке в правой таблице ищет соответствие в левой

In [None]:
visits_grouped.join(purchases_pivot, how='right')

### Упражнение
Дана статистика:
- ID клиентов и их имена (датафрейм clients)
- статистика доходов (earnings)
- статистика расходов (spending)

Определите имена клиентов, расходы которых превышают доходы.

In [None]:
# подсказка - по умолчанию в методе merge объединение НЕ left join

?pd.DataFrame.merge

In [None]:
clients = pd.DataFrame(
    {
        'id': [43018, 48329, 51043, 74943, 75029],
        'name': ['Марков Илья', 'Зарицкая Елизавета', 'Благова Дарья', 'Слепова Елена', 'Гордецкий Максим'],
    }
)

clients

In [None]:
earnings = pd.DataFrame(
    {
        'id': [51043, 48329, 74943, 75029, 43018],
        'debit': [34500, 12400, 89044, 5355, 19800],
    }
)

earnings

In [None]:
spending = pd.DataFrame(
    {
        'id': [51043, 48329, 74943, 75029, 43018],
        'credit': [22990, 2500, 69880, 6000, 29000],
    }
)

spending

### INNER join
Оставляет строчки, которые есть в обеих таблицах

In [None]:
visits_grouped.join(purchases_pivot, how='inner')

### Outer join
Оставляет все строчки

In [None]:
visits_grouped.join(purchases_pivot, how='outer')

# Конкатенация таблиц

In [None]:
a = pd.DataFrame({'date': ['2020-01-01', '2020-01-02', '2020-01-03'], 'value_a': [1, 2, 3]})
b = pd.DataFrame({'date': ['2020-01-01', '2020-01-02', '2020-01-03'], 'value_b': [3, 4, 5]})

In [None]:
a

In [None]:
b

In [None]:
pd.concat([a, b])

In [None]:
# объединение по горизонтали
pd.concat([a, b], axis=1)

### Дубликаты при объединении таблиц

In [None]:
ratings = pd.read_csv('ratings_example.txt', sep = '\t')
ratings.head()

In [None]:
movies = pd.read_csv('movies_example.txt', sep = '\t')
movies.head()

In [None]:
# ¯\_(ツ)_/¯

ratings.merge(movies, how='left', on='movieId')

In [None]:
movies.drop_duplicates(subset = 'movieId', keep = 'first', inplace = True)
movies.head()

In [None]:
ratings.merge(movies, how = 'left', on = 'movieId')

In [None]:
ratings.merge(movies, how = 'right', on = 'movieId')

### Упражнение
Объедините датафреймы с визитами и покупками на сайте по ключу date. Обратите внимание, что в датафрейме визитов имеются дубликаты по дате.

In [None]:
visits = pd.DataFrame(
    {'date': ['2019-11-01', '2019-11-01', '2019-11-02', '2019-11-02', '2019-11-03'], 
     'source': ['organic', 'paid', 'organic', 'paid', 'organic'], 
     'visits': [16825, 1952, 21890, 376, 19509]}
)

visits

In [None]:
orders = pd.DataFrame(
    {'date': ['2019-11-01', '2019-11-02', '2019-11-03'],
     'orders': [198, 225, 201]}
)

orders

### Оптимизация хранения данных

In [None]:
# 2.4mb
ratings = pd.read_csv('ml-latest-small/ratings.csv')

# 0.5mb
movies = pd.read_csv('ml-latest-small/movies.csv')
joined = ratings.merge(movies, how='left', on='movieId')

In [None]:
joined.head()

In [None]:
ratings = pd.read_csv('ml-latest-small/ratings.csv')
ratings.head()

In [None]:
len(ratings)

In [None]:
movies = pd.read_csv('ml-latest-small/movies.csv')
movies.head()

In [None]:
len(movies)

In [None]:
len(ratings) == len(joined)

In [None]:
joined.to_csv('joined_ratings.csv', index=False)

In [None]:
joined.head()

In [None]:
logs = joined[['userId', 'movieId', 'rating']].head()

In [None]:
len(joined[['movieId', 'title', 'genres']].drop_duplicates())

### Какой жанр имеет самые высокие рейтинги?

In [None]:
import numpy as np

In [None]:
genres = ['Drama', 'Action', 'Thriller']

In [None]:
ratings = pd.read_csv('ml-latest-small/ratings.csv')
ratings.head()

In [None]:
len(ratings)

In [None]:
movies = pd.read_csv('ml-latest-small/movies.csv')
movies.head()

In [None]:
len(movies)

In [None]:
joined = ratings.merge(movies, on='movieId', how='left')
joined.head()

In [None]:
# рекомендуемая проверка на возможные дубликаты

len(ratings) == len(joined)

### Считаем рейтинг жанров

In [None]:
# еще раз список жанров

genres = ['Drama', 'Action', 'Thriller']

In [None]:
def genres_ratings(row):
    """Возвращает рейтинг, если он есть в списке жанров данного фильма"""
    
    return pd.Series([row['rating'] if genre in row['genres'] else np.NaN for genre in genres])

In [None]:
%%time
joined[genres] = joined.apply(genres_ratings, axis=1)

In [None]:
def genres_ratings_version_2(row):
    """Возвращает рейтинг, если он есть в списке жанров данного фильма"""
    
    for genre in genres:
        if genre in row.genres:
            row[genre] = row.rating
    
    return rating

In [None]:
joined[genres] = joined.apply(genres_ratings, axis=1)
joined.head()

### Упражнение
Выведите средний рейтинг каждого жанра из списка genres

### К домашнему заданию, задача 2
Дана статистика услуг перевозок клиентов компании по типам:
- rzd - железнодорожные перевозки
- auto - автомобильные перевозки
- air - воздушные перевозки
- client_base - адреса клиентов

In [None]:
rzd = pd.DataFrame(
    {
        'client_id': [111, 112, 113, 114, 115],
        'rzd_revenue': [1093, 2810, 10283, 5774, 981]
    }
)
rzd

In [None]:
auto = pd.DataFrame(
    {
        'client_id': [113, 114, 115, 116, 117],
        'auto_revenue': [57483, 83, 912, 4834, 98]
    }
)
auto

In [None]:
air = pd.DataFrame(
    {
        'client_id': [115, 116, 117, 118],
        'air_revenue': [81, 4, 13, 173]
    }
)
air

In [None]:
client_base = pd.DataFrame(
    {
        'client_id': [111, 112, 113, 114, 115, 116, 117, 118],
        'address': ['Комсомольская 4', 'Энтузиастов 8а', 'Левобережная 1а', 'Мира 14', 'ЗЖБИиДК 1', 
                    'Строителей 18', 'Панфиловская 33', 'Мастеркова 4']
    }
)
client_base