<a href="https://colab.research.google.com/github/fknbtrd/netology_homework/blob/main/%D0%94%D0%97%20%D0%BA%20%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B8%20%22%D0%9F%D1%80%D0%BE%D0%B4%D0%B2%D0%B8%D0%BD%D1%83%D1%82%D1%8B%D0%B9%20Pandas%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [9]:
import pandas as pd

# Чтение данных
df = pd.read_csv('visit_log.csv', sep=';')

# Создание столбца source_type по правилам
def set_source_type(row):
    if row['traffic_source'] in ['yandex', 'google']:
        return 'organic'
    elif row['traffic_source'] in ['paid', 'email']:
        if row['region'] == 'Russia':
            return 'ad'
        else:
            return 'other'
    else:
        return row['traffic_source']

df['source_type'] = df.apply(set_source_type, axis=1)

# Просмотр результата
print(df[['traffic_source', 'region', 'source_type']].head(20))

   traffic_source   region source_type
0          yandex   Russia     organic
1          direct   Russia      direct
2          yandex   Russia     organic
3          yandex   Russia     organic
4          yandex   Russia     organic
5          yandex   Russia     organic
6            paid   Russia          ad
7          direct   Russia      direct
8          direct    China      direct
9           email   Russia          ad
10         direct    India      direct
11         google  Ukraine     organic
12           paid   Russia          ad
13         direct    China      direct
14         direct  Belarus      direct
15           paid  Belarus       other
16         google   Russia     organic
17           paid  Ukraine       other
18         direct  Belarus      direct
19         direct  Belarus      direct


In [None]:
import pandas as pd

# Читаем файл с URL-адресами в датафрейм
df = pd.read_csv('URLs.txt')

# Фильтруем URL-адреса, оставляя только новостные статьи
news_df = df[df['url'].str.contains(r'/\d{8}-')]

# Выводим результат
print("Страницы с новостями:")
print(news_df)

Страницы с новостями:
                                                  url
3   /politics/36188461-s-marta-zhizn-rossiyan-susc...
4   /world/36007585-tramp-pridumal-kak-reshit-ukra...
5   /science/36157853-nasa-sobiraet-ekstrennuyu-pr...
6   /video/36001498-poyavilis-pervye-podrobnosti-g...
7   /world/36007585-tramp-pridumal-kak-reshit-ukra...
..                                                ...
88  /cis/35984145-kreml-prokommentiroval-soobschen...
89  /video/36071019-olimpiyskie-obekty-rio-prevrat...
90  /science/36151301-nazvano-posledstvie-zloupotr...
91  /incidents/36027330-vospitatelnitsu-zatravili-...
92  /world/36103095-dominikanskih-zhurnalistov-ubi...

[84 rows x 1 columns]


In [12]:
import pandas as pd

# Загрузка данных
df = pd.read_csv('ratings.csv')

# 1. Создаём таблицу с статистикой по пользователям
user_stats = df.groupby('userId').agg(
    num_ratings=('rating', 'count'),
    first_rating=('timestamp', 'min'),
    last_rating=('timestamp', 'max')
)

# 2. Фильтруем активных пользователей (>100 оценок)
active_users = user_stats.loc[user_stats['num_ratings'] > 100].copy()

# 3. Проверка на наличие активных пользователей
if active_users.empty:
    print("В данных нет пользователей с более чем 100 оценками")
else:
    # Добавляем столбец с временем жизни (в секундах)
    active_users.loc[:, 'lifetime_sec'] = active_users['last_rating'] - active_users['first_rating']

    # 4. Рассчитываем среднее время жизни
    average_lifetime_sec = active_users['lifetime_sec'].mean()
    average_lifetime_days = average_lifetime_sec / 86400  # Перевод в дни

    # Вывод результатов
    print(f"Найдено {len(active_users)} активных пользователей (более 100 оценок)")
    print(f"Среднее время жизни активных пользователей:")
    print(f"- В секундах: {average_lifetime_sec:.0f}")
    print(f"- В днях: {average_lifetime_days:.1f}")

Найдено 258 активных пользователей (более 100 оценок)
Среднее время жизни активных пользователей:
- В секундах: 40080507
- В днях: 463.9


In [14]:
import pandas as pd

rzd = pd.DataFrame({
    'client_id': [111, 112, 113, 114, 115],
    'rzd_revenue': [1893, 2818, 18283, 5774, 981]
})

auto = pd.DataFrame({
    'client_id': [113, 114, 115, 116, 117],
    'auto_revenue': [57483, 83, 912, 4834, 98]
})

air = pd.DataFrame({
    'client_id': [115, 116, 117, 118],
    'air_revenue': [81, 4, 13, 173]
})

client_base = pd.DataFrame({
    'client_id': [111, 112, 113, 114, 115, 116, 117, 118],
    'address': ['Комсомольская 4', 'Энтузиастов 88', 'Левобережная 18', 'Мира 14', 'ЭЖБИЦЕК 1',
               'строителей 18', 'Панфиловская 33', 'Мастеркова 4']
})

# 1. Объединяем все данные о выручке
revenue_data = pd.concat([rzd.set_index('client_id'), auto.set_index('client_id'), air.set_index('client_id')], axis=1).fillna(0).reset_index()

# 2. Добавляем адреса
revenue_with_address = revenue_data.merge(client_base, on='client_id', how='left')

# Результаты
print("Таблица с выручкой без адреса:")
print(revenue_data[['client_id', 'rzd_revenue', 'auto_revenue', 'air_revenue']])

print("\nТаблица с выручкой и адресами:")
print(revenue_with_address[['client_id', 'rzd_revenue', 'auto_revenue', 'air_revenue', 'address']])

Таблица с выручкой без адреса:
   client_id  rzd_revenue  auto_revenue  air_revenue
0        111       1893.0           0.0          0.0
1        112       2818.0           0.0          0.0
2        113      18283.0       57483.0          0.0
3        114       5774.0          83.0          0.0
4        115        981.0         912.0         81.0
5        116          0.0        4834.0          4.0
6        117          0.0          98.0         13.0
7        118          0.0           0.0        173.0

Таблица с выручкой и адресами:
   client_id  rzd_revenue  auto_revenue  air_revenue          address
0        111       1893.0           0.0          0.0  Комсомольская 4
1        112       2818.0           0.0          0.0   Энтузиастов 88
2        113      18283.0       57483.0          0.0  Левобережная 18
3        114       5774.0          83.0          0.0          Мира 14
4        115        981.0         912.0         81.0        ЭЖБИЦЕК 1
5        116          0.0        4834.0 