In [1]:
import pandas as pd
import requests
import io


In [7]:
visits_df = pd.read_csv('visits_1k.csv')
registrations_df = pd.read_csv('regs_1k.csv')


In [10]:
#Предварительный анализ данных
print("Описание visits_df:")
print(visits_df.describe())
print("\nОписание registrations_df:")
print(registrations_df.describe())


Описание visits_df:
                                        uuid platform  \
count                                   1000     1000   
unique                                   519        3   
top     251a0926-ece3-4d77-aa42-ab569fdf9fe2      web   
freq                                       4      954   

                                               user_agent                 date  
count                                                1000                 1000  
unique                                                 28                  996  
top     Mozilla/5.0 (Windows NT 10.0; Win64; x64) Appl...  2023-03-01T08:01:45  
freq                                                   71                    2  

Описание registrations_df:
            user_id
count  1.000000e+03
mean   4.488623e+06
std    2.620568e+06
min    2.236800e+04
25%    2.235489e+06
50%    4.473044e+06
75%    6.779707e+06
max    8.881772e+06


In [2]:
import pandas as pd
import requests
import os
from dotenv import load_dotenv

load_dotenv()

API_URL = os.getenv('API_URL')
DATE_BEGIN = os.getenv('DATE_BEGIN')
DATE_END = os.getenv('DATE_END')

def get_api_data(url):
    try:
        response = requests.get(url)
        response.raise_for_status()

        if response.status_code == 200:
            return response.json()
        else:
            print(f"Ошибка: API вернул код {response.status_code}")
            return None
    except requests.exceptions.RequestException as e:
        print(f"Ошибка сети: {e}")
        return None
        
visits_url = f"{API_URL}/visits?begin={DATE_BEGIN}&end={DATE_END}"
visits_data = get_api_data(visits_url)

regs_url = f"{API_URL}/registrations?begin={DATE_BEGIN}&end={DATE_END}"
regs_data = get_api_data(regs_url)

if visits_data:
    visits_df = pd.DataFrame(visits_data)
    if 'datetime' in visits_df.columns:
        visits_df['datetime'] = pd.to_datetime(visits_df['datetime'])
    else:
        print("Столбец 'datetime' не найден в данных о посещениях")
else:
    visits_df = pd.DataFrame()
    print("Не удалось получить данные о посещениях")

if regs_data:
    registrations_df = pd.DataFrame(regs_data)
    if 'datetime' in registrations_df.columns:
        registrations_df['datetime'] = pd.to_datetime(registrations_df['datetime'])
    else:
        print("Столбец 'datetime' не найден в данных о регистрациях")
else:
    registrations_df = pd.DataFrame()
    print("Не удалось получить данные о регистрациях")

print("Первые 5 строк visits_df:")
print(visits_df.head())
print("\nПервые 5 строк registrations_df:")
print(registrations_df.head())


Первые 5 строк visits_df:
                               visit_id platform  \
0  1de9ea66-70d3-4a1f-8735-df5ef7697fb9      web   
1  f149f542-e935-4870-9734-6b4501eaf614      web   
2  08f0ebd4-950c-4dd9-8e97-b5bdf073eed1      web   
3  19322fed-157c-49c6-b16e-2d5cabeb9592      web   
4  04762a22-3c9f-40c9-9ac9-6628c4381836      web   

                                          user_agent            datetime  
0  Mozilla/5.0 (Windows NT 10.0; Win64; x64) Appl... 2023-03-01 10:36:22  
1  Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7... 2023-03-01 06:25:00  
2  Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2... 2023-03-01 10:26:13  
3  Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7... 2023-03-01 12:33:06  
4  Mozilla/5.0 (Windows NT 10.0; Win64; x64) Appl... 2023-03-01 01:38:35  

Первые 5 строк registrations_df:
             datetime                               user_id  \
0 2023-03-01 07:40:13  2e0f6bb8-b029-4f45-a786-2b53990d37f1   
1 2023-03-01 13:14:00  f007f97c-9d8b-48b5-af08-119b

In [3]:
visits_df_no_bots = visits_df[~visits_df['user_agent'].str.contains('bot', case=False)]

# Предварительная проверка результатов
print(f"Количество визитов до фильтрации ботов: {len(visits_df)}")
print(f"Количество визитов после фильтрации ботов: {len(visits_df_no_bots)}")


Количество визитов до фильтрации ботов: 263459
Количество визитов после фильтрации ботов: 256077


In [4]:
visits_grouped = visits_df_no_bots.groupby([pd.Grouper(key='datetime', freq='D'), 'platform']).size().reset_index(name='visits')

registrations_grouped = registrations_df.groupby([pd.Grouper(key='datetime', freq='D'), 'platform']).size().reset_index(name='registrations')

print("Сгруппированные визиты:")
print(visits_grouped.head())
print("\nСгруппированные регистрации:")
print(registrations_grouped.head())


Сгруппированные визиты:
    datetime platform  visits
0 2023-03-01  android      75
1 2023-03-01      ios      22
2 2023-03-01      web     844
3 2023-03-02  android      67
4 2023-03-02      ios      31

Сгруппированные регистрации:
    datetime platform  registrations
0 2023-03-01  android             61
1 2023-03-01      ios             18
2 2023-03-01      web              8
3 2023-03-02  android             59
4 2023-03-02      ios             24


In [5]:
merged_df = pd.merge(visits_grouped, registrations_grouped, on=['datetime', 'platform'], how='left')

merged_df['registrations'] = merged_df['registrations'].fillna(0)

merged_df['conversion'] = (merged_df['registrations'] / merged_df['visits']) * 100

merged_df = merged_df.rename(columns={'datetime': 'date_group'})

merged_df = merged_df.sort_values(by='date_group')

merged_df['date_group'] = merged_df['date_group'].astype('int64') // 10**6

print("Объединенный DataFrame с конверсией:")
print(merged_df.head())


Объединенный DataFrame с конверсией:
      date_group platform  visits  registrations  conversion
0  1677628800000  android      75             61   81.333333
1  1677628800000      ios      22             18   81.818182
2  1677628800000      web     844              8    0.947867
3  1677715200000  android      67             59   88.059701
4  1677715200000      ios      31             24   77.419355


In [6]:
merged_df.to_json('conversion.json')
