In [2]:
import pandas as pd
import numpy as np
from datetime import datetime
import pytz
import requests

# Путь к файлу
excel_path = '/content/drive/MyDrive/Г/predict/crimes_spb.xlsx'
output_csv = '/content/drive/MyDrive/Г/predict/crimes_spb_features.csv'

# 1. Загрузка данных
print("Чтение Excel-файла...")
df = pd.read_excel(excel_path)

# 2. Преобразование времени
print("Обработка времени...")
df['Время регистрации'] = pd.to_datetime(df['Время регистрации'], errors='coerce')
df = df.dropna(subset=['Время регистрации'])

# 3. Извлечение временных признаков
df['Час'] = df['Время регистрации'].dt.hour
df['День_недели'] = df['Время регистрации'].dt.dayofweek  # 0=понедельник, 6=воскресенье
df['Месяц'] = df['Время регистрации'].dt.month
df['Время_суток'] = pd.cut(
    df['Час'],
    bins=[-0.1, 6, 12, 18, 24],
    labels=['ночь', 'утро', 'день', 'вечер']
)
df['Год'] = df['Время регистрации'].dt.year
df['День_года'] = df['Время регистрации'].dt.dayofyear

# 4. Целевая переменная: было ли "стрельба"?
print("Создание целевой переменной...")
df['Стрельба'] = (
    df['Причина'].str.contains('стрельба', case=False, na=False) |
    df['Причина АПК БГ'].str.contains('стрельба', case=False, na=False) |
    df['Причина'].str.contains('огнестрел', case=False, na=False) |
    df['Причина АПК БГ'].str.contains('огнестрел', case=False, na=False) |
    df['Причина'].str.contains('выстрел', case=False, na=False)
).astype(int)

# 5. Добавление исторической активности по району
print("Расчёт исторической частоты стрельбы по районам...")
# Частота стрельбы в каждом районе за последние 90 дней (скользящее окно)
df = df.sort_values('Время регистрации')
df['Дата'] = df['Время регистрации'].dt.date

# Для каждого района считаем количество "стрельба" за последние 90 дней
def rolling_firearms_count(group):
    group = group.sort_values('Дата')
    group['История_стрельбы_90дн'] = [
        group[
            (group['Дата'] < group.iloc[i]['Дата']) &
            (group['Дата'] >= pd.to_datetime(group.iloc[i]['Дата']) - pd.Timedelta(days=90))
        ]['Стрельба'].sum()
        for i in range(len(group))
    ]
    return group

df = df.groupby('Район').apply(rolling_firearms_count).reset_index(drop=True)

# 6. Добавление социально-экономических данных по районам (пример)
print("Добавление социально-экономических данных...")
# Пример данных (можно заменить на реальные из статистики)
socioeconomic_data = {
    'Центральный': {'плотность': 18000, 'безработица': 6.1, 'медианный_доход': 75000, 'индекс_стресса': 7.2},
    'Адмиралтейский': {'плотность': 15000, 'безработица': 7.0, 'медианный_доход': 70000, 'индекс_стресса': 6.8},
    'Невский': {'плотность': 12000, 'безработица': 8.3, 'медианный_доход': 58000, 'индекс_стресса': 8.1},
    'Красносельский': {'плотность': 6000, 'безработица': 9.1, 'медианный_доход': 52000, 'индекс_стресса': 8.5},
    'Фрунзенский': {'плотность': 9000, 'безработица': 8.7, 'медианный_доход': 56000, 'индекс_стресса': 8.3},
    'Московский': {'плотность': 8500, 'безработица': 9.5, 'медианный_доход': 50000, 'индекс_стресса': 8.7},
    'Приморский': {'плотность': 7000, 'безработица': 7.8, 'медианный_доход': 62000, 'индекс_стресса': 7.5},
    'Выборгский': {'плотность': 5000, 'безработица': 8.0, 'медианный_доход': 60000, 'индекс_стресса': 7.0},
    'Калининский': {'плотность': 11000, 'безработица': 8.9, 'медианный_доход': 54000, 'индекс_стресса': 8.4},
    'Кировский': {'плотность': 7500, 'безработица': 8.2, 'медианный_доход': 57000, 'индекс_стресса': 7.9},
    'Петродворцовый': {'плотность': 3000, 'безработица': 5.5, 'медианный_доход': 68000, 'индекс_стресса': 5.0},
    'Пушкинский': {'плотность': 2500, 'безработица': 6.0, 'медианный_доход': 65000, 'индекс_стресса': 4.8},
    'Василеостровский': {'плотность': 14000, 'безработица': 6.5, 'медианный_доход': 72000, 'индекс_стресса': 7.0},
    'Красногвардейский': {'плотность': 6500, 'безработица': 8.6, 'медианный_доход': 53000, 'индекс_стресса': 8.0}
}

# Добавляем данные по районам
for feature in ['плотность', 'безработица', 'медианный_доход', 'индекс_стресса']:
    df[feature] = df['Район'].map(lambda x: socioeconomic_data.get(x, {}).get(feature, np.nan))

# 7. (Опционально) Получение погоды через API (пример для одного дня)
# Используем OpenWeatherMap (нужен API-ключ)
# Пример: для упрощения, добавим заглушку, но можно раскомментировать
"""
def get_weather_data(date, lat, lon):
    try:
        url = "http://api.openweathermap.org/data/2.5/weather"
        params = {
            'lat': lat,
            'lon': lon,
            'dt': int(pd.to_datetime(date).timestamp()),
            'appid': 'YOUR_API_KEY',
            'units': 'metric'
        }
        response = requests.get(url, params=params).json()
        return {
            'температура': response['main']['temp'],
            'осадки': response.get('rain', {}).get('1h', 0),
            'ветер': response['wind']['speed'],
            'облачность': response['clouds']['all']
        }
    except:
        return {'температура': np.nan, 'осадки': np.nan, 'ветер': np.nan, 'облачность': np.nan}
"""

# Заглушка для погоды (чтобы не зависеть от API)
df['температура'] = np.random.normal(12, 8, len(df))  # симуляция
df['осадки'] = np.random.choice([0, 1], len(df), p=[0.7, 0.3])
df['ветер'] = np.random.uniform(0, 10, len(df))
df['облачность'] = np.random.uniform(0, 100, len(df))

# 8. Отбор нужных признаков
features = [
    'Час', 'День_недели', 'Месяц', 'Время_суток', 'Год', 'День_года',
    'Район', 'Широта', 'Долгота',
    'История_стрельбы_90дн',
    'плотность', 'безработица', 'медианный_доход', 'индекс_стресса',
    'температура', 'осадки', 'ветер', 'облачность',
    'Стрельба'  # целевая переменная
]

# 9. Финальный датасет
final_df = df[features].copy()

# Замена категорий на числа
final_df['Время_суток'] = final_df['Время_суток'].cat.codes

# Удаление строк с NaN (если есть)
final_df = final_df.dropna()

# 10. Сохранение
final_df.to_csv(output_csv, index=False)
print(f"Датасет с признаками сохранён: {output_csv}")
print(f"Размер датасета: {final_df.shape}")
print("Пример данных:")
print(final_df.head())

Чтение Excel-файла...
Обработка времени...
Создание целевой переменной...
Расчёт исторической частоты стрельбы по районам...


TypeError: Cannot compare Timestamp with datetime.date. Use ts == pd.Timestamp(date) or ts.date() == date instead.