<a href="https://colab.research.google.com/github/Xuxa17/Haskell/blob/main/Untitled1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [20]:
import pandas as pd
import numpy as np

def clean_field(s):
    """Очистка как в C++: удаляем пробелы и кавычки с краёв."""
    if pd.isna(s):
        return None
    s = str(s)
    # Удаляем пробелы и кавычки с начала и конца
    start = 0
    end = len(s) - 1
    while start <= end and (s[start].isspace() or s[start] in "\"'"):
        start += 1
    while end > start and (s[end].isspace() or s[end] in "\"'"):
        end -= 1
    if start > end:
        return None
    return s[start:end + 1]

def parse_float(s):
    """Парсинг float как std::stod — строгий, без запятых."""
    if s is None:
        return None
    try:
        return float(s)
    except (ValueError, TypeError):
        return None

def parse_int(s):
    """Парсинг int как std::stoi — строгий."""
    if s is None:
        return None
    try:
        return int(s)
    except (ValueError, TypeError):
        return None

# === 1. Загрузка и предварительная очистка ===
filename = '/content/tripadvisor_european_restaurants.csv'
df = pd.read_csv(filename, engine='python')

print(f"1. Загружено строк: {len(df):,}")

# === 2. Валидация и фильтрация как в C++ ===
valid_rows = []
for idx, row in df.iterrows():
    # Очистка строковых полей
    name = clean_field(row.get('restaurant_name', None))
    lang = clean_field(row.get('default_language', None))

    if not name or not lang:
        continue

    # Парсинг числовых полей
    open_hours = parse_float(row.get('open_hours_per_week', None))
    open_days = parse_int(row.get('open_days_per_week', None))
    reviews = parse_int(row.get('total_reviews_count', None))
    rating = parse_float(row.get('avg_rating', None))
    lat = parse_float(row.get('latitude', None))
    lon = parse_float(row.get('longitude', None))

    # Проверка на валидность и неотрицательность
    if (open_hours is None or open_days is None or reviews is None or
        rating is None or lat is None or lon is None):
        continue
    if open_days < 0 or reviews < 0:
        continue

    # Все поля валидны — добавляем
    valid_rows.append({
        'restaurant_name': name,
        'open_hours_per_week': open_hours,
        'default_language': lang,
        'open_days_per_week': open_days,
        'total_reviews_count': reviews,
        'avg_rating': rating,
        'latitude': lat,
        'longitude': lon
    })

df_valid = pd.DataFrame(valid_rows)
print(f"2. Валидных строк (как в C++): {len(df_valid):,}")

# === 3. Первичная фильтрация: open_hours_per_week <= 120 ===
df_filtered = df_valid[df_valid['open_hours_per_week'] <= 120].copy()
print(f"3. После фильтрации часов: {len(df_filtered):,} строк")

# === 4. Группировка и выбор топ-5 групп ===
sum_reviews = df_filtered.groupby(['default_language', 'open_days_per_week'])['total_reviews_count'].sum().reset_index()
sum_reviews_sorted = sum_reviews.sort_values(
    ['total_reviews_count', 'default_language', 'open_days_per_week'],
    ascending=[False, True, True]
).reset_index(drop=True)

top_5 = sum_reviews_sorted.head(5)[['default_language', 'open_days_per_week']]
top_5_set = set(zip(top_5['default_language'], top_5['open_days_per_week']))

print(f"\n4. Топ-5 групп:")
for i, (_, row) in enumerate(top_5.iterrows(), 1):
    print(f"  {i}. Язык: '{row['default_language']}', Дней: {row['open_days_per_week']}")

# === 5. Формирование U с сохранением порядка из df_filtered ===
mask = df_filtered.apply(
    lambda r: (r['default_language'], r['open_days_per_week']) in top_5_set,
    axis=1
)
U = df_filtered[mask].copy()
print(f"5. В топ-5 группах (U): {len(U):,} записей")

# === 6. Финальная фильтрация: avg_rating >= 4.0 ===
F = U[U['avg_rating'] >= 4.0].copy()
print(f"6. С рейтингом ≥4.0 (F): {len(F):,} записей")

# === 7. Ограничение до 50 записей (без сортировки!) ===
if len(F) > 50:
    F = F.head(50)
    print("   >50 → взяты первые 50")
else:
    print(f"   ≤50 → оставлены все {len(F)}")

# === 8. Расчёт расстояния ===
LAT0, LON0 = 45.0, 0.0
F['distance'] = np.sqrt((F['latitude'] - LAT0)**2 + (F['longitude'] - LON0)**2)

# === 9. Сортировка по расстоянию ===
R = F.sort_values('distance').reset_index(drop=True)
print(f"9. После сортировки по расстоянию: {len(R)} записей")

# === 10. Вывод результата ===
print("\n" + "="*60)
print("ТОП-50 ПО РАССТОЯНИЮ (PYTHON):")
print("="*60)
for i, (_, row) in enumerate(R.iterrows(), 1):
    print(f"{i:2d}. '{row['restaurant_name'][:35]:35}...' "
          f"расстояние: {row['distance']:.6f}, "
          f"рейтинг: {row['avg_rating']:.1f}, "
          f"язык: '{row['default_language']}', "
          f"дней: {row['open_days_per_week']}")

1. Загружено строк: 1,083,397
2. Валидных строк (как в C++): 561,918
3. После фильтрации часов: 543,472 строк

4. Топ-5 групп:
  1. Язык: 'English', Дней: 7
  2. Язык: 'English', Дней: 6
  3. Язык: 'English', Дней: 5
  4. Язык: 'All languages', Дней: 6
  5. Язык: 'English', Дней: 4
5. В топ-5 группах (U): 466,665 записей
6. С рейтингом ≥4.0 (F): 363,340 записей
   >50 → взяты первые 50
9. После сортировки по расстоянию: 50 записей

ТОП-50 ПО РАССТОЯНИЮ (PYTHON):
 1. 'Noste Courtiu                      ...' расстояние: 2.268369, рейтинг: 5.0, язык: 'English', дней: 5
 2. 'L'entre 2                          ...' расстояние: 2.759939, рейтинг: 4.5, язык: 'English', дней: 6
 3. 'La Fleur de Lys                    ...' расстояние: 2.811330, рейтинг: 4.0, язык: 'English', дней: 6
 4. 'L'Ermitage                         ...' расстояние: 3.856529, рейтинг: 4.5, язык: 'English', дней: 6
 5. 'Chez Cloclo                        ...' расстояние: 4.077599, рейтинг: 4.0, язык: 'English', дней: 6
 6.