## Импорт библиотек

In [10]:
import pandas as pd
import numpy as np
import os
from pathlib import Path

## Загрузка CSV файла

In [40]:
# Определить путь к файлу
csv_file = "output.csv"

# Инициализация переменной (для типизации)
df = None

# Проверить существование файла
if os.path.exists(csv_file):
    print(f"✓ Файл найден: {os.path.abspath(csv_file)}")
    
    # Загружаем с пропуском первой строки, вторая строка становится заголовками
    df = pd.read_csv(csv_file, skiprows=1, header=0)
    
    # Дополнительная проверка и очистка заголовков от "Unnamed"
    df.columns = df.columns.str.strip()  # Убираем пробелы
    
    print(f"✓ Данные загружены успешно!")
    print(f"✓ Вторая строка CSV используется как заголовки столбцов")
    print(f"\nЗаголовки столбцов:")
    print(list(df.columns))
else:
    print(f"✗ Файл не найден: {csv_file}")
    print(f"Текущая директория: {os.getcwd()}")

✓ Файл найден: c:\Users\baske\vlad_scripts\web_scraper\output.csv
✓ Данные загружены успешно!
✓ Вторая строка CSV используется как заголовки столбцов

Заголовки столбцов:
['#', 'А', 'Клуб', 'Имя', '$', 'П-ть', 'П-ть-Δ', 'КЭ', 'КЭ-Δ', 'КЭ%', 'H2h', 'H2h-Δ', 'Кап', 'Кап-Δ', 'Pts', 'G', 'Avg', 'F', 'aF', 'F_1', 'ToF', 'Последние игры']


## Информация о данных

In [34]:
print(f"Размер таблицы: {df.shape[0]} строк × {df.shape[1]} столбцов")
print(f"\nОбщая информация:")
df.info()

Размер таблицы: 100 строк × 23 столбцов

Общая информация:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 23 columns):
#                   100 non-null int64
А                   100 non-null object
Клуб                100 non-null object
Имя                 100 non-null object
$                   100 non-null float64
П-ть                100 non-null float64
П-ть-Δ              81 non-null float64
КЭ                  100 non-null float64
КЭ-Δ                55 non-null float64
КЭ%                 33 non-null float64
H2h                 100 non-null float64
H2h-Δ               86 non-null float64
Кап                 100 non-null float64
Кап-Δ               14 non-null float64
Pts                 100 non-null int64
G                   100 non-null int64
Avg                 100 non-null float64
F                   100 non-null float64
aF                  100 non-null float64
F_1                 100 non-null int64
ToF                 100 non-null 

## Первые строки

In [None]:
df.head(5) # type: ignore

Unnamed: 0,#,А,Клуб,Имя,$,П-ть,П-ть-Δ,КЭ,КЭ-Δ,КЭ%,...,Кап-Δ,Pts,G,Avg,F,aF,F_1,ToF,Последние игры,casual2lead_diff
0,1,Пз,Комо,Нико Пас,8.0,70.6,-1.5,95.1,-1.4,-1.5,...,-17.7,144,22,6.5,5.4,5.4,0,84.4,+4 +3 +4 +12 +4,24.5
1,2,Зщ,Интер,Димарко,6.0,51.8,9.7,93.7,73.9,78.9,...,7.9,140,20,7.0,11.3,9.0,0,81.0,+15 +9 - +7 +14,41.9
2,3,Пз,Наполи,Мактоминей,11.0,38.1,4.3,81.0,16.9,20.9,...,3.8,130,22,5.9,7.0,7.0,3,90.0,+9 +15 +6 +5 +4 +3,42.9
3,4,Пз,Ювентус,Йылдыз,8.5,62.8,6.5,93.0,47.2,50.8,...,10.9,126,21,6.0,5.0,5.0,0,81.0,+4 +6 +3 +7,30.2
4,5,Пз,Рома,Соуле,8.0,31.2,4.1,30.3,26.1,86.0,...,0.1,118,22,5.4,5.0,5.0,0,55.5,+2 +13 +2 +3,-0.9


In [42]:
df['casual2lead_diff']  = df['КЭ'] - df['П-ть']
df.sort_values(by='casual2lead_diff', ascending=False).head(10)

Unnamed: 0,#,А,Клуб,Имя,$,П-ть,П-ть-Δ,КЭ,КЭ-Δ,КЭ%,...,Кап-Δ,Pts,G,Avg,F,aF,F_1,ToF,Последние игры,casual2lead_diff
72,73,Вр,Кремонезе,Аудеро,4.0,37.4,-0.1,81.0,-4.9,-5.7,...,,80,18,4.4,5.0,5.0,0,90.0,+2 +7 +7 +4,43.6
2,3,Пз,Наполи,Мактоминей,11.0,38.1,4.3,81.0,16.9,20.9,...,3.8,130,22,5.9,7.0,7.0,3,90.0,+9 +15 +6 +5 +4 +3,42.9
1,2,Зщ,Интер,Димарко,6.0,51.8,9.7,93.7,73.9,78.9,...,7.9,140,20,7.0,11.3,9.0,0,81.0,+15 +9 - +7 +14,41.9
25,26,Пз,Милан,Рабьо,6.5,13.9,0.5,48.6,-2.8,-5.5,...,,96,15,6.4,6.4,6.4,0,78.0,+4 0 +18 +6 +4,34.7
3,4,Пз,Ювентус,Йылдыз,8.5,62.8,6.5,93.0,47.2,50.8,...,10.9,126,21,6.0,5.0,5.0,0,81.0,+4 +6 +3 +7,30.2
6,7,Нп,Интер,Мартинес,10.5,68.4,0.5,98.6,,,...,-2.5,115,22,5.2,4.2,4.2,0,71.6,+2 +3 +4 +6 +6,30.2
16,17,Зщ,Наполи,Ди Лоренцо,6.0,33.4,0.6,62.7,3.5,5.6,...,,105,23,4.6,4.3,4.3,1,80.0,+7 +2 +9 +6 +1 +1,29.3
19,20,Вр,Комо,Бюте,5.0,21.0,-1.0,49.3,-13.4,-21.3,...,,102,22,4.6,5.6,5.6,0,90.0,+12 +2 +1 +7 +6,28.3
0,1,Пз,Комо,Нико Пас,8.0,70.6,-1.5,95.1,-1.4,-1.5,...,-17.7,144,22,6.5,5.4,5.4,0,84.4,+4 +3 +4 +12 +4,24.5
24,25,Зщ,Ювентус,Камбьязо,6.0,8.7,0.5,30.3,3.5,11.6,...,,96,20,4.8,6.0,6.0,0,71.8,+7 +7 +3 +7,21.6


## Столбцы таблицы

In [19]:
print("Список столбцов:")
for i, col in enumerate(df.columns, 1):
    print(f"{i}. {col} ({df[col].dtype})")

Список столбцов:
1. # (int64)
2. А (object)
3. Клуб (object)
4. Имя (object)
5. $ (float64)
6. П-ть (float64)
7. П-ть-Δ (float64)
8. КЭ (float64)
9. КЭ-Δ (float64)
10. КЭ% (float64)
11. H2h (float64)
12. H2h-Δ (float64)
13. Кап (float64)
14. Кап-Δ (float64)
15. Pts (int64)
16. G (int64)
17. Avg (float64)
18. F (float64)
19. aF (float64)
20. F_1 (int64)
21. ToF (float64)
22. Последние игры (object)


## Дополнительный анализ

Добавьте сюда свой анализ данных

In [41]:
# Пример: Найти дублирующиеся строки
duplicates = df.duplicated().sum()
print(f"Дублирующихся строк: {duplicates}")

# Пример: Уникальные значения по столбцам
print(f"\nУникальные значения:")
for col in df.columns:
    unique_count = df[col].nunique()
    print(f"{col}: {unique_count}")

Дублирующихся строк: 0

Уникальные значения:
#: 100
А: 4
Клуб: 20
Имя: 100
$: 14
П-ть: 75
П-ть-Δ: 43
КЭ: 31
КЭ-Δ: 30
КЭ%: 32
H2h: 62
H2h-Δ: 56
Кап: 12
Кап-Δ: 11
Pts: 41
G: 11
Avg: 30
F: 40
aF: 38
F_1: 11
ToF: 63
Последние игры: 100


## Экспорт результатов

In [None]:
# Сохранить обработанные данные (если нужны)
# df.to_csv("output_processed.csv", index=False)
# df.to_excel("output_processed.xlsx", index=False)

print("✓ Анализ завершен!")