# Домашнее задание на проверку знаний библиотеки для анализа данных Pandas.

Вам представлен датасет, который содержит информацию по результатам сезона 2016 года игры в бейсбол.

Вам необходимо загрузить датасет (он находится в архиве с текущим домашним заданием). Провести его очистку, если это необходимо и ответить на поставленные аналитические
вопросы.

Список колонок, представленных в датасете:

---
* attendance        - количество зрителей матча
* away_team         - название гостевой команды
* away_team_errors  - количество ошибок гостевой команды
* away_team_hits    - количество хитов гостевой команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* away_team_runs    - количество ранов гостевой команды (ран в бейсболе - очко заработанное игроком нападения)
* date              - дата проведения матча
* field_type        - тип игрового поля
* game_type         - тип игры
* home_team         - название домашней команды
* home_team_errors  - количество ошибок домашней команды
* home_team_hits    - количество хитов домашней команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* home_team_runs    - количество ранов домашней команды (ран в бейсболе - очко заработанное игроком нападения)
* start_time        - время начала игрового матча
* venue             - название места проведения матча (стадион, поле, арена)
* day_of_week       - день недели проведения матча
* temperature       - температура воздуха в день проведения матча в фаренгейтах
* wind_speed        - скорость ветра в день проведения матча
* wind_direction    - направление скорости ветра
* sky               - облачность
* total_runs        - общее количество ранов для двух команд
* game_hours_dec    - длительность матча указаная в часах
* season            - тип игрового сезона
* home_team_win     - результат домашней команды (1 - выигрыш)
* home_team_loss    - результат домашней команды (0 - проигрыш)
* home_team_outcome - исход матча
---

Всего в задании 20 вопросов. За каждый правильный вопрос начисляется 5 баллов. Таким образом за все правильные ответы вы получите - 100 баллов. Оценка затем будет приведена к 10-ти бальной шкале.

---

**Баллы могут быть снижены** за качество кода - старайтесь чтобы код был максимально лаконичным. Названия переменных (если они используются) должны отражать максимальную ее сущность. Вывод старайтесь делать минимальным, так как первичная цель - сделать качественный анализ, чтобы быстро ответить на поставленный вопрос (никаких таблиц на 100 строк).

**Требования по сдаче практического задания**:
1. Ответ на вопрос и текстовый markdown с вашей логикой, почему вы выполнили это действие.
2. Залить в репу на github в папку module_1
3. Ссылку на репо отправлять мне на почту alexadevv@gmail.com не позднее дедлайна. 
4. Тема письма: Домашнее задание по модулю 1 <Фамилия Имя>
5. После дедлайна, неотправленные на почту задания, оцениваются максимум в 7 баллов.

In [1]:
# Импортируйте все необходимые библиотеки и модули которые вам необходимы
import pandas as pd
import numpy as np

In [3]:
# Загрузите датасет и проведите его очистку и форматирование если это необходимо
data = pd.read_csv('baseball_games.csv')
# Проведем базовую очистку, дату в datetime 
data['date'] = pd.to_datetime(data['date'])

# Убедимся, что числовые столбцы имеют правильный тип данных
numeric_columns = ['attendance', 'away_team_errors', 'away_team_hits', 'away_team_runs',
                   'home_team_errors', 'home_team_hits', 'home_team_runs', 'temperature',
                   'wind_speed', 'total_runs', 'game_hours_dec']
for col in numeric_columns:
    data[col] = pd.to_numeric(data[col], errors='coerce')

# Удалим строки с NaN в ключевых столбцах (если необходимо)
# В данном случае, удалим строки, где нет данных по основным показателям
data.dropna(subset=['attendance', 'date', 'home_team_win'], inplace=True)

# 1. На какую игру пришло максимальное количество зрителей за весь сезон игр?

In [4]:
max_attendance_game = data.loc[data['attendance'].idxmax()]
print(f"1. Максимальное количество зрителей: {max_attendance_game['attendance']} на игре {max_attendance_game['home_team']} vs {max_attendance_game['away_team']} {max_attendance_game['date']}")

1. Максимальное количество зрителей: 54449.0 на игре Los Angeles Dodgers vs Chicago Cubs 2016-10-20 00:00:00


# 2. Какая игра была самая холодная (temperature) за весь сезон?

In [None]:
coldest_game = df.loc[df['temperature'].idxmin()]
print(f"2. Самая холодная игра: {coldest_game['temperature']}°F, {coldest_game['home_team']} vs {coldest_game['away_team']} {coldest_game['date']}")

# 3. Какая игра была самая теплая за весь сезон?

In [None]:
hottest_game = df.loc[df['temperature'].idxmax()]
print(f"3. Самая теплая игра: {hottest_game['temperature']}°F, {hottest_game['home_team']} vs {hottest_game['away_team']} {hottest_game['date']}")

# 4. Какая игра в сезоне была самая долгая по продолжительности матча?

In [None]:
longest_game = df.loc[df['game_hours_dec'].idxmax()]
print(f"4. Самая долгая игра: {longest_game['game_hours_dec']} часов, {longest_game['home_team']} vs {longest_game['away_team']} {longest_game['date']}")

# 5. Какая игра в сезоне была самая короткая по продолжительности матча?

In [None]:
shortest_game = df.loc[df['game_hours_dec'].idxmin()]
print(f"5. Самая короткая игра: {shortest_game['game_hours_dec']} часов, {shortest_game['home_team']} vs {shortest_game['away_team']} {shortest_game['date']}")

# 6. Сколько матчей в сезоне закончилось ничьей?

In [None]:
ties = df[df['home_team_outcome'] == 'Tie'].shape[0]
print(f"6. Количество матчей, закончившихся ничьей: {ties}")

# 7. Какая игра была последней в сезоне?

In [None]:
last_game = df.loc[df['date'].idxmax()]
print(f"7. Последняя игра сезона: {last_game['home_team']} vs {last_game['away_team']} {last_game['date']}")

# 8. У какой игры было минимальное количество зрителей?

In [None]:
min_attendance_game = df.loc[df['attendance'].idxmin()]
print(f"8. Минимальное количество зрителей: {min_attendance_game['attendance']} на игре {min_attendance_game['home_team']} vs {min_attendance_game['away_team']} {min_attendance_game['date']}")

# 9. Какая игра в сезоне была самая ветренная?

In [None]:
windiest_game = df.loc[df['wind_speed'].idxmax()]
print(f"9. Самая ветренная игра: {windiest_game['wind_speed']} mph, {windiest_game['home_team']} vs {windiest_game['away_team']} {windiest_game['date']}")

# 10. В какой игре получили максимальное количество очков?

In [None]:
max_runs_game = df.loc[df['total_runs'].idxmax()]
print(f"10. Максимальное количество очков: {max_runs_game['total_runs']}, {max_runs_game['home_team']} vs {max_runs_game['away_team']} {max_runs_game['date']}")

# 11. Какая игра содержала максимальное количество ошибок домашней команды?

In [None]:
max_home_errors_game = df.loc[df['home_team_errors'].idxmax()]
print(f"11. Максимальное количество ошибок домашней команды: {max_home_errors_game['home_team_errors']}, {max_home_errors_game['home_team']} vs {max_home_errors_game['away_team']} {max_home_errors_game['date']}")

# 12. В какой игре было максимальное количество хитов?

In [None]:
# Суммируем хиты обеих команд
df['total_hits'] = df['home_team_hits'] + df['away_team_hits']
max_hits_game = df.loc[df['total_hits'].idxmax()]
print(f"12. Максимальное количество хитов: {max_hits_game['total_hits']}, {max_hits_game['home_team']} vs {max_hits_game['away_team']} {max_hits_game['date']}")

# 13. Выведите количество игр которая сыграла каждая команда в данном сезоне?

In [None]:
# Объединяем домашние и гостевые команды
all_teams = pd.concat([df['home_team'], df['away_team']], ignore_index=True)
games_per_team = all_teams.value_counts()
print("13. Количество игр каждой команды:")
print(games_per_team.head())  # Выводим только топ-5 для краткости

# 14. Какая команда выиграла наибольшое количество матчей в сезоне? (Будьте внимательны с типом матча в сезоне - season).

In [None]:
# Фильтруем только регулярный сезон
regular_season = df[df['season'] == 'regular season']
# Считаем победы домашних команд
home_wins = regular_season[regular_season['home_team_win'] == 1]['home_team'].value_counts()
# Считаем победы гостевых команд
away_wins = regular_season[regular_season['home_team_win'] == 0]['away_team'].value_counts()
# Объединяем победы
total_wins = home_wins.add(away_wins, fill_value=0).astype(int)
top_winning_team = total_wins.idxmax()
print(f"14. Команда с наибольшим количеством побед в регулярном сезоне: {top_winning_team} ({total_wins[top_winning_team]} побед)")

# 15. Какая команда выиграла наибольшее количество домашних матчей в сезоне?

In [None]:
home_wins_count = regular_season[regular_season['home_team_win'] == 1]['home_team'].value_counts()
top_home_winning_team = home_wins_count.idxmax()
print(f"15. Команда с наибольшим количеством домашних побед: {top_home_winning_team} ({home_wins_count[top_home_winning_team]} побед)")

# 16. Какая команда выиграла наибольшее количество гостевых матчей в сезоне?

In [None]:
away_wins_count = regular_season[regular_season['home_team_win'] == 0]['away_team'].value_counts()
top_away_winning_team = away_wins_count.idxmax()
print(f"16. Команда с наибольшим количеством гостевых побед: {top_away_winning_team} ({away_wins_count[top_away_winning_team]} побед)")

# 17. Какая команда проиграла наибольшее количество матчей в сезоне?

In [None]:
# Проигрыши домашних команд
home_losses = regular_season[regular_season['home_team_win'] == 0]['home_team'].value_counts()
# Проигрыши гостевых команд
away_losses = regular_season[regular_season['home_team_win'] == 1]['away_team'].value_counts()
# Объединяем проигрыши
total_losses = home_losses.add(away_losses, fill_value=0).astype(int)
top_losing_team = total_losses.idxmax()
print(f"17. Команда с наибольшим количеством проигрышей: {top_losing_team} ({total_losses[top_losing_team]} проигрышей)")

# 18. Зависит ли выигрыш от количества посетителей матча? (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cov.html)

In [None]:
# Рассчитываем ковариацию между attendance и home_team_win
covariance = df[['attendance', 'home_team_win']].cov().iloc[0, 1]
print(f"18. Ковариация между количеством зрителей и победой домашней команды: {covariance}")
print("   Интерпретация: Положительная ковариация указывает на то, что с увеличением количества зрителей вероятность победы домашней команды может увеличиваться, но это не означает причинно-следственную связь.")

# 19. Правда ли что большинство проигрышных домашних матчей приходятся на Субботу и Воскресенье?

In [None]:
# Фильтруем проигрыши домашних команд
home_losses_days = df[(df['home_team_win'] == 0)]['day_of_week'].value_counts()
# Считаем долю суббот и воскресений
sat_sun_losses = home_losses_days.get('Saturday', 0) + home_losses_days.get('Sunday', 0)
total_home_losses = home_losses_days.sum()
sat_sun_percentage = (sat_sun_losses / total_home_losses) * 100 if total_home_losses > 0 else 0
print(f"19. Процент проигрышей домашних команд в субботу и воскресенье: {sat_sun_percentage:.2f}%")
print("   Интерпретация: Если процент выше 28.57% (2/7 дней недели), то можно сказать, что большинство проигрышей приходится на выходные.")

# 20. Правда ли что наибольшее количество ранов происходит в холодную погоду? (Холодной погодой считается погода ниже 0 градусов)

In [None]:
# Фильтруем игры с температурой ниже 0°F
cold_weather_games = df[df['temperature'] < 0]
# Сравниваем среднее количество ранов в холодную погоду и в целом
avg_runs_cold = cold_weather_games['total_runs'].mean() if not cold_weather_games.empty else 0
avg_runs_all = df['total_runs'].mean()
print(f"20. Среднее количество ранов в холодную погоду (<0°F): {avg_runs_cold:.2f}")
print(f"   Среднее количество ранов во всех играх: {avg_runs_all:.2f}")
print("   Интерпретация: Если среднее количество ранов в холодную погоду больше, чем в целом, то утверждение верно. В противном случае - неверно.")