# Домашнее задание на проверку знаний библиотеки для анализа данных Pandas.

Вам представлен датасет, который содержит информацию по результатам сезона 2016 года игры в бейсбол.

Вам необходимо загрузить датасет (он находится в архиве с текущим домашним заданием). Провести его очистку, если это необходимо и ответить на поставленные аналитические
вопросы.

Список колонок, представленных в датасете:

---
* attendance        - количество зрителей матча
* away_team         - название гостевой команды
* away_team_errors  - количество ошибок гостевой команды
* away_team_hits    - количество хитов гостевой команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* away_team_runs    - количество ранов гостевой команды (ран в бейсболе - очко заработанное игроком нападения)
* date              - дата проведения матча
* field_type        - тип игрового поля
* game_type         - тип игры
* home_team         - название домашней команды
* home_team_errors  - количество ошибок домашней команды
* home_team_hits    - количество хитов домашней команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* home_team_runs    - количество ранов домашней команды (ран в бейсболе - очко заработанное игроком нападения)
* start_time        - время начала игрового матча
* venue             - название места проведения матча (стадион, поле, арена)
* day_of_week       - день недели проведения матча
* temperature       - температура воздуха в день проведения матча в фаренгейтах
* wind_speed        - скорость ветра в день проведения матча
* wind_direction    - направление скорости ветра
* sky               - облачность
* total_runs        - общее количество ранов для двух команд
* game_hours_dec    - длительность матча указаная в часах
* season            - тип игрового сезона
* home_team_win     - результат домашней команды (1 - выигрыш)
* home_team_loss    - результат домашней команды (0 - проигрыш)
* home_team_outcome - исход матча
---

Всего в задании 20 вопросов. За каждый правильный вопрос начисляется 5 баллов. Таким образом за все правильные ответы вы получите - 100 баллов. Оценка затем будет приведена к 10-ти бальной шкале.

---

**Кроме того, баллы могут быть снижены за**:

- 1 балл снижается за качество кода - старайтесь чтобы код был максимально лаконичным. Названия переменных (если они используются) должны отражать максимальную ее сущность. Вывод старайтесь делать минимальным, так как первичная цель - сделать качественный анализ, чтобы быстро ответить на поставленный вопрос (никаких таблиц на 100 строк).

In [1]:
# Импортируйimport pandas as pdте все необходимые библиотеки и модули которые вам необходимы
import pandas as pd

In [2]:
# Загрузите датасет и проведите его очистку и форматирование если это необходимо
data = pd.read_csv('baseball_games.csv')
regular_season_data = data[data['season'] == 'regular season']
regular_season_data['attendance'].fillna(regular_season_data['attendance'].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  regular_season_data['attendance'].fillna(regular_season_data['attendance'].median(), inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  regular_season_data['attendance'].fillna(regular_season_data['attendance'].median(), inplace=True)


Парни в телеге в чате написали, что лучше сразу отфильтровать те строки, которые относятня к регулярному сезону, и пропущенные заполняются медианой. inplace=True внутри какой-то функции, это значит, что изменения будут сразу же внесены в оригинальный DataFrame (таблицу), с помощью .fillna() можно заменить их на какое-то значение. Тут я в fillna передаю медиану.

# 1. На какую игру пришло максимальное количество зрителей за весь сезон игр?

Для ответа на этот вопрос мы ищем строку с максимальным значением в столбце `attendance`, так как это отражает количество зрителей на каждой игре. Используем метод `idxmax()`, чтобы найти индекс строки с наибольшим значением посещаемости, и затем выводим всю строку с деталями матча.

In [3]:
max_attendance_game = regular_season_data.loc[regular_season_data['attendance'].idxmax()]
display(max_attendance_game)

Unnamed: 0                            534
attendance                        53621.0
away_team            San Francisco Giants
away_team_errors                        1
away_team_hits                         11
away_team_runs                          2
date                           2016-09-20
field_type                       on grass
game_type                      Night Game
home_team             Los Angeles Dodgers
home_team_errors                        0
home_team_hits                          9
home_team_runs                          0
start_time                7:10 p.m. Local
venue                      Dodger Stadium
day_of_week                       Tuesday
temperature                          77.0
wind_speed                            6.0
wind_direction          out to Rightfield
sky                                Cloudy
total_runs                              2
game_hours_dec                        3.6
season                     regular season
home_team_win                     

Здесь ищем строку, где количество зрителей (attendance) максимальное. Используется метод idxmax(), который возвращает индекс максимального значения, чтобы отобразить именно эту игру.

# 2. Какая игра была самая холодная (temperature) за весь сезон?

In [4]:
coldest_game = regular_season_data.loc[regular_season_data['temperature'].idxmin()]
display(coldest_game)

Unnamed: 0                          2409
attendance                       32419.0
away_team               New York Yankees
away_team_errors                       1
away_team_hits                        13
away_team_runs                         8
date                          2016-04-09
field_type                      on grass
game_type                       Day Game
home_team                 Detroit Tigers
home_team_errors                       1
home_team_hits                         7
home_team_runs                         4
start_time               1:10 p.m. Local
venue                      Comerica Park
day_of_week                     Saturday
temperature                         31.0
wind_speed                          18.0
wind_direction        from Left to Right
sky                               Cloudy
total_runs                            12
game_hours_dec                  3.333333
season                    regular season
home_team_win                          0
home_team_loss  

Используется метод idxmin() для нахождения строки с самой низкой температурой (temperature). Это помогает найти самую холодную игру. .loc пишу что бы вывести всю строку.

# 3. Какая игра была самая теплая за весь сезон?

In [5]:
warmest_game = regular_season_data.loc[regular_season_data['temperature'].idxmax()]
display(warmest_game)

Unnamed: 0                            2026
attendance                         21753.0
away_team             San Francisco Giants
away_team_errors                         0
away_team_hits                           8
away_team_runs                           3
date                            2016-05-13
field_type                        on grass
game_type                       Night Game
home_team             Arizona Diamondbacks
home_team_errors                         0
home_team_hits                           8
home_team_runs                           1
start_time                 6:40 p.m. Local
venue                          Chase Field
day_of_week                         Friday
temperature                          101.0
wind_speed                             9.0
wind_direction        in unknown direction
sky                                  Sunny
total_runs                               4
game_hours_dec                         3.0
season                      regular season
home_team_w

Аналогично пункту выше, но с idxmax(), чтобы найти игру с самой высокой температурой.

# 4. Какая игра в сезоне была самая долгая по продолжительности матча?

In [6]:
longest_game = regular_season_data.loc[regular_season_data['game_hours_dec'].idxmax()]
display(longest_game)

Unnamed: 0                            1445
attendance                         45825.0
away_team                Cleveland Indians
away_team_errors                         0
away_team_hits                          15
away_team_runs                           2
date                            2016-07-01
field_type                         on turf
game_type                         Day Game
home_team                Toronto Blue Jays
home_team_errors                         2
home_team_hits                          11
home_team_runs                           1
start_time                 1:20 p.m. Local
venue                        Rogers Centre
day_of_week                         Friday
temperature                           68.0
wind_speed                             0.0
wind_direction        in unknown direction
sky                                In Dome
total_runs                               3
game_hours_dec                    6.216667
season                      regular season
home_team_w

Здесь ищется игра с самой большой продолжительностью (game_hours_dec) с помощю idxmax(), чтобы найти самую долгую игру сезона. 

# 5. Какая игра в сезоне была самая короткая по продолжительности матча?

In [7]:
shortest_game = regular_season_data.loc[regular_season_data['game_hours_dec'].idxmin()]
display(shortest_game)

Unnamed: 0                          423
attendance                      19991.0
away_team                  Chicago Cubs
away_team_errors                      1
away_team_hits                        4
away_team_runs                        1
date                         2016-09-29
field_type                     on grass
game_type                    Night Game
home_team            Pittsburgh Pirates
home_team_errors                      0
home_team_hits                        2
home_team_runs                        1
start_time              7:06 p.m. Local
venue                          PNC Park
day_of_week                    Thursday
temperature                        63.0
wind_speed                         12.0
wind_direction        in from Leftfield
sky                            Overcast
total_runs                            2
game_hours_dec                     1.25
season                   regular season
home_team_win                         0
home_team_loss                        0


Смотрим минимальный индекс по столбцу game_hours_dec, и через .loc выводим строку с самой короткой игрой по продолжительности.

# 6. Сколько матчей в сезоне закончилось ничьей?

Ну тут, в чате написали что не бывает ничиих, поэтому мы смотрим, где home_team_win и home_team_loss равны нулю, то есть ни одна команда не победила. 
Считаем такие строки с .shape[0], чтобы понять, сколько было таких матчей.

In [8]:
no_outcome_games = regular_season_data[(regular_season_data['home_team_win'] == 0) & (regular_season_data['home_team_loss'] == 0)].shape[0]
print(f"Матчей без побед и поражений: {no_outcome_games}")

Матчей без побед и поражений: 1


# 7. Какая игра была последней в сезоне?

In [9]:
last_game = regular_season_data.loc[regular_season_data['date'].idxmax()]
display(last_game)

Unnamed: 0                            349
attendance                        28730.0
away_team                   Miami Marlins
away_team_errors                        0
away_team_hits                         14
away_team_runs                          7
date                           2016-10-02
field_type                       on grass
game_type                        Day Game
home_team            Washington Nationals
home_team_errors                        0
home_team_hits                         10
home_team_runs                         10
start_time                3:06 p.m. Local
venue                      Nationals Park
day_of_week                        Sunday
temperature                          73.0
wind_speed                            2.0
wind_direction         from Left to Right
sky                              Overcast
total_runs                             17
game_hours_dec                        3.6
season                     regular season
home_team_win                     

По столбцу date берём максимальное значение с .idxmax() - это самая поздняя игра. С помощью .loc выводим всю строку с этой игрой.

# 8. У какой игры было минимальное количество зрителей?

In [10]:
min_attendance_game = regular_season_data.loc[regular_season_data['attendance'].idxmin()]
display(min_attendance_game)

Unnamed: 0                          2130
attendance                        8766.0
away_team                 Detroit Tigers
away_team_errors                       0
away_team_hits                         5
away_team_runs                         0
date                          2016-05-04
field_type                      on grass
game_type                     Night Game
home_team              Cleveland Indians
home_team_errors                       0
home_team_hits                         5
home_team_runs                         4
start_time               6:10 p.m. Local
venue                  Progressive Field
day_of_week                    Wednesday
temperature                         54.0
wind_speed                          11.0
wind_direction        from Left to Right
sky                             Overcast
total_runs                             4
game_hours_dec                  2.316667
season                    regular season
home_team_win                          1
home_team_loss  

Находим минимальное значение в столбце attendance через .idxmin(), и выводим всю строку этой игры.


# 9. Какая игра в сезоне была самая ветренная?

In [11]:
windiest_game = regular_season_data.loc[regular_season_data['wind_speed'].idxmax()]
display(windiest_game)

Unnamed: 0                           1655
attendance                        41543.0
away_team               Milwaukee Brewers
away_team_errors                        1
away_team_hits                         11
away_team_runs                          5
date                           2016-06-13
field_type                       on grass
game_type                      Night Game
home_team            San Francisco Giants
home_team_errors                        0
home_team_hits                         14
home_team_runs                         11
start_time                7:15 p.m. Local
venue                           AT&T Park
day_of_week                        Monday
temperature                          58.0
wind_speed                           25.0
wind_direction         out to Centerfield
sky                                Cloudy
total_runs                             16
game_hours_dec                   3.633333
season                     regular season
home_team_win                     

По столбцу wind_speed берём индекс максимального значения .idxmax(), и с помощью .loc выводим строку с самой ветренной игрой.

# 10. В какой игре получили максимальное количество очков?

In [12]:
highest_score_game = regular_season_data.loc[regular_season_data['total_runs'].idxmax()]
display(highest_score_game)

Unnamed: 0                         1788
attendance                      22588.0
away_team              Seattle Mariners
away_team_errors                      1
away_team_hits                       16
away_team_runs                       16
date                         2016-06-02
field_type                     on grass
game_type                    Night Game
home_team              San Diego Padres
home_team_errors                      1
home_team_hits                       20
home_team_runs                       13
start_time              6:10 p.m. Local
venue                        Petco Park
day_of_week                    Thursday
temperature                        76.0
wind_speed                         10.0
wind_direction        out to Rightfield
sky                               Sunny
total_runs                           29
game_hours_dec                 3.833333
season                   regular season
home_team_win                         0
home_team_loss                        1


Ищем максимальное значение в столбце total_runs с .idxmax() и выводим всю строку.

# 11. Какая игра содержала максимальное количество ошибок домашней команды?

In [13]:
most_errors_game = regular_season_data.loc[regular_season_data['home_team_errors'].idxmax()]
display(most_errors_game)

Unnamed: 0                           1178
attendance                        22581.0
away_team            Arizona Diamondbacks
away_team_errors                        1
away_team_hits                         11
away_team_runs                          8
date                           2016-07-27
field_type                       on grass
game_type                      Night Game
home_team               Milwaukee Brewers
home_team_errors                        5
home_team_hits                          5
home_team_runs                          1
start_time                7:10 p.m. Local
venue                         Miller Park
day_of_week                     Wednesday
temperature                          77.0
wind_speed                            9.0
wind_direction          in from Leftfield
sky                                Cloudy
total_runs                              9
game_hours_dec                   2.933333
season                     regular season
home_team_win                     

В home_team_errors находим максимальное значение через .idxmax(), и выводим строку(.loc), чтобы увидеть, когда у домашней команды было больше всего ошибок.

# 12. В какой игре было максимальное количество хитов?

In [14]:
most_hits_game = regular_season_data.loc[regular_season_data['home_team_hits'].idxmax()]
display(most_hits_game)

Unnamed: 0                        1423
attendance                     36137.0
away_team                 Chicago Cubs
away_team_errors                     0
away_team_hits                      11
away_team_runs                       3
date                        2016-07-03
field_type                    on grass
game_type                     Day Game
home_team                New York Mets
home_team_errors                     1
home_team_hits                      22
home_team_runs                      14
start_time             1:12 p.m. Local
venue                       Citi Field
day_of_week                     Sunday
temperature                       80.0
wind_speed                         3.0
wind_direction        out to Leftfield
sky                             Cloudy
total_runs                          17
game_hours_dec                3.283333
season                  regular season
home_team_win                        1
home_team_loss                       0
home_team_outcome        

По столбцу home_team_hits ищем максимальное значение через .idxmax(), и выводим всю строку этой игры

# 13. Выведите количество игр которая сыграла каждая команда в данном сезоне?

In [15]:
team_games_count = regular_season_data['home_team'].value_counts() + regular_season_data['away_team'].value_counts()
team_games_count.fillna(0, inplace=True)  # вдруг были команды с неравным количеством домашних и выездных игр
display(team_games_count)

Arizona Diamondbacks             162
Atlanta Braves                   161
Baltimore Orioles                162
Boston Red Sox                   162
Chicago Cubs                     162
Chicago White Sox                162
Cincinnati Reds                  162
Cleveland Indians                161
Colorado Rockies                 162
Detroit Tigers                   161
Houston Astros                   162
Kansas City Royals               162
Los Angeles Angels of Anaheim    162
Los Angeles Dodgers              162
Miami Marlins                    161
Milwaukee Brewers                162
Minnesota Twins                  162
New York Mets                    162
New York Yankees                 162
Oakland Athletics                162
Philadelphia Phillies            162
Pittsburgh Pirates               162
San Diego Padres                 162
San Francisco Giants             162
Seattle Mariners                 162
St. Louis Cardinals              162
Tampa Bay Rays                   162
T

Считаем, сколько игр сыграла каждая команда — домашние (home_team) и выездные (away_team) игры. Складываем их

# 14. Какая команда выиграла наибольшое количество матчей в сезоне? (Будьте внимательны с типом матча в сезоне - season).

In [16]:
team_wins = regular_season_data[regular_season_data['home_team_win'] == 1]['home_team'].value_counts() + \
            regular_season_data[regular_season_data['home_team_win'] == 0]['away_team'].value_counts()
display(team_wins.idxmax())

'Chicago Cubs'

Этот код считает победы каждой команды дома и на выезде: .value_counts() считает, сколько раз каждая команда победила дома и в гостях, складывая результаты. .idxmax() выводит команду с наибольшим количеством побед.

# 15. Какая команда выиграла наибольшее количество домашних матчей в сезоне?

In [17]:
home_wins = regular_season_data[regular_season_data['home_team_win'] == 1]['home_team'].value_counts()
display(home_wins.idxmax())

'Chicago Cubs'

Считаем только домашние победы команд по столбцу home_team_win

# 16. Какая команда выиграла наибольшее количество гостевых матчей в сезоне?

In [18]:
away_wins = regular_season_data[regular_season_data['home_team_win'] == 0]['away_team'].value_counts()
display(away_wins.idxmax())

'St. Louis Cardinals'

Считаем победы команд на выезде по home_team_win == 0, и находим команду с наибольшим числом побед на выезде.

# 17. Какая команда проиграла наибольшее количество матчей в сезоне?

In [19]:
team_losses = regular_season_data[regular_season_data['home_team_loss'] == 1]['home_team'].value_counts() + \
              regular_season_data[regular_season_data['home_team_loss'] == 0]['away_team'].value_counts()
display(team_losses.idxmax())

'Minnesota Twins'

Подсчитываем проигрыши команд, суммируя домашние и выездные проигрыши, чтобы понять, у кого больше всего поражений за сезон. 
Логита таже что и в вопросе выше.

# 18. Зависит ли выигрыш от количества посетителей матча? (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cov.html)

In [20]:
attendance_win_corr = regular_season_data['attendance'].corr(regular_season_data['home_team_win'])
print(f"Кореляция между посещаемостью и победой домашней команды: {attendance_win_corr}")

Кореляция между посещаемостью и победой домашней команды: 0.04970265570404589


Рассчитываем корреляцию между attendance и home_team_win. Это показывает, есть ли зависимость между числом зрителей и победами домашней команды.

# 19. Правда ли что большинство проигрышных домашних матчей приходятся на Субботу и Воскресенье?

In [21]:
weekend_losses = regular_season_data[(regular_season_data['home_team_outcome'] == 'Loss') &
                                     (regular_season_data['day_of_week'].isin(['Saturday', 'Sunday']))].shape[0]
total_losses = regular_season_data[regular_season_data['home_team_outcome'] == 'Loss'].shape[0]
weekend_loss_ratio = weekend_losses / total_losses
print(f"Доля проигрышных матчей на выходных: {weekend_loss_ratio:.2f}")

Доля проигрышных матчей на выходных: 0.32


Мы фильтруем данные по домашним поражениям (home_team_outcome == 'Loss'),  и матч прошёл в субботу или воскресенье .shape[0] подсчитывает такие строки.
Затем делим их на общее число проигрышей, чтобы получить долю проигрышей на выходных.

# 20. Правда ли что наибольшее количество ранов происходит в холодную погоду? (Холодной погодой считается погода ниже 0 градусов)

In [22]:
cold_weather_runs = regular_season_data[regular_season_data['temperature'] < 32]['total_runs'].sum()
warm_weather_runs = regular_season_data[regular_season_data['temperature'] >= 32]['total_runs'].sum()
print(f"Раны в холодную погоду: {cold_weather_runs}, раны в теплую погоду: {warm_weather_runs}")

Раны в холодную погоду: 12, раны в теплую погоду: 21732


Мы разделяем данные по температуре на холодную (меньше 32 градусов) и тёплую (32 градуса и выше), затем суммируем количество очков (total_runs) для каждой группы. Это помогает понять, в какой погоде набиралось больше очков. Я не переводил в градусы цельсия, проще просто посмотреть 0 град цельсия 
это сколько фарингейтов.