# Домашнее задание на проверку знаний библиотеки для анализа данных Pandas.

Вам представлен датасет, который содержит информацию по результатам сезона 2016 года игры в бейсбол.

Вам необходимо загрузить датасет (он находится в архиве с текущим домашним заданием). Провести его очистку, если это необходимо и ответить на поставленные аналитические
вопросы.

Список колонок, представленных в датасете:

---
* attendance        - количество зрителей матча
* away_team         - название гостевой команды
* away_team_errors  - количество ошибок гостевой команды
* away_team_hits    - количество хитов гостевой команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* away_team_runs    - количество ранов гостевой команды (ран в бейсболе - очко заработанное игроком нападения)
* date              - дата проведения матча
* field_type        - тип игрового поля
* game_type         - тип игры
* home_team         - название домашней команды
* home_team_errors  - количество ошибок домашней команды
* home_team_hits    - количество хитов домашней команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* home_team_runs    - количество ранов домашней команды (ран в бейсболе - очко заработанное игроком нападения)
* start_time        - время начала игрового матча
* venue             - название места проведения матча (стадион, поле, арена)
* day_of_week       - день недели проведения матча
* temperature       - температура воздуха в день проведения матча в фаренгейтах
* wind_speed        - скорость ветра в день проведения матча
* wind_direction    - направление скорости ветра
* sky               - облачность
* total_runs        - общее количество ранов для двух команд
* game_hours_dec    - длительность матча указаная в часах
* season            - тип игрового сезона
* home_team_win     - результат домашней команды (1 - выигрыш)
* home_team_loss    - результат домашней команды (0 - проигрыш)
* home_team_outcome - исход матча
---

Всего в задании 20 вопросов. За каждый правильный вопрос начисляется 5 баллов. Таким образом за все правильные ответы вы получите - 100 баллов. Оценка затем будет приведена к 10-ти бальной шкале.

---

**Кроме того, баллы могут быть снижены за**:

- 1 балл снижается за качество кода - старайтесь чтобы код был максимально лаконичным. Названия переменных (если они используются) должны отражать максимальную ее сущность. Вывод старайтесь делать минимальным, так как первичная цель - сделать качественный анализ, чтобы быстро ответить на поставленный вопрос (никаких таблиц на 100 строк).

In [2200]:
# Импортируйте все необходимые библиотеки и модули которые вам необходимы
import pandas as pd
import numpy as np

In [2201]:
# Загрузите датасет и проведите его очистку и форматирование если это необходимо
df = pd.read_csv("baseball_games.csv")
df.head(5)

Unnamed: 0.1,Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
0,0,40030.0,New York Mets,1,7,3,2016-04-03,on grass,Night Game,Kansas City Royals,...,74.0,14.0,from Right to Left,Sunny,7,3.216667,regular season,1,0,Win
1,1,21621.0,Philadelphia Phillies,0,5,2,2016-04-06,on grass,Night Game,Cincinnati Reds,...,55.0,24.0,from Right to Left,Overcast,5,2.383333,regular season,1,0,Win
2,2,12622.0,Minnesota Twins,0,5,2,2016-04-06,on grass,Night Game,Baltimore Orioles,...,48.0,7.0,out to Leftfield,Unknown,6,3.183333,regular season,1,0,Win
3,3,18531.0,Washington Nationals,0,8,3,2016-04-06,on grass,Night Game,Atlanta Braves,...,65.0,10.0,from Right to Left,Cloudy,4,2.883333,regular season,0,1,Loss
4,4,18572.0,Colorado Rockies,1,8,4,2016-04-06,on grass,Day Game,Arizona Diamondbacks,...,77.0,0.0,in unknown direction,In Dome,7,2.65,regular season,0,1,Loss


Столбец "Unnamed: 0" полностью дублирует индекс, поэтому он удален. Кроме того, тип данных в столбце "attendance" переведен в Int64.

In [2202]:
del df['Unnamed: 0']
df = df.astype({"attendance": "Int64"}, errors="ignore")

Изучим исходную таблицу с помощью функции info(). Данные указывают, что столбец "attendance" имеет 3 значения NaN. Изучение поставленных вопросов (это вопросы нахождения минимального и максимального значений, а также построения ковариационной матрицы) свидетельствует о том, что это обстоятельство не оказывает влияния на осуществляемый анализ.

In [2203]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2463 entries, 0 to 2462
Data columns (total 25 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   attendance         2460 non-null   Int64  
 1   away_team          2463 non-null   object 
 2   away_team_errors   2463 non-null   int64  
 3   away_team_hits     2463 non-null   int64  
 4   away_team_runs     2463 non-null   int64  
 5   date               2463 non-null   object 
 6   field_type         2463 non-null   object 
 7   game_type          2463 non-null   object 
 8   home_team          2463 non-null   object 
 9   home_team_errors   2463 non-null   int64  
 10  home_team_hits     2463 non-null   int64  
 11  home_team_runs     2463 non-null   int64  
 12  start_time         2463 non-null   object 
 13  venue              2463 non-null   object 
 14  day_of_week        2463 non-null   object 
 15  temperature        2463 non-null   float64
 16  wind_speed         2463 

Анализ вопросов, поставленных в этом задании, показывает, что большинство из них касаются определения максимального и минимального значений. Поэтому для упрощения анализа зададим функцию MaxMinValue, которая позволит выделять строки таблицы, удовлетворяющие заданному условию.

In [2204]:
def MaxMinValue(table, column, function):
    """Функция для расчета статистической функции для выбранного столбца указанной таблицы. Результатом будет таблица, строки которой удовлетворяют заданному условию"""
    return table[table[column] == table[column].apply(function, axis=1)]

Изучение вопросов, поставленных в этом задании, показывает, что в ряде случаев анализ следует проводить для части сезона, относящегося к регулярному сезону. Поэтому выберем строки, относящиеся к регулярному сезону, и просвоим их соответствующей переменной.

In [2205]:
df_regular_season = df[df["season"] == "regular season"]
df_regular_season.head()

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
0,40030,New York Mets,1,7,3,2016-04-03,on grass,Night Game,Kansas City Royals,0,...,74.0,14.0,from Right to Left,Sunny,7,3.216667,regular season,1,0,Win
1,21621,Philadelphia Phillies,0,5,2,2016-04-06,on grass,Night Game,Cincinnati Reds,0,...,55.0,24.0,from Right to Left,Overcast,5,2.383333,regular season,1,0,Win
2,12622,Minnesota Twins,0,5,2,2016-04-06,on grass,Night Game,Baltimore Orioles,0,...,48.0,7.0,out to Leftfield,Unknown,6,3.183333,regular season,1,0,Win
3,18531,Washington Nationals,0,8,3,2016-04-06,on grass,Night Game,Atlanta Braves,1,...,65.0,10.0,from Right to Left,Cloudy,4,2.883333,regular season,0,1,Loss
4,18572,Colorado Rockies,1,8,4,2016-04-06,on grass,Day Game,Arizona Diamondbacks,0,...,77.0,0.0,in unknown direction,In Dome,7,2.65,regular season,0,1,Loss


# 1. На какую игру пришло максимальное количество зрителей за весь сезон игр?

Выведем сводную статистику для столбца "attendance". Обратим внимание на максимальное значение. Для определения игры с максимальным количеством зрителей используем функцию MaxMinValue.

In [2206]:
df_regular_season["attendance"].describe()

count          2425.0
mean     30168.937732
std       9781.205573
min            8766.0
25%           22274.0
50%           30357.0
75%           38089.0
max           53621.0
Name: attendance, dtype: Float64

In [2207]:
MaxMinValue(df_regular_season, "attendance", "max")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
534,53621,San Francisco Giants,1,11,2,2016-09-20,on grass,Night Game,Los Angeles Dodgers,0,...,77.0,6.0,out to Rightfield,Cloudy,2,3.6,regular season,0,1,Loss


Наибольшее количество зрителей (53621) в ходе регулярного сезона посетили игру San Francisco Giants и Los Angeles Dodgers, состоявшуюся 20.09.2016.

# 2. Какая игра была самая холодная (temperature) за весь сезон?

Выведем сводную статистику для столбца "temperature". Обратим внимание на минимальное значение. Для определения игры с минимальной температурой используем функцию MaxMinValue.

In [2208]:
df_regular_season["temperature"].describe()

count    2428.000000
mean       73.914333
std        10.549121
min        31.000000
25%        67.000000
50%        74.000000
75%        81.000000
max       101.000000
Name: temperature, dtype: float64

In [2209]:
MaxMinValue(df_regular_season, "temperature", "min")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
2409,32419,New York Yankees,1,13,8,2016-04-09,on grass,Day Game,Detroit Tigers,1,...,31.0,18.0,from Left to Right,Cloudy,12,3.333333,regular season,0,1,Loss


При самой низкой температуре (31 град. Фаренгейта) проходила игра между New York Yankees и Detroit Tigers, состоявшаяся 09.04.2016

# 3. Какая игра была самая теплая за весь сезон?

Используем сводную статистику для столбца "temperature", приведенную выше. Обратим внимание на максимальное значение. Для определения игры с максимальной температурой используем функцию MaxMinValue.

In [2210]:
MaxMinValue(df_regular_season, "temperature", "max")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
2026,21753,San Francisco Giants,0,8,3,2016-05-13,on grass,Night Game,Arizona Diamondbacks,0,...,101.0,9.0,in unknown direction,Sunny,4,3.0,regular season,0,1,Loss


При самой высокой температуре (101 град. Фаренгейта) проходила игра между San Francisco Giants и Arizona Diamondbacks, состоявшаяся 13.05.2016

# 4. Какая игра в сезоне была самая долгая по продолжительности матча?

Выведем сводную статистику для столбца "game_hours_dec". Обратим внимание на максимальное значение. Для определения игры с максимальной продолжительностью используем функцию MaxMinValue.

In [2211]:
df_regular_season["game_hours_dec"].describe()

count    2428.000000
mean        3.079517
std         0.455968
min         1.250000
25%         2.783333
50%         3.033333
75%         3.300000
max         6.216667
Name: game_hours_dec, dtype: float64

In [2212]:
MaxMinValue(df_regular_season, "game_hours_dec", "max")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
1445,45825,Cleveland Indians,0,15,2,2016-07-01,on turf,Day Game,Toronto Blue Jays,2,...,68.0,0.0,in unknown direction,In Dome,3,6.216667,regular season,0,1,Loss


Максимальную продолжительность (6,22 часов) имела игра между Cleveland Indians и Toronto Blue Jays, состоявшаяся 01.07.2016.

# 5. Какая игра в сезоне была самая короткая по продолжительности матча?

Изучим выше сводную статистику для столбца "game_hours_dec". Обратим внимание на минимальное значение. Для определения игры с минимальной продолжительностью используем функцию MaxMinValue.

In [2213]:
MaxMinValue(df_regular_season, "game_hours_dec", "min")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
423,19991,Chicago Cubs,1,4,1,2016-09-29,on grass,Night Game,Pittsburgh Pirates,0,...,63.0,12.0,in from Leftfield,Overcast,2,1.25,regular season,0,0,Loss


Минимальную продолжительность (1,25 часов) имела игра между Chicago Cubs и Pittsburg Pirates, состоявшаяся 29.09.2016.

# 6. Сколько матчей в сезоне закончилось ничьей?

Известно, что в бейсболе, как правило, игры не имеют ничейного исхода. Проверим это утверждение с помощью столбца "home_team_outcome", найдя для него уникальные значения. Как видим, в нем указаны только значения "Win" и "Loss". Т.е. он подтверждает утверждение об отсутствии ничейных результатов.

In [2214]:
df_regular_season["home_team_outcome"].unique()

array(['Win', 'Loss'], dtype=object)

Столбец "home_team_outcome", судя по всему, является производным и создан на основе данных столбцов "home_team_win" и "home_team_loss". Проверим корректность данных, приведенных в столбце "home_team_outcome". Возможно, в нем допущена ошибка. 

Для начала посмотрим на уникальные значения, используемые в столбцах "home_team_win" и "home_team_loss". Как видим, здесь ошибок нет.

In [2215]:
df_regular_season["home_team_win"].unique(), df_regular_season["home_team_loss"].unique()

(array([1, 0]), array([0, 1]))

Создадим маски для всех возможных вариантов обозначения исходов игры для домашней команды.

In [2216]:
mask_loss_0 = df_regular_season["home_team_loss"] == 0
mask_loss_1 = df_regular_season["home_team_loss"] == 1
mask_win_0 = df_regular_season["home_team_win"] == 0
mask_win_1 = df_regular_season["home_team_win"] == 1

Для проверки используем следующие условия: при победе домашней команды мы должны получать значение 1 в столбце "home_team_win" и 0 в столбце "home_team_loss" одновременно со значением "Win" в столбце "home_team_outcome". В случае побед домашних команд условие выполняется. С помощью функции all() мы получаем True.

In [2217]:
all((((mask_win_1) & (mask_loss_0)) == (df_regular_season["home_team_outcome"] == "Win")))

True

Однако в случае поражения домашней команды при проверке с помощью команды all() мы получаем результат False. Т.е. условие не выполняется. В столбце "home_team_outcome" допущена ошибка.

In [2218]:
all((((mask_win_0) & (mask_loss_1)) == (df_regular_season["home_team_outcome"] == "Loss")))

False

Проверим условие, когда для столбцов "home_team_loss" и "home_team_win" одновременно указано либо два 0, либо две 1, чего в стандартном случае наблюдаться не должно.

In [2219]:
df_regular_season[((mask_win_0) & (mask_loss_0)) | ((mask_win_1) & (mask_loss_1))]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
423,19991,Chicago Cubs,1,4,1,2016-09-29,on grass,Night Game,Pittsburgh Pirates,0,...,63.0,12.0,in from Leftfield,Overcast,2,1.25,regular season,0,0,Loss


Мы обнаружили аномальную игру, в которой домашней команде присвоены значения 0 в столбцах "home_team_loss" и "home_team_win". Поиск информации о данной игре свидетельствует о том, что игра между Chicago Cubs и Pittsburg Pirates, состоявшаяся 29.09.2016, не была завершена вследствие плохой погоды. В этой игре, действительно, был зафиксирован ничейный результат, что случается довольно редко. Именно поэтому эта игра оказалась самой короткой по продолжительности (вопрос 5).

# 7. Какая игра была последней в сезоне?

Для определения того, какая игра была последней в регулярном сезоне, дважды использовал функцию MaxMinValue, найдя сначала последний день, в который проводили игры, а затем для полученной таблицы использовал поиск максимального времени начала игры. В данном случае в качестве необходимого условия принимается единый часовой пояс для всей территории США.

In [2220]:
MaxMinValue(MaxMinValue(df_regular_season, "date", "max"), "start_time", "max")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
395,36787,Toronto Blue Jays,0,9,2,2016-10-02,on grass,Day Game,Boston Red Sox,1,...,56.0,6.0,out to Leftfield,Unknown,3,3.233333,regular season,0,1,Loss


Последней в регулярном сезоне началась игра между Toronto Blue Jays и Boston Red Sox. Она началалась 02.10.2016 в 15:17. Стоит отметить, что в последний день регулярного сезона, т.е. 02.10.2016, состоялось 15 игр.

In [2221]:
len(MaxMinValue(df_regular_season, "date", "max"))

15

# 8. У какой игры было минимальное количество зрителей?

Изучим сводную статистику для столбца "attendance". Обратим внимание на минимальное значение. Найдем минимальное значение с помощью функции MaxMinValue.

In [2247]:
df["attendance"].describe()

count          2460.0
mean     30370.703659
std       9875.466703
min            8766.0
25%           22432.0
50%           30604.5
75%          38396.25
max           54449.0
Name: attendance, dtype: Float64

In [2222]:
MaxMinValue(df, "attendance", "min")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
2130,8766,Detroit Tigers,0,5,0,2016-05-04,on grass,Night Game,Cleveland Indians,0,...,54.0,11.0,from Left to Right,Overcast,4,2.316667,regular season,1,0,Win


Минимальное количество зрителей (8766) среди всех игр присутствовало на матче между Detroit Tigers и Cleveland Indians, состоявшейся 04.05.2016.

# 9. Какая игра в сезоне была самая ветренная?

Изучим сводную статистику для столбца "wind_speed". Обратим внимание на максимальное значение. Найдем максимальное значение с помощью функции MaxMinValue.

In [2223]:
df_regular_season["wind_speed"].describe()

count    2428.000000
mean        7.485997
std         5.061489
min         0.000000
25%         4.000000
50%         7.000000
75%        11.000000
max        25.000000
Name: wind_speed, dtype: float64

In [2224]:
MaxMinValue(df_regular_season, "wind_speed", "max")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
1655,41543,Milwaukee Brewers,1,11,5,2016-06-13,on grass,Night Game,San Francisco Giants,0,...,58.0,25.0,out to Centerfield,Cloudy,16,3.633333,regular season,1,0,Win
2005,35736,Houston Astros,2,8,9,2016-05-15,on grass,Day Game,Boston Red Sox,3,...,58.0,25.0,out to Rightfield,Cloudy,19,3.666667,regular season,1,0,Win


Самыми ветренными (25 ед.) были 2 игры: игра между Milwaukee Brewers и San Francisco Giants, состоявшаяся 13.06.2016, и игра между Houston Astros и Boston Red Sox, состоявшаяся 15.05.2016.

# 10. В какой игре получили максимальное количество очков?

Изучим сводную статистику для столбца "total_runs". Обратим внимание на максимальное значение.

In [2225]:
df["total_runs"].describe()

count    2463.000000
mean        8.933415
std         4.480352
min         1.000000
25%         6.000000
50%         8.000000
75%        12.000000
max        29.000000
Name: total_runs, dtype: float64

Столбец "total_runs", для которого мы собираемся проводить вычисления, также, судя по всему, является производным и созданным путем суммирования данных столбцов "home_team_runs" и "away_team_runs". Проведем проверку на отсутствие ошибок.

In [2226]:
all((df["home_team_runs"] + df["away_team_runs"]) == df["total_runs"])

True

Найдем строку с максимальным значением с помощью функции MaxMinValue.

In [2227]:
MaxMinValue(df, "total_runs", "max")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
1788,22588,Seattle Mariners,1,16,16,2016-06-02,on grass,Night Game,San Diego Padres,1,...,76.0,10.0,out to Rightfield,Sunny,29,3.833333,regular season,0,1,Loss


Максимальное количество ранов (29) было зафиксировано в игре между Seattle Mariners и San Diego Padres, состоявшейся 02.06.2016.

# 11. Какая игра содержала максимальное количество ошибок домашней команды?

Выведем сводную статистику для столбца "home_team_errors". Обратим внимание на максимальное значение. Найдем строку с максимальным значением с помощью функции MaxMinValue.

In [2228]:
df["home_team_errors"].describe()

count    2463.000000
mean        0.585871
std         0.805542
min         0.000000
25%         0.000000
50%         0.000000
75%         1.000000
max         5.000000
Name: home_team_errors, dtype: float64

In [2229]:
MaxMinValue(df, "home_team_errors", "max")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
1178,22581,Arizona Diamondbacks,1,11,8,2016-07-27,on grass,Night Game,Milwaukee Brewers,5,...,77.0,9.0,in from Leftfield,Cloudy,9,2.933333,regular season,0,1,Loss


Максимальное количество ошибок домашней командой (5) было допущено в игре между Arizona Diamondbacks и Milwaukee Brewers, состоявшейся 27.07.2016.

# 12. В какой игре было максимальное количество хитов?

Создадим столбец "total_hits" как сумму данных столбцов "home_team_hits" и "away_team_hits". Найдем строку с максимальным значением с помощью функции MaxMinValue.

In [2248]:
df["total_hits"] = df["home_team_hits"] + df["away_team_hits"]
df["total_hits"].describe()

count    2463.000000
mean       17.376370
std         5.186455
min         5.000000
25%        14.000000
50%        17.000000
75%        21.000000
max        37.000000
Name: total_hits, dtype: float64

In [2250]:
MaxMinValue(df, "total_hits", "max")

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,total_hits,temp_C
1413,36253,Texas Rangers,0,16,5,2016-07-04,on grass,Day Game,Boston Red Sox,2,...,out to Centerfield,Cloudy,17,3.666667,regular season,1,0,Win,37,28.888889


Максимальное количество хитов (37) было выполнено в игре между Texas Rangers и Boston Red Sox, состоявшейся 04.07.2016.

# 13. Выведите количество игр которая сыграла каждая команда в данном сезоне?

Чтобы определить количество игр, которое сыграла каждая команда в регулярном сезоне, суммируем количество игр, сыгранных командами в статусе домашней команды ("home_team") и в статусе гостевой команды ("away_team").

In [2232]:
df_regular_season["home_team"].value_counts() + df_regular_season["away_team"].value_counts()

Arizona Diamondbacks             162
Atlanta Braves                   161
Baltimore Orioles                162
Boston Red Sox                   162
Chicago Cubs                     162
Chicago White Sox                162
Cincinnati Reds                  162
Cleveland Indians                161
Colorado Rockies                 162
Detroit Tigers                   161
Houston Astros                   162
Kansas City Royals               162
Los Angeles Angels of Anaheim    162
Los Angeles Dodgers              162
Miami Marlins                    161
Milwaukee Brewers                162
Minnesota Twins                  162
New York Mets                    162
New York Yankees                 162
Oakland Athletics                162
Philadelphia Phillies            162
Pittsburgh Pirates               162
San Diego Padres                 162
San Francisco Giants             162
Seattle Mariners                 162
St. Louis Cardinals              162
Tampa Bay Rays                   162
T

Как видно, практически все команды сыграли по 162 игры. Однако для 4 команд количество игр составляет 161.

# 14. Какая команда выиграла наибольшое количество матчей в сезоне? (Будьте внимательны с типом матча в сезоне - season).

Чтобы определить, какая команда выиграла наибольшее количество матчей в сезоне, найдем количество выигранных матчей в статусе "home_team" и "away_team", используя маски mask_win_1 и mask_loss_1 (вопрос 6) соответственно. Эту задачу можно решить и на основе данных об исходе матчей (столбец "home_team_outcome"). Однако в этом столбце допущена одна ошибка для ничейного матча (для домашней команды указан результат "Loss"). Это обстоятельство необходимо было бы учитывать при анализе данных. При использовании упомянутых выше масок эта проблема отсутствует.

Количество выигранных домашних матчей:

In [2233]:
df_home_team_win = df_regular_season[mask_win_1].groupby("home_team").size()
df_home_team_win

home_team
Arizona Diamondbacks             33
Atlanta Braves                   31
Baltimore Orioles                50
Boston Red Sox                   47
Chicago Cubs                     57
Chicago White Sox                45
Cincinnati Reds                  38
Cleveland Indians                53
Colorado Rockies                 42
Detroit Tigers                   45
Houston Astros                   43
Kansas City Royals               47
Los Angeles Angels of Anaheim    40
Los Angeles Dodgers              53
Miami Marlins                    40
Milwaukee Brewers                41
Minnesota Twins                  30
New York Mets                    44
New York Yankees                 48
Oakland Athletics                34
Philadelphia Phillies            37
Pittsburgh Pirates               38
San Diego Padres                 39
San Francisco Giants             45
Seattle Mariners                 44
St. Louis Cardinals              38
Tampa Bay Rays                   36
Texas Rangers     

Количество выигранных гостевых матчей:

In [2234]:
df_away_team_win = df_regular_season[mask_loss_1].groupby("away_team").size()
df_away_team_win

away_team
Arizona Diamondbacks             36
Atlanta Braves                   37
Baltimore Orioles                39
Boston Red Sox                   46
Chicago Cubs                     46
Chicago White Sox                33
Cincinnati Reds                  30
Cleveland Indians                41
Colorado Rockies                 33
Detroit Tigers                   41
Houston Astros                   41
Kansas City Royals               34
Los Angeles Angels of Anaheim    34
Los Angeles Dodgers              38
Miami Marlins                    39
Milwaukee Brewers                32
Minnesota Twins                  29
New York Mets                    43
New York Yankees                 36
Oakland Athletics                35
Philadelphia Phillies            34
Pittsburgh Pirates               40
San Diego Padres                 29
San Francisco Giants             42
Seattle Mariners                 42
St. Louis Cardinals              48
Tampa Bay Rays                   32
Texas Rangers     

Складываем количество домашних и гостевых побед и сортируем по убыванию.

In [2235]:
(df_home_team_win + df_away_team_win).sort_values(ascending=False).index[0]

'Chicago Cubs'

Командой, которая выиграла наибольшее количество матчей в сезоне, является команда "Chicago Cubs" (103 победы).

# 15. Какая команда выиграла наибольшее количество домашних матчей в сезоне?

Эта задача была решена при ответе на 14-й вопрос (переменная df_home_team_win). Сортируем результат по убыванию и берем первое значение индекса.

In [2236]:
df_home_team_win.sort_values(ascending=False).index[0]

'Chicago Cubs'

Командой, которая выиграла наибольшее количество дромашних матчей в сезоне, является команда "Chicago Cubs" (57 побед).

# 16. Какая команда выиграла наибольшее количество гостевых матчей в сезоне?

Эта задача была решена при ответе на 14-й вопрос (переменная df_away_team_win). Сортируем результат по убыванию и берем первое значение индекса.

In [2237]:
df_away_team_win.sort_values(ascending=False).index[0]

'St. Louis Cardinals'

Командой, которая выиграла наибольшее количество гостевых матчей в сезоне, является команда "St. Louis Cardinals" (48 побед).

# 17. Какая команда проиграла наибольшее количество матчей в сезоне?

Эта задача также была решена при ответе на 14-й вопрос. Единственное различие - сортируем результат по возрастанию и берем первое значение индекса.

In [2238]:
(df_home_team_win + df_away_team_win).sort_values(ascending=True).index[0]

'Minnesota Twins'

Командой, которая проиграла наибольшее количество матчей в сезоне, является команда "Minnesota Twins" (59 побед).

# 18. Зависит ли выигрыш от количества посетителей матча? (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cov.html)

Для ответа на вопрос построим ковариационную матрицу на основе таблицы, содержащей два столбца "attendance" и "home_team_win".

In [2239]:
df_cov = df[["attendance", "home_team_win"]]
df_cov

Unnamed: 0,attendance,home_team_win
0,40030,1
1,21621,1
2,12622,1
3,18531,0
4,18572,0
...,...,...
2458,31042,0
2459,39500,1
2460,20098,1
2461,17883,0


Создаем ковариационную матрицу с помощью функции cov():

In [2240]:
cov_matrix = df_cov.cov()
cov_matrix

Unnamed: 0,attendance,home_team_win
attendance,97524840.0,224.971873
home_team_win,224.9719,0.249235


Значения на пересечении столбцов и строк "attendance" и "home_team_win" (224,97) в ковариационной матрице положительны, что свидетельствует о наличии взаимосвязи между этими параметрами. Однако, чтобы уточнить ее величину, следует рассчитать коэффициент корреляции Пирсона:

In [2241]:
cov_coeff = cov_matrix.iloc[0, 1]
D1 = cov_matrix.iloc[0, 0]**0.5
D2 = cov_matrix.iloc[1, 1]**0.5

r = cov_coeff / ((D1)*(D2))

print(f"Значение коэффициента корреляции: {r}")


Значение коэффициента корреляции: 0.04563166465672721


Либо можно построить корреляционную матрицу, используя функцию corr():

In [2242]:
df_cov.corr()

Unnamed: 0,attendance,home_team_win
attendance,1.0,0.045631
home_team_win,0.045631,1.0


Значение коэффициента корреляции r = 0,0456 свидетельствует о пренебрежимо малой корреляции между количеством посетителей матча и победой домашней команды.

# 19. Правда ли что большинство проигрышных домашних матчей приходятся на Субботу и Воскресенье?

Для ответа на этот вопрос выбираем проигрыши домашней команды ("home_team_loss" == 1) и группируем в зависимости от дня недели ("day_of_week"), подсчитываем количество по каждому дню недели и сортируем по убыванию.

In [2243]:
df[df["home_team_loss"] == 1].groupby("day_of_week").size().sort_values(ascending=False)

day_of_week
Sunday       190
Tuesday      187
Friday       184
Saturday     175
Wednesday    167
Monday       131
Thursday     124
dtype: int64

Исходя из представленной выше таблицы, отмечаем, что большинство проигрышных домашних матчей пришлось на воскресенье. Количество проигрышных домашних матчей, пришедшихся на субботу, соответствует медиане.

# 20. Правда ли что наибольшее количество ранов происходит в холодную погоду? (Холодной погодой считается погода ниже 0 градусов)

Создаем столбец "temp_C", где указана температура в градусах Цельсия, рассчитанная на основе температуры в градусах Фаренгейта (столбец "temperature"). Группируем в зависимости от температуры в градусах Цельсия и подсчитываем суммарное количество ранов, совершенных при данной температуре. 

In [2244]:
df["temp_C"] = df["temperature"].apply(lambda x: (x - 32)/1.8)
df.groupby("temp_C")["total_runs"].apply("sum").sort_values(ascending=False).head(7)

temp_C
22.222222    1328
22.777778    1190
23.888889     943
25.000000     884
24.444444     856
27.222222     837
26.666667     799
Name: total_runs, dtype: int64

In [2245]:
df.groupby("temp_C")["total_runs"].apply("sum").sort_values(ascending=False).tail(7)

temp_C
0.000000     10
3.333333     10
1.111111      8
37.777778     8
2.222222      8
5.555556      5
38.333333     4
Name: total_runs, dtype: int64

Исходя из представленных выше таблиц можно сделать заключение, что наибольшее количество ранов игроки совершают при комфортной температуре (22-27 градусов Цельсия). Наименьшее количество ранов игроки совершают при экстремальных температурах (высоких и низких). При температуре < 0 градусов Цельсия прошел лишь один матч.

In [2246]:
df[df["temp_C"] < 0]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,total_hits,temp_C
2409,32419,New York Yankees,1,13,8,2016-04-09,on grass,Day Game,Detroit Tigers,1,...,from Left to Right,Cloudy,12,3.333333,regular season,0,1,Loss,20,-0.555556
