# Домашнее задание на проверку знаний библиотеки для анализа данных Pandas.

Вам представлен датасет, который содержит информацию по результатам сезона 2016 года игры в бейсбол.

Вам необходимо загрузить датасет (он находится в архиве с текущим домашним заданием). Провести его очистку, если это необходимо и ответить на поставленные аналитические
вопросы.

Список колонок, представленных в датасете:

---
* attendance        - количество зрителей матча
* away_team         - название гостевой команды
* away_team_errors  - количество ошибок гостевой команды
* away_team_hits    - количество хитов гостевой команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* away_team_runs    - количество ранов гостевой команды (ран в бейсболе - очко заработанное игроком нападения)
* date              - дата проведения матча
* field_type        - тип игрового поля
* game_type         - тип игры
* home_team         - название домашней команды
* home_team_errors  - количество ошибок домашней команды
* home_team_hits    - количество хитов домашней команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* home_team_runs    - количество ранов домашней команды (ран в бейсболе - очко заработанное игроком нападения)
* start_time        - время начала игрового матча
* venue             - название места проведения матча (стадион, поле, арена)
* day_of_week       - день недели проведения матча
* temperature       - температура воздуха в день проведения матча в фаренгейтах
* wind_speed        - скорость ветра в день проведения матча
* wind_direction    - направление скорости ветра
* sky               - облачность
* total_runs        - общее количество ранов для двух команд
* game_hours_dec    - длительность матча указаная в часах
* season            - тип игрового сезона
* home_team_win     - результат домашней команды (1 - выигрыш)
* home_team_loss    - результат домашней команды (0 - проигрыш)
* home_team_outcome - исход матча
---

Всего в задании 20 вопросов. За каждый правильный вопрос начисляется 5 баллов. Таким образом за все правильные ответы вы получите - 100 баллов. Оценка затем будет приведена к 10-ти бальной шкале.

---

**Кроме того, баллы могут быть снижены за**:

- 1 балл снижается за качество кода - старайтесь чтобы код был максимально лаконичным. Названия переменных (если они используются) должны отражать максимальную ее сущность. Вывод старайтесь делать минимальным, так как первичная цель - сделать качественный анализ, чтобы быстро ответить на поставленный вопрос (никаких таблиц на 100 строк).


- 5 баллов снижается если ответ на домашнюю работу будет прислан в виде скриншота, ноутбука, текстового файла и прочих способов. Используйте при отправке на проверку только GitHub/GitLab либо прочий сервис. Присылать домашнюю работу необходимо ссылкой на ваш репозиторий на адрес электронной почты maratmovlamov2017@gmail.com


- за каждый день просрочки дедлайна снижается по 10 баллов. Один день - минус 10 баллов, второй день минус 10 баллов, третий день минус 10 баллов. Соблюдайте сроки и не приступайте к домашнему заданию в последний момент.

---

Удачи вам в поисках истинны :)

In [1]:
# Импортируйте все необходимые библиотеки и модули которые вам необходимы
import pandas as pd
import numpy as np
from datetime import datetime

In [2]:
# Загрузите датасет и проведите его очистку и форматирование если это необходимо

In [3]:
#Загрузим датасет при помощи метода read_csv(), который используется для чтения текстовых файлов.
df = pd.read_csv('baseball_games.csv', index_col=0)

In [4]:
#Посмотрим на несколько (5) первых строк таблицы, которая у нас получилась. 
#Используем метод head(). Он возвращает n перых строк таблицы (по умолчанию n=5).
df.head()

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
0,40030.0,New York Mets,1,7,3,2016-04-03,on grass,Night Game,Kansas City Royals,0,...,74.0,14.0,from Right to Left,Sunny,7,3.216667,regular season,1,0,Win
1,21621.0,Philadelphia Phillies,0,5,2,2016-04-06,on grass,Night Game,Cincinnati Reds,0,...,55.0,24.0,from Right to Left,Overcast,5,2.383333,regular season,1,0,Win
2,12622.0,Minnesota Twins,0,5,2,2016-04-06,on grass,Night Game,Baltimore Orioles,0,...,48.0,7.0,out to Leftfield,Unknown,6,3.183333,regular season,1,0,Win
3,18531.0,Washington Nationals,0,8,3,2016-04-06,on grass,Night Game,Atlanta Braves,1,...,65.0,10.0,from Right to Left,Cloudy,4,2.883333,regular season,0,1,Loss
4,18572.0,Colorado Rockies,1,8,4,2016-04-06,on grass,Day Game,Arizona Diamondbacks,0,...,77.0,0.0,in unknown direction,In Dome,7,2.65,regular season,0,1,Loss


In [5]:
#Узнаем какие типы данных хранятся в таблице, а так же количество ненулевых значений по столбцам 
#и количество занимаемой памяти при помощи info()
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2463 entries, 0 to 2462
Data columns (total 25 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   attendance         2460 non-null   float64
 1   away_team          2463 non-null   object 
 2   away_team_errors   2463 non-null   int64  
 3   away_team_hits     2463 non-null   int64  
 4   away_team_runs     2463 non-null   int64  
 5   date               2463 non-null   object 
 6   field_type         2463 non-null   object 
 7   game_type          2463 non-null   object 
 8   home_team          2463 non-null   object 
 9   home_team_errors   2463 non-null   int64  
 10  home_team_hits     2463 non-null   int64  
 11  home_team_runs     2463 non-null   int64  
 12  start_time         2463 non-null   object 
 13  venue              2463 non-null   object 
 14  day_of_week        2463 non-null   object 
 15  temperature        2463 non-null   float64
 16  wind_speed         2463 non-n

In [6]:
#Проверим количество дублирующихся строк
sum(df.duplicated())

0

<font color='darkblue'>
Наш DataFrame имеет 25 колонок (количество соответствует текстовому описанию) и 2463 строк.
<br>4 колонки имеют тип float64, 9 - int64 и 12 - object.
<br>Занимаемая память 500.3+ KB.
<br>Все колонки, кроме attendance, не имеют null значений.
<br>Дубликатов нет.
<br>
<br>Рассмотрим несколько колонок отдельно на соответствие типов текстовому описанию и null / not-null значений.
</font>

<font color = 'darkblue'>
<b>attendance</b> - количество зрителей матча
</font>

In [7]:
#Используем isnull() для определения null значений и sum() для подсчета их количества
sum(df['attendance'].isnull())

3

In [8]:
#Посчитаем процент null значений в данной колонке
print(f"{(sum(df['attendance'].isnull()) / len(df['attendance'])):.2%}")

0.12%


<font color='darkblue'>
Видим, что колонка attendance имеет 3 null значения, что составляет 0.12% от общего количества. Принимаем решение заменить эти три строки на медианное количество зрителей.
</font>

In [9]:
#Для вычисления медианы используем median()
#Заменяем пропушенные значения fillna()
df['attendance'] = df['attendance'].fillna(df['attendance'].median()) 

<font color='darkblue'>
    Колонка <b>attendance</b> имеет тип <b>float64</b> (это числа с плавающей точкой) и предоставляет информацию о количестве зрителей матча. Количество зрителей должно быть целым числом, а для этого больше подходит тип <b>int</b>.
</font>

In [10]:
#Преобразуем тип колонки attendance в int при помощи astype(int)
df['attendance'] = df['attendance'].astype(int)

<font color='darkblue'>
    <b> date</b> - дата проведения матча. Колонка имеет 2463 non-null значений object. 
</font>

In [11]:
# Применим to_datetime() для преобразования типа данных
df['date'] = pd.to_datetime(df['date'])

<font color='darkblue'>
    <b> start_time</b>- время начала игрового матча. Посмотрим в каком формате данные и преобразуем их в datetime.
</font>

In [12]:
#Посмотрим в каком формате записано время
df['start_time'].head(3)

0    7:38 p.m. Local
1    7:11 p.m. Local
2    7:07 p.m. Local
Name: start_time, dtype: object

In [13]:
#При помощи str.replace() заменим Local на пустую стороку, p.m. - PM, a.m. - AM
df['start_time'] = df['start_time'].str.replace(' Local', '')
df['start_time'] = df['start_time'].str.replace('p.m.', 'PM')
df['start_time'] = df['start_time'].str.replace('a.m.', 'AM')

In [14]:
#Посмотрим, что получилось
df['start_time'].head(3)

0    7:38 PM
1    7:11 PM
2    7:07 PM
Name: start_time, dtype: object

In [15]:
#Приведем тип колонки к datetime
df['start_time'] = df['start_time'].apply(lambda x: datetime.strptime(x, "%I:%M %p").time())


   <font color='darkblue'>
    <b> temperature</b> - - температура воздуха в день проведения матча в фаренгейтах. Колонка имеет 2463 non-null значений float64. Далее в 20-ом вопросе фигурирует температура ниже 0, очевидно имеются ввиду градусы по Цельсию.
    </font>

In [16]:
#Переведем градусы по Фарингейту в градусы по Цельсию
df['temperature'] = df['temperature'].apply(lambda x: round((x - 32) * 5 / 9, 2))

   <font color='darkblue'>
    <b> home_team_outcome</b> - исход матча. Колонка имеет 2463 non-null значений object. 
    </font>

In [17]:
#Проверим какие уникальные значения находятся в home_team_outcome
df['home_team_outcome'].unique()

array(['Win', 'Loss'], dtype=object)

In [18]:
#Сделаем замену проигрыш Loss->0 , выигрыш Win->1
df['home_team_outcome'] = df.home_team_outcome.map( {'Loss':0 , 'Win':1} )

# 1. На какую игру пришло максимальное количество зрителей за весь сезон игр?

In [19]:
#Найдем максимальное количество зрителей за весь сезон игр
#Для этого выберем игры которые проходили в сезоне ('regular season')
mask_season = (df['season'] == 'regular season')

   <font color='darkblue'>
    Так как у нас несколько однотипных вопросов напишем вспомогательную функцию, что бы избежать дублирования кода.
    </font>

In [20]:
def select_by_condition(data, col, func):
    '''
    Возвращает строки из data, соответствующие условию data[col]==func(data[col])
    Args:
        data: данные по которым выполняется выбор
        col: колонка к которой применяется условие выбора
        func: условие выбора
    Returns:
        Строки из data соответствующие условию
    '''
    cond_val = func(data[col])
    print(f'{str(func)[-4:-1]} для {col} : {cond_val}')
    return data[data[col] == cond_val]

In [21]:
#Найдем максимальное количество зрителей за весь сезон игр
# max() для 'attendance' в играх, которые проходили в сезоне mask_season('regular season')
select_by_condition(df.loc[mask_season],'attendance', max)

max для attendance : 53621


Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
534,53621,San Francisco Giants,1,11,2,2016-09-20,on grass,Night Game,Los Angeles Dodgers,0,...,25.0,6.0,out to Rightfield,Cloudy,2,3.6,regular season,0,1,0


<font color='darkblue'>
    На игру <b>San Francisco Giants vs Los Angeles Dodgers</b> пришло максимальное количество зрителей 53621 за весь сезон игр.
</font>

# 2. Какая игра была самая холодная (temperature) за весь сезон?

In [22]:
#Найдем минимальную температуру за весь сезон игр
# min() для 'temperature' в играх, которые проходили в сезоне mask_season('regular season')
select_by_condition(df.loc[mask_season], 'temperature', min)

min для temperature : -0.56


Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
2409,32419,New York Yankees,1,13,8,2016-04-09,on grass,Day Game,Detroit Tigers,1,...,-0.56,18.0,from Left to Right,Cloudy,12,3.333333,regular season,0,1,0


<font color='darkblue'>
    Игра <b>New York Yankees vs Detroit Tigers</b> прогодила при -0.56°C и была самая холодная за весь сезон.
</font>

# 3. Какая игра была самая теплая за весь сезон?

In [23]:
#Найдем максимальную температуру за весь сезон игр
# max() для 'temperature' в играх, которые проходили в сезоне mask_season('regular season')
select_by_condition(df.loc[mask_season], 'temperature', max)

max для temperature : 38.33


Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
2026,21753,San Francisco Giants,0,8,3,2016-05-13,on grass,Night Game,Arizona Diamondbacks,0,...,38.33,9.0,in unknown direction,Sunny,4,3.0,regular season,0,1,0


<font color='darkblue'>
Игра San <b>Francisco Giants vs Arizona Diamondbacks</b> проходила при температуре 38.33°C и была самая теплая за весь сезон.
    </font>

# 4. Какая игра в сезоне была самая долгая по продолжительности матча?

In [24]:
#Найдем самую долгую игру за весь сезон
# max() для 'game_hours_dec' в играх, которые проходили в сезоне mask_season('regular season')
select_by_condition(df.loc[mask_season], 'game_hours_dec', max)

max для game_hours_dec : 6.216666666666667


Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
1445,45825,Cleveland Indians,0,15,2,2016-07-01,on turf,Day Game,Toronto Blue Jays,2,...,20.0,0.0,in unknown direction,In Dome,3,6.216667,regular season,0,1,0


<font color='darkblue'>
Игра San <b>Cleveland Indians vs Toronto Blue Jays</b> самая долгая по продолжительности и длилась 6.22 часов.
</font>

# 5. Какая игра в сезоне была самая короткая по продолжительности матча?

In [25]:
#Найдем самую короткую игру за весь сезон
#min() для 'game_hours_dec' в играх, которые проходили в сезоне mask_season('regular season')
select_by_condition(df.loc[mask_season], 'game_hours_dec', min)

min для game_hours_dec : 1.25


Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
423,19991,Chicago Cubs,1,4,1,2016-09-29,on grass,Night Game,Pittsburgh Pirates,0,...,17.22,12.0,in from Leftfield,Overcast,2,1.25,regular season,0,0,0


<font color='darkblue'>
Игра San <b>Chicago Cubs vs Pittsburgh Pirates</b> самая короткая по продолжительности и длилась 1.25 часов. 
</font>

# 6. Сколько матчей в сезоне закончилось ничьей?

<font color=darkblue>
    В бейсболе <b>НЕТ</b> ничьих 
    </font>

In [26]:
#Но проверим на всякий случай)))
#Для этого выберем игры которые проходили в сезоне mask_season ('regular season')
#При помощи value_counts() узнаем количесво результатов игр для домашних команд
df.loc[mask_season]['home_team_outcome'].value_counts()

home_team_outcome
1    1287
0    1141
Name: count, dtype: int64

<font color=darkblue>
    Таким образим в сезоне 2016 года было 1287 выигрышей, 1141 проигрышей и, как и ожидплось <b>0 ничьих</b> для домашних команд.
</font>

In [27]:
#Найдем количество матчей, в которых домашняя команда не выиграла и не проиграла
sum((df['home_team_win']==0)&(df['home_team_loss']==0) )

1

<font color=darkblue>
    Таким образим в сезоне 2016 года был <b>1</b> станный матч, в котором домашняя команда не выиграла и не проиграла.
</font>

# 7. Какая игра была последней в сезоне?

In [28]:
#Для этого выберем игры которые проходили в сезоне mask_season('regular season')
#Отсортируем date при помощи sort_values() по убыванию (ascending=False)
df.loc[mask_season].sort_values(['date', 'start_time'], ascending=[False, False]).head(1)

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
395,36787,Toronto Blue Jays,0,9,2,2016-10-02,on grass,Day Game,Boston Red Sox,1,...,13.33,6.0,out to Leftfield,Unknown,3,3.233333,regular season,0,1,0


<font color=darkblue>
    Игра <b>Toronto Blue Jays vs Boston Red Sox</b> проходила 2016-10-02 в 15:17:00 и 
была последней в сезоне.
</font>

# 8. У какой игры было минимальное количество зрителей?

In [29]:
#Выберем игры в которых количество зрителей минимально 
#min() для 'attendance' во всех играх
select_by_condition(df, 'attendance', min)

min для attendance : 8766


Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
2130,8766,Detroit Tigers,0,5,0,2016-05-04,on grass,Night Game,Cleveland Indians,0,...,12.22,11.0,from Left to Right,Overcast,4,2.316667,regular season,1,0,1


<font color=darkblue>
    Игра <b>TDetroit Tigers vs Cleveland Indians</b> проходила при минимальном количестве зрителей (8766).
</font>

# 9. Какая игра в сезоне была самая ветренная?

In [30]:
#найдем max() для 'wind_speed' в играх, которые проходили в сезоне mask_season('regular season')
select_by_condition(df.loc[mask_season], 'wind_speed', max)

max для wind_speed : 25.0


Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
1655,41543,Milwaukee Brewers,1,11,5,2016-06-13,on grass,Night Game,San Francisco Giants,0,...,14.44,25.0,out to Centerfield,Cloudy,16,3.633333,regular season,1,0,1
2005,35736,Houston Astros,2,8,9,2016-05-15,on grass,Day Game,Boston Red Sox,3,...,14.44,25.0,out to Rightfield,Cloudy,19,3.666667,regular season,1,0,1


<font color=darkblue>
    Максимальная скорость ветра за весь сезон составила 25.0.
    <br>При таком ветре проходило две игры:
    <br><b>Milwaukee Brewers vs San Francisco Giants</b>
    <br><b>Houston Astros vs Boston Red Sox</b>
</font>

# 10. В какой игре получили максимальное количество очков?

In [31]:
#Очки в бейсболе это run, таким образом нужно подсчитать сумму away_team_runs и home_team_runs
#Это будет количество очков за игру (рассмотрим cумму колонок), затем выберем по max от этой суммы
#Новая колонка нам еще пригодится в 20-ом вопросе
df['all_runs'] = df['away_team_runs'] + df['home_team_runs']
#найдем max() для 'all_runs' во всех играх
select_by_condition(df, 'all_runs', max)

max для all_runs : 29


Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,all_runs
1788,22588,Seattle Mariners,1,16,16,2016-06-02,on grass,Night Game,San Diego Padres,1,...,10.0,out to Rightfield,Sunny,29,3.833333,regular season,0,1,0,29


<font color=darkblue>
    В игре <b>Seattle Mariners vs San Diego Padres</b> получили максимальное количество очков (29).
</font>

# 11. Какая игра содержала максимальное количество ошибок домашней команды?

In [32]:
#найдем max() для 'home_team_errors' во всех играх
select_by_condition(df, 'home_team_errors', max)

max для home_team_errors : 5


Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,all_runs
1178,22581,Arizona Diamondbacks,1,11,8,2016-07-27,on grass,Night Game,Milwaukee Brewers,5,...,9.0,in from Leftfield,Cloudy,9,2.933333,regular season,0,1,0,9


<font color=darkblue>
    Игра <b>Arizona Diamondbacks vs Milwaukee Brewers</b> содержала максимальное количество ошибок домашней команды (5).
</font>

# 12. В какой игре было максимальное количество хитов?

In [33]:
#Подсчитаем сумму away_team_hits и home_team_hits (создадим новую колонку)
#затем найдем max от этой суммы
df[(df['away_team_hits'] + df['home_team_hits']) == (df['away_team_hits'] + df['home_team_hits']).max()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,...,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,all_runs
1413,36253,Texas Rangers,0,16,5,2016-07-04,on grass,Day Game,Boston Red Sox,2,...,11.0,out to Centerfield,Cloudy,17,3.666667,regular season,1,0,1,17


<font color=darkblue>
    В игре <b>Texas Rangers vs Boston Red Sox</b> было максимальное количество хитов (37).
</font>

# 13. Выведите количество игр которая сыграла каждая команда в данном сезоне?

In [34]:
#выберем игры которые проходили в сезоне mask_season ('regular season')
#подсчитаем количество игр для 'away_team' и 'home_team' при помощи value_counts
#суммируем полученные результаты sum(axis=1)
df.loc[mask_season][['away_team', 'home_team']].apply(pd.Series.value_counts).sum(axis=1)

Arizona Diamondbacks             162
Atlanta Braves                   161
Baltimore Orioles                162
Boston Red Sox                   162
Chicago Cubs                     162
Chicago White Sox                162
Cincinnati Reds                  162
Cleveland Indians                161
Colorado Rockies                 162
Detroit Tigers                   161
Houston Astros                   162
Kansas City Royals               162
Los Angeles Angels of Anaheim    162
Los Angeles Dodgers              162
Miami Marlins                    161
Milwaukee Brewers                162
Minnesota Twins                  162
New York Mets                    162
New York Yankees                 162
Oakland Athletics                162
Philadelphia Phillies            162
Pittsburgh Pirates               162
San Diego Padres                 162
San Francisco Giants             162
Seattle Mariners                 162
St. Louis Cardinals              162
Tampa Bay Rays                   162
T

# 14. Какая команда выиграла наибольшое количество матчей в сезоне? (Будьте внимательны с типом матча в сезоне - season).

In [35]:
#Создадим массив, в который запишем какая команда выиграла
#Если в home_team_outcome записано 0 значит выиграла команда away_team
#Если в home_team_outcome записано 1 значит выиграла команда home_team
conditions = [
    (df['home_team_outcome'] == 0),
    (df['home_team_outcome'] == 1),]
choices = [df['away_team'], df['home_team']]
#Воплотим при помощи np.select создание массива
win_arr = np.select(conditions, choices)
#создадим новый DataFrame выберем сезон mask_season и подсчитаем количество value_counts
pd.DataFrame(win_arr, columns=['team'])[mask_season].value_counts(sort=True).head(1)

team        
Chicago Cubs    104
Name: count, dtype: int64

<font color='darkblue'>
Команда <b>Chicago Cubs</b> выиграла наибольшое количество матчей в сезоне (104), тем самым сняла Проклятье Козла 
</font>

# 15. Какая команда выиграла наибольшее количество домашних матчей в сезоне?

In [36]:
#Выберем все игры в сезоне mask_season и у которых есть домашняя победа home_team_outcome,
#значит home_team выиграла и можно подсчитать количество с value_counts(), 
df[mask_season & (df['home_team_outcome'] == 1)]['home_team'].value_counts(sort=True).head(1)

home_team
Chicago Cubs    57
Name: count, dtype: int64

<font color='darkblue'>
Команда <b>Chicago Cubs</b> выиграла наибольшее количество домашних матчей в сезоне (57)
</font>

# 16. Какая команда выиграла наибольшее количество гостевых матчей в сезоне?

In [37]:
#Выберем все игры в сезоне и у которых есть домашнее поражение home_team_outcome,
#значит away_team выиграла (гостевая победа) и можно подсчитать количество с value_counts()
df[mask_season & (df['home_team_outcome'] == 0)]['away_team'].value_counts(sort=True).head(1)

away_team
St. Louis Cardinals    48
Name: count, dtype: int64

<font color='darkblue'>
Команда <b>St. Louis Cardinals</b> выиграла наибольшее количество гостевых матчей в сезоне (48)
</font>

# 17. Какая команда проиграла наибольшее количество матчей в сезоне?

In [38]:
#Создадим массив, в который запишем какая команда проиграла
#Если в home_team_outcome записано 0 значит проиграла команда home_team
#Если в home_team_outcome записано 1 значит проиграла команда away_team
conditions = [
    (df['home_team_outcome'] == 0),
    (df['home_team_outcome'] == 1)]
choices = [df['home_team'], df['away_team']]
#Воплотим при помощи np.select
loss_arr = np.select(conditions, choices)
#создадим новый DataFrame выберем сезон mask_season и подсчитаем количество value_counts
pd.DataFrame(loss_arr, columns=['team'])[mask_season].value_counts(sort=True).head(1)

team           
Minnesota Twins    103
Name: count, dtype: int64

<font color='darkblue'>
Команда <b>Minnesota Twins</b> проиграла наибольшее количество матчей в сезоне (103)
</font>

# 18. Зависит ли выигрыш от количества посетителей матча? (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cov.html)

In [39]:
#Построим матрицу ковариации для 'attendance' и 'home_team_outcome'
cov_matrix = df[['attendance','home_team_outcome']].cov(numeric_only = True)
display(cov_matrix)

Unnamed: 0,attendance,home_team_outcome
attendance,97406070.0,224.736752
home_team_outcome,224.7368,0.249235


<font color=darkblue>
Ковариация (224.736752) показывает, что значения в колонках меняются в одном направлении, но масштаб этого числа сам по себе не информативен без нормализации, так как зависит от единиц измерения.
</font>

In [40]:
#Построим матрицу корреляции для 'attendance' и 'home_team_outcome'
cor_matrix = df[['attendance', 'home_team_outcome']].corr(numeric_only = True)
display(cor_matrix)

Unnamed: 0,attendance,home_team_outcome
attendance,1.0,0.045612
home_team_outcome,0.045612,1.0


<font color='darkblue'>
Корреляция 0.045612 указывает на очень слабую положительную линейную зависимость. Значение корреляции, близкое к 0, говорит о том, что изменение значений в одной колонке почти не влияет на значения в другой.
<br><b>Вывод</b>    
<br>
Хотя между 'attendance' и 'home_team_outcome' может быть незначительная тенденция к изменению в одном направлении (положительная ковариация), величина корреляции (близкая к 0) показывает, что линейная зависимость практически отсутствует.
</font>

# 19. Правда ли что большинство проигрышных домашних матчей приходятся на Субботу и Воскресенье?

In [41]:
#Проверим проигрышные матчи для домашних команд ('home_team_outcome'= 0)
#И посчитаем  value_counts() для day_of_week
df[df['home_team_outcome'] == 0]['day_of_week'].value_counts()

day_of_week
Sunday       190
Tuesday      187
Friday       184
Saturday     175
Wednesday    167
Monday       131
Thursday     125
Name: count, dtype: int64

<font color='darkblue'>
Нет, большинство проигранных <b>домашних</b> матчей приходятся на <b>Воскресенье</b> (190) и <b>Вторник</b> (187)
</font>

# 20. Правда ли что наибольшее количество ранов происходит в холодную погоду? (Холодной погодой считается погода ниже 0 градусов)

In [42]:
#отсортируем по общему количеству ранов и посмотрим на значения температур
df.sort_values('all_runs', ascending=False).head(5)[['all_runs','temperature']]

Unnamed: 0,all_runs,temperature
1788,29,24.44
881,27,24.44
1475,24,15.0
2052,24,29.44
1562,24,26.11


In [43]:
#Посмотрим на количество ранов при низкой температуре
df.sort_values('temperature', ascending=True).head(5)[['all_runs','temperature']]

Unnamed: 0,all_runs,temperature
2409,12,-0.56
2412,10,0.0
2445,8,1.11
10,8,2.22
2422,4,3.33


<font color='darkblue'>
Нет, неправда. Исходя из имеющихся данных наибольшее количество ранов <b>не происходит</b> в холодную погоду. 
<br>Более того, в данных имеется только одна игра, проходившая при отрицательной температуре.
</font>