# Домашнее задание на проверку знаний библиотеки для анализа данных Pandas.

Вам представлен датасет, который содержит информацию по результатам сезона 2016 года игры в бейсбол.

Вам необходимо загрузить датасет (он находится в архиве с текущим домашним заданием). Провести его очистку, если это необходимо и ответить на поставленные аналитические
вопросы.

Список колонок, представленных в датасете:

---
* attendance        - количество зрителей матча
* away_team         - название гостевой команды
* away_team_errors  - количество ошибок гостевой команды
* away_team_hits    - количество хитов гостевой команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* away_team_runs    - количество ранов гостевой команды (ран в бейсболе - очко заработанное игроком нападения)
* date              - дата проведения матча
* field_type        - тип игрового поля
* game_type         - тип игры
* home_team         - название домашней команды
* home_team_errors  - количество ошибок домашней команды
* home_team_hits    - количество хитов домашней команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* home_team_runs    - количество ранов домашней команды (ран в бейсболе - очко заработанное игроком нападения)
* start_time        - время начала игрового матча
* venue             - название места проведения матча (стадион, поле, арена)
* day_of_week       - день недели проведения матча
* temperature       - температура воздуха в день проведения матча в фаренгейтах
* wind_speed        - скорость ветра в день проведения матча
* wind_direction    - направление скорости ветра
* sky               - облачность
* total_runs        - общее количество ранов для двух команд
* game_hours_dec    - длительность матча указаная в часах
* season            - тип игрового сезона
* home_team_win     - результат домашней команды (1 - выигрыш)
* home_team_loss    - результат домашней команды (0 - проигрыш)
* home_team_outcome - исход матча
---

Всего в задании 20 вопросов. За каждый правильный вопрос начисляется 5 баллов. Таким образом за все правильные ответы вы получите - 100 баллов. Оценка затем будет приведена к 10-ти бальной шкале.

---

**Баллы могут быть снижены** за качество кода - старайтесь чтобы код был максимально лаконичным. Названия переменных (если они используются) должны отражать максимальную ее сущность. Вывод старайтесь делать минимальным, так как первичная цель - сделать качественный анализ, чтобы быстро ответить на поставленный вопрос (никаких таблиц на 100 строк).

**Требования по сдаче практического задания**:
1. Ответ на вопрос и текстовый markdown с вашей логикой, почему вы выполнили это действие.
2. Залить в репу на github в папку module_1
3. Ссылку на репо отправлять мне на почту alexadevv@gmail.com не позднее дедлайна. 
4. Тема письма: Домашнее задание по модулю 1 <Фамилия Имя>
5. После дедлайна, неотправленные на почту задания, оцениваются максимум в 7 баллов.

In [1]:
# Импортируйте все необходимые библиотеки и модули которые вам необходимы
import numpy as np
import pandas as pd

In [2]:
# Загрузите датасет и проведите его очистку и форматирование если это необходимо
data = pd.read_csv( './baseball_games.csv', delimiter = ',')
data.head(5)

Unnamed: 0.1,Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,...,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome
0,0,40030.0,New York Mets,1,7,3,2016-04-03,on grass,Night Game,Kansas City Royals,...,74.0,14.0,from Right to Left,Sunny,7,3.216667,regular season,1,0,Win
1,1,21621.0,Philadelphia Phillies,0,5,2,2016-04-06,on grass,Night Game,Cincinnati Reds,...,55.0,24.0,from Right to Left,Overcast,5,2.383333,regular season,1,0,Win
2,2,12622.0,Minnesota Twins,0,5,2,2016-04-06,on grass,Night Game,Baltimore Orioles,...,48.0,7.0,out to Leftfield,Unknown,6,3.183333,regular season,1,0,Win
3,3,18531.0,Washington Nationals,0,8,3,2016-04-06,on grass,Night Game,Atlanta Braves,...,65.0,10.0,from Right to Left,Cloudy,4,2.883333,regular season,0,1,Loss
4,4,18572.0,Colorado Rockies,1,8,4,2016-04-06,on grass,Day Game,Arizona Diamondbacks,...,77.0,0.0,in unknown direction,In Dome,7,2.65,regular season,0,1,Loss


In [3]:
# вместо пустых значений внесем медианное значение в столбце attendance
medianAtt = data['attendance'].median()
data.fillna({'attendance': medianAtt}, inplace = True);

# 1. На какую игру пришло максимальное количество зрителей за весь сезон игр?

In [4]:
max_att = data['attendance'].max()
print(f"Максимальное число зрителей: {max_att:.0f}")

Максимальное число зрителей: 54449


# 2. Какая игра была самая холодная (temperature) за весь сезон?

Набор атрибутов home_team, away_team, date, game_type в данном датасете уникально определяет запись, поэтому для однозначной идентификации игры необходимы 4 атрибута.

In [5]:
uniq_games = data[['home_team', 'away_team', 'date', 'game_type', 'temperature']]
# Cамая холодная игра
coldest_game = uniq_games.sort_values( by = 'temperature', ascending = True ).iloc[0]
game_type = "днем" if coldest_game.game_type == 'Day Game' else "ночью"
print(
    f"""Cамая холодная игра (с температурой {coldest_game.temperature:.1f} °F) была между 
{coldest_game.home_team} и {coldest_game.away_team}, проводившаяся {coldest_game.date} {game_type}
    """
)

Cамая холодная игра (с температурой 31.0 °F) была между 
Detroit Tigers и New York Yankees, проводившаяся 2016-04-09 днем
    


# 3. Какая игра была самая теплая за весь сезон?

In [6]:
uniq_games = data[['home_team', 'away_team', 'date', 'game_type', 'temperature']]
# Cамая теплая игра
hottest_game = uniq_games.sort_values( by = 'temperature', ascending = False ).iloc[0]
game_type = "днем" if hottest_game.game_type == 'Day Game' else "ночью"
print(
    f"""Cамая теплая игра (с температурой {hottest_game.temperature:.1f} °F) была между 
{hottest_game.home_team} и {hottest_game.away_team}, проводившаяся {hottest_game.date} {game_type}
    """
)

Cамая теплая игра (с температурой 101.0 °F) была между 
Arizona Diamondbacks и San Francisco Giants, проводившаяся 2016-05-13 ночью
    


# 4. Какая игра в сезоне была самая долгая по продолжительности матча?

In [7]:
uniq_games = data[['home_team', 'away_team', 'date', 'game_type', 'game_hours_dec']]
# Cамая долгая игра
longest_game = uniq_games.sort_values( by = 'game_hours_dec', ascending = False ).iloc[0]
game_type = "днем" if longest_game.game_type == 'Day Game' else "ночью"
print(
    f"""Cамая долгая игра (с продолжительностью {longest_game.game_hours_dec:.1f} часов) была между 
{longest_game.home_team} и {longest_game.away_team}, проводившаяся {longest_game.date} {game_type}
    """
)

Cамая долгая игра (с продолжительностью 6.2 часов) была между 
Toronto Blue Jays и Cleveland Indians, проводившаяся 2016-07-01 днем
    


# 5. Какая игра в сезоне была самая короткая по продолжительности матча?

In [8]:
uniq_games = data[['home_team', 'away_team', 'date', 'game_type', 'game_hours_dec']]
# Cамая долгая игра
shortest_game = uniq_games.sort_values( by = 'game_hours_dec', ascending = True ).iloc[0]
game_type = "днем" if shortest_game.game_type == 'Day Game' else "ночью"
print(
    f"""Cамая короткая игра (с продолжительностью {shortest_game.game_hours_dec:.1f} часов) была между 
{shortest_game.home_team} и {shortest_game.away_team}, проводившаяся {shortest_game.date} {game_type}
    """
)

Cамая короткая игра (с продолжительностью 1.2 часов) была между 
Pittsburgh Pirates и Chicago Cubs, проводившаяся 2016-09-29 ночью
    


# 6. Сколько матчей в сезоне закончилось ничьей?

In [9]:
# игры, которые не завершились вничью
filtration = data['home_team_outcome'].str.contains('Win') | data['home_team_outcome'].str.contains('Loss')
non_draw_games_count = data.loc[filtration].shape[0]
all_games_count = data.shape[0]
print(f"Вничью завершились {all_games_count - non_draw_games_count} матчей")

Вничью завершились 0 матчей


# 7. Какая игра была последней в сезоне?

In [10]:
last_game = data.sort_values( by = 'date', ascending = False ).iloc[0]
game_type = "днем" if last_game.game_type == 'Day Game' else "ночью"
print(
    f"""Cамая последняя игра была между 
{last_game.home_team} и {last_game.away_team}, проводившаяся {last_game.date} {game_type}
    """
)

Cамая последняя игра была между 
Cleveland Indians и Chicago Cubs, проводившаяся 2016-11-02 ночью
    


# 8. У какой игры было минимальное количество зрителей?

In [11]:
least_att_game = data.sort_values( by = 'attendance', ascending = True ).iloc[0]
game_type = "днем" if least_att_game.game_type == 'Day Game' else "ночью"
print(
    f"""Игра с минимальным количеством зрителей (посетили {least_att_game.attendance:.0f} зрителей) была между 
{least_att_game.home_team} и {least_att_game.away_team}, проводившаяся {least_att_game.date} {game_type}
    """
)

Игра с минимальным количеством зрителей (посетили 8766 зрителей) была между 
Cleveland Indians и Detroit Tigers, проводившаяся 2016-05-04 ночью
    


# 9. Какая игра в сезоне была самая ветренная?

In [12]:
windiest_game = data.sort_values( by = 'wind_speed', ascending = False ).iloc[0]
game_type = "днем" if windiest_game.game_type == 'Day Game' else "ночью"
print(
    f"""Cамая ветренная игра (со скоростью ветра {windiest_game.wind_speed:.1f}) была между 
{windiest_game.home_team} и {windiest_game.away_team}, проводившаяся {windiest_game.date} {game_type}
    """
)

Cамая ветренная игра (со скоростью ветра 25.0) была между 
Boston Red Sox и Houston Astros, проводившаяся 2016-05-15 днем
    


# 10. В какой игре получили максимальное количество очков?

In [13]:
# добавим атрибут общего количества ранов для обеих команд
data['both_teams_runs'] = data['away_team_runs'] + data['home_team_runs']
# игра с максимальным количеством очков
effective_game = data.sort_values(by = 'both_teams_runs', ascending = False ).iloc[0]
game_type = "днем" if effective_game.game_type == 'Day Game' else "ночью"
print(
    f"""Cамая результативная игра по очкам ({effective_game.both_teams_runs:.0f}) была между 
{effective_game.home_team} и {effective_game.away_team}, проводившаяся {effective_game.date} {game_type}
    """
)

Cамая результативная игра по очкам (29) была между 
San Diego Padres и Seattle Mariners, проводившаяся 2016-06-02 ночью
    


# 11. Какая игра содержала максимальное количество ошибок домашней команды?

In [14]:
most_erroneous_home_game = data.sort_values( by = 'home_team_errors', ascending = False ).iloc[0]
game_type = "днем" if most_erroneous_home_game.game_type == 'Day Game' else "ночью"
print(
    f"""Игра с максимальным количеством ошибок домашней команды ({most_erroneous_home_game.home_team_errors:.0f}) была между 
{most_erroneous_home_game.home_team} и {most_erroneous_home_game.away_team}, проводившаяся {most_erroneous_home_game.date} {game_type}
    """
)

Игра с максимальным количеством ошибок домашней команды (5) была между 
Milwaukee Brewers и Arizona Diamondbacks, проводившаяся 2016-07-27 ночью
    


# 12. В какой игре было максимальное количество хитов?

In [15]:
# добавим атрибут общего количества хитов для обеих команд
data['both_teams_hits'] = data['away_team_hits'] + data['away_team_hits']
# игра с максимальным количеством хитов
most_hitable_game = data.sort_values( by = 'both_teams_hits', ascending = False ).iloc[0]
game_type = "днем" if most_hitable_game.game_type == 'Day Game' else "ночью"
print(
    f"""Cамая результативная игра по хитам ({most_hitable_game.both_teams_hits:.0f}) была между 
{most_hitable_game.home_team} и {most_hitable_game.away_team}, проводившаяся {most_hitable_game.date} {game_type}
    """
)

Cамая результативная игра по хитам (44) была между 
Pittsburgh Pirates и San Francisco Giants, проводившаяся 2016-06-21 ночью
    


# 13. Выведите количество игр которая сыграла каждая команда в данном сезоне?

In [16]:
# количество игр, сыгранных в гостях
away_games = data['away_team'].value_counts().reset_index(name='count')
# количество игр, сыгранных дома
home_games = data['home_team'].value_counts().reset_index(name='count')

# получение общего количества игр, сыгранных командами
total_games = away_games.merge(home_games, how = 'inner', left_on = 'away_team', right_on = 'home_team')
total_games['game_amount'] = total_games['count_x'] + total_games['count_y']

# рефакторинг столбцов таблицы
total_games = total_games.drop('away_team', axis=1)
total_games = total_games.drop('count_x', axis=1)
total_games = total_games.drop('count_y', axis=1)
total_games.rename( columns = { 'home_team': 'team' }, inplace = True )
total_games.rename( columns = { 'team': 'Команда', 'game_amount': 'Количество игр' }, inplace = True )
# скрытие индекса 
total_games.style.hide(axis="index")

Команда,Количество игр
Chicago Cubs,179
Los Angeles Dodgers,173
Cleveland Indians,176
Toronto Blue Jays,171
San Francisco Giants,167
Washington Nationals,167
Boston Red Sox,165
Baltimore Orioles,163
Texas Rangers,165
Philadelphia Phillies,162


# 14. Какая команда выиграла наибольшое количество матчей в сезоне? (Будьте внимательны с типом матча в сезоне - season).

In [17]:
reg_season_data = data[data['season'] == 'regular season']

# количество игр, выигранных в гостях
away_teams_wins = reg_season_data[['away_team', 'home_team_loss']].groupby('away_team').sum().reset_index()
away_teams_wins.rename( columns = { 'home_team_loss': 'away_wins' }, inplace = True )

# количество игр, выигранных дома
home_teams_wins = reg_season_data[['home_team', 'home_team_win']].groupby('home_team').sum().reset_index()
home_teams_wins.rename( columns = { 'home_team_win': 'home_wins' }, inplace = True )

# получение общего количества выигранных игр
total_teams_wins = away_teams_wins.merge( home_teams_wins, how = 'inner', left_on = 'away_team', right_on = 'home_team')
total_teams_wins['wins'] = total_teams_wins['away_wins'] + total_teams_wins['home_wins']

# рефакторинг столбцов таблицы
total_teams_wins = total_teams_wins.drop('away_team', axis=1)
total_teams_wins = total_teams_wins.drop('away_wins', axis=1)
total_teams_wins = total_teams_wins.drop('home_wins', axis=1)
total_teams_wins.rename( columns = {'home_team': 'team'}, inplace = True )

team_with_top_wins = total_teams_wins.sort_values( by = 'wins', ascending = False ).iloc[0]
print(
    f"Команда {team_with_top_wins.team} выиграла наибольшее количество матчей в регулярном сезоне - {team_with_top_wins.wins}"
)

Команда Chicago Cubs выиграла наибольшее количество матчей в регулярном сезоне - 103


# 15. Какая команда выиграла наибольшее количество домашних матчей в сезоне?

In [18]:
reg_season_data = data[data['season'] == 'regular season']

# количество игр, выигранных дома
home_teams_wins = reg_season_data[['home_team', 'home_team_win']].groupby('home_team').sum().reset_index()

# рефакторинг столбцов таблицы
home_teams_wins.rename( columns = {'home_team_win': 'home_wins' }, inplace = True )
home_teams_wins.rename( columns = {'home_team': 'team'}, inplace = True )

home_top_team = home_teams_wins.sort_values( by = 'home_wins', ascending = False).iloc[0]
print(
    f"""Команда {home_top_team.team} выиграла наибольшее количество домашних матчей в регулярном сезоне - {home_top_team.home_wins}"""
)

Команда Chicago Cubs выиграла наибольшее количество домашних матчей в регулярном сезоне - 57


# 16. Какая команда выиграла наибольшее количество гостевых матчей в сезоне?

In [19]:
reg_season_data = data[data['season'] == 'regular season']

# количество игр, выигранных в гостях
away_teams_wins = reg_season_data[['away_team', 'home_team_loss']].groupby('away_team').sum().reset_index()

# рефакторинг столбцов таблицы
away_teams_wins.rename( columns = {'home_team_loss': 'away_wins' }, inplace = True )
away_teams_wins.rename( columns = {'away_team': 'team'}, inplace = True )

away_top_team = away_teams_wins.sort_values( by = 'away_wins', ascending = False).iloc[0]
print(
    f"""Команда {away_top_team.team} выиграла наибольшее количество гостевых матчей в регулярном сезоне - {away_top_team.away_wins}"""
)

Команда St. Louis Cardinals выиграла наибольшее количество гостевых матчей в регулярном сезоне - 48


# 17. Какая команда проиграла наибольшее количество матчей в сезоне?

In [20]:
reg_season_data = data[data['season'] == 'regular season']

# количество игр, проигранных в гостях
away_teams_losses = reg_season_data[['away_team', 'home_team_win']].groupby('away_team').sum().reset_index()
away_teams_losses.rename( columns = { 'home_team_win': 'away_losses' }, inplace = True )

# количество игр, проигранных дома
home_teams_losses = reg_season_data[['home_team', 'home_team_loss']].groupby('home_team').sum().reset_index()
home_teams_losses.rename( columns = { 'home_team_loss': 'home_losses' }, inplace = True )

# получение общего количества проигранных игр
total_teams_losses = away_teams_losses.merge(home_teams_losses, how = 'inner', left_on = 'away_team', right_on = 'home_team')
total_teams_losses['losses'] = total_teams_losses['away_losses'] + total_teams_losses['home_losses']

# рефакторинг столбцов таблицы
total_teams_losses = total_teams_losses.drop('away_team', axis=1)
total_teams_losses = total_teams_losses.drop('away_losses', axis=1)
total_teams_losses = total_teams_losses.drop('home_losses', axis=1)
total_teams_losses.rename( columns = {'home_team': 'team'}, inplace = True )

team_with_top_losses = total_teams_losses.sort_values( by = 'losses', ascending = False ).iloc[0]
print(
    f"Команда {team_with_top_losses.team} проиграла наибольшее количество матчей в регулярном сезоне - {team_with_top_losses.losses}"
)

Команда Minnesota Twins проиграла наибольшее количество матчей в регулярном сезоне - 103


# 18. Зависит ли выигрыш от количества посетителей матча? (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cov.html)

In [21]:
# извлекаем связь между посещаемостью матча и выигрышем домашней или гостевой команды
att_to_win_cov = data[['attendance', 'home_team_win', 'home_team_loss']].cov().iloc[[0], 1:]
att_to_win_cov.rename( columns = { 'home_team_loss': 'away_team_win' }, inplace = True )
print(
    f"Существует положительная связь между выигрышем домашней команды и посещаемостью матча:  {att_to_win_cov.iloc[0, 0]:.1f}"
)
print(
    f"Существует отрицательная связь между выигрышем гостевой команды и посещаемостью матча: {att_to_win_cov.iloc[0, 1]:.1f}"
)

# извлекаем данные по посещаемости матча и выигрышах домашней команды
att_to_home_win = data[['attendance', 'home_team_win']].copy()
att_to_home_win.rename(columns = {'home_team_win': 'win'}, inplace = True)
# извлекаем данные по посещаемости матча и выигрышах гостевой команды
att_to_away_win = data[['attendance', 'home_team_loss']].copy()
att_to_away_win.rename(columns = {'home_team_loss': 'win'}, inplace = True)
# объединяем данные по домашним и гостевым командам (каждый матч дает одну пару строк - для домашней и гостевой команды)
att_to_win = pd.concat([att_to_home_win, att_to_away_win], axis = 0).reset_index()
att_to_win_cov2 = att_to_win[['attendance', 'win']].cov().iloc[[0], 1:]
print(
    f"""По домашним и гостевым командам в целом существует слабая положительная связь между выигрышем и посещаемостью матча: 
    {att_to_win_cov2.iloc[0, 0]:.1f}"""
)

Существует положительная связь между выигрышем домашней команды и посещаемостью матча:  224.7
Существует отрицательная связь между выигрышем гостевой команды и посещаемостью матча: -220.5
По домашним и гостевым командам в целом существует слабая положительная связь между выигрышем и посещаемостью матча: 
    2.1


# 19. Правда ли что большинство проигрышных домашних матчей приходятся на Субботу и Воскресенье?

In [22]:
# количество проигранных игр в разбивке по командам, игравшим дома, и дне недели
home_losses_per_weekday = data.pivot_table(index = 'home_team', columns = 'day_of_week', values = 'home_team_loss', aggfunc = 'sum', fill_value = 0).reset_index()
# добавим атрибут количества проигранных игр в субботу и воскресенье
home_losses_per_weekday['weekend_losses'] = home_losses_per_weekday['Saturday'] + home_losses_per_weekday['Sunday']
# добавим атрибут количества проигранных игр в дни недели, отличных от субботы и воскресенья
home_losses_per_weekday['non_weekend_losses'] = home_losses_per_weekday['Monday'] + home_losses_per_weekday['Tuesday'] + home_losses_per_weekday['Wednesday'] + home_losses_per_weekday['Thursday'] + home_losses_per_weekday['Friday']

home_team_losses = home_losses_per_weekday[['home_team', 'weekend_losses', 'non_weekend_losses']]

# получим количества проигранных игр в разбивке по двум группам (или Суббота/Воскресенье, или остальные дни недели) 
home_teams_loss_stats = home_team_losses.reset_index()[['weekend_losses', 'non_weekend_losses']].sum()
print(
    f"""В целом, да. Команды дома проиграли игр в субботу и воскресенье ({home_teams_loss_stats.iloc[0]}) меньше, 
    чем в остальные дни ({home_teams_loss_stats.iloc[1]})."""
)

# отфильтруем команду, для которой большинство проигрышных домашних матчей приходятся на субботу и воскресенье
not_lucky_home_team = home_team_losses[home_team_losses['weekend_losses'] >= home_team_losses['non_weekend_losses']].iloc[0]
print(
    f"""Но существует частный случай. Команда {not_lucky_home_team.home_team} дома проиграла игр в субботу и воскресенье ({not_lucky_home_team.weekend_losses}) больше, 
    чем в остальные дни ({not_lucky_home_team.non_weekend_losses})."""
)

В целом, да. Команды дома проиграли игр в субботу и воскресенье (365) меньше, 
    чем в остальные дни (793).
Но существует частный случай. Команда Chicago Cubs дома проиграла игр в субботу и воскресенье (14) больше, 
    чем в остальные дни (13).


# 20. Правда ли что наибольшее количество ранов происходит в холодную погоду? (Холодной погодой считается погода ниже 0 градусов)

In [23]:
# добавим признак, является ли температура ниже 0 °C (с переводом °F в °C)
data['is_weather_cold'] = data['temperature'].apply(lambda x: (x - 32) / 1.8 < 0)
# добавим атрибут общего количества ранов для обеих команд
data['total_runs'] = data['away_team_runs'] + data['home_team_runs']
# получим статистику разделения общего количества ранов для всех команд по признаку is_weather_cold
cold_weather_stats = data[['is_weather_cold', 'total_runs']].groupby('is_weather_cold').sum().reset_index()
# количество ранов в нехолодную погоду
not_cold_runs_count = cold_weather_stats[cold_weather_stats['is_weather_cold'] == False].iloc[0].total_runs
# количество ранов в холодную погоду
cold_runs_count = cold_weather_stats[cold_weather_stats['is_weather_cold'] == True].iloc[0].total_runs
print(
    f"""Нет. Количество ранов в холодную погоду ({cold_runs_count}) меньше количества ранов в нехолодную погоду ({not_cold_runs_count})"""
)

Нет. Количество ранов в холодную погоду (12) меньше количества ранов в нехолодную погоду (21991)
