# Домашнее задание на проверку знаний библиотеки для анализа данных Pandas.

Вам представлен датасет, который содержит информацию по результатам сезона 2016 года игры в бейсбол.

Вам необходимо загрузить датасет (он находится в архиве с текущим домашним заданием). Провести его очистку, если это необходимо и ответить на поставленные аналитические
вопросы.

Список колонок, представленных в датасете:

---
* attendance        - количество зрителей матча
* away_team         - название гостевой команды
* away_team_errors  - количество ошибок гостевой команды
* away_team_hits    - количество хитов гостевой команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* away_team_runs    - количество ранов гостевой команды (ран в бейсболе - очко заработанное игроком нападения)
* date              - дата проведения матча
* field_type        - тип игрового поля
* game_type         - тип игры
* home_team         - название домашней команды
* home_team_errors  - количество ошибок домашней команды
* home_team_hits    - количество хитов домашней команды (хит в бейсболе - удар при котором отбивающий достиг первой базы)
* home_team_runs    - количество ранов домашней команды (ран в бейсболе - очко заработанное игроком нападения)
* start_time        - время начала игрового матча
* venue             - название места проведения матча (стадион, поле, арена)
* day_of_week       - день недели проведения матча
* temperature       - температура воздуха в день проведения матча в фаренгейтах
* wind_speed        - скорость ветра в день проведения матча
* wind_direction    - направление скорости ветра
* sky               - облачность
* total_runs        - общее количество ранов для двух команд
* game_hours_dec    - длительность матча указаная в часах
* season            - тип игрового сезона
* home_team_win     - результат домашней команды (1 - выигрыш)
* home_team_loss    - результат домашней команды (0 - проигрыш)
* home_team_outcome - исход матча
---

Всего в задании 20 вопросов. За каждый правильный вопрос начисляется 5 баллов. Таким образом за все правильные ответы вы получите - 100 баллов. Оценка затем будет приведена к 10-ти бальной шкале.

---

**Кроме того, баллы могут быть снижены за**:

- 1 балл снижается за качество кода - старайтесь чтобы код был максимально лаконичным. Названия переменных (если они используются) должны отражать максимальную ее сущность. Вывод старайтесь делать минимальным, так как первичная цель - сделать качественный анализ, чтобы быстро ответить на поставленный вопрос (никаких таблиц на 100 строк).


- 5 баллов снижается если ответ на домашнюю работу будет прислан в виде скриншота, ноутбука, текстового файла и прочих способов. Используйте при отправке на проверку только GitHub/GitLab либо прочий сервис. Присылать домашнюю работу необходимо ссылкой на ваш репозиторий на адрес электронной почты maratmovlamov2017@gmail.com


- за каждый день просрочки дедлайна снижается по 10 баллов. Один день - минус 10 баллов, второй день минус 10 баллов, третий день минус 10 баллов. Соблюдайте сроки и не приступайте к домашнему заданию в последний момент.

---

Удачи вам в поисках истинны :)

In [1]:
# Импортируйте все необходимые библиотеки и модули которые вам необходимы
import pandas as pd
pd.set_option('display.max_columns', 30)

In [3]:
# Загрузите датасет и проведите его очистку и форматирование если это необходимо
data = pd.read_csv('./baseball_games.csv', index_col = 0)

In [4]:
# Из колонок даты и времени создадим новую, типа datetime. Т.к. время локальное и timezone неизвестна, часовой пояс учитывать не будем
def parse_time(str_t):
    str_t = str_t.replace(' Local', '')
    str_t = str_t.upper()
    str_t = str_t.replace('.', '')
    return str_t
data['start_time'] = data['start_time'].apply(parse_time)
data['start_datetime'] = pd.to_datetime(data['date'] + ' ' + data['start_time'], format='%Y-%m-%d %I:%M %p')

In [6]:
data.sort_values( by = ['start_datetime'], ascending = [True], inplace=True)
data.reset_index(drop=True, inplace=True)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2463 entries, 0 to 2462
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   attendance         2460 non-null   float64       
 1   away_team          2463 non-null   object        
 2   away_team_errors   2463 non-null   int64         
 3   away_team_hits     2463 non-null   int64         
 4   away_team_runs     2463 non-null   int64         
 5   date               2463 non-null   object        
 6   field_type         2463 non-null   object        
 7   game_type          2463 non-null   object        
 8   home_team          2463 non-null   object        
 9   home_team_errors   2463 non-null   int64         
 10  home_team_hits     2463 non-null   int64         
 11  home_team_runs     2463 non-null   int64         
 12  start_time         2463 non-null   object        
 13  venue              2463 non-null   object        
 14  day_of_w

In [440]:
data.isnull().sum()
data['wind_direction'].value_counts()
# Найдены 3 значения Nan в attendance. В wind_direction - 437 значения 'in unknown direction'. Пока оставляем все как есть

attendance           3
away_team            0
away_team_errors     0
away_team_hits       0
away_team_runs       0
date                 0
field_type           0
game_type            0
home_team            0
home_team_errors     0
home_team_hits       0
home_team_runs       0
start_time           0
venue                0
day_of_week          0
temperature          0
wind_speed           0
wind_direction       0
sky                  0
total_runs           0
game_hours_dec       0
season               0
home_team_win        0
home_team_loss       0
home_team_outcome    0
start_datetime       0
dtype: int64

In [7]:
season_data = data[data['season'] == 'regular season'].copy()

# 1. На какую игру пришло максимальное количество зрителей за весь сезон игр?

In [10]:
season_data[season_data['attendance'] == season_data['attendance'].max()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
2256,53621.0,San Francisco Giants,1,11,2,2016-09-20,on grass,Night Game,Los Angeles Dodgers,0,9,0,7:10 PM,Dodger Stadium,Tuesday,77.0,6.0,out to Rightfield,Cloudy,2,3.6,regular season,0,1,Loss,2016-09-20 19:10:00


# 2. Какая игра была самая холодная (temperature) за весь сезон?

In [11]:
season_data[season_data['temperature'] == season_data['temperature'].min()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
61,32419.0,New York Yankees,1,13,8,2016-04-09,on grass,Day Game,Detroit Tigers,1,7,4,1:10 PM,Comerica Park,Saturday,31.0,18.0,from Left to Right,Cloudy,12,3.333333,regular season,0,1,Loss,2016-04-09 13:10:00


# 3. Какая игра была самая теплая за весь сезон?

In [12]:
season_data[season_data['temperature'] == season_data['temperature'].max()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
515,21753.0,San Francisco Giants,0,8,3,2016-05-13,on grass,Night Game,Arizona Diamondbacks,0,8,1,6:40 PM,Chase Field,Friday,101.0,9.0,in unknown direction,Sunny,4,3.0,regular season,0,1,Loss,2016-05-13 18:40:00


# 4. Какая игра в сезоне была самая долгая по продолжительности матча?

In [13]:
season_data[season_data['game_hours_dec'] == season_data['game_hours_dec'].max()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
1185,45825.0,Cleveland Indians,0,15,2,2016-07-01,on turf,Day Game,Toronto Blue Jays,2,11,1,1:20 PM,Rogers Centre,Friday,68.0,0.0,in unknown direction,In Dome,3,6.216667,regular season,0,1,Loss,2016-07-01 13:20:00


# 5. Какая игра в сезоне была самая короткая по продолжительности матча?

In [14]:
season_data[season_data['game_hours_dec'] == season_data['game_hours_dec'].min()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
2376,19991.0,Chicago Cubs,1,4,1,2016-09-29,on grass,Night Game,Pittsburgh Pirates,0,2,1,7:06 PM,PNC Park,Thursday,63.0,12.0,in from Leftfield,Overcast,2,1.25,regular season,0,0,Loss,2016-09-29 19:06:00


# 6. Сколько матчей в сезоне закончилось ничьей?

In [15]:
# Не понятно, по какому признаку считать: home_team_outcome или home_team_loss/home_team_win
season_data[(season_data['home_team_outcome'] != 'Win') & (season_data['home_team_outcome'] != 'Loss')].shape[0]

0

In [18]:
season_data[(season_data['home_team_loss'] == 0) & (season_data['home_team_win'] == 0)].shape[0]

1

# 7. Какая игра была последней в сезоне?

In [19]:
season_data[season_data['start_datetime'] == season_data['start_datetime'].max()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
2427,36787.0,Toronto Blue Jays,0,9,2,2016-10-02,on grass,Day Game,Boston Red Sox,1,4,1,3:17 PM,Fenway Park,Sunday,56.0,6.0,out to Leftfield,Unknown,3,3.233333,regular season,0,1,Loss,2016-10-02 15:17:00


# 8. У какой игры было минимальное количество зрителей?

In [20]:
season_data[season_data['attendance'] == season_data['attendance'].min()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
401,8766.0,Detroit Tigers,0,5,0,2016-05-04,on grass,Night Game,Cleveland Indians,0,5,4,6:10 PM,Progressive Field,Wednesday,54.0,11.0,from Left to Right,Overcast,4,2.316667,regular season,1,0,Win,2016-05-04 18:10:00


# 9. Какая игра в сезоне была самая ветренная?

In [21]:
season_data[season_data['wind_speed'] == season_data['wind_speed'].max()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
553,35736.0,Houston Astros,2,8,9,2016-05-15,on grass,Day Game,Boston Red Sox,3,14,10,1:34 PM,Fenway Park,Sunday,58.0,25.0,out to Rightfield,Cloudy,19,3.666667,regular season,1,0,Win,2016-05-15 13:34:00
952,41543.0,Milwaukee Brewers,1,11,5,2016-06-13,on grass,Night Game,San Francisco Giants,0,14,11,7:15 PM,AT&T Park,Monday,58.0,25.0,out to Centerfield,Cloudy,16,3.633333,regular season,1,0,Win,2016-06-13 19:15:00


# 10. В какой игре получили максимальное количество очков? (*ранов)

In [22]:
season_data[season_data['total_runs'] == season_data['total_runs'].max()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
796,22588.0,Seattle Mariners,1,16,16,2016-06-02,on grass,Night Game,San Diego Padres,1,20,13,6:10 PM,Petco Park,Thursday,76.0,10.0,out to Rightfield,Sunny,29,3.833333,regular season,0,1,Loss,2016-06-02 18:10:00


# 11. Какая игра содержала максимальное количество ошибок домашней команды?

In [23]:
season_data[season_data['home_team_errors'] == season_data['home_team_errors'].max()]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
1507,22581.0,Arizona Diamondbacks,1,11,8,2016-07-27,on grass,Night Game,Milwaukee Brewers,5,5,1,7:10 PM,Miller Park,Wednesday,77.0,9.0,in from Leftfield,Cloudy,9,2.933333,regular season,0,1,Loss,2016-07-27 19:10:00


# 12. В какой игре было максимальное количество ранов? (*хитов)

In [24]:
total_hits = season_data['away_team_hits'] + season_data['home_team_hits']
max_val = total_hits.max()
season_data[total_hits == max_val]

Unnamed: 0,attendance,away_team,away_team_errors,away_team_hits,away_team_runs,date,field_type,game_type,home_team,home_team_errors,home_team_hits,home_team_runs,start_time,venue,day_of_week,temperature,wind_speed,wind_direction,sky,total_runs,game_hours_dec,season,home_team_win,home_team_loss,home_team_outcome,start_datetime
1237,36253.0,Texas Rangers,0,16,5,2016-07-04,on grass,Day Game,Boston Red Sox,2,21,12,1:37 PM,Fenway Park,Monday,84.0,11.0,out to Centerfield,Cloudy,17,3.666667,regular season,1,0,Win,2016-07-04 13:37:00


# 13. Выведите количество игр которая сыграла каждая команда в данном сезоне?

In [26]:
home_team_data = season_data.groupby(['home_team'])['home_team'].count().to_frame()
away_team_data = season_data.groupby(['away_team'])['away_team'].count().to_frame()
home_team_data.join(away_team_data, lsuffix='home_team', rsuffix='away_team').fillna(0).sum(axis=1)

home_team
Arizona Diamondbacks             162
Atlanta Braves                   161
Baltimore Orioles                162
Boston Red Sox                   162
Chicago Cubs                     162
Chicago White Sox                162
Cincinnati Reds                  162
Cleveland Indians                161
Colorado Rockies                 162
Detroit Tigers                   161
Houston Astros                   162
Kansas City Royals               162
Los Angeles Angels of Anaheim    162
Los Angeles Dodgers              162
Miami Marlins                    161
Milwaukee Brewers                162
Minnesota Twins                  162
New York Mets                    162
New York Yankees                 162
Oakland Athletics                162
Philadelphia Phillies            162
Pittsburgh Pirates               162
San Diego Padres                 162
San Francisco Giants             162
Seattle Mariners                 162
St. Louis Cardinals              162
Tampa Bay Rays              

# 14. Какая команда выиграла наибольшое количество матчей в сезоне? (Будьте внимательны с типом матча в сезоне - season).

In [27]:
win_home_team_data = season_data.groupby('home_team')['home_team_win'].sum().to_frame()
win_away_team_data = season_data.groupby('away_team')['home_team_loss'].sum().to_frame()
win_team_data = win_home_team_data.join(win_away_team_data, lsuffix='home_team_win', rsuffix='home_team_loss').fillna(0).sum(axis=1)
win_team_data[win_team_data == win_team_data.max()]

home_team
Chicago Cubs    103
dtype: int64

# 15. Какая команда выиграла наибольшее количество домашних матчей в сезоне?

In [28]:
win_home_team_data = season_data.groupby('home_team')['home_team_win'].sum()
win_home_team_data[win_home_team_data == win_home_team_data.max()]

home_team
Chicago Cubs    57
Name: home_team_win, dtype: int64

# 16. Какая команда выиграла наибольшее количество гостевых матчей в сезоне?

In [29]:
win_away_team_data = season_data.groupby('away_team')['home_team_loss'].sum()
win_away_team_data[win_away_team_data == win_away_team_data.max()]

away_team
St. Louis Cardinals    48
Name: home_team_loss, dtype: int64

# 17. Какая команда проиграла наибольшее количество матчей в сезоне?

In [30]:
loss_home_team_data = season_data.groupby('home_team')['home_team_loss'].sum().to_frame()
loss_away_team_data = season_data.groupby('away_team')['home_team_win'].sum().to_frame()
loss_team_data = loss_home_team_data.join(loss_away_team_data, lsuffix='home_team_loss', rsuffix='home_team_win').fillna(0).sum(axis=1)
loss_team_data[loss_team_data == loss_team_data.max()]

home_team
Minnesota Twins    103
dtype: int64

# 18. Зависит ли выигрышь от количества посетителей матча? (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cov.html)

In [32]:
cols = ['attendance', 'home_team_win']
print(season_data[cols].corr())
print("Не зависит")

               attendance  home_team_win
attendance       1.000000       0.049726
home_team_win    0.049726       1.000000
Не зависит


# 19. Правда ли что большинство проигрышных домашних матчей приходятся на Субботу и Воскресенье?

In [33]:
home_team_loss_count_all= season_data[season_data['home_team_loss'] == 1].shape[0]
home_team_loss_count_saturday = season_data[(season_data['home_team_loss'] == 1) & (season_data['day_of_week'] == 'Saturday')].shape[0]
home_team_loss_count_sunday = season_data[(season_data['home_team_loss'] == 1) & (season_data['day_of_week'] == 'Sunday')].shape[0]

In [34]:
pct_loss_weekday = (home_team_loss_count_saturday + home_team_loss_count_saturday) / home_team_loss_count_all * 100
if pct_loss_weekday <= 50:
    print("False")
else:
    print("True")

False


# 20. Правда ли что наибольшее количество ранов происходит в холодную погоду? (Холодной погодой считается погода ниже 0 градусов)

In [39]:
def celsius_to_fahr(temp):
    return temp * 9 / 5 + 32
season_data['cold']= season_data['temperature'] < celsius_to_fahr(0)
games_by_wheather = season_data['cold'].value_counts()
num_cold_games = games_by_wheather[True]
num_warm_games = games_by_wheather[False]
print("Количество игр в холодную погоду: {}".format(num_cold_games))
# Невозможно ответить на вопрос, т.к. недостаточно данных - был всего лишь один матч в холодную погоду

Количество игр в холодную погоду: 1


In [40]:
# В ином случае, можно сделать так:
total_runs_by_wheather = season_data.groupby('cold')['total_runs'].sum()
cold_total_runs = total_runs_by_wheather[True]
warm_total_runs = total_runs_by_wheather[False]
cold_mean_runs = cold_total_runs / num_cold_games
warm_mean_runs = warm_total_runs / num_warm_games
print("В холодную погоду забивают в среднем {} ранов, в теплую - {:.1f} ранов".format(cold_mean_runs, warm_mean_runs))
if cold_mean_runs > warm_mean_runs:
    print(True)
else:
    print(False)

В холодную погоду забивают в среднем 12.0 ранов, в теплую - 9.0 ранов
True
