In [1]:
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup
import scipy.stats as stats

## Dados

### Cidades
Dados das cidades encontrados em: https://en.wikipedia.org/wiki/List_of_American_and_Canadian_cities_by_number_of_major_professional_sports_franchises

In [2]:
# pegando url da página onde se encontra a tabela de interesse
url = "https://en.wikipedia.org/wiki/List_of_American_and_Canadian_cities_by_number_of_major_professional_sports_franchises"
response = requests.get(url)
print(response.status_code)

200


In [3]:
# Transforma a página em texto html
soup = BeautifulSoup(response.text, 'html.parser')

# para encontrar a tabela, utilize o inspect na página
![](../input/table_class.jpg)

In [36]:
# Encontra e traz apenas o texto html referente a tabela de interesse
table_data = soup.find('table', {'class': "wikitable"})

In [40]:
# criando uma lista com a tabela
lista=pd.read_html(str(table_data))

In [42]:
# convertendo a lista para dataframe
cities=pd.DataFrame(lista[0])

In [117]:
# limpeza de dados cities (retirando a última linha e mantendo apenas as colunas importantes)
cities=cities.iloc[:-1,[0,3,5,6,7,8]]

In [123]:
# renomeando coluna
cities.rename(columns={'Population (2016 est.)[8]': 'Population_2016'}, inplace=True)

In [126]:
# transformando coluna de população em númerica
cities['Population_2016'] = pd.to_numeric(cities['Population_2016'])

In [127]:
# baixando dados em csv
cities.to_csv("../input/cities.csv")

In [128]:
# mantendo apenas as colunas necessárias
cities = cities[['Metropolitan area', 'Population_2016']]

### NHL
Dados da NHL encontrados em: https://www.hockey-reference.com/leagues/NHL_2019.html

In [137]:
# lendo url
url = "https://www.hockey-reference.com/leagues/NHL_2019.html"
nhl = pd.read_html(url, header=0)

In [138]:
# criando dataframes
nhl_0 = nhl[0]
nhl_1 = nhl[1]

In [None]:
# juntando os dataframes
frames = [nhl_0, nhl_1]
nhl_df = pd.concat(frames)

In [139]:
# renomeando coluna
nhl_df.rename(columns={'Unnamed: 0': 'Teams'}, inplace=True)

In [140]:
# função que retira o * do final de alguns nomes de times
nhl_df['Teams'] = nhl_df['Teams'].map(lambda x: x.rstrip('*'))

In [141]:
# dicionário relacionando nome do time ao nome da região
dict_city = {
    'Tampa Bay Lightning': 'Tampa Bay Area',
    'Boston Bruins': 'Boston',
    'Toronto Maple Leafs': 'Toronto',
    'Florida Panthers': 'Miami–Fort Lauderdale',
    'Detroit Red Wings': 'Detroit',
    'Montreal Canadiens': 'Montreal',
    'Ottawa Senators': 'Ottawa',
    'Buffalo Sabres': 'Buffalo',
    'Washington Capitals': 'Washington, D.C.',
    'Pittsburgh Penguins': 'Pittsburgh',
    'Philadelphia Flyers': 'Philadelphia',
    'Columbus Blue Jackets': 'Columbus',
    'New Jersey Devils': 'New York City',
    'Carolina Hurricanes': 'Raleigh',
    'New York Islanders': 'New York City',
    'New York Rangers': 'New York City',
    'Nashville Predators': 'Nashville',
    'Winnipeg Jets': 'Winnipeg',
    'Minnesota Wild': 'Minneapolis–Saint Paul',
    'Colorado Avalanche': 'Denver',
    'St. Louis Blues': 'St. Louis',
    'Dallas Stars': 'Dallas–Fort Worth',
    'Chicago Blackhawks': 'Chicago',
    'Vegas Golden Knights': 'Las Vegas',
    'Anaheim Ducks': 'Los Angeles',
    'San Jose Sharks': 'San Francisco Bay Area',
    'Los Angeles Kings': 'Los Angeles',
    'Calgary Flames': 'Calgary',
    'Edmonton Oilers': 'Edmonton',
    'Vancouver Canucks': 'Vancouver',
    'Arizona Coyotes': 'Phoenix'
}

In [142]:
# função que adiciona o dicionário como coluna no dataframe
nhl_df['Metropolitan area'] = nhl_df['Teams'].map(dict_city)

In [143]:
# resetando o index
nhl_df = nhl_df.reset_index(drop=True)

In [144]:
# retirando linhas e resetando o índice
nhl_df = nhl_df.drop([0, 9, 18, 26]).reset_index(drop=True)

In [145]:
# tornando colunas numéricas para fazer cálculo da razão
nhl_df['W'] = pd.to_numeric(nhl_df['W'])
nhl_df['L'] = pd.to_numeric(nhl_df['L'])

In [146]:
# relação vitórias/(vitórias + derrotas)
nhl_df['ratio'] = nhl_df['W']/(nhl_df['W'] + nhl_df['L'])

In [147]:
# baixando dados em csv
nhl_df.to_csv("../input/nhl.csv")

In [148]:
# mantendo apenas as colunas necessárias
nhl_df = nhl_df[['Teams', 'Metropolitan area', 'ratio']]

### NBA
Dados da NBA encontrados em: https://www.basketball-reference.com/leagues/NBA_2019.html

In [152]:
# lendo url
url = "https://www.basketball-reference.com/leagues/NBA_2019.html"
nba = pd.read_html(url, header=0)

In [155]:
# criando os dataframes
nba_0 = nba[0]
nba_1 = nba[1]

In [158]:
# renomeando os dataframes
nba_0.rename(columns={'Eastern Conference': 'Teams'}, inplace=True)
nba_1.rename(columns={'Western Conference': 'Teams'}, inplace=True)

In [159]:
# juntando os dataframes
frames = [nba_0, nba_1]
nba_df = pd.concat(frames)

In [161]:
# função que retira o '*' da coluna Teams
nba_df['Teams'] = nba_df['Teams'].map(lambda x: x.rstrip('*\xa0'))

In [171]:
# resetando o index
nba_df = nba_df.reset_index(drop=True)

In [163]:
# dicionário relacionando nome do time ao nome da região
dict_city = {
    'Toronto Raptors': 'Toronto',
    'Boston Celtics': 'Boston',
    'Philadelphia 76ers': 'Philadelphia',
    'Cleveland Cavaliers': 'Cleveland',
    'Indiana Pacers': 'Indianapolis',
    'Miami Heat': 'Miami–Fort Lauderdale',
    'Milwaukee Bucks': 'Milwaukee',
    'Washington Wizards': 'Washington, D.C.',
    'Detroit Pistons': 'Detroit',
    'Charlotte Hornets': 'Charlotte',
    'New York Knicks': 'New York City',
    'Brooklyn Nets': 'New York City',
    'Chicago Bulls': 'Chicago',
    'Orlando Magic': 'Orlando',
    'Atlanta Hawks': 'Atlanta',
    'Houston Rockets': 'Houston',
    'Golden State Warriors': 'San Francisco Bay Area',
    'Portland Trail Blazers': 'Portland',
    'Oklahoma City Thunder': 'Oklahoma City',
    'Utah Jazz': 'Salt Lake City',
    'New Orleans Pelicans': 'New Orleans',
    'San Antonio Spurs': 'San Antonio',
    'Minnesota Timberwolves': 'Minneapolis–Saint Paul',
    'Denver Nuggets': 'Denver',
    'Los Angeles Clippers': 'Los Angeles',
    'Los Angeles Lakers': 'Los Angeles',
    'Sacramento Kings': 'Sacramento',
    'Dallas Mavericks': 'Dallas–Fort Worth',
    'Memphis Grizzlies': 'Memphis',
    'Phoenix Suns': 'Phoenix'
}

In [165]:
# função que adiciona o dicionário como coluna no dataframe
nba_df['Metropolitan area'] = nba_df['Teams'].map(dict_city)

In [166]:
# tornando colunas numéricas para fazer cálculo da razão
nba_df['W'] = pd.to_numeric(nba_df['W'])
nba_df['L'] = pd.to_numeric(nba_df['L'])

In [167]:
# relação vitórias/(vitórias + derrotas)
nba_df['ratio'] = nba_df['W']/(nba_df['W'] + nba_df['L'])

In [168]:
# baixando dados em csv
nba_df.to_csv("../input/nba.csv")

In [169]:
# mantendo apenas as colunas necessárias
nba_df = nba_df[['Teams', 'Metropolitan area', 'ratio']]

### MLB
Dados da MLB encontrados em: https://www.baseball-reference.com/leagues/majors/2018.shtml

In [194]:
# lendo url
url = "https://www.baseball-reference.com/leagues/majors/2018-standings.shtml"
mlb = pd.read_html(url, header=0)


In [205]:
# criando os dataframes
mlb_0 = mlb[0]
mlb_1 = mlb[1]
mlb_2 = mlb[2]
mlb_3 = mlb[3]
mlb_4 = mlb[4]
mlb_5 = mlb[5]

In [207]:
# juntando os dataframes
frames = [mlb_0, mlb_1, mlb_2, mlb_3, mlb_4, mlb_5]
mlb_df = pd.concat(frames)

In [211]:
# resetando o index
mlb_df = mlb_df.reset_index(drop=True)

In [212]:
# renomeando a coluna do time
mlb_df.rename(columns={'Tm': 'Teams'}, inplace=True)

In [214]:
# dicionário relacionando nome do time ao nome da região
dict_city = {
    'Boston Red Sox': 'Boston',
    'New York Yankees': 'New York City',
    'Tampa Bay Rays': 'Tampa Bay Area',
    'Toronto Blue Jays': 'Toronto',
    'Baltimore Orioles': 'Baltimore',
    'Cleveland Indians': 'Cleveland',
    'Minnesota Twins': 'Minneapolis–Saint Paul',
    'Detroit Tigers': 'Detroit',
    'Chicago White Sox': 'Chicago',
    'Kansas City Royals': 'Kansas City',
    'Houston Astros': 'Houston',
    'Oakland Athletics': 'San Francisco Bay Area',
    'Seattle Mariners': 'Seattle',
    'Los Angeles Angels': 'Los Angeles',
    'Texas Rangers': 'Dallas–Fort Worth',
    'Atlanta Braves': 'Atlanta',
    'Washington Nationals': 'Washington, D.C.',
    'Philadelphia Phillies': 'Philadelphia',
    'New York Mets': 'New York City',
    'Miami Marlins': 'Miami–Fort Lauderdale',
    'Milwaukee Brewers': 'Milwaukee',
    'Chicago Cubs': 'Chicago',
    'St. Louis Cardinals': 'St. Louis',
    'Pittsburgh Pirates': 'Pittsburgh',
    'Cincinnati Reds': 'Cincinnati',
    'Los Angeles Dodgers': 'Los Angeles',
    'Colorado Rockies': 'Denver',
    'Arizona Diamondbacks': 'Phoenix',
    'San Francisco Giants': 'San Francisco Bay Area',
    'San Diego Padres': 'San Diego'
}

In [216]:
# função que adiciona o dicionário como coluna no dataframe
mlb_df['Metropolitan area'] = mlb_df['Teams'].map(dict_city)

In [217]:
# tornando colunas numéricas para fazer cálculo da razão
mlb_df['W'] = pd.to_numeric(mlb_df['W'])
mlb_df['L'] = pd.to_numeric(mlb_df['L'])

In [218]:
# relação vitórias/(vitórias + derrotas)
mlb_df['ratio'] = mlb_df['W']/(mlb_df['W'] + mlb_df['L'])

In [219]:
# baixando dados em csv
mlb_df.to_csv("../input/mlb.csv")

In [222]:
# mantendo apenas as colunas necessárias
mlb_df = mlb_df[['Teams', 'Metropolitan area', 'ratio']]

### NFL
Dados da NFL encontrados em: https://www.pro-football-reference.com/years/2018/

In [252]:
# lendo url
url = "https://www.pro-football-reference.com/years/2018/"
nfl = pd.read_html(url, header=0)

In [253]:
# criando os dataframes
nfl_0 = nfl[0]
nfl_1 = nfl[1]

In [254]:
# juntando os dataframes
frames = [nfl_0, nfl_1]
nfl_df = pd.concat(frames)

In [255]:
# resetando o index
nfl_df = nfl_df.reset_index(drop=True)

In [256]:
# renomeando a coluna do time
nfl_df.rename(columns={'Tm': 'Teams'}, inplace=True)

In [257]:
# função que retira o * e + do final de alguns nomes de times
nfl_df['Teams'] = nfl_df['Teams'].map(lambda x: x.rstrip('*'))
nfl_df['Teams'] = nfl_df['Teams'].map(lambda x: x.rstrip('+'))

In [259]:
# retirando linhas e resetando o índice
nfl_df = nfl_df.drop([0, 5, 10, 15, 20, 25, 30, 35]).reset_index(drop=True)

In [261]:
# dicionário relacionando nome do time ao nome da região
dict_city = {
    'New England Patriots': 'Boston',
    'Miami Dolphins': 'Miami–Fort Lauderdale',
    'Buffalo Bills': 'Buffalo',
    'New York Jets': 'New York City',
    'Baltimore Ravens': 'Baltimore',
    'Pittsburgh Steelers': 'Pittsburgh',
    'Cleveland Browns': 'Cleveland',
    'Cincinnati Bengals': 'Cincinnati',
    'Houston Texans': 'Houston',
    'Indianapolis Colts': 'Indianapolis',
    'Tennessee Titans': 'Nashville',
    'Jacksonville Jaguars': 'Jacksonville',
    'Kansas City Chiefs': 'Kansas City',
    'Los Angeles Chargers': 'Los Angeles',
    'Denver Broncos': 'Denver',
    'Oakland Raiders': 'San Francisco Bay Area',
    'Dallas Cowboys': 'Dallas–Fort Worth',
    'Philadelphia Eagles': 'Philadelphia',
    'Washington Redskins': 'Washington, D.C.',
    'New York Giants': 'New York City',
    'Chicago Bears': 'Chicago',
    'Minnesota Vikings': 'Minneapolis–Saint Paul',
    'Green Bay Packers': 'Green Bay',
    'Detroit Lions': 'Detroit',
    'New Orleans Saints': 'New Orleans',
    'Carolina Panthers': 'Charlotte',
    'Atlanta Falcons': 'Atlanta',
    'Tampa Bay Buccaneers': 'Tampa Bay Area',
    'Los Angeles Rams': 'Los Angeles',
    'Seattle Seahawks': 'Seattle',
    'San Francisco 49ers': 'San Francisco Bay Area',
    'Arizona Cardinals': 'Phoenix'
}

In [262]:
# função que adiciona o dicionário como coluna no dataframe
nfl_df['Metropolitan area'] = nfl_df['Teams'].map(dict_city)

In [264]:
# tornando colunas numéricas para fazer cálculo da razão
nfl_df['W'] = pd.to_numeric(nfl_df['W'])
nfl_df['L'] = pd.to_numeric(nfl_df['L'])

In [265]:
# relação vitórias/(vitórias + derrotas)
nfl_df['ratio'] = nfl_df['W']/(nfl_df['W'] + nfl_df['L'])

In [266]:
# mantendo apenas as colunas necessárias
nfl_df = nfl_df[['Teams', 'Metropolitan area', 'ratio']]

## Questões