### Importa as bibliotecas necessárias

In [None]:
import pandas as pd
import numpy as np
import random 

### Cria um dicionário com dados sobre cidades e populações
### Converte o dicionário em um DataFrame do pandas

In [None]:
city_data = {'City':['New York City', 'Paris', 'Barcelona', 'Rome'], 'Country': ['United States', 'France', 'Spain', 'Italy'],'Population': [8600000, 2141000, 5515000, 2873000]}
cities = pd.DataFrame(city_data)
cities

### As duas linhas abaixo são equivalentes e transpõem o DataFrame (linhas viram colunas e vice-versa)

In [None]:
# The two lines below are equivalent
cities.transpose()
cities.T

### Gera uma matriz 3x5 de números inteiros aleatórios entre 1 e 100

In [None]:
random_data = np.random.randint(1, 101, [3, 5])
random_data

### Converte a matriz gerada para um DataFrame do pandas

In [None]:
pd.DataFrame(random_data)

### Define rótulos para as linhas e cria um DataFrame com os dados aleatórios

In [None]:
row_labels = ['Morning', 'Afternoon', 'Evening']
temperatures = pd.DataFrame(random_data, row_labels)
temperatures

### Define rótulos para as linhas e colunas e cria um DataFrame formatado

In [None]:
row_labels = ['Morning', 'Afternoon', 'Evening']
column_labels = ('Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday')
temperatures = pd.DataFrame(random_data, row_labels, column_labels)
temperatures

### Lê o arquivo 'nba.csv' e carrega os dados em um DataFrame

In [None]:
pd.read_csv('nba.csv')

### Lê o arquivo 'nba.csv' e converte a coluna 'Birthday' para o formato de data

In [None]:
pd.read_csv('nba.csv', parse_dates = ['Birthday'])

### Armazena o DataFrame lido na variável 'nba'

In [None]:
nba = pd.read_csv('nba.csv', parse_dates = ['Birthday'])

### Exibe os tipos de dados de cada coluna do DataFrame

In [None]:
nba.dtypes

### Conta quantas colunas possuem cada tipo de dado

In [None]:
nba.dtypes.value_counts()

### Exibe os índices do DataFrame

In [None]:
nba.index

### Exibe os nomes das colunas do DataFrame

In [None]:
nba.columns

### Exibe o número de dimensões do DataFrame (deve retornar 2, pois é uma tabela)

In [None]:
nba.ndim

### Retorna a tupla (número de linhas, número de colunas) do DataFrame

In [None]:
nba.shape

### Retorna o número total de elementos no DataFrame (linhas * colunas)

In [None]:
nba.size

### Conta os valores não nulos em cada coluna

In [None]:
nba.count()

### Conta o número total de valores não nulos em todo o DataFrame

In [None]:
nba.count().sum()

### Cria um DataFrame com valores NaN e números inteiros

In [None]:
data = {'A': [1, np.nan], 'B': [2, 3] }

df = pd.DataFrame(data)
df

### Retorna o número total de elementos do DataFrame

In [None]:
df.size

### Conta os valores não nulos em cada coluna

In [None]:
df.count()

### Conta o número total de valores não nulos no DataFrame

In [None]:
df.count().sum()

### Exibe as duas primeiras linhas do DataFrame

In [None]:
nba.head(2)

### Exibe as duas últimas linhas do DataFrame

In [None]:
nba.tail(2)

### Retorna 3 linhas aleatórias do DataFrame

In [None]:
nba.sample(3)

### Conta quantos valores únicos existem em cada coluna

In [None]:
nba.nunique()

### Retorna o valor máximo de cada coluna (para colunas numéricas)

In [None]:
nba.max()

### Retorna o valor mínimo de cada coluna (para colunas numéricas)

In [None]:
nba.min()

### Retorna as 4 maiores linhas com base na coluna 'Salary'

In [None]:
nba.nlargest(4, 'Salary')

### Retorna as 4 menores linhas com base na coluna 'Birthday'

In [None]:
nba.nsmallest(4, 'Birthday')

### Soma dos valores numéricos de cada coluna

In [None]:
nba.sum(numeric_only = True)

### Média dos valores numéricos de cada coluna

In [None]:
nba.mean(numeric_only = True)

### Mediana dos valores numéricos de cada coluna

In [None]:
nba.median(numeric_only = True)

### Moda dos valores numéricos de cada coluna


In [None]:
nba.mode(numeric_only = True)

### Desvio padrão dos valores numéricos de cada coluna

In [None]:
nba.std(numeric_only = True)

### As duas linhas abaixo são equivalentes: ordenam o DataFrame pela coluna 'Name' em ordem crescente

In [None]:
# The two lines below are equivalent
nba.sort_values('Name')
nba.sort_values(by = 'Name')

### Ordena o DataFrame pela coluna 'Name' em ordem decrescente e exibe as primeiras linhas

In [None]:
nba.sort_values('Name', ascending = False).head()

### Ordena o DataFrame pela coluna 'Birthday' em ordem decrescente e exibe as primeiras linhas

In [None]:
nba.sort_values('Birthday', ascending = False).head()

### Ordena o DataFrame primeiro pela coluna 'Team' e depois pela coluna 'Name'

In [None]:
nba.sort_values(by = ['Team', 'Name'])

### Ordena o DataFrame primeiro pela coluna 'Team' e depois pela coluna 'Name', ambos em ordem decrescente

In [None]:
nba.sort_values(['Team', 'Name'], ascending = False)

### Ordena o DataFrame pela coluna 'Team' em ordem crescente e pela coluna 'Salary' em ordem decrescente

In [None]:
nba.sort_values(by = ['Team', 'Salary'], ascending = [True, False])

#### Ordena o DataFrame da mesma forma que acima e atualiza a variável nba

In [None]:
nba = nba.sort_values(by = ['Team', 'Salary'], ascending = [True, False])

#### Exibe as primeiras linhas do DataFrame

In [None]:
nba.head()

### As duas linhas abaixo são equivalentes: ordenam o DataFrame pelo índice em ordem crescente

In [None]:
# The two lines below are equivalent
nba.sort_index().head()
nba.sort_index(ascending = True).head()

### Ordena o DataFrame pelo índice em ordem decrescente

In [None]:
nba.sort_index(ascending = False).head()

### Atualiza o DataFrame para manter a ordenação pelo índice

In [None]:
nba = nba.sort_index()

### As duas linhas abaixo são equivalentes: ordenam as colunas alfabeticamente

In [None]:
# The two lines below are equivalent
nba.sort_index(axis = 'columns').head()
nba.sort_index(axis = 1).head()

### Ordena as colunas em ordem decrescente

In [None]:
nba.sort_index(axis = 'columns', ascending = False).head()

### As duas linhas abaixo são equivalentes: definem a coluna 'Name' como índice

In [None]:
# The two lines below are equivalent
nba.set_index(keys = 'Name')
nba.set_index('Name')

### Define a coluna 'Name' como índice e atualiza o DataFrame

In [None]:
nba = nba.set_index(keys = 'Name')

### Lê o arquivo CSV e define 'Name' como índice

In [None]:
nba = pd.read_csv('nba.csv', parse_dates = ['Birthday'], index_col = 'Name')

### Seleciona a coluna 'Salary'

In [None]:
nba.Salary

### Seleciona a coluna 'Position'

In [None]:
nba['Position']

### Seleciona as colunas 'Salary' e 'Birthday'

In [None]:
nba[['Salary', 'Birthday']]

### Seleciona apenas colunas do tipo 'object' (strings)

In [None]:
nba[['Birthday', 'Salary']].head()

### Seleciona apenas colunas do tipo 'object' (strings)

In [None]:
nba.select_dtypes(include = 'object')

### Seleciona colunas excluindo os tipos 'object' e 'int'

In [None]:
nba.select_dtypes(exclude = ['object', 'int'])

### Seleciona os dados do jogador 'LeBron James'

In [None]:
nba.loc['LeBron James']

### Seleciona os dados dos jogadores 'Kawhi Leonard' e 'Paul George'

In [None]:
nba.loc[['Kawhi Leonard', 'Paul George']]

### Seleciona os dados dos jogadores 'Kawhi Leonard' e 'Paul George'

In [None]:
nba.loc[['Paul George', 'Kawhi Leonard']]

### Filtra os jogadores com nomes entre 'Otto Porter' e 'Patrick Beverley' (ordem alfabética)

In [None]:
nba.sort_index().loc["Otto Porter":"Patrick Beverley"]

### Lista de jogadores e exibe os dois primeiros

In [None]:
players = ['Otto Porter', 'PJ Dozier', 'PJ Washington']
players[0:2]

### Seleciona todos os jogadores até 'Al Horford' (ordem alfabética)

In [None]:
nba.sort_index().loc[:"Al Horford"]

### Tentativa de acessar um jogador cujo nome pode estar incorreto ('Steph Carry' deveria ser 'Stephen Curry')

In [None]:
nba.loc['Steph Carry']

### Seleciona a linha de índice 300

In [None]:
nba.iloc[300]

### Seleciona as linhas de índices 100, 200, 300 e 400

In [None]:
nba.iloc[[100, 200, 300, 400]]

### Seleciona as linhas de índice 400 a 403

In [None]:
nba.iloc[400:404]

### Seleciona as duas primeiras linhas do DataFrame

In [None]:
nba.iloc[:2]

### Seleciona todas as linhas a partir do índice 447

In [None]:
nba.iloc[447:]

### Seleciona as últimas 10 a 6 linhas do DataFrame

In [None]:
nba.iloc[-10:-6]

### Seleciona as 10 primeiras linhas com passo 2 (linhas pares)

In [None]:
nba.iloc[0:10:2]

### Seleciona a equipe de 'Giannis Antetokounmpo'

In [None]:
nba.loc['Giannis Antetokounmpo', 'Team']

### Seleciona as colunas 'Position' e 'Birthday' de 'James Harden'

In [None]:
nba.loc['James Harden', ['Position', 'Birthday']]

### Seleciona as colunas 'Team' e 'Salary' para 'Russell Westbrook' e 'Anthony Davis'

In [None]:
nba.loc[['Russell Westbrook', 'Anthony Davis'], ['Team', 'Salary']]

### Seleciona colunas da 'Position' até 'Salary' para 'Joel Embiid'

In [None]:
nba.loc['Joel Embiid', 'Position':'Salary']

### Seleciona colunas da 'Salary' até 'Position' para 'Joel Embiid' (ordem invertida)

In [None]:
nba.loc['Joel Embiid','Salary':'Position']

### Seleciona o valor da linha 57 e coluna 3 usando iloc

In [None]:
nba.iloc[57, 3]

### Seleciona as linhas de índice 100 a 103 e as três primeiras colunas

In [None]:
nba.iloc[100:104, :3]

### Acessa o valor na linha de 'Austin Rivers' e coluna 'Birthday' com at

In [None]:
nba.at['Austin Rivers','Birthday']

### Acessa o valor da linha 263 e coluna 1 usando iat

In [None]:
nba.iat[263, 1]

### Mede o tempo de acesso ao valor usando at

In [None]:
%%timeit
nba.at['Austin Rivers', 'Birthday']

### Mede o tempo de acesso ao valor usando loc

In [None]:
%%timeit
nba.loc['Austin Rivers', 'Birthday']

### Mede o tempo de acesso ao valor usando iat

In [None]:
%%timeit
nba.iat[263, 1]

### Mede o tempo de acesso ao valor usando iloc

In [None]:
%%timeit
nba.iloc[263, 1]