# Introdução ao Pandas
# Séries

#### 1 - Importar o Pandas

In [None]:
import pandas as pd
pd.Series?

#### 2 - Lista de strings em Série

In [None]:
animals = ['Gato', 'Cachorro', 'Rato']
pd.Series(animals)

#### 3 - Lista de inteiros em Série

In [None]:
numbers = [1,2, None]
pd.Series(numbers)

#### 4 - None vs. NAN

In [None]:
import numpy as np

animals = ['Tiger', 'Bear', None]
pd.Series(animals)

In [None]:
numbers = [1, 2, None]
pd.Series(numbers)

#### 5 - NAN não é None

In [None]:
import numpy as np
np.nan == None

#### 6 - NAN == NAN é falso

In [None]:
np.nan == np.nan

#### 7 - É NAN?

In [None]:
np.isnan(np.nan)

#### 8 - Séries a partir de dicionários

In [None]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

#### 9 - Objeto do índice

In [None]:
s.index

#### 10 - Índice como uma lista explícita para a série

In [None]:
s = pd.Series(['Gato', 'Cachorro', 'Rato'], index = ['Vitor', 'Pedro', 'Santiago'])
s


#### 11 - Índice como uma lista explícita para a série criada a partir de um dicionário

In [None]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports, index=['Golf', 'Sumo', 'Hockey'])
s

# Consultando Séries

#### 12 - Lista dos esportes em nosso índice e uma lista de países como valores. Criamos um dicionário e assim uma série.


In [None]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

#### 13 - Para ver o quarto país usamos o atributo iloc com o parâmetro 3. Para ver qual país tem o golfe como seu esporte nacional, utilizamos o atributo loc com um parâmetro golfe.

In [None]:
s.iloc[3]

In [None]:
s.loc['Golf']

#### 14 - Possibilidade de usar o operador de indexação diretamente na série em si.

In [None]:
s[3]

In [None]:
s['Golf']

#### 15 - A opção mais segura é ser explícito e usar os atributos iloc ou loc diretamente. Por exemplo....

In [None]:
sports = {99: 'Bhutan',
          100: 'Scotland',
          101: 'Japan',
          102: 'South Korea'}
s = pd.Series(sports)

In [None]:
s[0]

#### 16 - Rotina que itera sobre todos os itens da série, somando-os para obter um total.


In [None]:
s = pd.Series([100.0, 120.0, 101.0, 3.00])
s

In [None]:
total = 0
for item in s:
    total += item
print(total)

#### 17 - Vetorização Numpy

In [None]:
total = np.sum(s)
print (total)

#### 18 - Criar uma grande série de números aleatórios. 

In [None]:
s = pd.Series(np.random.randint(0,1000,10000))
s.head()

In [None]:
len(s)

#### 19 - "timeit" com nosso código iterativo sem o Numpy.

In [None]:
%%timeit -n 100
total = 0
for item in s:
    total += item

#### 20 - Agora vamos com a vetorização do Numpy.

In [None]:
%%timeit -n 100
total = np.sum(s)

#### 21 - Broadcasting e head()

In [None]:
s[0:1]+=2
s.head()

#### 22 - O Pandas permite a iteração por meio de uma série assim como num dicionário.

In [None]:
for label, value in s.iteritems():
    s.set_value(label, value+2)
s.head()

#### 23 - Vamos cronometrar as duas abordagens.

In [None]:
%%timeit -n 1
s = pd.Series(np.random.randint(0,1000,10000))
for label, value in s.iteritems():
    s.loc[label]= value+2

In [None]:
%%timeit -n 1
s = pd.Series(np.random.randint(0,1000,10000))
s+=2

#### 24 - Tipos misturados para os valores de dados ou índice de rótulos não são problema para o Pandas.


In [None]:
s = pd.Series([1,2,3])
s.loc['Animal'] = "Gato"
s

#### 25 . Valores dos índices não são sempre exclusivos.

In [None]:
original_sports = pd.Series({'Archery': 'Bhutan',
                             'Golf': 'Scotland',
                             'Sumo': 'Japan',
                             'Taekwondo': 'South Korea'})
cricket_loving_countries = pd.Series(['Australia',
                                      'Barbados',
                                      'Pakistan',
                                      'England'], 
                                   index=['Cricket',
                                          'Cricket',
                                          'Cricket',
                                          'Cricket'])
all_countries = original_sports.append(cricket_loving_countries)

#### 26 - O método append na verdade não muda a série subjacente. Em vez disso, ele retorna uma nova série que é composta das duas juntas. 

In [None]:
original_sports

In [None]:
cricket_loving_countries

In [None]:
all_countries

In [None]:
all_countries.loc['Cricket']

# DataFrame

#### 27 - Vamos colocar esas séries no DataFrame como sendo o primeiro argumento e atribuir aos valores de índices quais foram as lojas onde as compras foram feitas.

In [None]:
import pandas as pd
purchase_1 = pd.Series({'Name': 'Chris',
                        'Item Purchased': 'Dog Food',
                        'Cost': 22.50})
purchase_2 = pd.Series({'Name': 'Kevyn',
                        'Item Purchased': 'Kitty Litter',
                        'Cost': 2.50})
purchase_3 = pd.Series({'Name': 'Vinod',
                        'Item Purchased': 'Bird Seed',
                        'Cost': 5.00})
df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2'])

df.head()

#### 28 - Se quisermos selecionar os dados associados à loja 'Store 2', apenas consultamos o atributo "loc" com um único parâmetro.

In [None]:
df.loc['Store 2']

In [None]:
type(df.loc['Store 2'])

#### 29 - Se consultarmos os registros da loja 'Store 1', veremos que Chris e Kevin, ambos compraram na mesma loja de suprimentos.

In [None]:
df.loc['Store 1']

#### 30 - Se quisermos apenas listar os custos da 'Store 1', bastaria fornecer dois parâmetros para df.loc, um deles o índice da linha e o outro, o nome da coluna.

In [None]:
df.loc['Store 1', 'Cost']

#### 31 - Podemos transpôr o DataFrame, usando o atributo T maiúsculo, ele troca as linhas por colunas e vice-versa. Depois podemos usar o método '.loc' Não é muito elegante!

In [None]:
df.T

In [None]:
df.T.loc['Cost']

#### 32 - Operador de indexação diretamente no DataFrame para seleção de coluna.

In [None]:
df['Cost']

#### 33 - Encadeamento (Cuidado)

In [None]:
df.loc['Store 1']['Cost']

#### 34 - Fatiamento no Dataframe.

In [None]:
df.loc[:,['Name', 'Cost']]

#### 35 - Deletar dados de séries e de DataFrames. A função drop não altera o DataFrame por padrão. Ao invés disso, lhe retorna uma cópia do DataFrame com as linhas informadas removidas. Podemos ver que o nosso DataFrame original ainda está intacto.


In [None]:
df.drop('Store 1')

In [None]:
df

#### 36 - Fazendo cópias do dataframe.

In [None]:
copy_df = df.copy()
copy_df = copy_df.drop('Store 1')
copy_df

#### 37 - O drop tem dois interessantes parâmetros opcionais.

In [None]:
df.drop?

#### 38 - Outra forma de deletar.

In [None]:
del df['Name']
df

#### 39 - Adicionar uma nova coluna ao DataFrame. 

In [None]:
df['Location'] = None
df

# Dataframes - Indexando & Carregando

#### 40 - Podemos criar uma série baseada apenas na categoria preço, usando colchetes.

In [None]:
costs = df['Cost']
costs

#### 41 - Broadcasting

In [None]:
costs+=2
costs

In [None]:
df

#### 42 - Carregando arquivo CSV - dados das olimpíadas.

In [None]:
df = pd.read_csv('./CSV/olympics.csv')
df.head()

#### 43 - Ignorar a primeira linha, que era composta por nomes das colunas numéricas.

In [None]:
df = pd.read_csv('./CSV/olympics.csv', index_col = 0, skiprows=1)
df.head()

#### 44 - Pandas armazena uma lista de todas as colunas no atributo ".columns". 

In [None]:
df.columns

#### 45 - "inplace" para true, então o Pandas atualiza este Dataframe diretamente.

In [None]:
for col in df.columns:
    if col[:2]=='01':
        df.rename(columns={col:'Gold' + col[4:]}, inplace=True)
    if col[:2]=='02':
        df.rename(columns={col:'Silver' + col[4:]}, inplace=True)
    if col[:2]=='03':
        df.rename(columns={col:'Bronze' + col[4:]}, inplace=True)
    if col[:1]=='№':
        df.rename(columns={col:'#' + col[1:]}, inplace=True) 

df.head()

# Consultando DataFrames

#### 46 - Mascaramento Booleano.

In [None]:
df['Gold'] > 0

#### 47 - Sobrepor esta máscara no data frame.

In [None]:
only_gold = df.where(df['Gold'] > 0)
only_gold

#### 48 - Existem 100 países que tiveram medalhas de ouro nos jogos de verão, há 147 países no total.

In [None]:
only_gold['Gold'].count()

In [None]:
df['Gold'].count()

#### 49 - Muitas vezes queremos jogar fora as linhas que não têm nenhum dado. Para isso, usar a função dropna.

In [None]:
only_gold = only_gold.dropna()
only_gold

#### 50 - Não precisamos, de fato, usar a função where explicitamente.

In [None]:
only_gold = df[df['Gold'] > 0]
only_gold

#### 51 - 101 países ganharam uma medalha de ouro em algum momento.

In [None]:
len(df[(df['Gold'] > 0) | (df['Gold.1']>0)])

#### 52 - Há algum país que mais de uma medalha de ouro nos jogos Olímpicos de inverno e nenhuma nos jogos Olímpicos de verão.

In [None]:
df[(df['Gold.1'] > 0) & (df['Gold'] == 0)]

# Indexando Dataframes

#### 53 - Digamos que não queremos indexar o DataFrame por países, mas em vez disso, indexar pelo número de medalhas de ouro que foram conquistadas nos jogos de verão.

In [None]:
df['country'] = df.index
df = df.set_index('Gold')
df.head()

#### 54 - Podemos nos livrar completamente do índice chamando a função reset_index. Ela torna o índice uma coluna e cria um índice default numerado.

In [None]:
df = df.reset_index()
df.head()

#### 55 - Carregar o arquivo CSV com dados Censo dos EUA.

In [None]:
df = pd.read_csv('./CSV/census.csv')
df.head()

#### 56 - Ver uma lista de todos os valores exclusivos de uma determinada coluna.

In [None]:
df['SUMLEV'].unique()

#### 57 - Mantendo dados sobre os  condados.

In [None]:
df=df[df['SUMLEV'] == 50]
df.head()

#### 58 - Reduzir nossa análise de dados para apenas a estimativa de população total e para o total de nascimentos.

In [None]:
columns_to_keep = ['STNAME',
                   'CTYNAME',
                   'BIRTHS2010',
                   'BIRTHS2011',
                   'BIRTHS2012',
                   'BIRTHS2013',
                   'BIRTHS2014',
                   'BIRTHS2015',
                   'POPESTIMATE2010',
                   'POPESTIMATE2011',
                   'POPESTIMATE2012',
                   'POPESTIMATE2013',
                   'POPESTIMATE2014',
                   'POPESTIMATE2015']
df = df[columns_to_keep]
df.head()

#### 59 - Note que temos aqui um índice dual, primeiro o nome do estado e em seguida o nome do condado.

In [None]:
df = df.set_index(['STNAME', 'CTYNAME'])
df.head()

#### 60 - Se quisermos ver os resultados da população do Condado de Washtenaw.

In [None]:
df.loc['Alabama', 'Autauga County']

#### 61 - Comparar dois condados.

In [None]:
df.loc[ [('Alabama', 'Autauga County'),
         ('Alabama', 'Baldwin County')] ]