# Pandas

## Series
-1D

Series é um dos núcleos  de estruturação de dados em Pandas.
Os itens são todos armazenados em ordem e existem labels com a qual podemos pegar os itens.
Um jeito fácil de visualizar as séries são através de duas colunas: a primeira são indices, e a segunda são os dados.


### Series Data Structure

In [4]:
import pandas as pd

In [5]:
# Podemos, assim como no numpy, criar uma série passando uma lista de valores.
# Quando fazemos isso, o pandas automaticamente atribui um índice começando do
# zero e coloca o nome da série como None.

students = ['Alice','Jack','Molly']

pd.Series(students)


0    Alice
1     Jack
2    Molly
dtype: object

In [6]:
# O resultado é um objeto Series. Podemos ver que o Pandas automaticamente 
# identificou o tipo dos dados como "object" e setou o parâmetro "dtype" como apropriado.
# Podemos ver também, que os dados são indexados com inteiros começando do zero.


In [7]:
numbers=[1,2,3]
pd.Series(numbers)
# Aqui podemos ver que o Pandas,automaticamente, atribui 'int64' ao parâmetro 'dtype'.

0    1
1    2
2    3
dtype: int64

In [8]:
# O mais importante é saber como o Numpy e o Pandas tratam os "missing data".

# Em Python, nós temos um tipo indicando falta de dado. O  'None'.

# Se tivermos algum valor faltante, Pandas faz um tipo de conversão.
# Se criarmos uma lista de strings e colocarmos um elemento None type, Pandas
# insere como 'None' e seta o dtype como 'object'.
# Exemplo:
students=["Alice","Jack",None]
print(pd.Series(students))

# No entando, se criarmos uma lista de números, inteiros ou floats, e colocar
# um elemento None type, Pandas automaticamente converte isso para um float
# especial chamado NaN (Not a Number).
# Exemplo
numbers=[1,2,None]
print(pd.Series(numbers))


0    Alice
1     Jack
2     None
dtype: object
0    1.0
1    2.0
2    NaN
dtype: float64


In [9]:
# Ou seja, None e NaN significam a mesma coisa, denotar que não existe algum dado.
# Porém não são representados da mesma forma no Pandas.

# NaN não é equivalente ao None, quando fazemos um teste de equivalência, o resultado é False.

import numpy as np
np.nan==None

False

In [10]:
# Precisamos utilizar uma função especial para testa a presença de um valor faltante.

np.isnan(np.nan)

True

In [11]:
# Então, mantenha em mente que NaN é similar ao None, mas é um valor numérico
# e é tratado diferente.

In [12]:
# Voltando ao assunto de criação de Series.
# Por mais que a lista seja um jeito comum de criar uma Serie, as vezes queremos
# nomear os dados que queremos manipular.
# Assim, uma Serie pode ser criada diretamente por um dicionário.
# Ao fazer isso, os indices são automaticamente atribuidos às chaves dos dicionários.

students_scores={'Alice': 'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English'}


s=pd.Series(students_scores)
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [13]:
# Podemos pegar os indices, utilizando o atributo 'index'.
s.index

Index(['Alice', 'Jack', 'Molly'], dtype='object')

In [14]:
# O 'dtype=object' não é só para strings, mas para objetos arbitrários.
# Exemplo, vamos criar um dado mais complexo, uma lista de tuplas:
students = [("Alice","Brown"), ("Jack", "White"), ("Molly", "Green")]
pd.Series(students)

0    (Alice, Brown)
1     (Jack, White)
2    (Molly, Green)
dtype: object

In [15]:
# Podemos ver que o 'dtype' é setado como 'object'.


In [16]:
# Podemos também, ao criar, separar os dados passados dos índices utilizando
# uma lista explicitamente.

s = pd.Series(['Physics', 'Chemistry', 'English'], index=['Alice', 'Jack', 'Molly'])
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [17]:
# O que acontece se a nossa lista de indices não estarem alinhadas com as chaves 
# do dicionário?
# Pandas irá automaticamente sobrescrever a favor dos indices que providenciamos.
# Então,Pandasirá ignorar as chaves do dicionário que não estão na lista de indices e 
# irá atribuir None ou NaN aos indices que providenciamos que não possuem um dado no dicionário.
students_scores = {'Alice': 'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English'}

s = pd.Series(students_scores, index=['Alice', 'Molly', 'Sam'])
s

Alice    Physics
Molly    English
Sam          NaN
dtype: object

In [18]:
# O resultado é que o objetos Series não possui o "Jack" e atribuiu "None"
# para a "Sam"

### Querying 

In [19]:
# Uma Series pode ser consultado pela posição do indice ou pelo nome do index.
# Para buscar pela posição do índice utilizamos o atributo 'iloc'.
# Para buscar pelo nome do índice,utilizamos o atribudo 'loc'.

In [20]:
import pandas as pd
students_classes = {'Alice': 'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English',
                   'Sam': 'History'}
s = pd.Series(students_classes)
s

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

In [21]:
# Se quisermos a quarta entrada da Serie, utilizamos o atributo 'iloc' com o argumento 3
s.iloc[3]

'History'

In [22]:
# Se quisermos ver qual aula Molly está, utilizamos o atributo 'loc' com o argumento 'Molly'.
s.loc["Molly"]

'English'

In [23]:
class_code = {99: 'Physics',
              100: 'Chemistry',
              101: 'English',
              102: 'History'}
s = pd.Series(class_code)

#Nesse exemplo, podemos utilizar tanto s.iloc[0] quanto s.loc[99]

In [24]:
# Agora que sabemos como pegar dados em uma Series, vamos trabalhar com esses dados.
# Uma abordagem comum é considerar todos os valores dentro de uma série e fazer uma operação.

In [6]:
# Uma abordagem típica é iterar sobre todos os items da series, e invocar alguma operação.
# Vamos calcular uma média.

grades = pd.Series([90, 80, 70, 60])

total = 0
for grade in grades:
    total+=grade
print(total/len(grades))

75.0


In [26]:
# Isso funciona, porém é muito devagar.
# Pandas e Numpy suportam um método computacional chamado 'vectorization'. Exemplo a função 'sum'.
# 'Vectorization' é a habilidade que um computador tem de executar múltiplas instruções de uma vez,
# e com alta performance

In [27]:
# Então:
import numpy as np
total = np.sum(grades)
print(total/len(grades))

75.0


##### timeit — Measure execution time of small code snippets

In [28]:
# Jupyter tem uma função que calcula o tempo de execução de um código.
# Para chamar uma função do jupyter, utilizamos o '%%'.
# A função %%timeit irá rodar o código algumas vezes para determinar, em média, quanto tempo leva.
# Podemos passar o número de loops que queremos executar utilizando o parâmetro '-n'. Por padrão são 1000 loops
# Essa funções tem que ser chamadas na primeira linha.

In [10]:
# Vamos criar uma series grande de números aleatórios.
numbers = pd.Series(np.random.randint(0,1000,10000))

In [30]:
# Agora , vamos usar o %%time para calcular a média fazendo uma iteração

In [31]:
%%timeit -n 100
total = 0
for number in numbers:
    total+=number

total/len(numbers)

956 µs ± 38.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [32]:
# Agora vamos utilizar a 'vectorization'.


In [35]:
%%timeit -n 100
total = np.sum(numbers)
total/len(numbers)

53.4 µs ± 12.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


#### Broadcasting

In [47]:
# Pandas e Numpy tem uma característica chamada 'broadcasting'.
# Como broadcasting, podemos aplicar uma operação para cada valor na series, mudando ela.
# Por exemplo, se quisermos aumentar cada valor de uma série em 2, podemos fazer isso rapidamente utilizando o operado += diretamente na series.
numbers.head()

0    250
1     98
2    748
3    148
4    783
dtype: int32

In [42]:
numbers+=2
numbers.head()

0    244
1     92
2    742
3    142
4    777
dtype: int32

In [48]:
# Também podemos iterar cada valor da series utilizando a função items() que retorna um 'nome' e um 'valor'.
for label,value in numbers.items():
    numbers.loc[label]=value+2
numbers.head()
# Podemos verificar, utilizando o "%%timeit" que o método anterior é mais rápido

<bound method NDFrame.head of 0       252
1       100
2       750
3       150
4       785
       ... 
9995    432
9996    207
9997    344
9998    799
9999    934
Length: 10000, dtype: int32>

In [52]:
# O atributo .loc não só nos permite modificar um dado, mas também adicionar um. Se o valor passado no atributo .loc 
# não existir, então um novo valor será adicionado.
# Uma coisa importante é que indices podem ter tipos mistos, mas o que realmente é importante ter cuidado é a tipagem dos dados.
s=pd.Series([1,2,3])
print(s) # int64

s.loc["History"] =102 # Irá mudar o valor de "History", mas caso "History" não exista, o Pandas irá criar uma chave nova.

print(s) #int64

0    1
1    2
2    3
dtype: int64
0            1
1            2
2            3
History    102
dtype: int64


In [53]:
# Vamos ver um exemplo onde os indices não são únicos.
students_classes = pd.Series({'Alice': 'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English',
                   'Sam': 'History'})
students_classes

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

In [17]:
# Vamos criar uma Series para uma estudante Kelly com a lista de cursos que ela pegou.
kelly_classes = pd.Series(['Philosophy', 'Arts', 'Math'], index=['Kelly', 'Kelly', 'Kelly'])
kelly_classes

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [60]:
# Agora vamos adicionar a estudante Kelly nos outros estudantes utilizando a função concat().
all_students_classes = pd.concat([students_classes, kelly_classes])
all_students_classes

Alice       Physics
Jack      Chemistry
Molly       English
Sam         History
Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [63]:
# Algumas considerações:
# 1 - O Pandas irás pegar a Series resultante e tentar inferir o melhor 'dtype'.
# 2 - O método concat() não faz cópia por referência, e sim por valor. Ou seja, se mudarmos a Serie final, as Series 'filhas' não serão alteradas.

In [64]:
# Se queremos ver o indice "Kelly", não vamos receber apenas um único valor.
all_students_classes.loc["Kelly"]

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object