# Estrutura de series 

In [3]:
#importando Pandas 
import pandas as pd 

In [4]:
#criando uma lista de 3 estudantes
students = ['alice', 'Jack', 'Molly']

#criando a serie usando nossa lista 
pd.Series(students)


0    alice
1     Jack
2    Molly
dtype: object

In [5]:
# se passarmos apenas numeros o pandas ira criar uma serie do tipo int64
numbers = [1,2,3]
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [6]:
# se criarmos uma lista com strings que contem um valor None 

students = ['alice', 'Jack', None]
pd.Series(students)

0    alice
1     Jack
2     None
dtype: object

In [7]:
#vemos que ele ainda mantem o tipo como Object, porem se criarmos uma lista de numeros, com um valor nulo
# ele ira retornar uma serie do tipo float64 e o numero sera marcado como NaN (not a number )

numbers = [1,2,None]
pd.Series(numbers)

0    1.0
1    2.0
2    NaN
dtype: float64

In [8]:
#isso acontece pq o pandas representa o NaN como um ponto flutuante, se você transformar
#uma lista de inteiros em uma serie e ela vir do tipo float, muito provavelmente deve ter dados faltando nela. 

#vale ressaltar que para um cientista de dados NaN e None é a mesma coisa 
#porem o pandas não ve da mesma forma 

In [9]:
import numpy as np
np.nan == None

False

In [10]:
#para verficar se NaN de fato e NaN precisamos usar uma função dedicada para isso

In [11]:
np.isnan(np.nan)

True

In [12]:
#vamos para um exemplo usando um dicionario 

In [13]:
stundents_scores = {'alice': 'Physics',
                    'Jack': 'Chemistry',
                    'Molly': 'English'}
s = pd.Series(stundents_scores)
s

alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [14]:
#agora vamos pegar o index 

In [15]:
s.index

Index(['alice', 'Jack', 'Molly'], dtype='object')

In [16]:
#podemos também criar uma serie escolhendo apenas dados especificos apartir do index 
stundents_scores = {'alice': 'Physics',
                    'Jack': 'Chemistry',
                    'Molly': 'English'}
                    
s= pd.Series(stundents_scores, index = ['alice', 'Jack', 'Sam'])
s

alice      Physics
Jack     Chemistry
Sam            NaN
dtype: object

# Querying a Series

In [17]:
#primeiro vamos criar um dicionario com 4 elementos.

stundents_scores = {'alice': 'Physics',
                    'Jack': 'Chemistry',
                    'Molly': 'English',
                    'sam': 'History'}
                    
s= pd.Series(stundents_scores)
s

alice      Physics
Jack     Chemistry
Molly      English
sam        History
dtype: object

In [18]:
#agora se eu quisesse ver apenas o 4 elemento eu teria que usar o iloc e passar o parametro 3
s.iloc[3]

'History'

In [19]:
# e se eu quisesse pesquisar pelo nome usaria loc
s.loc['Molly']

'English'

In [20]:
#o pandas permite que voce faça a mesma coisa de forma mais simples e direta 

In [21]:
s[3]

'History'

In [22]:
s['Molly']

'English'

In [23]:
#mas tome cuidado se vc usar uma serie de inteiros o pandas pode não saber se vc esta pesquisando 
#pelo index de posição ou pelo index de nome(label)
#vamos a um exemplo 

class_code = {99: 'Physics',
                    100: 'Chemistry',
                    101: 'English',
                    102: 'History'}

s= pd.Series(class_code)

In [24]:
#se eu uso s[0] vai dar erro por que não temos um indice com nome 0 e ele nao vai procurar
#pela posição 0 como gostariamos por isso e sempre bom usar loc e iloc

In [28]:
#agora vamos ver exemplo de como usar uma series 

grades = pd.Series([90,80,70,60])

total = 0

for grade in grades: 
  total += grade 

print(total/len(grades))


75.0


In [30]:
#Fizemos a soma de todos os valores da series e dividimos pela quantidade de valor assim obtendo a media 
#porem não fizemos da forma mais rapida, vamos tentar de outra forma

total = np.sum(grades)
print(total/len(grades))

75.0


In [31]:
#mas sera que realmente tem diferença? vamos testar 
numbers = pd.Series(np.random.randint(0,1000,10000))

#usando o .head() que ira exibir os 5 primeiros dados
numbers.head()

0    576
1    652
2    896
3    647
4    133
dtype: int64

In [32]:
#usando len para verificar se o tamanho esta correto 
len(numbers)

10000

In [37]:
##agora que temos uma Serie com muitos dados vamos usar uma função Magica 
#para usar uma função magica temos que colocar na PRIMEIRA LINHA %% seguindo da função que queremos usar 
#iremos usar uma função que ira rodar o nosso codigo o numero de vezes determinado 

%%timeit -n 100

total = 0

for number in numbers:
  total += number

total/len(numbers)
total

1.37 ms ± 43.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [41]:
#agora vamos tentar usando a versão com numpy

%%timeit -n 100
total = np.sum(numbers)

total/len(numbers)

73.6 µs ± 33.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [38]:
# podemos ver que o codigo é executado bem mais rapido do que usando um for,
# isso e importante quando tivermos trabalhando com toneladas de dados pois queremos otimizar o nosso tempo

In [42]:
#podemos iterar o valor de toda series 
numbers.head()

0    576
1    652
2    896
3    647
4    133
dtype: int64

In [44]:
numbers +=2
numbers.head()

0    580
1    656
2    900
3    651
4    137
dtype: int64

In [49]:
# vamos criar uma serie de estudantes novamente 
students_classes = pd.Series ({'alice': 'Physics',
                    'Jack': 'Chemistry',
                    'Molly': 'English',
                     'sam': 'History'})
students_classes

alice      Physics
Jack     Chemistry
Molly      English
sam        History
dtype: object

In [51]:
#agora vamos criar uma outra serie com uma estuante que possui varias classes e ao inves de dicionario vamos passar uma lista

Kelly_classes = pd.Series(['Philosophy', 'Arts', 'Math'], index = ['Kelly', 'Kelly', 'Kelly'])
Kelly_classes 

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [52]:
#agora vamos juntar as duas com .append() e ver o que acontece 

all_students_classes = students_classes.append(Kelly_classes)

all_students_classes

alice       Physics
Jack      Chemistry
Molly       English
sam         History
Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [55]:
#quando unimos tipos de dados diferentes o pandas tenta encontrar o melhor tipo para usar, 
#aqui nao tivemos problemas pois ambos eram strings
#quando usamos uma busca por exemplo por Kelly ele ira trazer todos os index que possuem o nome kelly

all_students_classes.loc['Kelly']


Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object