# Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`:

In [None]:
import numpy as np

In [None]:
import pandas as pd

In [None]:
lista = [20, 10, 5, 3]
np.array(lista)

array([20, 10,  5,  3])

In [None]:
serie = pd.Series(lista)
serie

0    20
1    10
2     5
3     3
dtype: int64

Indice acesso

In [None]:
serie[1]

10

Valores

In [None]:
print(type(serie.values))
serie.values

<class 'numpy.ndarray'>


array([20, 10,  5,  3])

Indice

In [None]:
serie.index

RangeIndex(start=0, stop=4, step=1)

Indice não numérico

In [None]:
indice_alfa = ['a', 'b', 'c', 'd']

In [None]:
serie = pd.Series(index=indice_alfa, data=lista)
serie

a    20
b    10
c     5
d     3
dtype: int64

In [None]:
serie['c']

5

Slicing

In [None]:
serie['b':'d']

b    10
c     5
d     3
dtype: int64

In [None]:
serie.loc[['a', 'c']]

a    20
c     5
dtype: int64

Filtros

In [None]:
indice_alfa = ['a', 'b', 'c', 'd']
lista = [20, 10, 5, 3]
serie = pd.Series(index=indice_alfa, data=lista)
serie

a    20
b    10
c     5
d     3
dtype: int64

In [None]:
mascara = serie >= 6
mascara

a     True
b     True
c    False
d    False
dtype: bool

In [None]:
serie[mascara]

a    20
b    10
dtype: int64

Apply

In [None]:
indice_alfa = ['a', 'b', 'c', 'd']
lista = [20, 10, 5, 3]
serie = pd.Series(index=indice_alfa, data=lista)
serie

a    20
b    10
c     5
d     3
dtype: int64

In [None]:
#função para somar mais um na serie
def soma_um(numero):
  return numero + 1

In [None]:
serie.apply(soma_um)

a    21
b    11
c     6
d     4
dtype: int64

Voltando novamente ao DataFrame

Exemplo do json gerado pelo data frame

Criando Coluna

Apagando coluna

## NaN
Tem como base o https://en.wikipedia.org/wiki/IEEE_754  
Resumindo: NaN é um valor de ponto flutuante especial que não pode ser convertido em nenhum outro tipo de dado além do próprio float

In [None]:
indice_alfa = ['a', 'b', 'c', 'd', 'e']
lista = [20, 10, 5, 3, None]
serie = pd.Series(index=indice_alfa, data=lista)
serie

a    20.0
b    10.0
c     5.0
d     3.0
e     NaN
dtype: float64

In [None]:
serie.count()

4

In [None]:
serie.sum() / serie.count()

9.5

In [None]:
serie.mean()

9.5

In [None]:
serie.isna()

a    False
b    False
c    False
d    False
e     True
dtype: bool

In [None]:
True + False

1

In [None]:
True + True

2

In [None]:
False + False

0

In [None]:
#quantos NaN tem na coluna
serie.isna().sum()

1

## Concat
É uma funcão para **juntar** dataframes

In [None]:
import pandas as pd

In [None]:
df1 = pd.DataFrame(
    {
        'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]
    }
)

df2 = pd.DataFrame(
    {
        'B': [1, 2, 3],
        'C': [4, 5, 6],
        'D': [7, 8, 9]
    }
)

display(df1)
display(df2)

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


Unnamed: 0,B,C,D
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
#Concatenando 2 DF - Olhar os dados em relação a coluna
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
0,,1,4,7.0
1,,2,5,8.0
2,,3,6,9.0


In [None]:
#Olhar os dados em relação a linha - juntar linha a linha
df3 = pd.concat([df1, df2], axis=1)
df3

Unnamed: 0,A,B,C,B.1,C.1,D
0,1,4,7,1,4,7
1,2,5,8,2,5,8
2,3,6,9,3,6,9


## Merge
Permite o **cruzamento** de bases de dados
  
<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

juntando as coisas por um campo

In [None]:
df1 = pd.DataFrame(
    {
        'Paises': ['br', 'pt', 'it'],
        'valor1': [1, 2, 3],
        'valor2': [3, 4, 5]
    }
)

df2 = pd.DataFrame(
    {
        'Paises': ['br', 'pt', 'es'],
        'valor1': [1, 2, 3],
        'valor2': [3, 4, 5]
    }
)

display(df1)
display(df2)

Unnamed: 0,Paises,valor1,valor2
0,br,1,3
1,pt,2,4
2,it,3,5


Unnamed: 0,Paises,valor1,valor2
0,br,1,3
1,pt,2,4
2,es,3,5


In [None]:
#pega o que tem nas duas tabelas
df1.merge(df2)

Unnamed: 0,Paises,valor1,valor2
0,br,1,3
1,pt,2,4


In [None]:
#mantem da esquerda
df1.merge(df2, how='left', on='Paises')

Unnamed: 0,Paises,valor1_x,valor2_x,valor1_y,valor2_y
0,br,1,3,1.0,3.0
1,pt,2,4,2.0,4.0
2,it,3,5,,


In [None]:
#mantem tudo que está direita e pega os iguais das duas
df1.merge(df2, how='right', on='Paises')

Unnamed: 0,Paises,valor1_x,valor2_x,valor1_y,valor2_y
0,br,1.0,3.0,1,3
1,pt,2.0,4.0,2,4
2,es,,,3,5


In [None]:
#pega tudo
df1.merge(df2, how='outer', on='Paises')

Unnamed: 0,Paises,valor1_x,valor2_x,valor1_y,valor2_y
0,br,1.0,3.0,1.0,3.0
1,pt,2.0,4.0,2.0,4.0
2,it,3.0,5.0,,
3,es,,,3.0,5.0


Com colunas diferentes

Utilizando dois campos

## Join
A juncão é baseada nos índices (definidos por set_index)

In [None]:
df1 = pd.DataFrame(
    {
        'Paises': ['br', 'pt', 'it'],
        'valor1': [1, 2, 3],
        'valor2': [3, 4, 5]
    }
)

df2 = pd.DataFrame(
    {
        'Paises': ['br', 'pt', 'es'],
        'valor1': [1, 2, 3],
        'valor2': [3, 4, 5]
    }
)

display(df1)
display(df2)

Unnamed: 0,Paises,valor1,valor2
0,br,1,3
1,pt,2,4
2,it,3,5


Unnamed: 0,Paises,valor1,valor2
0,br,1,3
1,pt,2,4
2,es,3,5


In [None]:
df1.join(df2, lsuffix='_df1', rsuffix='_df2')

Unnamed: 0,Paises_df1,valor1_df1,valor2_df1,Paises_df2,valor1_df2,valor2_df2
0,br,1,3,br,1,3
1,pt,2,4,pt,2,4
2,it,3,5,es,3,5


### Group By

### Pivotamento

### Linhas Duplicadas

In [None]:
df = pd.DataFrame({
    'A' : [1, 2, 3],
    'B' : [4, 5, 6],
    'C' : [1, 2, 3],
    'D' : [7, 8, 9],
})
df = df.T
df

Unnamed: 0,0,1,2
A,1,2,3
B,4,5,6
C,1,2,3
D,7,8,9


In [None]:
colunas_duplicadas = [df.duplicated == True].index

### Datetime

In [None]:
dados = {
    'data' : pd.date_range(start='')
}

# Gráficos

plot {x, y, legenda}

axhline = média

In [None]:
np.random.seed(42)
np.random.randint(1000, size=10)

dados = {
    'data' : pd.date_range(start='2024-01-01', periods=30, freq='d'),
    'produto_a': np.sort(np.random.randint(10, 100, size=30)),
    'produto_b': np.sort(np.random.randint(10, 100, size=30))
}
df =

102

https://python-graph-gallery.com/