In [1]:
import pandas as pd
import numpy as np

# Criando Series

In [3]:
serie = pd.Series(data=[1,2,2,np.nan], index=['p','q','r','s'], name='Data')

In [4]:
serie

p    1.0
q    2.0
r    2.0
s    NaN
Name: Data, dtype: float64

In [5]:
serie.index

Index(['p', 'q', 'r', 's'], dtype='object')

In [6]:
serie.values

array([ 1.,  2.,  2., nan])

In [7]:
serie.name

'Data'

In [8]:
serie.dtype

dtype('float64')

In [9]:
serie.shape

(4,)

In [10]:
serie.size

4

In [12]:
serie.itemsize # Series object has no atribute 'itemsize'

AttributeError: 'Series' object has no attribute 'itemsize'

## criando series por objectos distintos

In [13]:
por_lista = ["a","b","c"]
serie_lista = pd.Series(data=por_lista)
serie_lista

0    a
1    b
2    c
dtype: object

In [14]:
por_array = np.arange(1,4)
serie_array = pd.Series(data=por_array)
serie_array

0    1
1    2
2    3
dtype: int32

In [15]:
por_dicionario = {"a":10,"b":20,"c":30}
serie_dicionario = pd.Series(data=por_dicionario)
serie_dicionario

a    10
b    20
c    30
dtype: int64

# Indexação

In [16]:
dicionario = {"a":10, "b":20, "c":30, "d":40, "e":50}
series_dicionario = pd.Series(data=dicionario)
series_dicionario

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [17]:
series_dicionario[1]

20

In [18]:
series_dicionario[[1,2]]

b    20
c    30
dtype: int64

In [19]:
series_dicionario["b"]

20

In [20]:
series_dicionario[["a","c","e"]]

a    10
c    30
e    50
dtype: int64

In [21]:
serie_complexa = pd.Series(data=[1,2,3], index=[3,2,1])
serie_complexa

3    1
2    2
1    3
dtype: int64

In [23]:
serie_complexa[0] # KeyError

KeyError: 0

In [24]:
serie_complexa[3]

1

In [25]:
serie_complexa.iloc[0]

1

In [29]:
serie_complexa.iloc[[0,2]]

3    1
1    3
dtype: int64

In [30]:
serie_complexa.iloc[:]

3    1
2    2
1    3
dtype: int64

In [31]:
series_dicionario

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [32]:
series_dicionario["b":]

b    20
c    30
d    40
e    50
dtype: int64

In [33]:
series_dicionario["b":"c"]

b    20
c    30
dtype: int64

In [36]:
series_dicionario["e":"d":-2]

e    50
dtype: int64

In [37]:
print(series_dicionario)
series_dicionario["c":"d"] = 25
print(series_dicionario)

a    10
b    20
c    30
d    40
e    50
dtype: int64
a    10
b    20
c    25
d    25
e    50
dtype: int64


In [38]:
series_dicionario.iloc[[0,1]] = 11

In [39]:
series_dicionario

a    11
b    11
c    25
d    25
e    50
dtype: int64

In [42]:
por_dicionario2 = {'a': 10, 'b': 20, 'c': 30}

In [43]:
serie_dicionario2 = pd.Series(data=por_dicionario2)
serie_dicionario2

a    10
b    20
c    30
dtype: int64

In [46]:
sl = serie_dicionario2["b":"c"]
sl[:] = 21
print(sl, end="\n")
serie_dicionario2

b    21
c    21
dtype: int64


a    10
b    21
c    21
dtype: int64

In [47]:
def muda_serie(serie):
    serie.iloc[-1] = np.inf
    
muda_serie(serie_dicionario2)
serie_dicionario2

a    10.0
b    21.0
c     inf
dtype: float64

 # Operações

In [49]:
np.random.seed(42)

serie1 = pd.Series(data=np.random.normal(size=5))
serie2 = pd.Series(data=np.random.normal(size=5), index=np.arange(4,-1,-1))
serie3 = pd.Series(data=np.random.normal(size=5), index=np.arange(10,15))
serie4 = pd.Series(data=np.random.normal(size=5), index=np.arange(4,9))

In [50]:
print(serie1, serie2, serie3, serie4)

0    0.496714
1   -0.138264
2    0.647689
3    1.523030
4   -0.234153
dtype: float64 4   -0.234137
3    1.579213
2    0.767435
1   -0.469474
0    0.542560
dtype: float64 10   -0.463418
11   -0.465730
12    0.241962
13   -1.913280
14   -1.724918
dtype: float64 4   -0.562288
5   -1.012831
6    0.314247
7   -0.908024
8   -1.412304
dtype: float64


In [51]:
serie1 + serie3 # NaN + numero

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
10   NaN
11   NaN
12   NaN
13   NaN
14   NaN
dtype: float64

In [52]:
np.nan + 3

nan

In [54]:
serie1 + serie4 # soma efetiada apenas no index comum entre as duas series

0         NaN
1         NaN
2         NaN
3         NaN
4   -0.796441
5         NaN
6         NaN
7         NaN
8         NaN
dtype: float64

## Soma

In [55]:
serie1 + serie2 # Soma efetuada entre os index de mesmo nome

0    1.039274
1   -0.607739
2    1.415123
3    3.102243
4   -0.468290
dtype: float64

In [56]:
serie1 + 2

0    2.496714
1    1.861736
2    2.647689
3    3.523030
4    1.765847
dtype: float64

In [57]:
serie1.add(serie2)

0    1.039274
1   -0.607739
2    1.415123
3    3.102243
4   -0.468290
dtype: float64

In [58]:
serie1.add(np.array([1,2,3,4,5])) # pode ser array, list ou tupla

0    1.496714
1    1.861736
2    3.647689
3    5.523030
4    4.765847
dtype: float64

In [60]:
serie1.add(serie4, fill_value=0) # preencheu todos os valores NaN com 0

0    0.496714
1   -0.138264
2    0.647689
3    1.523030
4   -0.796441
5   -1.012831
6    0.314247
7   -0.908024
8   -1.412304
dtype: float64

## Subtração

In [61]:
serie1 - serie2

0   -0.045846
1    0.331210
2   -0.119746
3   -0.056183
4   -0.000016
dtype: float64

In [62]:
serie1.sub(serie2)

0   -0.045846
1    0.331210
2   -0.119746
3   -0.056183
4   -0.000016
dtype: float64

In [64]:
serie1.subtract(serie2) # parametro fill_value=n

0   -0.045846
1    0.331210
2   -0.119746
3   -0.056183
4   -0.000016
dtype: float64

## Multiplicação

In [65]:
serie1 * serie2

0    0.269497
1    0.064912
2    0.497059
3    2.405188
4    0.054824
dtype: float64

In [66]:
serie1 * serie4

0         NaN
1         NaN
2         NaN
3         NaN
4    0.131662
5         NaN
6         NaN
7         NaN
8         NaN
dtype: float64

In [68]:
serie1.mul(serie2)

0    0.269497
1    0.064912
2    0.497059
3    2.405188
4    0.054824
dtype: float64

In [70]:
serie1.multiply(serie2) # fill_value=n

0    0.269497
1    0.064912
2    0.497059
3    2.405188
4    0.054824
dtype: float64

In [71]:
# produto vetorial
serie1.dot(serie2)

3.2914797044663944

## Divisão

In [72]:
serie1 / serie2

0    0.915501
1    0.294509
2    0.843966
3    0.964423
4    1.000070
dtype: float64

In [73]:
serie1.div(serie2)

0    0.915501
1    0.294509
2    0.843966
3    0.964423
4    1.000070
dtype: float64

In [74]:
serie1.divide(serie2) # fill_value=n

0    0.915501
1    0.294509
2    0.843966
3    0.964423
4    1.000070
dtype: float64

## Exponenciação

In [75]:
serie1 ** serie2

0    0.684100
1         NaN
2    0.716532
3    1.943280
4         NaN
dtype: float64

In [76]:
serie1 ** 2

0    0.246725
1    0.019117
2    0.419500
3    2.319620
4    0.054828
dtype: float64

In [77]:
serie1.pow(serie2)

0    0.684100
1         NaN
2    0.716532
3    1.943280
4         NaN
dtype: float64

# Filtros

In [78]:
np.random.seed(42)

serie = pd.Series(data=np.random.normal(size=10))
serie

0    0.496714
1   -0.138264
2    0.647689
3    1.523030
4   -0.234153
5   -0.234137
6    1.579213
7    0.767435
8   -0.469474
9    0.542560
dtype: float64

In [79]:
serie > 0

0     True
1    False
2     True
3     True
4    False
5    False
6     True
7     True
8    False
9     True
dtype: bool

In [80]:
(serie > 0) & (serie < 1)

0     True
1    False
2     True
3    False
4    False
5    False
6    False
7     True
8    False
9     True
dtype: bool

In [81]:
serie[(serie > 0) & (serie < 1)]

0    0.496714
2    0.647689
7    0.767435
9    0.542560
dtype: float64

In [84]:
# É importante destacar que a sintaxe acima espera que haja equivalência entre a série 
# de booleanos usada como filtro e a série sendo filtrada, de forma que se não houver esse pareamento 
# receberemos um erro de índices
serie1 = pd.Series(data=np.arange(10))
serie2 = pd.Series(data=np.arange(10), index=np.arange(10,20))
serie1[serie2 > 5] # Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match).

IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match).

In [85]:
# Apesar de ser possível fazer o filtro de uma série em outra, é extramemente desacomselhado a não ser que 
# você tenha muita segurança no que está fazendo
serie1 = pd.Series(data=np.arange(10))
serie2 = pd.Series(data=np.arange(10), index=np.arange(9,-1,-1))
serie1[serie2 > 5]

0    0
1    1
2    2
3    3
dtype: int32

In [86]:
((serie > 0) & (serie < 1)).any()

True

In [87]:
((serie > 0) & (serie < 1)).all()

False

In [89]:
(serie > -1000).all()

True

In [90]:
any((serie > 0) & (serie < 1))

True

In [91]:
np.any((serie > 0) & (serie < 1))

True

In [92]:
np.all((serie > 0) & (serie < 1))

False

In [94]:
all(serie > -1000)

True

In [95]:
serie = pd.Series(data=list("abcdefghijklmnopqrstuvwxyz"))

In [96]:
serie.isin(["a","e","i","o","u"])

0      True
1     False
2     False
3     False
4      True
5     False
6     False
7     False
8      True
9     False
10    False
11    False
12    False
13    False
14     True
15    False
16    False
17    False
18    False
19    False
20     True
21    False
22    False
23    False
24    False
25    False
dtype: bool

In [99]:
serie[serie.isin(["a", "e", "i", "o", "u"])]

0     a
4     e
8     i
14    o
20    u
dtype: object

In [101]:
serie = pd.Series(data=[1,2,3,np.nan,5,np.nan,7])
sum(np.isnan(serie))

2

In [102]:
serie.isnull()

0    False
1    False
2    False
3     True
4    False
5     True
6    False
dtype: bool

In [103]:
pd.isnull(np.nan)

True

In [104]:
pd.isnull(serie)

0    False
1    False
2    False
3     True
4    False
5     True
6    False
dtype: bool

In [105]:
serie = pd.Series(data=np.arange(10))
serie.where(lambda s: s > 5)

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [106]:
serie.where(lambda s: s > 5, 0)

0    0
1    0
2    0
3    0
4    0
5    0
6    6
7    7
8    8
9    9
dtype: int32

# Adição de Dados

In [107]:
serie = pd.Series(data=np.arange(5))
add = pd.Series(data=np.arange(5,10))
serie

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [113]:
serie.append(add) # índices duplicados

0    0
1    1
2    2
3    3
4    4
0    5
1    6
2    7
3    8
4    9
dtype: int32

In [114]:
serie.append(add).reset_index(drop=True)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

In [115]:
serie_nova = serie.append(add)

print(id(serie_nova), id(serie_nova.reset_index(drop=True)))

2663182981488 2663182979952


In [116]:
serie_nova

0    0
1    1
2    2
3    3
4    4
0    5
1    6
2    7
3    8
4    9
dtype: int32

In [117]:
serie_nova.reset_index(drop=True, inplace=True)

In [118]:
serie_nova

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

In [120]:
serie.append(add, ignore_index=True)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

# Remoção de Dados

In [121]:
np.random.seed(42)

serie = pd.Series(np.random.randint(10, size=10))
serie

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: int32

In [122]:
serie.drop([3,5])

0    6
1    3
2    7
4    6
6    2
7    6
8    7
9    4
dtype: int32

In [124]:
serie.drop([3,5], inplace=True)

In [125]:
serie

0    6
1    3
2    7
4    6
6    2
7    6
8    7
9    4
dtype: int32

In [126]:
np.random.seed(42)

serie = pd.Series(np.random.randint(10, size=10), index=list("abcdefghij"))
serie

a    6
b    3
c    7
d    4
e    6
f    9
g    2
h    6
i    7
j    4
dtype: int32

In [128]:
serie.drop(index=[3,5]) # '[3 5] not found in axis'

KeyError: '[3 5] not found in axis'

In [130]:
serie.drop(index=['f','i'], inplace=True)

In [131]:
serie

a    6
b    3
c    7
d    4
e    6
g    2
h    6
j    4
dtype: int32

In [136]:
np.random.seed(42)

serie = pd.Series(np.random.randint(10, size=10))
serie.iloc[np.random.randint(10, size=4)] = np.nan
serie

0    6.0
1    3.0
2    NaN
3    NaN
4    6.0
5    9.0
6    2.0
7    NaN
8    7.0
9    4.0
dtype: float64

In [138]:
serie.dropna(inplace=True)

In [139]:
serie

0    6.0
1    3.0
4    6.0
5    9.0
6    2.0
8    7.0
9    4.0
dtype: float64

In [144]:
np.random.seed(42)

serie = pd.Series(np.random.randint(10, size=10))
serie

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: int32

In [145]:
serie.drop_duplicates()

0    6
1    3
2    7
3    4
5    9
6    2
dtype: int32

In [146]:
serie.drop_duplicates(keep="last")

1    3
5    9
6    2
7    6
8    7
9    4
dtype: int32

# Preenchimento de Nulos

In [147]:
np.random.seed(42)

serie = pd.Series(np.random.randint(10, size=10))
serie.iloc[np.random.randint(10, size=3)] = np.nan
serie

0    6.0
1    3.0
2    7.0
3    NaN
4    6.0
5    9.0
6    2.0
7    NaN
8    7.0
9    4.0
dtype: float64

In [148]:
serie.fillna(0)

0    6.0
1    3.0
2    7.0
3    0.0
4    6.0
5    9.0
6    2.0
7    0.0
8    7.0
9    4.0
dtype: float64

In [149]:
serie.fillna(-1, inplace=True)

In [150]:
serie

0    6.0
1    3.0
2    7.0
3   -1.0
4    6.0
5    9.0
6    2.0
7   -1.0
8    7.0
9    4.0
dtype: float64

In [151]:
serie.iloc[np.random.randint(10, size=3)] = np.nan

In [152]:
serie

0    6.0
1    3.0
2    NaN
3   -1.0
4    NaN
5    NaN
6    2.0
7   -1.0
8    7.0
9    4.0
dtype: float64

In [153]:
serie.ffill()

0    6.0
1    3.0
2    3.0
3   -1.0
4   -1.0
5   -1.0
6    2.0
7   -1.0
8    7.0
9    4.0
dtype: float64

In [154]:
serie

0    6.0
1    3.0
2    NaN
3   -1.0
4    NaN
5    NaN
6    2.0
7   -1.0
8    7.0
9    4.0
dtype: float64

In [155]:
serie.bfill()

0    6.0
1    3.0
2   -1.0
3   -1.0
4    2.0
5    2.0
6    2.0
7   -1.0
8    7.0
9    4.0
dtype: float64

# Funções e Métodos

In [5]:
np.random.seed(42)

serie = pd.Series(data=np.random.randint(10, size=10))

In [6]:
np.sum(serie)

54

In [7]:
np.diff(serie)

array([-3,  4, -3,  2,  3, -7,  4,  1, -3])

In [8]:
np.unique(serie)

array([2, 3, 4, 6, 7, 9])

In [9]:
np.linalg.norm(serie)

18.2208671582886

In [10]:
np.sin(serie)

0   -0.279415
1    0.141120
2    0.656987
3   -0.756802
4   -0.279415
5    0.412118
6    0.909297
7   -0.279415
8    0.656987
9   -0.756802
dtype: float64

Numpy             | Pandas     | Descrição                                                         | 
:-----------------|:-----------|:-------------------------------------------------------------------|
 np.mean          |  .mean     |  Calcula a média                                                   |
 np.median        |  .median   |  Calcula a mediana                                                 |
 np.min           |  .min      |  Calcula o valor mínimo                                            |
 np.max           |  .max      |  Calcula o valor máximo                                            |
 np.std           |  .std      |  Calcula o desvio-padrão                                           |
 np.var           |  .var      |  Calcula a variância                                               |
 np.percentile    |  .quantile |  Calcula o percentil específicado                                  |
 np.sum           |  .sum      |  Calcula a soma de todos os elementos                              |
 np.count_nonzero |  **N/A**   | Realiza a contagem dos elementos não zeros do array                |
 np.unique        |  .unique   |  Obtém os valores únicos de um array                               |
 np.ceil          |  **N/A**   |  Arredonda os valores de um array para cima                        |
 np.floor         |  **N/A**   |  Arredonda os valores de um array para baixo                       |
 np.round         |  .round    |  Arredonda os valores de um array para as casas decimais desejadas |
 np.trunc         |  .truncate |  Remove as casas decimais do valor numérico                        |
 np.abs           |  .abs      |  Calcula o valor absoluto dos elementos                            |
 np.sign          |  **N/A**   |  Obtém os sinais dos números de um array                           |
 np.diff          | .diff      | Obtém a diferença entre valores sequenciais do array               |
 np.cumsum        | .cumsum    | Obtém a soma dos valores cumulativos                               |
 np.cummin        | .cummin    | Obtém o valor mínimo cumulativo do array                           |
 np.cummax        | .cummax    | Obtém o valor máximo cumulativo do array                           |
 np.cumprod       | .cumprod   | Obtém o valor produto cumulativo do array                          |

In [14]:
print(np.mean(serie), serie.mean())

5.4 5.4


In [17]:
serie

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: int32

In [16]:
serie.quantile([0.25, 0.5, 0.75])

0.25    4.00
0.50    6.00
0.75    6.75
dtype: float64

In [19]:
np.count_nonzero(serie) # 'Series' object has no attribute 'count_nonzero'

10

In [20]:
serie[np.random.randint(10, size=3)] = 0
serie

0    6
1    3
2    7
3    0
4    6
5    9
6    2
7    0
8    7
9    4
dtype: int32

In [21]:
np.count_nonzero(serie)

8

Há, entretanto, alguns outros métodos que são exclusivos do pandas, mas são muito úteis

- .describe: Gera o resumo estatístico da série
- .mode: O valor da moda da série
- .count: Obtém a contagem de elementos não nulos
- .nunique: Conta o total de elementos únicos
- .value_counts: Produz o número de ocorrências de cada elemento na série
- .clip: Força os elementos da série a estarem dentro de um determinado intervalo
- .pct_change: Variação percentual entre elementos consecutivos da série
- .shift: Desloca a série por um certo número de elementos

In [22]:
serie.describe()

count    10.000000
mean      4.400000
std       3.098387
min       0.000000
25%       2.250000
50%       5.000000
75%       6.750000
max       9.000000
dtype: float64

In [23]:
serie.mode()

0    0
1    6
2    7
dtype: int32

In [24]:
serie.count()

10

In [25]:
serie.unique()

array([6, 3, 7, 0, 9, 2, 4])

In [26]:
serie.value_counts()

6    2
7    2
0    2
3    1
9    1
2    1
4    1
dtype: int64

In [27]:
serie.clip(3,5)

0    5
1    3
2    5
3    3
4    5
5    5
6    3
7    3
8    5
9    4
dtype: int32

In [28]:
serie.pct_change()

0         NaN
1   -0.500000
2    1.333333
3   -1.000000
4         inf
5    0.500000
6   -0.777778
7   -1.000000
8         inf
9   -0.428571
dtype: float64

In [32]:
serie.shift(1)

0    NaN
1    6.0
2    3.0
3    7.0
4    0.0
5    6.0
6    9.0
7    2.0
8    0.0
9    7.0
dtype: float64

In [33]:
serie.replace({6:"opa!"})

0    opa!
1       3
2       7
3       0
4    opa!
5       9
6       2
7       0
8       7
9       4
dtype: object

In [35]:
serie.sort_values()

3    0
7    0
6    2
1    3
9    4
0    6
4    6
2    7
8    7
5    9
dtype: int32

# Vetorização

In [36]:
np.random.seed(42)

serie = pd.Series(np.random.randint(10, size=10))
serie

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: int32

In [37]:
serie.apply(lambda x: 1 if x > 5 else x / 5)

0    1.0
1    0.6
2    1.0
3    0.8
4    1.0
5    1.0
6    0.4
7    1.0
8    1.0
9    0.8
dtype: float64

In [38]:
np.random.seed(42)

serie = pd.Series(np.random.randint(10, size=10))
serie.map(lambda x: 1 if x > 5 else x / 5)

0    1.0
1    0.6
2    1.0
3    0.8
4    1.0
5    1.0
6    0.4
7    1.0
8    1.0
9    0.8
dtype: float64

In [39]:
%%timeit
serie.map(lambda x: 1 if x > 5 else x / 5)

47 µs ± 82.4 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [41]:
%%timeit
serie.apply(lambda x: 1 if x > 5 else x / 5)

102 µs ± 1.02 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [42]:
# Dada uma série de strings, calcule o número de vogais em cada uma

In [43]:
ser = pd.Series(["Maça", "Laranja", "Plano", "Python", "Dinheiro"])

In [47]:
ser.map(lambda x: sum([x.count(i) for i in list('aeiou')]))

0    2
1    3
2    2
3    1
4    4
dtype: int64

# Tipos de Dados

## Numéricos

In [48]:
np.random.seed(42)

serie = pd.Series(np.random.randint(10, size=10))

In [49]:
serie

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: int32

In [50]:
serie.astype("int8")

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: int8

In [51]:
serie.astype("uint8")

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: uint8

In [52]:
serie.astype(int)

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: int32

In [53]:
serie.astype(np.int64)

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: int64

In [54]:
serie

0    6
1    3
2    7
3    4
4    6
5    9
6    2
7    6
8    7
9    4
dtype: int32

## String

In [55]:
ser = pd.Series(["Maça", "Laranja", "Plano", "Python", "Dinheiro"])

In [56]:
"Maçã".upper()

'MAÇÃ'

In [57]:
ser.str.upper()

0        MAÇA
1     LARANJA
2       PLANO
3      PYTHON
4    DINHEIRO
dtype: object

Abaixo, apenas para relembrar, colocamos os principais métodos utilizados.

- contains: Testa se a string contém um determinado padrão de expressão regular
- count: Conta o número de ocorrências de uma substring dentro da string
- find: Devolve o índice de ocorrência de uma substring dentro da string (devolve -1 se não for encontrado)
- isalpha: Checa se todos os caracteres da string são letras
- isdigit: Checa se a string é um número
- len: Obtém o tamanho da string
- strip: Elimina espaços vazios nos extremos da string
- startswith: Checa se a string começa com uma determinada sub-string
- upper: Converte a string para maiúsculo
- lower: Converte a string para minúsculo
- split: Divide a string de acordo com uma sub-string (cada elemento da série passará a ser uma lista)

In [58]:
ser.str.contains("a")

0     True
1     True
2     True
3    False
4    False
dtype: bool

In [63]:
ser.str.count("a")

0    2
1    3
2    1
3    0
4    0
dtype: int64

In [65]:
ser.str.find("a")

0    1
1    1
2    2
3   -1
4   -1
dtype: int64

In [66]:
ser.str.isalpha()

0    True
1    True
2    True
3    True
4    True
dtype: bool

In [67]:
ser.str.isdigit()

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [68]:
ser.str.len()

0    4
1    7
2    5
3    6
4    8
dtype: int64

In [69]:
ser.str.strip()

0        Maça
1     Laranja
2       Plano
3      Python
4    Dinheiro
dtype: object

In [70]:
ser.str.startswith("P")

0    False
1    False
2     True
3     True
4    False
dtype: bool

In [71]:
ser.str.lower()

0        maça
1     laranja
2       plano
3      python
4    dinheiro
dtype: object

In [72]:
ser.str.split("a")

0        [M, ç, ]
1    [L, r, nj, ]
2        [Pl, no]
3        [Python]
4      [Dinheiro]
dtype: object

In [73]:
ser.str[:3]

0    Maç
1    Lar
2    Pla
3    Pyt
4    Din
dtype: object

In [74]:
ser.str[::-1]

0        açaM
1     ajnaraL
2       onalP
3      nohtyP
4    oriehniD
dtype: object

In [76]:
ser.str[-1]

0    a
1    a
2    o
3    n
4    o
dtype: object

## Objetos

In [78]:
serl = pd.Series([["Olá", "prazer"], ["a", "noite"], ["é", "nossa"]])
serl

0    [Olá, prazer]
1       [a, noite]
2       [é, nossa]
dtype: object

In [79]:
serd = pd.Series([{"Quando": "Hoje"}, {"Onde": "Meu ape"}, {"Pode": "Aparecer"}])
serd

0      {'Quando': 'Hoje'}
1     {'Onde': 'Meu ape'}
2    {'Pode': 'Aparecer'}
dtype: object

In [80]:
sers = pd.Series([{"Festa"}, {"Festa", "Tem", "Birita"}, {"Tem", "Até", "Amanhacer"}])
sers

0                  {Festa}
1     {Birita, Tem, Festa}
2    {Até, Tem, Amanhacer}
dtype: object

In [81]:
["Olá", "prazer"] + ["a", "noite"]

['Olá', 'prazer', 'a', 'noite']

In [82]:
serl + serl

0    [Olá, prazer, Olá, prazer]
1          [a, noite, a, noite]
2          [é, nossa, é, nossa]
dtype: object

In [83]:
serl.sum()

['Olá', 'prazer', 'a', 'noite', 'é', 'nossa']

In [87]:
serl.cumsum()

0                        [Olá, prazer]
1              [Olá, prazer, a, noite]
2    [Olá, prazer, a, noite, é, nossa]
dtype: object

In [88]:
serl.diff() # unsupported operand type(s) for -: 'list' and 'list'

TypeError: unsupported operand type(s) for -: 'list' and 'list'

In [89]:
sers.diff()

0                 NaN
1       {Birita, Tem}
2    {Até, Amanhacer}
dtype: object

# Categóricos

In [90]:
np.random.seed(42)

ser = pd.Series(np.random.choice(["Azul", "Amarelo", "Vermelho"], size=1000))
ser

0      Vermelho
1          Azul
2      Vermelho
3      Vermelho
4          Azul
         ...   
995     Amarelo
996     Amarelo
997    Vermelho
998    Vermelho
999        Azul
Length: 1000, dtype: object

In [91]:
serc = ser.astype("category")
serc

0      Vermelho
1          Azul
2      Vermelho
3      Vermelho
4          Azul
         ...   
995     Amarelo
996     Amarelo
997    Vermelho
998    Vermelho
999        Azul
Length: 1000, dtype: category
Categories (3, object): ['Amarelo', 'Azul', 'Vermelho']

In [92]:
ser.memory_usage()

8128

In [94]:
serc.memory_usage()

1260

In [95]:
serc[serc == "Vermelho"]

0      Vermelho
2      Vermelho
3      Vermelho
6      Vermelho
8      Vermelho
         ...   
980    Vermelho
991    Vermelho
993    Vermelho
997    Vermelho
998    Vermelho
Length: 319, dtype: category
Categories (3, object): ['Amarelo', 'Azul', 'Vermelho']

E podemos inclusive aplicar as funcionalidades de strings, entretanto neste caso, internamente o pandas irá converter a coluna de volta para o tipo de texto e então aplicar a função pedida

In [96]:
serc.str.upper()

0      VERMELHO
1          AZUL
2      VERMELHO
3      VERMELHO
4          AZUL
         ...   
995     AMARELO
996     AMARELO
997    VERMELHO
998    VERMELHO
999        AZUL
Length: 1000, dtype: object

In [97]:
serc.str.contains("V")

0       True
1      False
2       True
3       True
4      False
       ...  
995    False
996    False
997     True
998     True
999    False
Length: 1000, dtype: bool

In [98]:
categoria = pd.Categorical(["Azul", "Amarelo", "Vermelho", "Verde"])
ser.astype(categoria.dtype)

0      Vermelho
1          Azul
2      Vermelho
3      Vermelho
4          Azul
         ...   
995     Amarelo
996     Amarelo
997    Vermelho
998    Vermelho
999        Azul
Length: 1000, dtype: category
Categories (4, object): ['Amarelo', 'Azul', 'Verde', 'Vermelho']

# [...]

<hr>

# DataFrame

<hr>

In [4]:
import pandas as pd
import numpy as np
from pyarrow.lib import ArrowInvalid

In [5]:
df1 = pd.read_parquet("dados/escola2020.parquet")
df2 = pd.read_parquet("dados/turma2020.parquet")
df3 = pd.read_parquet("dados/ideb.parquet")

In [6]:
df1

Unnamed: 0,ID_ESCOLA,CO_MUNICIPIO,CO_DISTRITO,CO_ESCOLA_SEDE_VINCULADA,CO_IES_OFERTANTE,CO_LINGUA_INDIGENA_1,CO_LINGUA_INDIGENA_2,CO_LINGUA_INDIGENA_3,DT_ANO_LETIVO_INICIO,DT_ANO_LETIVO_TERMINO,...,TP_MANT_ESCOLA_PRIVADA_SIST_S,TP_MANT_ESCOLA_PRIVADA_S_FINS,TP_MANT_ESCOLA_PRIV_ONG_OSCIP,TP_OCUPACAO_GALPAO,TP_OCUPACAO_PREDIO_ESCOLAR,TP_PROPOSTA_PEDAGOGICA,TP_REDE_LOCAL,TP_REGULAMENTACAO,TP_RESPONSAVEL_REGULAMENTACAO,TP_SITUACAO_FUNCIONAMENTO
0,11000023,1100205,110020505,,,,,,2020-02-06,2020-12-15,...,PÚBLICA,PÚBLICA,PÚBLICA,,ALUGADO,SIM,WIRELESS,NÃO,,EM ATIVIDADE
1,11000040,1100205,110020505,,,,,,2020-02-06,2020-12-23,...,PÚBLICA,PÚBLICA,PÚBLICA,,PRÓPRIO,SIM,NÃO HÁ REDE LOCAL INTERLIGANDO COMPUTADORES,SIM,MUNICIPAL,EM ATIVIDADE
2,11000058,1100205,110020505,,,,,,2020-02-03,2020-12-11,...,NÃO,NÃO,NÃO,,PRÓPRIO,SIM,A CABO E WIRELESS,SIM,ESTADUAL,EM ATIVIDADE
3,11000082,1100205,110020505,,,,,,2020-02-03,2020-12-04,...,NÃO,NÃO,NÃO,,PRÓPRIO,SIM,WIRELESS,SIM,ESTADUAL,EM ATIVIDADE
4,11000104,1100205,110020505,,,,,,2020-02-03,2020-12-15,...,NÃO,NÃO,NÃO,,PRÓPRIO,SIM,A CABO E WIRELESS,SIM,ESTADUAL,EM ATIVIDADE
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
224224,53084071,5300108,530010805,,,,,,NaT,NaT,...,,,,,,,,,,PARALISADA
224225,53085000,5300108,530010805,,,,,,2020-01-27,2020-12-23,...,NÃO,NÃO,NÃO,,PRÓPRIO,SIM,A CABO E WIRELESS,SIM,ESTADUAL,EM ATIVIDADE
224226,53086007,5300108,530010805,,,,,,2020-01-27,2020-12-18,...,NÃO,NÃO,NÃO,,ALUGADO,NÃO,A CABO,SIM,ESTADUAL,EM ATIVIDADE
224227,53087003,5300108,530010805,,,,,,NaT,NaT,...,,,,,,,,,,PARALISADA
