# Trabalhando com `pd.Series` no Pandas

Este documento explica como criar e manipular **Series** no Pandas, que são estruturas de dados unidimensionais semelhantes a listas e dicionários.

---

## Importando as bibliotecas necessárias
### pandas: Biblioteca principal para análise de dados em Python.
### numpy: Biblioteca para operações numéricas avançadas.


In [91]:
import pandas as pd
import numpy as np

### Cria uma Série vazia.
### Normalmente, é necessário passar dados para evitar um aviso de depreciação.

In [93]:
pd.Series()

Series([], dtype: object)

### Cria uma Série de strings, representando sabores de sorvete.
### O Pandas atribui índices numéricos automaticamente (0, 1, 2, ...).

In [95]:
ice_cream_flavors = [
    'Chocolate',
    'Vanilla',
    'Strawberry',
    'Rum Raisin',
]

pd.Series(ice_cream_flavors)

0     Chocolate
1       Vanilla
2    Strawberry
3    Rum Raisin
dtype: object

### Associa os sabores de sorvete aos dias da semana como índices.

In [97]:
days_of_week = ('Monday','Wednesday', 'Friday', 'Saturday')
pd.Series(ice_cream_flavors, days_of_week)

Monday        Chocolate
Wednesday       Vanilla
Friday       Strawberry
Saturday     Rum Raisin
dtype: object

### Cria uma Série de valores booleanos.

In [99]:
bunch_of_bools = [True, False, False]
pd.Series(bunch_of_bools)

0     True
1    False
2    False
dtype: bool

### Cria uma Série de preços de ações, associando valores às etiquetas 'Open' e 'Close'.

In [101]:
stock_prices = [985.32, 950.44]
time_of_day = ['Open', 'Close']

pd.Series(stock_prices, time_of_day)

Open     985.32
Close    950.44
dtype: float64

### Cria uma Série de números inteiros com índices automáticos.

In [103]:
lucky_numbers = [4, 8, 15, 16, 23, 42]
pd.Series(lucky_numbers)

0     4
1     8
2    15
3    16
4    23
5    42
dtype: int64

### Cria uma Série de números de ponto flutuante, convertendo automaticamente os inteiros.

In [105]:
lucky_numbers = [4, 8, 15, 16, 23, 42]
pd.Series(lucky_numbers, dtype = 'float')

0     4.0
1     8.0
2    15.0
3    16.0
4    23.0
5    42.0
dtype: float64

### Usa np.nan para representar valores desconhecidos ou ausentes.

In [107]:
temperatures = [94, 88, np.nan, 91]
pd.Series(temperatures)

0    94.0
1    88.0
2     NaN
3    91.0
dtype: float64

### Cria uma Série onde as chaves do dicionário se tornam os índices e os valores representam calorias.

In [109]:
calorie_info = {
    'Cereal': 125,
    'Chocolate Bar': 406,
    'Ice Cream Sundae': 342,
    'Banoffe': 350,
}

diet = pd.Series(calorie_info)
diet

Cereal              125
Chocolate Bar       406
Ice Cream Sundae    342
Banoffe             350
dtype: int64

### Cria uma Série de cores, inferindo automaticamente os índices.

In [111]:
pd.Series(data = ('Red', 'Green', 'Blue'))

0      Red
1    Green
2     Blue
dtype: object

### Alternativa equivalente, armazenando a tupla em uma variável antes de criar a Série.

In [113]:
colors = ('Red', 'Green', 'Blue')
pd.Series(colors)

0      Red
1    Green
2     Blue
dtype: object

### Cria uma Série onde cada elemento é uma tupla, representando valores RGB de cores.

In [115]:
rgb_colors = [(120, 41, 26), (196, 165, 45)]
pd.Series(rgb_colors)

0     (120, 41, 26)
1    (196, 165, 45)
dtype: object

### Converte um conjunto (set) para lista antes de criar a Série, pois sets não têm ordem fixa.

In [117]:
my_set = {'Ricky','Bobby'}
pd.Series(list(my_set))

0    Bobby
1    Ricky
dtype: object

### Gera 10 números inteiros aleatórios entre 1 e 100 usando NumPy.

In [119]:
random_data = np.random.randint(1, 101, 10)
random_data

array([ 81,   6,   6,  58,  88,  88,  72,  96, 100,  96])

### Converte os números aleatórios em uma Série do Pandas.

In [121]:
pd.Series(random_data)

0     81
1      6
2      6
3     58
4     88
5     88
6     72
7     96
8    100
9     96
dtype: int32

### Retorna os valores da Series como um array NumPy.


In [123]:
diet.values

array([125, 406, 342, 350], dtype=int64)

### Retorna o tipo dos valores armazenados na Series.

In [125]:
type(diet.values)

numpy.ndarray

### Retorna o índice da Series.

In [127]:
diet.index

Index(['Cereal', 'Chocolate Bar', 'Ice Cream Sundae', 'Banoffe'], dtype='object')

### Retorna o tipo do índice da Series.

In [129]:
type(diet.index)

pandas.core.indexes.base.Index

### Retorna o número total de elementos na Series.

In [131]:
diet.size

4

### Retorna a forma da Series como uma tupla.

In [133]:
diet.shape

(4,)

### Verifica se todos os valores da Series são únicos.

In [135]:
diet.is_unique

True

### Cria uma Series com os valores fornecidos.

In [137]:
s = pd.Series(data=[1, 2, 3])

### Verifica se os valores da Series estão em ordem crescente.

In [139]:
s.is_monotonic_increasing

True

### Cria uma Series com valores de 0 a 500, com incrementos de 5.

In [141]:
values = range(0, 500, 5)
nums = pd.Series(data = values)
nums

0       0
1       5
2      10
3      15
4      20
     ... 
95    475
96    480
97    485
98    490
99    495
Length: 100, dtype: int64

### Retorna os primeiros 5 elementos da Series.

In [143]:
nums.head()

0     0
1     5
2    10
3    15
4    20
dtype: int64

### Retorna os últimos 5 elementos da Series.

In [145]:
nums.tail()

95    475
96    480
97    485
98    490
99    495
dtype: int64

### Cria uma Series com valores, incluindo NaN.

In [147]:
numbers = pd.Series([1,2,3, np.nan, np.nan, 4, 5])
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
6    5.0
dtype: float64

### Conta a quantidade de valores não nulos na Series.

In [168]:
numbers.count()

5

### Conta a quantidade de valores não nulos na Series.

In [175]:
numbers.sum()

15.0

### Retorna a soma dos valores da Series, ignorando NaN.

In [179]:
numbers.sum(skipna = False)

nan

### Retorna a soma dos valores, sem ignorar NaN.

In [182]:
numbers.sum(min_count = 3)

15.0

### Retorna a soma apenas se houver pelo menos 3 valores não nulos.

In [185]:
numbers.product(min_count = 3)

120.0

### Retorna o produto dos valores, exigindo pelo menos 3 valores não nulos.

In [188]:
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
6    5.0
dtype: float64

### Exibe a Series.

In [190]:
numbers.cumsum()

0     1.0
1     3.0
2     6.0
3     NaN
4     NaN
5    10.0
6    15.0
dtype: float64

### Retorna a soma acumulativa dos valores da Series.

In [192]:
numbers.cumsum(skipna = False)

0    1.0
1    3.0
2    6.0
3    NaN
4    NaN
5    NaN
6    NaN
dtype: float64

### Retorna a soma acumulativa, sem ignorar NaN.

In [194]:
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
6    5.0
dtype: float64

### Retorna a variação percentual entre valores consecutivos da Series.

In [196]:
numbers.pct_change()

  numbers.pct_change()


0         NaN
1    1.000000
2    0.500000
3    0.000000
4    0.000000
5    0.333333
6    0.250000
dtype: float64

In [216]:
# The three line below are equivalent
numbers.pct_change()
numbers.pct_change(fill_method = "pad")
numbers.pct_change(fill_method = "ffill")

  numbers.pct_change()
  numbers.pct_change(fill_method = "pad")
  numbers.pct_change(fill_method = "ffill")


0         NaN
1    1.000000
2    0.500000
3    0.000000
4    0.000000
5    0.333333
6    0.250000
dtype: float64

In [222]:
# The two lines below are equivalent
numbers.pct_change(fill_method = 'bfill')
numbers.pct_change(fill_method = 'backfill')

  numbers.pct_change(fill_method = 'bfill')
  numbers.pct_change(fill_method = 'backfill')


0         NaN
1    1.000000
2    0.500000
3    0.333333
4    0.000000
5    0.000000
6    0.250000
dtype: float64

In [224]:
numbers.mean()

3.0

In [228]:
numbers.median()

3.0

In [230]:
numbers.std()

1.5811388300841898

In [232]:
numbers.max()

5.0

In [234]:
numbers.min()

1.0

In [236]:
animals = pd.Series(['koala', 'aardvark', 'zebra'])
animals

0       koala
1    aardvark
2       zebra
dtype: object

In [238]:
animals.max()

'zebra'

In [240]:
animals.min()

'aardvark'

In [242]:
numbers.describe()

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

In [248]:
numbers.sample(3)

1    2.0
2    3.0
6    5.0
dtype: float64

In [252]:
authors = pd.Series(['Hemingway', 'Orwell', 'Dostoevsky', 'Fitzgerald', 'Orwell'])
authors.unique()

array(['Hemingway', 'Orwell', 'Dostoevsky', 'Fitzgerald'], dtype=object)

In [254]:
s1 = pd.Series(data = [5, np.nan, 15], index = ['A', 'B', 'C'])
s1

A     5.0
B     NaN
C    15.0
dtype: float64

In [256]:
s1 + 3

A     8.0
B     NaN
C    18.0
dtype: float64

In [258]:
s1.add(3)

A     8.0
B     NaN
C    18.0
dtype: float64

In [260]:
# The three lines below are equivalent.

s1 - 5
s1.sub(5)
s1.subtract(5)

A     0.0
B     NaN
C    10.0
dtype: float64

In [262]:
# The three lines below are equivalent
s1 * 2
s1.mul(2)
s1.multiply(2)

A    10.0
B     NaN
C    30.0
dtype: float64

In [266]:
# The threes lines belo are equivalent
s1 / 2
s1.div(2)
s1.divide(2)

A    2.5
B    NaN
C    7.5
dtype: float64

In [268]:
# The two lines belo are equivalent
s1 // 4
s1.floordiv(4)

A    1.0
B    NaN
C    3.0
dtype: float64

In [271]:
s1 = pd.Series([1, 2, 3], index = ['A', 'B', 'C'])
s2 = pd.Series([4, 5, 6], index = ['A', 'B', 'C'])

In [277]:
# The two lines below are equivvalent
s1 == s2
s1.eq(2)

A    False
B    False
C    False
dtype: bool

In [279]:
# The two lines below are equivalent
s1 != s2
s1.ne(s2)

A    False
B    False
C    False
dtype: bool

In [289]:
cities = pd.Series(data = ['San Francisco', 'Los Angeles', 'Las vegas', np.nan])

In [291]:
len(cities)

4

In [293]:
type(cities)

pandas.core.series.Series

In [295]:
dir(cities)


['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__bool__',
 '__class__',
 '__column_consortium_standard__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pandas_priority__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__

In [297]:
list(cities)

['San Francisco', 'Los Angeles', 'Las vegas', nan]