In [2]:
# O módulo Pandas é realmente útil para análise de dados.

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [3]:
# Vamos criar uma Series

# Series é como um array em Numpy, exceto pelo fato de ser rótulado por dados... por isso é indexado

objeto = Series([3,6,9,12])

In [5]:
objeto

0     3
1     6
2     9
3    12
dtype: int64

In [7]:
# Cada valor em uma Series é indexado

# Para vermos apenas os valores de uma Series podemos utilizar o método values

objeto.values

array([ 3,  6,  9, 12], dtype=int64)

In [9]:
# Se quisermos ver os índices podemos utilizar o método index

objeto.index

RangeIndex(start=0, stop=4, step=1)

In [16]:
# Vamos criar uma Series com os indices especificados

ww2_cas = Series([8700000, 4300000, 3000000, 2100000, 400000], index=['USSR','Germany','China','Japan','USA'])

In [17]:
ww2_cas

USSR       8700000
Germany    4300000
China      3000000
Japan      2100000
USA         400000
dtype: int64

In [18]:
# Agora o índice foi rotula com o nome de países.

# Podemos selecionar valores de índice para selecionar valores de série.

ww2_cas['USA']

400000

In [19]:
# Algo muito interessante que podemos fazer com Series é verificar as operações de array.

# Check which countries had cas greater than mill.

ww2_cas[ww2_cas > 4000000] # Estamos retornando os valores da Series que são maiores que 4000000.

USSR       8700000
Germany    4300000
dtype: int64

In [20]:
# Nós também podemos tratar uma série como um dicionário ordenado em Python

# Então, por exemplo, se quiséssemos apenas verificar se um índice ou valor estivesse em uma série, poderiamos dizer algo como:

'USSR' in ww2_cas

True

In [21]:
'Brazil' in ww2_cas

False

In [22]:
# Podemos então converter uma Series em dicionário

ww2_dict = ww2_cas.to_dict() # Convertendo

ww2_dict

{'USSR': 8700000,
 'Germany': 4300000,
 'China': 3000000,
 'Japan': 2100000,
 'USA': 400000}

In [23]:
# Convertendo para Series

ww2_series = Series(ww2_dict) # Convertendo

ww2_series

USSR       8700000
Germany    4300000
China      3000000
Japan      2100000
USA         400000
dtype: int64

In [24]:
# Digamos que você fosse passar um dicionário para Series e o índice tera as chaves do dicionário em ordem

countries = ['China', 'Germany', 'Japan', 'USA', 'USSR', 'Argentina']

In [25]:
objeto_2 = Series(ww2_dict, index=countries)

In [26]:
objeto_2

China        3000000.0
Germany      4300000.0
Japan        2100000.0
USA           400000.0
USSR         8700000.0
Argentina          NaN
dtype: float64

In [27]:
# Em Pandas quando você passa uma Series com um índice particular que não possui aquele valor, ele retorna Nan.

# Pandas foi construído para encontrar nulo e substituí-los.

pd.isnull(objeto_2) # Retorna True ou False. É nulo?

China        False
Germany      False
Japan        False
USA          False
USSR         False
Argentina     True
dtype: bool

In [28]:
pd.notnull(objeto_2) # Não é nulo? Retorna True or False.

China         True
Germany       True
Japan         True
USA           True
USSR          True
Argentina    False
dtype: bool

In [29]:
for elemento in objeto_2:
    print(elemento)

3000000.0
4300000.0
2100000.0
400000.0
8700000.0
nan


In [30]:
for elemento in range(len(objeto_2)):
    print(objeto_2[elemento])

3000000.0
4300000.0
2100000.0
400000.0
8700000.0
nan


In [37]:
objeto_2.values

array([3000000., 4300000., 2100000.,  400000., 8700000.,      nan])

In [38]:
objeto_2.keys

<bound method Series.keys of China        3000000.0
Germany      4300000.0
Japan        2100000.0
USA           400000.0
USSR         8700000.0
Argentina          NaN
dtype: float64>

In [40]:
objeto_2.index

Index(['China', 'Germany', 'Japan', 'USA', 'USSR', 'Argentina'], dtype='object')

In [44]:
ww2_series

USSR       8700000
Germany    4300000
China      3000000
Japan      2100000
USA         400000
dtype: int64

In [45]:
# Podemos adicionar Series

objeto_2

China        3000000.0
Germany      4300000.0
Japan        2100000.0
USA           400000.0
USSR         8700000.0
Argentina          NaN
dtype: float64

In [46]:
ww2_series + objeto_2

Argentina           NaN
China         6000000.0
Germany       8600000.0
Japan         4200000.0
USA            800000.0
USSR         17400000.0
dtype: float64

In [47]:
objeto_2.name = 'World War 2 Casulaties' # Dando nome para Series

In [48]:
objeto_2

China        3000000.0
Germany      4300000.0
Japan        2100000.0
USA           400000.0
USSR         8700000.0
Argentina          NaN
Name: World War 2 Casulaties, dtype: float64

In [55]:
# Podemos também nomear o index

objeto_2.index.name = 'Countries'

In [56]:
objeto_2

Countries
China        3000000.0
Germany      4300000.0
Japan        2100000.0
USA           400000.0
USSR         8700000.0
Argentina          NaN
Name: World War 2 Casulaties, dtype: float64