# Pandas

Pandas é uma biblioteca open source do Python para análise de dados. Python sempre foi muito bom para preparação de dados, mas tão bom para análise, geralmente prefeririam R ou usando o banco de dados e manupular via SQL. Pandas torna o Python ótimo para análise de dados.


## Series

Uma Series é um objeto uni-dimensional similar ao ndarray do numpy, lista, ou uma coluna em uma tabela. Cada elemento é indexidado por um rótulo. Por padrão, cada elemento recebe rótulo de 0 a N, onde N é o comprimento da Series menos um.

Tem varias formas de criar uma Series, vamos exemplificar apenas duas:

In [1]:
# importanto pandas
import pandas as pd

# criando uma série
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'])
s

0                7
1       Heisenberg
2             3.14
3      -1789710578
4    Happy Eating!
dtype: object

### Opções de Criação

In [7]:
pd.Series?

In [10]:
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'],
             index=['A', 'B', 'I', 'I', 'J'])
s

A                7
B       Heisenberg
I             3.14
I      -1789710578
J    Happy Eating!
dtype: object

Você pode utilizar indices para selecionar elementos especificos, similar ao numpy.

In [13]:
# utilizando apenas um valor
s['I']

I           3.14
I    -1789710578
dtype: object

In [15]:
# utilizando lista
s[['A', 'B', 'J']]

A                7
B       Heisenberg
J    Happy Eating!
dtype: object

### Operações aritméticas 

In [51]:
s1 = pd.Series([1, 2, 3, 4])
s2 = pd.Series([4, 3, 2, 1])
# descomentar para verificar operação entre series indexadas diferentemente
# s2 = pd.Series([4, 3, 2, 1], index=[1, 2, 3, 4])

print('s1 =', s1.tolist())
print('s2 =', s2.tolist(), '\n')

print("s1 + s2 = {}\n".format((s1 + s2).tolist()))
print("s1 - s2 = {}\n".format((s1 - s2).tolist()))
print("s1 * s2 = {}\n".format((s1 * s2).tolist()))
print("s1 / s2 = {}\n".format((s1 / s2).tolist()))
print("s1 % s2 = {}\n".format((s1 % s2).tolist()))
print("s1 ** s2 = {}\n".format((s1 ** s2).tolist()))

s1 = [1, 2, 3, 4]
s2 = [4, 3, 2, 1] 

s1 + s2 = [nan, 6.0, 6.0, 6.0, nan]

s1 - s2 = [nan, -2.0, 0.0, 2.0, nan]

s1 * s2 = [nan, 8.0, 9.0, 8.0, nan]

s1 / s2 = [nan, 0.5, 1.0, 2.0, nan]

s1 % s2 = [nan, 2.0, 0.0, 0.0, nan]

s1 ** s2 = [1.0, 16.0, 27.0, 16.0, nan]



### Operadores Booleanos 

In [55]:
s1 = pd.Series([1, 2, 3, 4])
s2 = pd.Series([4, 3, 2, 1])

# descomentar para verificar comparação entre series indexadas diferentemente
# s2 = pd.Series([4, 3, 2, 1], index=[1, 2, 3, 4])

# s1 ou s2 podem ser escalares assim como no numpy
# descomente a linha abaixo e rode a célula novamente
# s1 = 2
# ou
# s2 = 6

print('s1 =\n{}'.format(s1))
print('s2 =\n{}\n'.format(s2))

print("s1 < s2 = {}\n".format((s1 < s2).tolist()))
print("s1 > s2 = {}\n".format((s1 > s2).tolist()))
print("s1 == s2 = {}\n".format((s1 == s2).tolist()))
print("s1 != s2 = {}\n".format((s1 != s2).tolist()))
print("s1 <= s2 = {}\n".format((s1 <= s2).tolist()))
print("s1 >= s2 = {}\n".format((s1 >= s2).tolist()))

s1 =
0    1
1    2
2    3
3    4
dtype: int64
s2 =
0    4
1    3
2    2
3    1
dtype: int64

s1 < s2 = [True, True, False, False]

s1 > s2 = [False, False, True, True]

s1 == s2 = [False, False, False, False]

s1 != s2 = [True, True, True, True]

s1 <= s2 = [True, True, False, False]

s1 >= s2 = [False, False, True, True]



### Operações numpy

In [60]:
import numpy as np

print("sum:", s1.sum())
print("np.log:\n", np.log(s1))

sum: 10
np.log:
 0    0.000000
1    0.693147
2    1.098612
3    1.386294
dtype: float64


In [69]:
s1 = pd.Series(['1', '2', '3', '4'])
s1.sum()

'1234'

### Tratando Valores Faltantes

Valores nulos ou faltante, podem ser tratados com método `isnull`

In [70]:
s =pd.Series({'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None})

s.isnull()

Austin           False
Boston            True
Chicago          False
New York         False
Portland         False
San Francisco    False
dtype: bool

In [71]:
s.dropna() # ignorando valores nulos

Austin            450.0
Chicago          1000.0
New York         1300.0
Portland          900.0
San Francisco    1100.0
dtype: float64

In [73]:
soma = s.sum() # ignora valores nulos

soma == s.dropna().sum()

True