# Pandas

Documentação do Pandas: https://pandas.pydata.org/pandas-docs/stable/ <br>
Quickstart: https://pandas.pydata.org/pandas-docs/stable/10min.html

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Series

Series é um array rotulado unidimensional, capaz de conter qualquer tipo de dados (inteiros, strings, números de ponto flutuante, objetos Python, etc.). Os rótulos dos eixos são referidos coletivamente como o índice . O método básico para criar uma série é chamar:

 _s = pd.Series(**data**, **index=index**)_


O parâmetro data podem ter muitos tipos diferentes:

  - um dict Python
  - um ndarray
  - um valor escalar (como 5) 

O índice passado é uma lista de rótulos de eixo. Assim, isso separa em alguns casos, dependendo de quais dados são :

**De ndarray :** Se data for um ndarray, o índice deverá ter o mesmo tamanho que os dados . Se nenhum índice for passado, um será criado com valores [0, ..., len(data) - 1] .

In [7]:
pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

a    0.858646
b    0.718021
c    0.074670
d   -0.627704
e   -0.669092
dtype: float64

**De dicionários:** Séries podem ser instanciadas a partir de dicionários: 

In [8]:
d = {'b' : 1, 'a' : 0, 'c' : 2}
pd.Series(d)

b    1
a    0
c    2
dtype: int64

In [9]:
 pd.Series(d,index = [ 'b' , 'c' , 'd' , 'a' ]) # Não há valor para a posição d

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

**Do valor escalar:** Se data for um valor escalar, um índice deve ser fornecido. O valor será repetido para corresponder ao comprimento do índice 

In [10]:
 pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

### Séries são semelhantes a um ndarray

Series agem de maneira muito semelhante a um ndarray e é um argumento válido para a maioria das funções do NumPy. No entanto, operações como o fatiamento também dividem o índice.

In [23]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
print('s[0]: {} \n'.format(s[0]))
print('s[0,1,2]: {} \n'.format(s[:3]))
print('s[s > s.median()]: \n {} \n'.format(s[s > s.median()]))
print('s[[ 4 , 3 , 1 ]]: \n {} \n'.format(s[[4,3,1]]))

s[0]: 1.425220062591074 

s[0,1,2]: a    1.425220
b   -0.686702
c    0.114735
dtype: float64 

s[s > s.median()]: 
 a    1.425220
c    0.114735
dtype: float64 

s[[ 4 , 3 , 1 ]]: 
 e   -0.735487
d   -0.381712
b   -0.686702
dtype: float64 



### Séries são semelhantes a um dicionário

Uma série é como um dicionário de tamanho fixo em que você pode obter e definir valores por rótulo de índice:

In [29]:
print('s["a"]: {} \n'.format(s['a']))
s['e'] = 12
print('s["e"]: {} \n'.format(s['e']))
print('e' in s) # A chave e está contida nessa série?
print(s.get('f', np.nan)) #Busca por uma chave e caso não encontre, retorna nan

s["a"]: 1.425220062591074 

s["e"]: 12.0 

True
nan


### Operações vetorizadas e alinhamento de rótulos com a série 

Ao trabalhar com arrays NumPy não processados, o loop por valor a valor geralmente não é necessário. O mesmo acontece quando se trabalha com séries em pandas. A série também pode ser passada para a maioria dos métodos NumPy que esperam um ndarray.

In [37]:
print(s + s,'\n') # Soma dos elementos a + a, b + b, c + c
print(s * 2,'\n') # Multiplicação dos elementos por 2
print(np.exp(s),'\n') # Expoente
print(s[1:] + s[:-1])

a     2.850440
b    -1.373404
c     0.229469
d    -0.763423
e    24.000000
dtype: float64 

a     2.850440
b    -1.373404
c     0.229469
d    -0.763423
e    24.000000
dtype: float64 

a         4.158773
b         0.503233
c         1.121576
d         0.682692
e    162754.791419
dtype: float64 

a         NaN
b   -1.373404
c    0.229469
d   -0.763423
e         NaN
dtype: float64


In [38]:
# Nomear uma série
s = pd.Series(np.random.randn(5), name='something')
# Renomear uma série
s2 = s.rename("different")
print(s.name,'\n')
print(s2.name,'\n')

something 

different 



## Dataframes

DataFrame é uma estrutura de dados rotulada bidimensional com colunas de tipos potencialmente diferentes. Você pode pensar nisso como uma planilha ou tabela SQL, ou um dicionário de objetos da série. Geralmente é o objeto de pandas mais comumente usado. Como a série, o DataFrame aceita muitos tipos diferentes de entrada:

   - Dicionário de 1D ndarrays, listas, dicionários ou séries
   - 2-D numpy.andarray
   - Ndarray estruturado ou registro
   - Uma Series
   - Outro DataFrame 

Juntamente com os dados, você pode, opcionalmente, passar argumentos de índice (rótulos de linha) e colunas (rótulos de coluna). Se você passar um índice e / ou colunas, estará garantindo o índice e / ou colunas do DataFrame resultante. Assim, um dict de Series mais um índice específico descartará todos os dados que não corresponderem ao índice passado.

Se os rótulos dos eixos não forem passados, eles serão construídos a partir dos dados de entrada com base nas regras de senso comum.

**Nota: Quando os dados são um dict e as columns não são especificadas, as colunas do DataFrame serão ordenadas pela ordem de inserção do dict, se você estiver usando a versão do Python> = 3.6 e Pandas> = 0.23.
Se você estiver usando Python <3.6 ou Pandas <0.23 e columns não forem especificadas, as colunas DataFrame serão a lista ordenada lexicamente de chaves dict.**

**Do dicionário de séries ou dicionários:** O índice resultante será a união dos índices das várias séries. Se houver algum dicionário aninhado, ele será primeiro convertido em série. Se nenhuma coluna for passada, as colunas serão a lista ordenada de chaves do dicionário.

In [41]:
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [42]:
pd.DataFrame(d, index=['d', 'b', 'a'])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [45]:
 pd.DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


In [46]:
# Index
print('Índices: {} \n',format(df.index))
# Colunas
print('Colunas: {}',format(df.columns))

Índices: {} 
 Index(['a', 'b', 'c', 'd'], dtype='object')
Colunas: {} Index(['one', 'two'], dtype='object')
