# Pandas

Pandas é uma das bibliotecas mais utilizadas no Python para trabalhar e tratar os dados.
O Pandas trabalha muito com Series e DataFrame.
Series é um objeto array unidimensional contendo uma sequência de valores. Ela contém valores e os seus repectivos index na linhas.
Já o Dataframe contém linhas e colunas que também possuem seus index.
Normalmente as pessoas utilizam pd para fazer referência a bibliotecas do pandas como segue:

**import pandas as pd**

### Series

In [1]:
import pandas as pd
objt = pd.Series([1,2,5,-7])
objt

0    1
1    2
2    5
3   -7
dtype: int64

In [2]:
objt.values

array([ 1,  2,  5, -7], dtype=int64)

In [3]:
objt.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
#Você pode nomear os valores do index caso ache necessário
obj2 = pd.Series([4,7,-5,3], index = ['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [5]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [6]:
obj2['a']

-5

In [7]:
obj2['d'] = 20
obj2

d    20
b     7
a    -5
c     3
dtype: int64

In [8]:
#Podemos utilizar alguns filtros visto em NumPy com Pandas também
obj2[obj2 > 5]

d    20
b     7
dtype: int64

In [9]:
obj2 * 2

d    40
b    14
a   -10
c     6
dtype: int64

In [10]:
import numpy as np
np.exp(obj2)

d    4.851652e+08
b    1.096633e+03
a    6.737947e-03
c    2.008554e+01
dtype: float64

In [11]:
#Se tiver dados contidos em dicionário o mesmo pode ser utilizado com Serie
import pandas as pd
sdata = {'Ohio' : 35000, 'Texas' : 7100, 'Oregon' : 16000, 'Utah' : 5000}
obj3 = pd.Series(sdata)
sdata

{'Ohio': 35000, 'Texas': 7100, 'Oregon': 16000, 'Utah': 5000}

In [12]:
obj3

Ohio      35000
Texas      7100
Oregon    16000
Utah       5000
dtype: int64

In [13]:
#Caso queira pode acrecentar mais um dado a Serie e ainda reordena-los
#Como não temos informações sobre California ele virá como NaN(Not a Number)
states = ['California', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index = states)
obj4

California        NaN
Oregon        16000.0
Texas          7100.0
dtype: float64

In [14]:
#Podemos verificar se existe valores nulos na nossas serie
pd.isnull(obj4)

California     True
Oregon        False
Texas         False
dtype: bool

In [15]:
3#Podemos verificar o que não é nulo também
pd.notnull(obj4)

California    False
Oregon         True
Texas          True
dtype: bool

# DataFrame

O Dataframe representa uma tabela de dados retangular. Ele possui index tanto para linha quanto para coluna. Os dados são armazenados como um ou mais blocos bidimensionais em vez de serem armazenados como uma lista, um dicionários ou outra coleção de arrays unidimensional.

In [2]:
#Exemplo de um dataframe a partir de um dicionários de listas.
#Este não é o único jeito de obter-se um dataframe
inf = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
      'year': [2000, 2000, 2002, 2001, 2002, 2003],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
inf

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2000, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [17]:
import pandas as pd
df = pd.DataFrame(inf)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2000,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [18]:
#Caso queira pode especificar as colunas do dataframe
import pandas as pd
df = pd.DataFrame(inf, columns = ['year', 'state', 'pop'])
df

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2000,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [3]:
#Caso inclua uma coluna que não está nos dados que irão originar o dataframe, ela virá com valores ausentes
import pandas as pd
df2 = pd.DataFrame(inf, columns = ['year', 'state', 'pop', 'debt'])
df2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2000,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [4]:
#Podemos inserir um valor a coluna vazia
df2['debt'] = 25
df2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,25
1,2000,Ohio,1.7,25
2,2002,Ohio,3.6,25
3,2001,Nevada,2.4,25
4,2002,Nevada,2.9,25
5,2003,Nevada,3.2,25


In [5]:
#Uma coluna do dataframe pode ser obtida como uma serie com o seguinte comando:
df2['year']

0    2000
1    2000
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [6]:
df2.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [7]:
#Adicionando uma nova coluna booleana para posteriormente deleta-la
df2['eastern'] = df2.state == 'Ohio'
df2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,25,True
1,2000,Ohio,1.7,25,True
2,2002,Ohio,3.6,25,True
3,2001,Nevada,2.4,25,False
4,2002,Nevada,2.9,25,False
5,2003,Nevada,3.2,25,False


In [9]:
del df2['eastern']
df2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,25
1,2000,Ohio,1.7,25
2,2002,Ohio,3.6,25
3,2001,Nevada,2.4,25
4,2002,Nevada,2.9,25
5,2003,Nevada,3.2,25


In [37]:
#Podemos fazer uma transposição do dataframe
df2.T

Unnamed: 0,0,1,2,3,4,5
year,2000,2000,2002,2001,2002,2003
state,Ohio,Ohio,Ohio,Nevada,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9,3.2
debt,25,25,25,25,25,25


In [38]:
#Caso queira retornar os valores de um dataframe o processo é o mesmo do NumPy
df2.values

array([[2000, 'Ohio', 1.5, 25],
       [2000, 'Ohio', 1.7, 25],
       [2002, 'Ohio', 3.6, 25],
       [2001, 'Nevada', 2.4, 25],
       [2002, 'Nevada', 2.9, 25],
       [2003, 'Nevada', 3.2, 25]], dtype=object)

### Métodos e propriedas do INDEX
* append = Concatena com objetos INdex adicionais, gerando um novo Index
* difference = Calcula a diferença entre conjuntos como um Index
* intersecition = Calcula a intersecção entre os conjuntos
* union = Calcula a união entre conjuntos
* isin = Calcula um array booleano indicando se cada valor está contido na coleção recebida
* delete = Calcula o novo Index com o elemento no índice i apagado
* drop = Calcula um novo Index apagando os valores recebidos
* insert = Calcula um novo Index inserindo um elemento no índice i
* os_monotonic = Devolve True se cada elemento for maior ou igual ao elemento anterior
* is_unique = Devolve True se o Index não tiver valores duplicados
* unique = Calcula o array de valores únicos no Index

#### Seleção com **LOC** e **ILOC**

A função **loc** trabalha com rotulos e a função **iloc** trabalha com números

In [20]:
import pandas as pd
inf = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
      'year': [2000, 2000, 2002, 2001, 2002, 2003],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
labels = ['zero', 'one', 'two', 'three', 'four', 'five']
df2 = pd.DataFrame(inf, columns = ['year', 'state', 'pop', 'debt'], index = labels)
df2

Unnamed: 0,year,state,pop,debt
zero,2000,Ohio,1.5,
one,2000,Ohio,1.7,
two,2002,Ohio,3.6,
three,2001,Nevada,2.4,
four,2002,Nevada,2.9,
five,2003,Nevada,3.2,


In [27]:
df2.loc['zero':'three' ,['state']]

Unnamed: 0,state
zero,Ohio
one,Ohio
two,Ohio
three,Nevada


In [34]:
df2.iloc[[0,1,2,3], [1]]

Unnamed: 0,state
zero,Ohio
one,Ohio
two,Ohio
three,Nevada


### Soma de Dataframes

In [2]:
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)), columns = list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)), columns = list('abcde'))

In [3]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [4]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [5]:
#Quando somar os dois dataframes, normalmente, os valores que não tiver no outro dataframe será preenchido com NaN
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [6]:
#Podemos preencher esses valores NaN com as funções add e fill_value
df1.add(df2, fill_value = 0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


### Tabela resumo de calculos estatísticos

- **Describe** = gera resumo estatístico para Dataframe e algumas estatísticas alternativas para Series
- **Count** = número de valores diferentes de Na
- **min,max** = calcula os valores mínimo e máximo
- **argmin,argmax** = calcula as posições dos índices (inteiros) nas quais os valores mínimo ou máximo são obtidos, respectivamente
- **idxmin,idxmax** = calcula os rótulos dos índices nos quais os valores mínimo ou máximo são obtidos, respectivamente
- **quantile** = calcula o quantil da amostragem variando de 0 a 1
- **sum** = soma dos valores
- **mean** = média dos valores
- **median** = mediana aritmética dos valores
- **mad** = desvio absoluto médio do valor médio
- **prod** = produto de todos os valores
- **var** = variância dos valores da amostra
- **std** = desvio-padrão dos valores da amostra
- **skew** = assimetria ou obliquidade (skewness, ou terceiro momento) dos valores da amostra
- **kurt** = curtose (quarto momento) dos valores da amostra
- **cumsum** = soma cumulativa dos valores
- **cummim,cummax** = mínimo ou máximo cumulativo dos valores, respectivamente
- **cumprod** = produto cumulativo dos valores
- **diff** = calcula a primeira diferença aritmética 
- **pct_change** = calcula mudanças percentuais