# Pandas
### Conhecendo a biblioteca Pandas.
O Pandas é uma biblioteca Python que fornece estruturas e ferramentas de análise de dados que permite rápida visualização e limpeza de dados e é muito semelhante ao Excel. Além de possuir métodos próprios de visualização de dados. O Pandas é uma biblioteca de código fonte aberto escrita sobre o Numpy e pode trabalhar com dados de diversos tipos diferentes.

INSTALAÇÃO:
Para instalar a biblioteca do Pandas, vá ao seu terminal e digite:
		“conda install pandas” ou “pip install pandas”

# Series

Series é um objeto básico do Pandas, temos a series e o DataFrame.
Uma Series é como um array unidimensional, uma lista de valores. Todas series possui um índice(index) que da rótulo a cada elemento da lista.
Uma series não se prende ao tipo de dados, podemos ter uma series de dados do tipo string, float, inteiro e até mesmo booleano, dentro outros.

In [3]:
import pandas as pd
import numpy as np

In [4]:
labels = ["a","b","c"]

In [5]:
my_list = [10,20,30]
array = np.array([10,20,30])
dictionary = {'a':10, 'b':20, 'c':30}

Transformar um dos elementos em uma Series.

In [6]:
pd.Series(data = dictionary, index= labels)

a    10
b    20
c    30
dtype: int64

In [7]:
series = pd.Series(array, labels)

Acessar um elemento pelo indice igual acessamos no dicionario.

In [8]:
series['b']

20

In [9]:
serie1 = pd.Series([1,2,3,4], ["EUA","Brasil","Alemanha","Italia"])
serie2 = pd.Series([1,2,3,4], ["Brasil","EUA","Belgica","Italia"])

Vamos somar as duas series(lembrando que nesse exemplo o indice são os países)                       
Os países serão somados com base no índice, os países que não tiver referencia nas duas series nos torna um valor NaN.


In [10]:
serie1 + serie2

Alemanha    NaN
Belgica     NaN
Brasil      3.0
EUA         3.0
Italia      8.0
dtype: float64

# DataFrame

DataFrame é um conjunto de series e objeto principal do Pandas. 
Um DataFrame é semelhante a uma matriz, mas as suas colunas têm nomes e podem conter dados de tipo diferente. Um DataFrame pode ser visto como uma tabela de uma base de dados, em que cada linha corresponde a um registo (linha) da tabela.

Definir o comando seed e todos os números aleatórios serão iguais em todos os computadores.

In [11]:
np.random.seed(101)

Criar um DF com os numero aleatorios do random.seed(101).

In [12]:
df = pd.DataFrame(np.random.randn(5,4), index="A B C D E".split(), columns = "W X Y Z".split())

In [13]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Acessar uma coluna.

In [14]:
df["W"]

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

Coluna nada mais é que um series.

In [15]:
print("Tipo da coluna:",type(df["W"]))
print("Tipo do DF:",type(df))

Tipo da coluna: <class 'pandas.core.series.Series'>
Tipo do DF: <class 'pandas.core.frame.DataFrame'>


Para trazer mais de uma coluna, basta colocar em uma lista.

In [16]:
df[["W","X"]]

Unnamed: 0,W,X
A,2.70685,0.628133
B,0.651118,-0.319318
C,-2.018168,0.740122
D,0.188695,-0.758872
E,0.190794,1.978757


Criar uma nova coluna: Passamos a nova coluna como parametro e já passamos um valor que se ela já existisse.

In [17]:
df["new"] = df ["W"] + df ["X"]

In [18]:
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.334983
B,0.651118,-0.319318,-0.848077,0.605965,0.3318
C,-2.018168,0.740122,0.528813,-0.589001,-1.278046
D,0.188695,-0.758872,-0.933237,0.955057,-0.570177
E,0.190794,1.978757,2.605967,0.683509,2.169552


E para apagar, utilizamos o drop(indice, eixo).                                                     
inplace=True : para salvar a alteração.

In [19]:
df.drop("new",axis=1, inplace=True)

In [20]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Localizar elementos por indice.


In [21]:
df.loc[["A","D"],["W","Y"]]

Unnamed: 0,W,Y
A,2.70685,0.907969
D,0.188695,-0.933237


localizar pela posição.                                                                           
nomeDF.loc[parametro da linha, parametro da coluna]

In [22]:
df.iloc[3:, 2:]

Unnamed: 0,Y,Z
D,-0.933237,0.955057
E,2.605967,0.683509


In [23]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


### Seleção condicional

Seleção condicional

In [24]:
bol = df > 0
df[bol]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


ex: esse exemplo nos traz as linhas em que W são maiores que 0.

In [25]:
df[df["W"]>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Operações logicas: nesse caso como o resultados são series, ao inves de usar o "and" usamos o "&" (and = & r or = |)


In [26]:
df[(df["W"]>0) & (df["Y"]>1)]

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


### set_index()


Resetar o index
Nesse caso o nosso indice existente se tranformou numa coluna.

In [27]:
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,A,2.70685,0.628133,0.907969,0.503826
1,B,0.651118,-0.319318,-0.848077,0.605965
2,C,-2.018168,0.740122,0.528813,-0.589001
3,D,0.188695,-0.758872,-0.933237,0.955057
4,E,0.190794,1.978757,2.605967,0.683509


Podemos atribuir uma outra coluna como indice. 

In [28]:
col = "SP RJ RS AM SC".split()

In [29]:
df["Estado"] = col

In [30]:
df

Unnamed: 0,W,X,Y,Z,Estado
A,2.70685,0.628133,0.907969,0.503826,SP
B,0.651118,-0.319318,-0.848077,0.605965,RJ
C,-2.018168,0.740122,0.528813,-0.589001,RS
D,0.188695,-0.758872,-0.933237,0.955057,AM
E,0.190794,1.978757,2.605967,0.683509,SC


Atribui ela como indice

In [31]:
df.set_index("Estado", inplace=True)

In [32]:
df

Unnamed: 0_level_0,W,X,Y,Z
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SP,2.70685,0.628133,0.907969,0.503826
RJ,0.651118,-0.319318,-0.848077,0.605965
RS,-2.018168,0.740122,0.528813,-0.589001
AM,0.188695,-0.758872,-0.933237,0.955057
SC,0.190794,1.978757,2.605967,0.683509


### Índices multiníveis

Níveis de índices

In [33]:
outside = ["G1","G1","G1","G2","G2","G2"]
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)

zip: pegar as listas outside and inside                                                     
zip: pega duas listas como input e transforma em uma tupla rodando elemento por elemento.          
hier_index: criar uma lista de tuplas associando cada valor de de uma lista ao valor da outra lista   
MultiIndex.from_tuples(): cria um indice multinivel

Vamos criar um DF usando esses indices de multiniveis

In [34]:
dfs = pd.DataFrame(np.random.randn(6,2), index=hier_index, columns=["A","B"])

In [35]:
dfs

Unnamed: 0,Unnamed: 1,A,B
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Acesar os elementos de G1.

In [36]:
dfs.loc["G1"]

Unnamed: 0,A,B
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


E aqui acessar os elemento da linha 2 do G1

In [37]:
dfs.loc["G1"].loc[2]

A   -1.706086
B   -1.159119
Name: 2, dtype: float64

Vamos atribuir nomes para os indices:

In [38]:
dfs.index.names = ["Grupo", "Numero"]

In [39]:
dfs

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Grupo,Numero,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Uma outra forma de selecionar elementos em uma DF que possuem indices de multiníveis e usar o xs.
Vantagem: Podemos selecionar elementos do indice interno sem tem que passar pelo indice externo.

In [40]:
dfs.xs(1,level="Numero")

Unnamed: 0_level_0,A,B
Grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,0.302665,1.693723
G2,0.166905,0.184502


### Dados Ausentes

Vamos criar um DF com alguns dados ausentes.

In [46]:
d = {"A":[1,2,np.nan],"B":[5,np.nan,np.nan],"C":[np.nan,np.nan,np.nan],"D": [7,8,9]}
dd = pd.DataFrame(d)
dd

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,,8
2,,,9


o dropna() ele nos traz apenas as linhas sem valores ausentes. (podemos usar o axis=1 para trazer as colunas)

In [49]:
dd.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,7


o paramentro (thresh= valor)não vai trazer apenas as linhas com o valor passado.

In [57]:
dd.dropna(thres)

Unnamed: 0,A,B,C
