# Pandas
### Conhecendo a biblioteca Pandas.
O Pandas é uma biblioteca Python que fornece estruturas e ferramentas de análise de dados que permite rápida visualização e limpeza de dados e é muito semelhante ao Excel. Além de possuir métodos próprios de visualização de dados. O Pandas é uma biblioteca de código fonte aberto escrita sobre o Numpy e pode trabalhar com dados de diversos tipos diferentes.

INSTALAÇÃO:
Para instalar a biblioteca do Pandas, vá ao seu terminal e digite:
		“conda install pandas” ou “pip install pandas”

# Series

Series é um objeto básico do Pandas, temos a series e o DataFrame.
Uma Series é como um array unidimensional, uma lista de valores. Todas series possui um índice(index) que da rótulo a cada elemento da lista.
Uma series não se prende ao tipo de dados, podemos ter uma series de dados do tipo string, float, inteiro e até mesmo booleano, dentro outros.

In [3]:
import pandas as pd
import numpy as np

In [4]:
labels = ["a","b","c"]

In [5]:
my_list = [10,20,30]
array = np.array([10,20,30])
dictionary = {'a':10, 'b':20, 'c':30}

In [6]:
#tranformar um dos elementos em uma Series.
pd.Series(data = dictionary, index= labels)

a    10
b    20
c    30
dtype: int64

In [7]:
series = pd.Series(array, labels)

In [8]:
#acessar um elemento pelo indice igual acessamos no dicionario.
series['b']

20

In [9]:
serie1 = pd.Series([1,2,3,4], ["EUA","Brasil","Alemanha","Italia"])
serie2 = pd.Series([1,2,3,4], ["Brasil","EUA","Belgica","Italia"])

In [10]:
#Vamos somar as duas series(lembrando que nesse exemplo o indice são os países)
#Os países serão somados com base no índice, os países que não tiver referencia nas duas series nos torna um valor NaN.
serie1 + serie2

Alemanha    NaN
Belgica     NaN
Brasil      3.0
EUA         3.0
Italia      8.0
dtype: float64

# DataFrame

DataFrame é um conjunto de series e objeto principal do Pandas. 
Um DataFrame é semelhante a uma matriz, mas as suas colunas têm nomes e podem conter dados de tipo diferente. Um DataFrame pode ser visto como uma tabela de uma base de dados, em que cada linha corresponde a um registo (linha) da tabela.

In [11]:
#definir o comando seed e todos os números aleatórios serão iguais em todos os computadores.
np.random.seed(101)

In [44]:
#Criar um DF com os numero aleatorios do random.seed(101).
df = pd.DataFrame(np.random.randn(5,4), index="A B C D E".split(), columns = "W X Y Z".split())

In [13]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [14]:
#acessar uma coluna.
df["W"]

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

In [15]:
#Coluna nada mais é que um series.
print("Tipo da coluna:",type(df["W"]))
print("Tipo do DF:",type(df))

Tipo da coluna: <class 'pandas.core.series.Series'>
Tipo do DF: <class 'pandas.core.frame.DataFrame'>


In [16]:
#Para trazer mais de uma coluna, basta colocar em uma lista.
df[["W","X"]]

Unnamed: 0,W,X
A,2.70685,0.628133
B,0.651118,-0.319318
C,-2.018168,0.740122
D,0.188695,-0.758872
E,0.190794,1.978757


In [17]:
#Criar uma nova coluna.
#Passamos a nova coluna como parametro e já passamos um valor que se ela já existisse.
df["new"] = df ["W"] + df ["X"]

In [18]:
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.334983
B,0.651118,-0.319318,-0.848077,0.605965,0.3318
C,-2.018168,0.740122,0.528813,-0.589001,-1.278046
D,0.188695,-0.758872,-0.933237,0.955057,-0.570177
E,0.190794,1.978757,2.605967,0.683509,2.169552


In [19]:
#E para apagar, utilizamos o drop(indice, eixo).
#inplace=True : para salvar a alteração.
df.drop("new",axis=1, inplace=True)

In [20]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [21]:
#Localizar elementos por indice.
df.loc[["A","D"],["W","Y"]]

Unnamed: 0,W,Y
A,2.70685,0.907969
D,0.188695,-0.933237


In [22]:
#localizar pela posição.
#[parametro da linha, parametro da coluna]
df.iloc[3:, 2:]

Unnamed: 0,Y,Z
D,-0.933237,0.955057
E,2.605967,0.683509


In [23]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [25]:
#seleção condicional
bol = df > 0
df[bol]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [26]:
#ex: esse exemplo nos traz as linhas em que W são maiores que 0.
df[df["W"]>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [30]:
#Ex: já nesse exemplo ele nos traz as linhas de Y, aos quais o valores de W são maiores que 0.
df[df["W"]>0]["Y"]

A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
Name: Y, dtype: float64

In [36]:
#operações logicas: nesse caso como o resultados são series, ao inves de usar o "and" usamos o "&" (and = & r or = |)
df[(df["W"]>0) & (df["Y"]>1)]

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


In [46]:
#resetar o index
df.reset_index()
#nesse caso o nosso indice existe se tranformou numa coluna.

Unnamed: 0,index,W,X,Y,Z
0,A,0.302665,1.693723,-1.706086,-1.159119
1,B,-0.134841,0.390528,0.166905,0.184502
2,C,0.807706,0.07296,0.638787,0.329646
3,D,-0.497104,-0.75407,-0.943406,0.484752
4,E,-0.116773,1.901755,0.238127,1.996652


In [48]:
#Podemos atribuir uma outra coluna como indice 
#criar uma coluna
col = "SP RJ RS AM SC".split()

In [49]:
df["Estado"] = col

In [50]:
df

Unnamed: 0,W,X,Y,Z,Estado
A,0.302665,1.693723,-1.706086,-1.159119,SP
B,-0.134841,0.390528,0.166905,0.184502,RJ
C,0.807706,0.07296,0.638787,0.329646,RS
D,-0.497104,-0.75407,-0.943406,0.484752,AM
E,-0.116773,1.901755,0.238127,1.996652,SC


In [55]:
#Atribui ela como indice
df.set_index("Estado", inplace=True)

In [56]:
df

Unnamed: 0_level_0,W,X,Y,Z
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SP,0.302665,1.693723,-1.706086,-1.159119
RJ,-0.134841,0.390528,0.166905,0.184502
RS,0.807706,0.07296,0.638787,0.329646
AM,-0.497104,-0.75407,-0.943406,0.484752
SC,-0.116773,1.901755,0.238127,1.996652
