# Python para Data Science - Pandas

Iniciaremos com uma das bibliotecas mais importantes e mais usadas para fazer a análise de dados no Python - o Pandas. 

O Pandas oferece diversas funções que facilitam a manipulação/ tratamento, limpeza e visualização dos dados.

No Pandas os dados são representados em estruturas Series ou DataFrames.

In [2]:
#Importando a biblioteca
import pandas as pd
import numpy as np #biblioteca numpy será apresentada em outro tutorial. Aqui usaremos  para gerar valores aleatórios

## Series

É o bloco de construção ou estrutura de dados básica do Pandas

In [None]:
#labels = ['a','b','c']
labels = 'a' 'b' 'c'.split()
labels

In [None]:
pais = ['EUA', 'Italia', 'Brasil']
pais

In [None]:
pd.Series(pais,labels)

## DataFrames

O Pandas facilita a visualização de dados por causa da estrutura que ele comporta os dados - essa estrutura é chamada de DataFrame. 

Vamos criar um DataFrame:

In [3]:
from numpy.random import randn
np.random.seed(101)

df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Podemos acessar os dados de uma coluna específica:

In [4]:
df['X']

A    0.628133
B   -0.319318
C    0.740122
D   -0.758872
E    1.978757
Name: X, dtype: float64

Ou de uma lista de colunas:

In [None]:
df[['W','Z']]

Para selecionar registros do DataFrame por meio dos labels, utilizamos a função "loc"

Podemos também acessar o conteúdo de uma linha específica:

In [5]:
df.loc['A']

W    2.706850
X    0.628133
Y    0.907969
Z    0.503826
Name: A, dtype: float64

E também de um conjunto de linhas:

In [None]:
df.loc[['A','C']]

Podemos acessar um valor específico do DataFrame segundo a localização do mesmo (linha, coluna):

In [None]:

df.loc['C','X']

Ou um conjunto de valores:

In [None]:
df.loc[['A','B'],['W','Y']]

A função "iloc" permite localizar registros com base nas posições numéricas dos índices:

A seguir selecionamos a linha 0 (A)

In [None]:
df.iloc[0:1,:]

Podemos selecionar dados com base em condicionais:

O comando abaixo testa todos os valores do DataFrame e apresenta NaN nos registros onde a condição é Falsa.

In [6]:
df[df > 0.5]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,,,,0.955057
E,,1.978757,2.605967,0.683509


Aqui são mostrados todos os registros nos quais os valores da coluna W são maiores que 0.5, ou seja, linhas A e B.

In [7]:
df[df['W'] > 0.5]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965


Aqui são mostrados os registros da coluna Y para os quais os valores da coluna W são maiores que 0.5

In [11]:
#df[df['W']>0.5]['Y']
teste = df[df['W']>0.5]
teste['Y']

A    0.907969
B   -0.848077
Name: Y, dtype: float64

Ficou confuso? Vamos codificar de forma detalhada:

In [None]:
resultado = df['W'] > 0.5
df2 = df[resultado]
df3 = df2['Y']
df3

Você pode utilizar operadores logicos para condicionais:

In [13]:
df[(df['W']>0.5)& (df['Y']>0.5)]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826


Podemos criar uma nova coluna ao DataFrame, simplesmente dando um nome e atribuindo valores:

Observe abaixo que os valores atribuidos são resultantes de uma operação entre duas colunas já existentes.

In [14]:
df['New']= df['W'] + df['Y']
df

Unnamed: 0,W,X,Y,Z,New
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


Podemos definir os valores dos índices por meio da função "set_index"

Primeiramente vamos criar uma coluna com Estados (observe a atribuição dos valores desta coluna):

In [15]:
df['Estados'] = 'GO RJ SP MG PR'.split()
df

Unnamed: 0,W,X,Y,Z,New,Estados
A,2.70685,0.628133,0.907969,0.503826,3.614819,GO
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959,RJ
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355,SP
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542,MG
E,0.190794,1.978757,2.605967,0.683509,2.796762,PR


In [16]:
df.set_index('Estados')

Unnamed: 0_level_0,W,X,Y,Z,New
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
GO,2.70685,0.628133,0.907969,0.503826,3.614819
RJ,0.651118,-0.319318,-0.848077,0.605965,-0.196959
SP,-2.018168,0.740122,0.528813,-0.589001,-1.489355
MG,0.188695,-0.758872,-0.933237,0.955057,-0.744542
PR,0.190794,1.978757,2.605967,0.683509,2.796762


In [17]:
df

Unnamed: 0,W,X,Y,Z,New,Estados
A,2.70685,0.628133,0.907969,0.503826,3.614819,GO
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959,RJ
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355,SP
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542,MG
E,0.190794,1.978757,2.605967,0.683509,2.796762,PR


Precisamos que a alteração dos índices persista no DataFrame.

Para isso, precisamos do parâmetro "inplace" na execução do comando:

In [None]:
df.set_index('Estados',inplace=True)
df

Por fim, note que as colunas dos DataFrames são do tipo Series:

In [None]:
type(df['W'])

Vamos, agora, criar um Dataframe a partir de um dicionário:

In [None]:
dicionario = {"País": ["Brasil", "Rússia", "Índia", "China", "África do Sul"],
"Capital": ["Brasília", "Moscou", "Nova Deli", "Pequim", "Pretória"],
"Área": [8.516, 17.10, 3.286, 9.597, 1.221],
"População": [200.4, 143.5, 1252, 1357, 52.9]}

data = pd.DataFrame(dicionario)
data

Devido a um "bug" do Pandas, ele pode mudar a ordem das colunas. 

Vamos consertar isso, informando a ordem das colunas:

In [None]:
data = data[['País','Capital','Área','População']] 
data

Podemos ver que temos uma estrutura feita em tabela, o que torna a visualização dos dados muito mais fácil. 

Agora vamos supor que usaremos uma base de dados grande. 

Nesse caso, não podemos colocar toda base de dados no próprio código usando um dicionário, então usamos um arquivo externo do tipo .csv. 

Os arquivos csv são arquivos do tipo texto plano, nos quais as informações são as dispostas em colunas limitadas por um separador (vírgula, ponto e vírgula, espaço em branco, tabulação...)

#Formato de um arquivo csv:


atributo1,atributo2,...,atributoN

dado do atributo1, dado do atributo2,...,dado do atributoN

dado do atributo1, dado do atributo2,...,dado do atributoN

dado do atributo1, dado do atributo2,...,dado do atributoN

#Exemplo:

País,Capital,Área,População

Brasil,Brasília,8.516,200.4

Rússia,Moscou,143.5,17.100

Podemos obter um arquivo .csv de diversar maneiras:

    1 - editar um bloco de notas e salvá-lo como .csv
    
    2 - buscar no Google Planilhas/Excel e colocar cada dado em uma coluna e na hora de baixar ou salvar, escolher a opção "csv separado por vírgulas"
    
    3 - em geral, trabalharemos com arquivos csv já prontos, disponibilizados por terceiros

A biblioteca Pandas entende automaticamente esses dados e os converte em Data Frame. 

Vejamos um exemplo:

In [None]:
#Abrindo dataset
dataset = pd.read_csv("Pokemon.csv") #Colocamos o caminho do arquivo entre (),
                                     #Não há a necessidade de colocar o caminho
                                     #caso o arquivo já esteja na pasta do Jupyter Notebook.

#Vamos dar um display no nosso dataset
dataset.head()

O metodo .head() mostra apenas as 5 primeiras observações de nosso dataset.

Para vermos todos os nomes de variáveis, usamos o método .columns. 


In [None]:
dataset.info()

In [None]:
#Variáveis
dataset.columns

Podemos contar as linhas e colunas de nosso dataset com o metodo .count():

In [None]:
#contando dados diferentes de vazio por variável
dataset.count()

Podemos verificar, por coluna, a quantidade de valores missing utilizando o metodo .isna():


In [None]:
dataset.isna().sum()

Podemos fazer "cortes" no csv ou dataset, escolhendo registros (linhas):

In [None]:
dataset[3:6]

Ou escolhendo atributos (colunas):

In [None]:
dataset['Nome']

Podemos agrupar os registros (linhas) de um atributo (coluna), por meio do método value.counts()

In [None]:
pd.value_counts(dataset["Tipo_1"])

O que significa este resultado?

O atributo Tipo_1 contém três valores distintos: Agua, Grama, Fogo 

Para cada uma dessas categorias, é apresentada a quantidade de registros no dataset.

Podemos executar filtros no dataset, buscando por um certo valor em um campo por meio da função "loc"

In [None]:
dataset.loc[dataset['Nome'] == 'Charmander']

Ou por um  conjunto de valores (todos aqueles nos quais o campo ataque tem valores maiores que 50):

In [None]:
dataset.loc[dataset['Ataque'] > 50]

Podemos ordenar os dados de acordo com valores de uma variável com o método ".sort_values":

In [None]:
dataset.sort_values(by='Ataque') 

Para inverter a ordem, basta adicionar no argumento ascending=False

In [None]:
dataset.sort_values(by='Ataque',ascending=False) 

Um outro método muito importante é o .describe(). 

O método faz uma análise descritiva básica da base de dados com as principais estatísticas:


In [None]:
dataset.describe()

Também é possível focar em um campo por vez:

In [None]:
dataset['Ataque'].describe()

Ou em uma estatística por vez:

In [None]:
dataset.mean()

In [None]:
dataset['Ataque'].mean()

Podemos selecionar um registro (linha) específica com um critério definido. Por exemplo, o registro que contém o maior ataque.

Relembrando: para selecionar um registro, utilizamos a função "loc" (vide acima). Para obter o máximo de um campo, utilizamos a função "max"

Combinando então as funções, teremos:

In [None]:
dataset.loc[dataset['Ataque'] == dataset["Ataque"].max()]

O resultado acima refere-se ao registro que contém o maior valor de ataque.

Podemos criar uma nova coluna (atributo) ao dataset e atribuir valores fixos à mesma:

In [None]:
dataset['Evolução'] = (1,2,3,1,2,3,1,2,3)
dataset

Ou atribuir valores utilizando uma função definida pelo usuário:

In [None]:
def evolucao(x):
    if x == 1:
        return "Forma inicial"
    elif x == 2:
        return "Primeira evolução"
    elif x == 3:
        return "Segunda Evolução"
    
dataset['Evolução'] = dataset['Evolução'].apply(evolucao)
dataset

Podemos excluir registros do dataset, por meio da função "drop".

Para a função "drop" passaremos como parâmetros:
labels: o campo que será excluído, o rótulo/ nome da coluna ou índice da linha
axis: a dimensão do DataFrame que deseja ser excluída(axis=0 para linha e axis=1 para coluna)
inplace: parâmetro que define que a alteração será realizada no dataset original, modificando-o (se True) ou não (se False)

Vamos excluir a coluna "Lendario":

In [None]:
dataset.drop(["Lendario"],axis=1,inplace= True)
dataset

# Vamos agora aos exercícios!!!!

Tente, explore a documentação (lembre-se que está tudo disponível) e divirta-se:

Qualquer dúvida, estou à disposição (katiakelvis@gmail.com ou venha tomar um café na minha sala)

1 - Crie um arquivo.csv com área, país, capital, população e IDH usando os países do Mercosul como base e faça as seguintes manipulações (em Python, claro) com o csv:

a) Organize os países por ordem alfabética e depois por IDH;

b) Descubra a média do IDH do mercosul e selecione todos os países que estiverem acima da média mostrando todos os seus dados.

c) Adicione uma coluna que classifique um país como de Desenvolvido ou Subdesenvolvido levando em conta o IDH depois tire a tabela de IDH - defina um ponto de corte;

2 - Faça o mesmo com os países da União Europeia;