# TUTORIAL: TRATANDO SUA TABELA NO PYTHON (COM PANDAS)

https://estatsite.com/2019/02/04/tutorial-tratando-sua-tabela-no-python-com-pandas/

A biblioteca Pandas, assim como NumPy e Scikit, está entre as bibliotecas mais utilizadas no Python. Sua utilidade no tratamento de dados é enorme, pois com ela você pode lidar tranquilamente com séries e tabelas, organizando, filtrando e fazendo várias manipulações com seus dados. Por este motivo, muitas vezes será interessante você utilizar o formato DataFrame da biblioteca. Caso você ainda não entenda muito do Python, lembre-se sempre que existe o post Primeiros passos em Python para te auxiliar.

Sendo assim, nosso primeiro passo é importar a biblioteca:

In [1]:
import pandas as pd

criar uma série no Pandas, utilizando a função Series, o comando será dado em frente a declaração da biblioteca (i.e. do pd):

In [2]:
valores = [10, 10, 20, 30]
valores_serie = pd.Series(valores)
valores_serie

0    10
1    10
2    20
3    30
dtype: int64

# CONSTRUINDO UM DATAFRAME NO PANDA

Podemos construir um dataframe juntando diversas séries:

In [3]:
aluno_1 = pd.Series({'Nome': 'João', 'Matemática': 6, 'Português': 7})
aluno_2 = pd.Series({'Nome': 'Maria', 'Matemática': 8, 'Português': 8})
aluno_3 = pd.Series({'Nome': 'Pedro', 'Matemática': 4, 'Português': 5.3})
aluno_4 = pd.Series({'Nome': 'Suzana', 'Matemática': 5.8, 'Português': 6.5})
 
df = pd.DataFrame([aluno_1, aluno_2, aluno_3, aluno_4])
df

Unnamed: 0,Nome,Matemática,Português
0,João,6.0,7.0
1,Maria,8.0,8.0
2,Pedro,4.0,5.3
3,Suzana,5.8,6.5


Pronto, o dataframe está criado para que a gente prossiga com os exemplos. Claro, você provavelmente não vai ter que escrever suas tabelas do zero. O que você normalmente faria, seria importar um arquivo qualquer. Com um arquivo no formato csv, utilizando o pd.read_csv do Python, você já terá um arquivo em formato csv. Se tivéssemos um arquivo com as notas dos alunos, faríamos o seguinte:
df = pd.read_csv('nota_dos_alunos.csv')

Caso você tenha dúvidas se é um dataframe, você pode validar com a função isinstance():
isinstance(df, pd.Dataframe)

### SELECIONANDO ELEMENTOS

Agora que você já tem sua tabela, você provavelmente vai querer selecionar alguns elementos, ou colunas, que você queira analisar. Para isso, você deve inserir o nome do data frame junto com dois colchetes e, no interior dos colchetes, o nome da coluna ou linha que deseja selecionar:

In [4]:
df['Nome']

0      João
1     Maria
2     Pedro
3    Suzana
Name: Nome, dtype: object

In [5]:
df['Matemática']

0    6.0
1    8.0
2    4.0
3    5.8
Name: Matemática, dtype: float64

Agora, se você quiser selecionar alguma linha específica, utilize o loc:

In [6]:
df.loc[1]

Nome          Maria
Matemática        8
Português         8
Name: 1, dtype: object

Você pode ainda apontar para a linha e a coluna, escolhendo assim somente o elemento que você deseja:

In [7]:
df.loc[1,'Nome']

'Maria'

Ou ainda passar um conjunto de linhas:

In [8]:
df.loc[1:3,'Nome']

1     Maria
2     Pedro
3    Suzana
Name: Nome, dtype: object

### ALTERANDO ELEMENTOS

Alterar elementos é o mais intuitivo, basta atribuir um valor novo ao elemento em questão:

In [9]:
df.loc[1,'Nome']= "Ana Maria"
df

Unnamed: 0,Nome,Matemática,Português
0,João,6.0,7.0
1,Ana Maria,8.0,8.0
2,Pedro,4.0,5.3
3,Suzana,5.8,6.5


### RENOMEAR COLUNAS

Para renomear as colunas, você pode simplesmente determinar os nomes delas no seu dataframe, referindo-se a elas como columns. No exemplo abaixo, é acrescentado um ponto final nos nomes das colunas:

In [10]:
df.columns = "Nome.", "Matemática.", "Português." 
 
df

Unnamed: 0,Nome.,Matemática.,Português.
0,João,6.0,7.0
1,Ana Maria,8.0,8.0
2,Pedro,4.0,5.3
3,Suzana,5.8,6.5


Outra opção, é utilizar a função rename, apontando o nome atual da coluna e qual deve ser o novo nome. Vamos retirar os pontos adicionados nos nomes:

In [11]:
df = df.rename(columns={'Nome.': 'Nome', 'Matemática.': 'Matemática','Português.': 'Português'})
df

Unnamed: 0,Nome,Matemática,Português
0,João,6.0,7.0
1,Ana Maria,8.0,8.0
2,Pedro,4.0,5.3
3,Suzana,5.8,6.5


### REALIZANDO FILTROS 

Outra tarefa de extrema importância é a realização dos filtros. Todo mundo sabe, o chefe quer ver o público que gasta acima de 500 reais nas compras, a marca quer fazer uma ação só para pessoas com mais de 50 anos, etc. Sendo assim, no nosso caso, vamos selecionar somente os alunos que tiraram menos que 6 em matemática:

In [12]:
df.loc[df['Matemática'] < 6]

Unnamed: 0,Nome,Matemática,Português
2,Pedro,4.0,5.3
3,Suzana,5.8,6.5


Bom, mas este filtro seria bom para o professor de matemática. E se a diretora do colégio quiser saber quais os alunos que ficaram de recuperação em alguma matéria? Ou se alguém quiser saber os alunos que ficaram de recuperação em ambas as matérias? Ou seja, como fazemos dois filtros simultaneamente no Python?

Simples. Lembre-se sempre que o operador utilizado para OU é o ‘|’ e para o E é o &, logo, vamos fazer uma pequena adaptação do comando acima:

In [13]:
# filtra aluno que foi reprovado em ambas as materias
df[(df['Matemática'] < 6) & (df['Português'] < 6)]

Unnamed: 0,Nome,Matemática,Português
2,Pedro,4.0,5.3


In [14]:
# filtra o aluno que foi reprovado em pelo menos uma materia
df[(df['Matemática'] < 6) | (df['Português'] < 6)]

Unnamed: 0,Nome,Matemática,Português
2,Pedro,4.0,5.3
3,Suzana,5.8,6.5


Caso você queira filtrar elementos que sejam diferentes de algum valor, deve usar ‘!=’.

### TRANSPOSIÇÃO

Menos comum, mas que tem o seu valor (quem nunca usou o alt+c+v+t no Excel?), a transposição também é fácil de ser executada no Python e isso é feito com apenas UMA letra:

In [15]:
df.T

Unnamed: 0,0,1,2,3
Nome,João,Ana Maria,Pedro,Suzana
Matemática,6,8,4,5.8
Português,7,8,5.3,6.5


Se quiser transpor de forma definitiva, ou atribui a transposição ao antigo dataframe ou crie um novo dataframe com um nome de fácil identificação. Eu recomendo mais esta segunda opção.

### EXCLUINDO COLUNAS

Há algumas opções para esta tarefa. Eu prefiro a que menciona columns, pois fica mais fácil de memorizar:

In [16]:
# exclui a coluna nome
df.drop(columns=['Nome'])
df

Unnamed: 0,Nome,Matemática,Português
0,João,6.0,7.0
1,Ana Maria,8.0,8.0
2,Pedro,4.0,5.3
3,Suzana,5.8,6.5


Note que o drop não é definitivo:

Para fazer algo definitivo, como já expliquei lá em cima (e também embaixo):

In [17]:
# exclui a coluna nome de forma definitiva
#df = df.drop(columns=['Nome'])
 
# ou entao
df2 = df.drop(columns=['Nome'])
df2

Unnamed: 0,Matemática,Português
0,6.0,7.0
1,8.0,8.0
2,4.0,5.3
3,5.8,6.5


### EXCLUINDO LINHAS

Aqui, utilizaremos a numeração das linhas, porque não utilizamos nenhuma nomenclatura/índice:

In [18]:
df2.drop(1)

Unnamed: 0,Matemática,Português
0,6.0,7.0
2,4.0,5.3
3,5.8,6.5


A função drop() também não é definitiva, assim como transposição, você deve atribuir a alteração ao antigo nome:

df = df.drop(1)
Ou a um novo dataframe de nome diferente:

df_v2 = df.drop(1)
Ainda é possível excluir linhas ou colunas que tenham dados missing (df.dropna) e linhas duplicadas (df.drop_duplicates).

### ORDENANDO OS DADOS

In [19]:
# ordena pela nota de matematica
df.sort_values(by='Matemática')

Unnamed: 0,Nome,Matemática,Português
2,Pedro,4.0,5.3
3,Suzana,5.8,6.5
0,João,6.0,7.0
1,Ana Maria,8.0,8.0


In [20]:
# ordena pelos nomes
df.sort_values(by='Nome')

Unnamed: 0,Nome,Matemática,Português
1,Ana Maria,8.0,8.0
0,João,6.0,7.0
2,Pedro,4.0,5.3
3,Suzana,5.8,6.5


In [21]:
# ordena de forma decrescente pela nota de portugues
df.sort_values(by='Português', ascending=False)

Unnamed: 0,Nome,Matemática,Português
1,Ana Maria,8.0,8.0
0,João,6.0,7.0
3,Suzana,5.8,6.5
2,Pedro,4.0,5.3


### CÁLCULO DAS ESTATÍSTICAS

É possível obter várias estatísticas do seu dataframe, de forma simples e rápida, com algumas funções. Não é necessário inserir nada entre os parênteses, as funções abaixo retornam os dados de todas as variáveis numéricas:

df.mean()Returns the mean of all columns
df.corr()Returns the correlation between columns in a data frame
df.count()Returns the number of non-null values in each data frame column
df.max()Returns the highest value in each column
df.min()Returns the lowest value in each column
df.median()Returns the median of each column
df.std()Returns the standard deviation of each column
Outra função interessante é a describe(), que traz um resumo dos dados: df.describe()

In [22]:
df.mean()

Matemática    5.95
Português     6.70
dtype: float64

In [23]:
df.describe()

Unnamed: 0,Matemática,Português
count,4.0,4.0
mean,5.95,6.7
std,1.636052,1.122497
min,4.0,5.3
25%,5.35,6.2
50%,5.9,6.75
75%,6.5,7.25
max,8.0,8.0
