Guia rápido do módulo pandas
============================



O módulo `pandas` é utilizado para análise e tratamento de dados. Este módulo é praticamente sempre importado com o apelido de `pd`, como mostra o código abaixo.



In [1]:
import pandas as pd

## Criando um `DataFrame`



Uma das unidades básicas do `pandas` é o objeto `DataFrame`. Pense que estes objetos seriam as *tabelas* ou *planilhas* que estamos acostumados com outros tipos de software (como por exemplo, o Excel).

Para criar um `DataFrame` precisamos de dados em um formato que nos lembre uma tabela! Podemos representar estes dados usando arrays de duas dimensões de `numpy` ou usando listas de listas.

Vamos usar uma lista de listas para o exemplo abaixo. Note que é importante definir o que representam cada coluna quando criamos um novo `DataFrame` seguindo esta rota.



In [2]:
colunas = ["Idade", "Dia", "Mês", "Altura", "Gosta de Paçoca?"]

meus_dados = [
    [18, 5, 11, 1.70, True],
    [19, 3, 1, 1.64, True],
    [22, 29, 7, 1.78, True],
    [21, 15, 4, 1.72, False],
    [25, 18, 9, 1.93, True],
    [19, 4, 4, 1.47, False],
]

meu_df = pd.DataFrame(meus_dados, columns=colunas)

print(meu_df)

   Idade  Dia  Mês  Altura  Gosta de Paçoca?
0     18    5   11    1.70              True
1     19    3    1    1.64              True
2     22   29    7    1.78              True
3     21   15    4    1.72             False
4     25   18    9    1.93              True
5     19    4    4    1.47             False


## Investigando um `DataFrame`



Qual é o formato do `DataFrame`? (Isto é, qual o número de linhas e colunas?)



In [3]:
print(meu_df.shape)

(6, 5)


Quais são os tipos de dados que estão armazenados no `DataFrame`?



In [4]:
print(meu_df.dtypes)

Idade                 int64
Dia                   int64
Mês                   int64
Altura              float64
Gosta de Paçoca?       bool
dtype: object


Quais são as colunas do `DataFrame`? (Colunas são os &ldquo;nomes&rdquo; com os quais agrupamos os dados verticalment)



In [5]:
print(meu_df.columns)

Index(['Idade', 'Dia', 'Mês', 'Altura', 'Gosta de Paçoca?'], dtype='object')


Quais são os índices do `DataFrame`? (Índices são os &ldquo;nomes&rdquo; com os quais agrupamos os dados horizontalmente)



In [6]:
print(meu_df.index)

RangeIndex(start=0, stop=6, step=1)


## Análise descritiva dos dados de um `DataFrame`



In [7]:
print(meu_df.describe())

           Idade        Dia        Mês    Altura
count   6.000000   6.000000   6.000000  6.000000
mean   20.666667  12.333333   6.000000  1.706667
std     2.581989  10.269697   3.687818  0.152272
min    18.000000   3.000000   1.000000  1.470000
25%    19.000000   4.250000   4.000000  1.655000
50%    20.000000  10.000000   5.500000  1.710000
75%    21.750000  17.250000   8.500000  1.765000
max    25.000000  29.000000  11.000000  1.930000


## Realizando consultas a um `DataFrame`



Use a seguinte expressão para consultar valores de uma coluna:



In [8]:
print(meu_df["Mês"])

0    11
1     1
2     7
3     4
4     9
5     4
Name: Mês, dtype: int64


Para consultar valores de mais de uma coluna, use uma lista!



In [9]:
print(meu_df[["Mês", "Idade", "Dia"]])

   Mês  Idade  Dia
0   11     18    5
1    1     19    3
2    7     22   29
3    4     21   15
4    9     25   18
5    4     19    4


Podemos armazenar valores das colunas em variáveis.



In [10]:
mes_aniversario = meu_df["Mês"]
print(mes_aniversario)

0    11
1     1
2     7
3     4
4     9
5     4
Name: Mês, dtype: int64


Um vetor coluna de `pandas` não é chamado um `DataFrame`, mas sim uma `Series`. É muito comum convertermos `DataFrames` ou `Series` para arrays de `numpy`. Para fazer isso, basta usar o `.values`.



In [11]:
mes_aniversario = meu_df["Mês"].values
print(mes_aniversario)

[11  1  7  4  9  4]


## Filtrando um `DataFrame`



Muitas vezes precisamos filtrar os dados de forma condicional ao valor armazenado. Vamos supor que queremos apenas os dados da tabela com pessoas que têm altura maior que 1.70.



In [12]:
logica = meu_df["Altura"] > 1.70
meu_df_filtrado = meu_df.loc[logica]
print(meu_df_filtrado)

   Idade  Dia  Mês  Altura  Gosta de Paçoca?
2     22   29    7    1.78              True
3     21   15    4    1.72             False
4     25   18    9    1.93              True


Observe que da forma que fizemos nós não alteramos o `DataFrame` original!



In [13]:
print(meu_df)

   Idade  Dia  Mês  Altura  Gosta de Paçoca?
0     18    5   11    1.70              True
1     19    3    1    1.64              True
2     22   29    7    1.78              True
3     21   15    4    1.72             False
4     25   18    9    1.93              True
5     19    4    4    1.47             False


Digamos agora que queremos filtrar pessoas com altura maior que 1.70 e que gostam de paçoca. Precisamos usar o conectivo lógico de conjunção aqui. Neste caso, usamos o símbolo `&` para realizar esta operação.



In [14]:
logica1 = meu_df["Altura"] > 1.70
logica2 = meu_df["Gosta de Paçoca?"] == True
logica = logica1 & logica2
meu_df_filtrado = meu_df.loc[logica]
print(meu_df_filtrado)

   Idade  Dia  Mês  Altura  Gosta de Paçoca?
2     22   29    7    1.78              True
4     25   18    9    1.93              True


E se quisermos pessoas que tem altura maior que 1.70 e gostam de paçoca OU pessoas que nasceram antes de maio? O conectivo lógico de disjunção é escrito com o símbolo `|` neste caso.



In [15]:
logica1 = meu_df["Altura"] > 1.70
logica2 = meu_df["Gosta de Paçoca?"] == True
logica3 = meu_df["Mês"] < 5
logica = (logica1 & logica2) | logica3
meu_df_filtrado = meu_df.loc[logica]
print(meu_df_filtrado)

   Idade  Dia  Mês  Altura  Gosta de Paçoca?
1     19    3    1    1.64              True
2     22   29    7    1.78              True
3     21   15    4    1.72             False
4     25   18    9    1.93              True
5     19    4    4    1.47             False


## Reestruturando um `DataFrame`



Quero remover uma coluna!



In [16]:
novo_df = meu_df.drop("Altura", axis=1)
print(novo_df)

   Idade  Dia  Mês  Gosta de Paçoca?
0     18    5   11              True
1     19    3    1              True
2     22   29    7              True
3     21   15    4             False
4     25   18    9              True
5     19    4    4             False


Quero remover duas ou mais colunas!



In [17]:
novo_df = meu_df.drop(["Altura", "Mês"], axis=1)
print(novo_df)

   Idade  Dia  Gosta de Paçoca?
0     18    5              True
1     19    3              True
2     22   29              True
3     21   15             False
4     25   18              True
5     19    4             False


Quero apenas trabalhar com algumas colunas (que eu sei o nome)!



In [18]:
novo_df = meu_df.reindex(["Altura", "Mês"], axis=1)
print(novo_df)

   Altura  Mês
0    1.70   11
1    1.64    1
2    1.78    7
3    1.72    4
4    1.93    9
5    1.47    4


Quero transpor o `DataFrame`!



In [19]:
novo_df = meu_df.T
print(novo_df)

                     0     1     2      3     4      5
Idade               18    19    22     21    25     19
Dia                  5     3    29     15    18      4
Mês                 11     1     7      4     9      4
Altura             1.7  1.64  1.78   1.72  1.93   1.47
Gosta de Paçoca?  True  True  True  False  True  False


## Salvando um `DataFrame` em um arquivo



Quero salvar um `DataFrame` em um arquivo de excel (o arquivo salvo fica na mesma pasta do notebook).



In [20]:
nome_do_arquivo = "dados.xlsx"  # não esquecer a extensão!
meu_df.to_excel(nome_do_arquivo)

Quero salvar um `DataFrame` em um arquivo de excel, mas sem os índices (os índices são os &ldquo;nomes&rdquo; das linhas).



In [21]:
nome_do_arquivo = "dados.xlsx"  # não esquecer a extensão!
meu_df.to_excel(nome_do_arquivo, index=False)

Quero salvar um `DataFrame` em um arquivo csv.



In [22]:
nome_do_arquivo = "dados.csv"  # não esquecer a extensão!
meu_df.to_csv(nome_do_arquivo)

Quero salvar um `DataFrame` em um arquivo csv, mas sem os índices.



In [23]:
nome_do_arquivo = "dados.csv"  # não esquecer a extensão!
meu_df.to_csv(nome_do_arquivo, index=False)

## Criando um `DataFrame` a partir de um arquivo



Quero criar um `DataFrame` a partir do uma planílha de excel.



In [24]:
nome_do_arquivo = "dados.xlsx"
df_do_excel = pd.read_excel(nome_do_arquivo)
print(df_do_excel)

   Idade  Dia  Mês  Altura  Gosta de Paçoca?
0     18    5   11    1.70              True
1     19    3    1    1.64              True
2     22   29    7    1.78              True
3     21   15    4    1.72             False
4     25   18    9    1.93              True
5     19    4    4    1.47             False


Quero criar um `DataFrame` a partir de um csv.



In [25]:
nome_do_arquivo = "dados.csv"
df_do_csv = pd.read_csv(nome_do_arquivo)
print(df_do_csv)

   Idade  Dia  Mês  Altura  Gosta de Paçoca?
0     18    5   11    1.70              True
1     19    3    1    1.64              True
2     22   29    7    1.78              True
3     21   15    4    1.72             False
4     25   18    9    1.93              True
5     19    4    4    1.47             False
