# Ler arquivo 'xlsx' em um pandas DataFrame

Resolvi fazer este notebook depois de ler o arquivo de dados [Online Retail II Data Set](https://archive.ics.uci.edu/ml/machine-learning-databases/00502/online_retail_II.xlsx) do UC Irvine Machine Learning Repository
com o comando `pd.read_excel()` e perceber que tinha menos linhas que informado na descrição dos dados e ter perdido algum tempo pra descobrir o que estava acontecendo.

Achava que já sabia ler arquivos tipo 'xlsx' mas nunca tinha precisado de ler um arquivo do excel com mais de uma aba.

Usei a documentação do pandas, referência [1] em quase todo o notebook. A referência 2 mostra como colocar os dados de um arquivo do excel com várias abas em um único dataframe.



In [1]:
import pandas as pd

In [2]:
file = 'planilha_2abas.xlsx'

In [3]:
df = pd.read_excel(file)

In [4]:
df

Unnamed: 0,col 1,col 2,col 3,col 4
0,sheet 1,a,2,apple
1,sheet 1,b,4,banana
2,sheet 1,c,6,lemon
3,sheet 1,d,8,lime
4,sheet 1,e,10,avocado


# Usar uma das colunas como index

In [5]:
df = pd.read_excel(file, sheet_name=0, index_col='col 2')
df


Unnamed: 0_level_0,col 1,col 3,col 4
col 2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,sheet 1,2,apple
b,sheet 1,4,banana
c,sheet 1,6,lemon
d,sheet 1,8,lime
e,sheet 1,10,avocado


# Ler apenas algumas colunas

In [6]:
# nome das colunas
df = pd.read_excel(file, sheet_name=0, usecols=['col 2','col 4'])
df

Unnamed: 0,col 2,col 4
0,a,apple
1,b,banana
2,c,lemon
3,d,lime
4,e,avocado


In [7]:
# nome das colunas no Excel A,B,C,...
df = pd.read_excel(file, sheet_name=0, usecols='A:C')
df

Unnamed: 0,col 1,col 2,col 3
0,sheet 1,a,2
1,sheet 1,b,4
2,sheet 1,c,6
3,sheet 1,d,8
4,sheet 1,e,10


In [8]:
# indice das colunas: 0,1,2,...
df = pd.read_excel(file, sheet_name=0, usecols=[1,2])
df

Unnamed: 0,col 2,col 3
0,a,2
1,b,4
2,c,6
3,d,8
4,e,10


# Número de linhas

In [9]:
df = pd.read_excel(file, sheet_name=0,nrows=3)
df

Unnamed: 0,col 1,col 2,col 3,col 4
0,sheet 1,a,2,apple
1,sheet 1,b,4,banana
2,sheet 1,c,6,lemon


# Pular linha no inicio (skiprows)





In [10]:
# pulas as duas primeiras linhas
df = pd.read_excel(file, sheet_name=0,skiprows=2)
df

Unnamed: 0,sheet 1,b,4,banana
0,sheet 1,c,6,lemon
1,sheet 1,d,8,lime
2,sheet 1,e,10,avocado


In [11]:
# pular a primeira linha
# para não usar a primeira linha de dados como nome das colunas usei o parametro header.
df = pd.read_excel(file, sheet_name=0,skiprows=1,header=None)
df

Unnamed: 0,0,1,2,3
0,sheet 1,a,2,apple
1,sheet 1,b,4,banana
2,sheet 1,c,6,lemon
3,sheet 1,d,8,lime
4,sheet 1,e,10,avocado


# Arquivo com várias planilhas

O padrão é ler a primeira planilha. Mas usando o parametro ```sheet_name``` podemos escolher qual planilha, usando o nome ou o número

# Ler uma aba específica (sheet_name)

In [12]:
df = pd.read_excel(file, sheet_name=1)
df

Unnamed: 0,col 1,col 2,col 3,col 4
0,sheet 2,f,12,apple
1,sheet 2,g,14,apple
2,sheet 2,h,16,apple
3,sheet 2,i,18,apple
4,sheet 2,j,20,apple


# Ler todas as planilhas

Aqui usamos a referência [2]

In [13]:
sheets_df = pd.read_excel(file,sheet_name=None)


Nesse caso é criado um dicionário de dataframes

In [14]:
type(sheets_df)

dict

In [15]:
# nome das planilhas
sheets_df.keys()

dict_keys(['Página1', 'Página2'])

# Ler uma aba específica (sheet_name)

O padrão é ler a primeira aba. Pode usar o nome da aba, ou o número (começa no 0)

In [16]:
# número da planilha
df = pd.read_excel(file, sheet_name=1)
df

Unnamed: 0,col 1,col 2,col 3,col 4
0,sheet 2,f,12,apple
1,sheet 2,g,14,apple
2,sheet 2,h,16,apple
3,sheet 2,i,18,apple
4,sheet 2,j,20,apple


In [17]:
# nome da planilha
df = pd.read_excel(file, sheet_name='Página2')
df

Unnamed: 0,col 1,col 2,col 3,col 4
0,sheet 2,f,12,apple
1,sheet 2,g,14,apple
2,sheet 2,h,16,apple
3,sheet 2,i,18,apple
4,sheet 2,j,20,apple


# Ler todas as abas e colocar em um único dataframe [2]


In [18]:
df = pd.concat(pd.read_excel(file, sheet_name=None), ignore_index=True)
df

Unnamed: 0,col 1,col 2,col 3,col 4
0,sheet 1,a,2,apple
1,sheet 1,b,4,banana
2,sheet 1,c,6,lemon
3,sheet 1,d,8,lime
4,sheet 1,e,10,avocado
5,sheet 2,f,12,apple
6,sheet 2,g,14,apple
7,sheet 2,h,16,apple
8,sheet 2,i,18,apple
9,sheet 2,j,20,apple


Acima foi usado o parametro `ignore_index=True` mas se for importante ter a informação de qual aba a informação veio é só não usá-lo. Um exemplo seria informações de duas cidades diferentes em cada aba e sem ter uma coluna que informe o local.

In [19]:
df = pd.concat(pd.read_excel(file, sheet_name=None))
df

Unnamed: 0,Unnamed: 1,col 1,col 2,col 3,col 4
Página1,0,sheet 1,a,2,apple
Página1,1,sheet 1,b,4,banana
Página1,2,sheet 1,c,6,lemon
Página1,3,sheet 1,d,8,lime
Página1,4,sheet 1,e,10,avocado
Página2,0,sheet 2,f,12,apple
Página2,1,sheet 2,g,14,apple
Página2,2,sheet 2,h,16,apple
Página2,3,sheet 2,i,18,apple
Página2,4,sheet 2,j,20,apple


In [20]:
df = pd.concat(pd.read_excel(file, sheet_name=None)).reset_index()
df

Unnamed: 0,level_0,level_1,col 1,col 2,col 3,col 4
0,Página1,0,sheet 1,a,2,apple
1,Página1,1,sheet 1,b,4,banana
2,Página1,2,sheet 1,c,6,lemon
3,Página1,3,sheet 1,d,8,lime
4,Página1,4,sheet 1,e,10,avocado
5,Página2,0,sheet 2,f,12,apple
6,Página2,1,sheet 2,g,14,apple
7,Página2,2,sheet 2,h,16,apple
8,Página2,3,sheet 2,i,18,apple
9,Página2,4,sheet 2,j,20,apple


Acima level_0 é a informação da planilha e level_1 o indice na planilha original.

# Referências

[1] https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

[2] https://pbpython.com/pandas-excel-tabs.html
