# Lidando com Arquivos XLSX do Excel

Foi visto no programa anterior algumas formas de tratar dados em arquivos com extensão **.csv**. Nesse arquivo, vamos trilhar os mesmos passos, só que dessa vez, usando arquivos do tipo **.xlsx**.

> *O arquivo do Microsoft Excel que possui a extensão .XLSX ou .XLS é uma planilha.*

In [1]:
# importando o pacote pandas do python
import pandas as pd

In [2]:
# abrindo o dataset em um objeto
dataframe = pd.read_excel("Enderecos.xlsx")

In [3]:
# visualizando os primeiros exemplos treinaveis do dataset
dataframe.head(5)

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000


In [4]:
# dimensao dos dados
dataframe.shape

(1000, 9)

Como estamos trabalhando com arquivos no excel, podemos ter diferentes abas nele. Por padrão, é aberta somente a primeria aba, essa que é representada pelo inteiro == 0. No documento anexado, há duas abas disponíveis, veja como você pode adicionar os dados da segunda aba a variável "dataframe".

In [5]:
# selecionando os dados da segunda aba da planilha 
dataframe = pd.read_excel("Enderecos.xlsx", sheet_name = 1)

Observe que agora os dados são relativos a segunda aba.

In [6]:
# visualizando os primeiros exemplos treinaveis do dataset
dataframe.head()

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,provinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000


Observe que os dados são diferentes, podemos tirar essa prova usando olhando a quantidade de linhas e colunas armazenadas nele.

In [7]:
# dimensao dos dados
dataframe.shape

(2, 9)

A mesma seleção pode ser feita se, ao invés de usar como atributo no método "**sheet_name**" um inteiro, usasse uma string com o exato nome da aba.

In [8]:
# selecionando os dados da primeira aba da planilha
dataframe = pd.read_excel("Enderecos.xlsx", sheet_name = "Aba1")

In [9]:
# visualizando os primeiros exemplos treinaveis do dataset
dataframe.head()

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000


E assim a primeira aba foi escolhinda. Vale a pena ressaltar que poderiamos obter o mesmo resultado usando "sheet_name" = 0.

Vamos selecionar a segunda aba usando uma entrada em "sheet_name" no formato string.

In [10]:
# abrindo os dados da segunda aba da planilha
dataframe = pd.read_excel("Enderecos.xlsx", sheet_name = "Aba2")

In [11]:
# visualizando os primeiros exemplos treinaveis do dataset
dataframe.head()

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,provinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000


Caso você queira saber o nome das abas, use a função "ExcelFile" atribuida a uma variável, essa que será do tipo objeto após a atribuição.

In [12]:
# definindo um objeto com os atributos do documento excel
arquivos_excel = pd.ExcelFile("Enderecos.xlsx")

Observe que não visualizamos os nome das abas quando colocamos "arquivos_excel" na saída de dados, pois ela é um objeto e, dessa forma, visualizamos somente as propiedades do objeto.

In [13]:
# visualizando o objeto
arquivos_excel

<pandas.io.excel._base.ExcelFile at 0x1d2b0464fc8>

Para visualizar o nome das aba contidas no documento excel, usamos o atributo "**sheet_names**" no objeto.

In [14]:
# visualizando o nome das abas contidas na planilha 
arquivos_excel.sheet_names

['Aba1', 'Aba2']

Além do método "sheet_name" da função "read_excel" para passar os dados relativos a uma determinada aba do arquivo Excel a uma variável do tipo objeto, temos também o atributo "parse" que cumpre o mesmo objetivo. Observe isso nos códigos abaixo.

In [15]:
# selecionando os dados por abas da planilha 
aba1 = arquivos_excel.parse("Aba1")
aba2 = arquivos_excel.parse("Aba2")

Observe agora que o objeto "aba1" armazena os dados relativos a primeira aba usada no documento excel.

In [16]:
# dados da primeira aba da planilha 
aba1.head()

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000


Observe agora que o objeto "aba2" armazena os dados relativos a segunda aba usada no documento excel.

In [17]:
# dados da segunda aba da planilha 
aba2

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,provinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000


Desse modo, podemos usar alguns mecanismos da biblioteca "Pandas" do Python para fazer o pré-processamento de dados, tanto em documentos com extensão .csv quanto documentos com extensão .xlsx.

### Alguma Dúvida? Entre em Contato Comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br)