# Lidando com Arquivos XLSX do Excel

Foi visto no programa anterior algumas formas de tratar dados em arquivos com extensão **.csv**. Nesse arquivo, vamos trilhar os mesmos passos, só que dessa vez, usando arquivos do tipo **.xlsx**.

> *O arquivo do Microsoft Excel que possui a extensão .XLSX ou .XLS é uma planilha.*

In [1]:
# importando a biblioteca padrão do Python pandas
import pandas as pd

Vamos adicionar a uma variável do tipo objeto os dados do arquivo excel.

In [2]:
dataframe = pd.read_excel("Enderecos DataFrame.xlsx")
# atribuindo a uma variável do tipo objeto para armazenar os dados do documento com extensão .xlsx, usando 
# a função "read_excel", cujo parámetro é a localização no diretório da máquina onde o arquivo está 
# localizado.

Observe que a variável "**dataframe**" já contém os dados do arquivo.

In [3]:
dataframe.head(20)
# usando o atributo "head" da biblioteca "Pandas" para visualizar os dados dos 20 primeiros usuários do 
# dataframe

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000
5,6,1399 Firestone Drive,,Bothell,79,98011,0xE6100000010CE0B4E50458DA47402F12A5F80C975EC0,FEBF8191-9804-44C8-877A-33FDE94F0075,2009-02-13 00:00:00.000
6,7,5672 Hale Dr.,,Bothell,79,98011,0xE6100000010C18E304C4ADE1474011A5C28A7C955EC0,0175A174-6C34-4D41-B3C1-4419CD6A0446,2009-12-11 00:00:00.000
7,8,6387 Scenic Avenue,,Bothell,79,98011,0xE6100000010C0029A5D93BDF4740E248962FD5975EC0,3715E813-4DCA-49E0-8F1C-31857D21F269,2008-12-17 00:00:00.000
8,9,8713 Yosemite Ct.,,Bothell,79,98011,0xE6100000010C6A80AD742DDC4740851574F7198C5EC0,268AF621-76D7-4C78-9441-144FD139821A,2012-05-30 00:00:00.000
9,10,250 Race Court,,Bothell,79,98011,0xE6100000010C219D64AE1FE4474040862564B7825EC0,0B6B739D-8EB6-4378-8D55-FE196AF34C04,2008-12-02 00:00:00.000


Veja a quantidade de linhas e colunas dos dados.

In [4]:
dataframe.shape
# Usando o atributo "shape" do Python para verificar as dimensões do vetor multidimensional "dataframe".

(1000, 9)

Como estamos trabalhando com arquivos no excel, podemos ter diferentes abas nele. Por padrão, é aberta somente a primeria aba, essa que é representada pelo inteiro == 0. No documento anexado, há duas abas disponíveis, veja como você pode adicionar os dados da segunda aba a variável "dataframe".

In [5]:
dataframe = pd.read_excel("Enderecos DataFrame.xlsx", sheet_name = 1)
# Usando a função "read_excel" da biblioteca "Pandas" para adicionar os dados do arquivo "Enderecos 
# Dataframe.xlsx" a variável do tipo objeto "dataframe". O método "sheet_name" recebe o atributo do tipo
# inteiro == 1, esse que significa os dados contidos na segunda aba do excel. Da mesma forma, poderiamos 
# abrir a primeria aba que é padrão usando: sheet_name = 0.

Observe que agora os dados são relativos a segunda aba.

In [6]:
dataframe.head()
# Usando o atributo "head" da biblioteca "Pandas" para visualizar os primeiros dados armazenados na 
# variável do tipo objeto "dataframe"

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,provinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000


Observe que os dados são diferentes, podemos tirar essa prova usando olhando a quantidade de linhas e colunas armazenadas nele.

In [7]:
dataframe.shape
# Usando o atributo "shape" do Python para visualizar as dimensões do vetor multidimensional que está arma-
# zenado na variável do tipo objeto "dataframe".

(2, 9)

A mesma seleção pode ser feita se, ao invés de usar como atributo no método "**sheet_name**" um inteiro, usasse uma string com o exato nome da aba.

In [8]:
dataframe = pd.read_excel("Enderecos DataFrame.xlsx", sheet_name = "Aba1")
# Usando a função "read_excel" do "Pandas" para atribuir a variável do tipo objeto "dataframe" os dados 
# do arquivo "Enderecos DataFrame.xlsx", em que o método "sheet_name" pode receber como atributo uma string
# localizando o nome exato da aba que queremos fazer essa atribuição.

In [9]:
dataframe
# imprimindo na saída de dados as informações contidas na variável do tipo objeto "dataframe"

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000
...,...,...,...,...,...,...,...,...,...
995,996,2575 West 2700 South,,Salt Lake City,74,84101,0xE6100000010C6E9ADC36AF544440AC180B5B4CF85BC0,708FC1DD-4994-4AA5-80A5-8C977C37AA15,2012-06-30 00:00:00.000
996,997,70259 West Sunnyview Ave,,Visalia,9,93291,0xE6100000010C4497C3A5F12542406CD48C5685D35DC0,7C2E0511-DE61-4761-80EA-6A7B2F39E524,2013-07-31 00:00:00.000
997,998,60750 San Clemente,,Hayward,9,94541,0xE6100000010CB2747D1801C94240124DA15E0D885EC0,822DC2BE-AAC2-4283-93A6-5027CFB6A7DF,2013-07-31 00:00:00.000
998,999,Receiving,,Fullerton,9,92831,0xE6100000010C47CB4845F2EA404079A10C358C7F5DC0,93D3C32F-CC26-4F27-B91F-35A804554976,2012-07-31 00:00:00.000


E assim a primeira aba foi escolhinda. Vale a pena ressaltar que poderiamos obter o mesmo resultado usando "sheet_name" = 0.

Vamos selecionar a segunda aba usando uma entrada em "sheet_name" no formato string.

In [10]:
dataframe = pd.read_excel("Enderecos DataFrame.xlsx", sheet_name = "Aba2")
# Usando a função "read_excel" do "Pandas" para atribuir a variável do tipo objeto "dataframe" os dados 
# do arquivo "Enderecos DataFrame.xlsx", em que o método "sheet_name" pode receber como atributo uma string
# localizando o nome exato da aba que queremos fazer essa atribuição.

In [11]:
dataframe
# imprimindo na saída de dados as informações contidas na variável do tipo objeto "dataframe"

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,provinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000


Caso você queira saber o nome das abas, use a função "ExcelFile" atribuida a uma variável, essa que será do tipo objeto após a atribuição.

In [12]:
arquivos_excel = pd.ExcelFile("Enderecos DataFrame.xlsx")
# Usando a função "ExcelFile" para extrair em strings o nome das abas contidas no documento 
# "Enderecos DataFrame.xlsx".

Observe que não visualizamos os nome das abas quando colocamos "arquivos_excel" na saída de dados, pois ela é um objeto e, dessa forma, visualizamos somente as propiedades do objeto.

In [15]:
arquivos_excel
# visualizando as propiedades do objeto

<pandas.io.excel._base.ExcelFile at 0x1d6405a8c08>

Para visualizar o nome das aba contidas no documento excel, usamos o atributo "**sheet_names**" no objeto.

In [17]:
arquivos_excel.sheet_names
# Devemos usar o atributo "sheet_names" da biblioteca "Pandas" para visualizar a lista de strings com os 
# relativos nomes das abas.

['Aba1', 'Aba2']

Além do método "sheet_name" da função "read_excel" para passar os dados relativos a uma determinada aba do arquivo Excel a uma variável do tipo objeto, temos também o atributo "parse" que cumpre o mesmo objetivo. Observe isso nos códigos abaixo.

In [16]:
# usando o atributo "parse" da biblioteca "Pandas" para selecionar as abas de um arquivo do excel
aba1 = arquivos_excel.parse("Aba1")
aba2 = arquivos_excel.parse("Aba2")

Observe agora que o objeto "aba1" armazena os dados relativos a primeira aba usada no documento excel.

In [18]:
aba1
# Saída de dados para as informações da variável do tipo objeto "aba1".

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000
...,...,...,...,...,...,...,...,...,...
995,996,2575 West 2700 South,,Salt Lake City,74,84101,0xE6100000010C6E9ADC36AF544440AC180B5B4CF85BC0,708FC1DD-4994-4AA5-80A5-8C977C37AA15,2012-06-30 00:00:00.000
996,997,70259 West Sunnyview Ave,,Visalia,9,93291,0xE6100000010C4497C3A5F12542406CD48C5685D35DC0,7C2E0511-DE61-4761-80EA-6A7B2F39E524,2013-07-31 00:00:00.000
997,998,60750 San Clemente,,Hayward,9,94541,0xE6100000010CB2747D1801C94240124DA15E0D885EC0,822DC2BE-AAC2-4283-93A6-5027CFB6A7DF,2013-07-31 00:00:00.000
998,999,Receiving,,Fullerton,9,92831,0xE6100000010C47CB4845F2EA404079A10C358C7F5DC0,93D3C32F-CC26-4F27-B91F-35A804554976,2012-07-31 00:00:00.000


Observe agora que o objeto "aba2" armazena os dados relativos a segunda aba usada no documento excel.

In [19]:
aba2
# Saída de dados para as informações da variável do tipo objeto "aba2".

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,provinciaID,CodigoPostal,LocalizacaoEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000


Desse modo, podemos usar alguns mecanismos da biblioteca "Pandas" do Python para fazer o pré-processamento de dados, tanto em documentos com extensão .csv quanto documentos com extensão .xlsx.

### Alguma Dúvida? Entre em Contato Comigo:

- [Me Envie um E-mail](mailto:alyssonmachado388@gmail.com);