<h1> Explorando Planilhas com Pandas </h1>

<h2> Instalação de Pacotes e Bibliotecas </h2>

In [None]:
!pip install pandas openpyxl



<h2> Importação de Pacotes e Bibliotecas </h2>

In [3]:
import pandas as pd
import openpyxl as open_planilhas
from datetime import datetime

In [4]:
# Verificando a versão instalada de ambos
print(f'Versão do pandas é {pd.__version__}')
print(f'Versão do openpyxl {open_planilhas.__version__}')

Versão do pandas é 2.2.2
Versão do openpyxl 3.1.5


<h2> Escopo Principal(Main) </h2>

In [5]:
# Conexão ao google driver para ler o repositório
from google.colab import drive
drive.mount('/content/drive')
print("Conexão ao Google Driver")

Mounted at /content/drive
Conexão ao Google Driver


In [6]:
# Caminho do arquivo Excel
caminho_arquivo = '/content/drive/MyDrive/excel_python_article/bases/Walmart_Sales_excel.xlsx'

# Ler o arquivo Excel
try:
  vendas = pd.read_excel(caminho_arquivo)
except Exception as e:
  print(f"Erro ao ler o arquivo Excel: {e}")
else:
  print("Arquivo Excel lido com sucesso!")

Arquivo Excel lido com sucesso!


In [7]:
# Exibir as primeiras linhas do DataFrame
print(f'O arquivo possui: {len(vendas.columns)} colunas e {len(vendas)} linhas ')
print(vendas.head())

O arquivo possui: 8 colunas e 6435 linhas 
   Store       Date  Weekly_Sales  Holiday_Flag  Temperature  Fuel_Price  \
0      1 2010-02-05    1643690.90             0        42.31      2572.0   
1      1 2010-02-12    1641957.44             1        38.51      2548.0   
2      1 2010-02-19    1611968.17             0        39.93      2514.0   
3      1 2010-02-26    1409727.59             0        46.63      2561.0   
4      1 2010-03-05    1554806.68             0        46.50      2625.0   

            CPI  Unemployment  
0  2.110964e+09        8106.0  
1  2.112422e+09        8106.0  
2  2.112891e+09        8106.0  
3  2.113196e+09        8106.0  
4  2.113501e+09        8106.0  


Caso de Múltiplas Planilhas

In [None]:
# sheet_name pode ser um índice numérico começando em 0 ou nome da planilha. Padrão é 0. None são todas as folhas.
vendas = pd.read_excel(caminho_arquivo,sheet_name=0)
print(f'Qtde de registros {len(vendas)}')

Qtde de registros 6435


In [None]:
# sheet_name pode ser um índice numérico começando em 0 ou nome da planilha. Padrão é 0. None são todas as folhas.
vendas = pd.read_excel(caminho_arquivo,sheet_name='Walmart_Sales')
print(f'Qtde de registros {len(vendas)}')

Qtde de registros 6435


Especificando ou não o cabeçalho

In [None]:
# Em que linha está o cabeçalho, padrão é 0.
vendas = pd.read_excel(caminho_arquivo,sheet_name='Walmart_Sales',header=0)
print(f'Qtde de registros {len(vendas)}')
print(vendas.head(5))

Qtde de registros 6435
   Store       Date  Weekly_Sales  Holiday_Flag  Temperature  Fuel_Price  \
0      1 2010-02-05    1643690.90             0        42.31      2572.0   
1      1 2010-02-12    1641957.44             1        38.51      2548.0   
2      1 2010-02-19    1611968.17             0        39.93      2514.0   
3      1 2010-02-26    1409727.59             0        46.63      2561.0   
4      1 2010-03-05    1554806.68             0        46.50      2625.0   

            CPI  Unemployment  
0  2.110964e+09        8106.0  
1  2.112422e+09        8106.0  
2  2.112891e+09        8106.0  
3  2.113196e+09        8106.0  
4  2.113501e+09        8106.0  


Especificando as colunas

In [None]:
# namesarray-like, default None
vendas = pd.read_excel(caminho_arquivo,sheet_name='Walmart_Sales',header=0,names = ['Store','Date','Weekly_Sales'])
print(f'Qtde de registros {len(vendas)}')
print(vendas.head(5))

Qtde de registros 6435
                                  Store          Date  Weekly_Sales
1 2010-02-05 1643690.90 0 42.31  2572.0  2.110964e+09        8106.0
  2010-02-12 1641957.44 1 38.51  2548.0  2.112422e+09        8106.0
  2010-02-19 1611968.17 0 39.93  2514.0  2.112891e+09        8106.0
  2010-02-26 1409727.59 0 46.63  2561.0  2.113196e+09        8106.0
  2010-03-05 1554806.68 0 46.50  2625.0  2.113501e+09        8106.0


Especificando o número de linhas (a partir do cabeçalho)

In [None]:
# nrowsint, default None
# Number of rows to parse.
vendas = pd.read_excel(caminho_arquivo,sheet_name='Walmart_Sales',header=0,names = ['Store','Date','Weekly_Sales'],nrows=100)
print(f'Qtde de registros total {len(vendas)}')
print(vendas.head(5))

Qtde de registros total 100
                                  Store        Date  Weekly_Sales
1 2010-02-05 1643690.90 0 42.31  2572.0  2110963582          8106
  2010-02-12 1641957.44 1 38.51  2548.0  2112421698          8106
  2010-02-19 1611968.17 0 39.93  2514.0  2112891429          8106
  2010-02-26 1409727.59 0 46.63  2561.0  2113196429          8106
  2010-03-05 1554806.68 0 46.50  2625.0  2113501429          8106


Especificando o número de linhas (rodapé)

In [10]:
# skipfooter=0, Valor padrão.
vendas_sem_limite = pd.read_excel(caminho_arquivo,sheet_name='Walmart_Sales',header=0,names = ['Store','Date','Weekly_Sales'])
print(f'Qtde de registros total antes do limite {len(vendas_sem_limite)}')
vendas_com_limite = pd.read_excel(caminho_arquivo,sheet_name='Walmart_Sales',header=0,names = ['Store','Date','Weekly_Sales'],skipfooter=50)
print(f'Qtde de registros total após definição do limite {len(vendas_com_limite)}')

Qtde de registros total antes do limite 6435
Qtde de registros total após definição do limite 6385


In [13]:
# Comparando as linhas finais antes do filtro. TAIL é para extrair do rodapé.
vendas_sem_limite.tail(3)

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Store,Date,Weekly_Sales
45,2012-10-12,734464.36,0,54.47,4.0,1923273000.0,8667.0
45,2012-10-19,718125.53,0,56.47,3969.0,1923309000.0,8667.0
45,2012-10-26,760281.43,0,58.85,3882.0,1923089000.0,8667.0


In [14]:
# Comparando as linhas finais após o filtro
vendas_com_limite.tail(3)

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Store,Date,Weekly_Sales
45,2011-10-28,781694.57,0,51.78,3569.0,1878775000.0,8523.0
45,2011-11-04,833429.22,0,43.92,3551.0,1879704000.0,8523.0
45,2011-11-11,808624.82,0,47.65,3.53,1880632000.0,8523.0


Espeficando as colunas a serem tratadas com data(tipo: date)

In [16]:
vendas = pd.read_excel(caminho_arquivo,sheet_name='Walmart_Sales',parse_dates=['Date'])
vendas.head(5)

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-02-05,1643690.9,0,42.31,2572.0,2110964000.0,8106.0
1,1,2010-02-12,1641957.44,1,38.51,2548.0,2112422000.0,8106.0
2,1,2010-02-19,1611968.17,0,39.93,2514.0,2112891000.0,8106.0
3,1,2010-02-26,1409727.59,0,46.63,2561.0,2113196000.0,8106.0
4,1,2010-03-05,1554806.68,0,46.5,2625.0,2113501000.0,8106.0


Definição de Função Personalizada para Data

In [16]:
# Função personalizada para parsear(transformar) datas
dateparse = lambda x: datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

In [21]:
# Lendo o arquivo Excel
vendas = pd.read_excel(
    caminho_arquivo,
    parse_dates=['Date'],
    date_parser=dateparse
)

  vendas = pd.read_excel(


In [23]:
# Exbindo três vendas de maneira aleatória
vendas[['Date','Store','Weekly_Sales']].sample(3)

Unnamed: 0,Date,Store,Weekly_Sales
1076,2011-07-15,8,849925.37
4874,2010-04-30,35,1096930.65
5803,2011-09-09,41,1280958.97


In [26]:
# Conferindo o tipo de dado presente
vendas[['Date']].dtypes

Unnamed: 0,0
Date,datetime64[ns]


Convertendo tipos de dados no momento da leitura

In [29]:
print(f"Tipo de dado da coluna CPI: {vendas['CPI'].dtype}")
vendas['CPI'].head(5)

Tipo de dado da coluna CPI: float64


Unnamed: 0,CPI
0,2110964000.0
1,2112422000.0
2,2112891000.0
3,2113196000.0
4,2113501000.0


In [40]:
vendas = pd.read_excel(
    caminho_arquivo,
    dtype={
        'CPI': str,
    }
)
print(vendas.dtypes)

Store                    int64
Date            datetime64[ns]
Weekly_Sales           float64
Holiday_Flag             int64
Temperature            float64
Fuel_Price             float64
CPI                     object
Unemployment           float64
dtype: object


In [32]:
print(vendas['CPI'].sample(5))

25      2113699032
2233    1950261012
3441    2038488134
5164    2096660514
1144    2146554591
Name: CPI, dtype: object


Salvando planilhas

In [44]:
# Lendo o arquivo Excel
vendas = pd.read_excel(
    caminho_arquivo,
    parse_dates=['Date'],
    date_parser=dateparse,
    dtype={
        'CPI': str,
        'Unemployment':str
    }
)
vendas.head(5)

  vendas = pd.read_excel(


Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-02-05,1643690.9,0,42.31,2572.0,2110963582,8106
1,1,2010-02-12,1641957.44,1,38.51,2548.0,2112421698,8106
2,1,2010-02-19,1611968.17,0,39.93,2514.0,2112891429,8106
3,1,2010-02-26,1409727.59,0,46.63,2561.0,2113196429,8106
4,1,2010-03-05,1554806.68,0,46.5,2625.0,2113501429,8106


In [45]:
# Criando o campo de ano
vendas['ano'] = vendas['Date'].dt.year
vendas[['Date','ano']].head(5)

Unnamed: 0,Date,ano
0,2010-02-05,2010
1,2010-02-12,2010
2,2010-02-19,2010
3,2010-02-26,2010
4,2010-03-05,2010


In [46]:
vendas_2010 = vendas[vendas.ano == 2010]
print(f"Qtde de registros VENDAS TODOS OS ANOS: {len(vendas)}")
print(f"Qtde de registros VENDAS SOMENTE DE 2010: {len(vendas_2010)}")

Qtde de registros VENDAS TODOS OS ANOS: 6435
Qtde de registros VENDAS SOMENTE DE 2010: 2160


In [49]:
# Salvar como Excel apenas as vendas do ano de 2010
vendas_2010.to_excel('/content/drive/MyDrive/excel_python_article/bases/vendas_filtradas_ano_2020.xlsx', index=False)
print(f"Vendas salvas")

Vendas salvas
