# Como importar planilhas Excel (.xlsx) no VSCode usando Python

O Excel é uma das ferramentas mais utilizadas para armazenar e organizar dados. 

Já o Python, com sua flexibilidade e poder, é essencial para análise, tratamento e automação. 

Se você usa o VSCode como ambiente de desenvolvimento, importar planilhas do Excel para Python é um passo fundamental.

### 1. Importar a biblioteca pandas.

In [2]:
# O pandas é uma das bibliotecas mais importantes do Python para análise e manipulação de dados, permitindo trabalhar com tabelas (DataFrames) de forma parecida com o Excel ou SQL.

import pandas as pd

### 2. Ler o arquivo xlsx

Primeiro criamos uma variável, um DataFrame (df = ). 
Esse df recebe o pandas que foi importado anteriormente com o alias pd. e recebe o argumento read_excel(). Até aqui temos essa construção df = pd.read_excel
Desntro do parenteses irá os parâmetros para que possamos ler o arquivo xlsx. Antes de passarmos esse parâmetro pomos r"" e dentros das aspas dupla.
Esse parâmetro é o caminho da planilha que queremos ler, essa planilha tem que estar na mesma pasta onde estamos elaborando esse estudo, no meu caso, clico com o botão direito do mause na planilha e em seguida em copy path, em seguida dou um Ctrl entre as aspas duplas.

In [10]:


df = pd.read_excel(r"C:\Users\Jailson\Downloads\Eu. Python do Básico ao Avançado\list\analytics-with-python\Produto_com_duplicados.xlsx")

### 3. Verificar o que temos na planilha

df: é o DataFrame que criamos.

.head(10): é quer dizer que veremos as 10 primeiras linhas. Caso eu não especifique que quero ver as 10 primeiras linhas, deico vazio, assim teremos as 5 primeira linhas e as 5  últimas da nossa planilha.

#### Importância de usar df.head(10)

##### Verificar se o arquivo foi carregado corretamente

    Logo após importar a planilha ou base de dados, você consegue ver uma “amostra” inicial e confirmar se os dados estão no formato certo.

##### Economizar tempo e memória

    Se sua planilha tiver milhares ou milhões de linhas, você não vai querer imprimir tudo no console.

    O .head(10) mostra apenas uma parte pequena para análise rápida.

##### Exploração inicial dos dados

    Ajuda a entender a estrutura da tabela:

        Quais colunas existem

        Como estão os nomes

        Que tipo de valores aparecem (texto, números, datas, etc.)

##### Evitar erros futuros

    Às vezes, colunas vêm com nomes diferentes do esperado ou os dados estão bagunçados. O .head() ajuda a identificar esses problemas logo no começo.

In [11]:
df.head(10)

Unnamed: 0,ID,Name,Price,Id_Category
0,0,Sapato vermelho,96,0
1,1,Bolsa mais que Velha,8000,0
2,2,Calça,75,0
3,3,Camisa apertadinha,170,0
4,4,Vestido Super curto,57,0
5,5,Perfume,29,1
6,6,Creme de Barbear,15,1
7,7,Hidratante caro,800,1
8,8,Shampoo,15,1
9,9,Protetor Solar,11,1


### 4. Contagem de quantos elementos temos na planilha.

O código conta quantos IDs existem preenchidos na coluna Name e guarda esse número na variável contagem1.


#### Por que isso é importante?

##### Verificar a quantidade de registros carregados

    Se o ID é a chave única da sua tabela (identificador de cada linha), a contagem mostra quantas linhas válidas existem no seu dataset.

    É uma forma rápida de checar se todos os dados foram importados corretamente do Excel, CSV ou banco de dados.

##### Identificar dados ausentes

    Se você sabe que deveria ter 1.000 registros mas df["ID"].count() retorna 980, significa que 20 registros têm ID nulo ou faltando.

    Isso alerta para possíveis problemas de qualidade de dados.

##### Controle e validação

    Muitas vezes, o ID serve como chave primária (como no SQL). Se está faltando ou duplicado, pode indicar erro no dataset.

    A contagem ajuda a validar antes de aplicar análises ou modelos.

##### Comparação com outras colunas

    Comparar a contagem do ID com a contagem de outra coluna pode mostrar inconsistências.

    Exemplo: se df["ID"].count() é 1000 mas df["Vendas"].count() é 950 → significa que existem 50 linhas sem informação de vendas.


In [33]:
# Esse código nos mostra a quatinade de linhas que temos em nossa planilha.

contagem_total = df.shape[0]
contagem_total

65

In [None]:
# Aqui faço uma comparação entre as colunas ID e Price para verificar se têm a mesma quantidade de linhas, caso a quantidade de linhas sejam divergentes, há algum erro que precisa de ser verificado.


contagem_id = df["ID"].count()

print(f'Quantidade de IDs: {contagem_id}')

contagem_price = df["Price"].count()

print(f'Quantidade de Price: {contagem_price}')

# Quantidade de linhas iguais, tudo certo. Agora vamos verificar se há duplicações.

Quantidade de IDs: 65
Quantidade de Price: 65


### 05 Duplicidades


#### Por que isso é importante?

##### Garantir qualidade dos dados

    Dados duplicados podem indicar erro de entrada, falha de importação ou processamento incorreto.

    Um dataset confiável precisa conter informações únicas e corretas.

##### Evitar contagens e cálculos errados

    Se você calcular médias, somas ou contagens em dados duplicados, os resultados serão inflacionados.

    Exemplo: se uma venda foi registrada duas vezes, o total de vendas será maior do que o real.

##### Melhorar desempenho de processamento

    Datasets grandes com duplicatas podem aumentar o tempo de processamento e a memória utilizada.

    Remover duplicadas deixa os dados mais leves e eficientes para análise.

##### Garantir unicidade em identificadores

    Colunas como ID, CPF, Email ou Código do Produto devem ser únicas.

    Duplicatas nesses campos podem gerar problemas de integridade, especialmente se você for cruzar tabelas ou criar dashboards.

##### Preparar dados para modelos de machine learning

    Algoritmos de ML podem ser tendenciosos ou errôneos se treinados com dados duplicados.

    Eliminar duplicatas garante que cada registro seja considerado uma vez apenas, aumentando a precisão do modelo.

In [None]:
# Mostra todas as linhas duplicadas
df_duplicadas = df[df.duplicated()]
print(df_duplicadas)


# Adiciona 2 linhas em branco entre o resultado de cima e o resultado de baixo.
print("\n\n")

# Contar quantas linhas estão duplicadas (excluindo a primeira ocorrência)
quantidade_duplicadas = df.duplicated().sum()
print(f'Quantidade de linhas duplicadas: {quantidade_duplicadas}.')



    ID                  Name  Price  Id_Category
50  13      Máquina de Lavar   1826            2
51  39     Secador de Cabelo    580            7
52  30              Poltrona    110            6
53  45          Futebol 2020     36            9
54  17  Terror Aterrorizante     45            3
55  48             Bey-Blade     55            9
56  26               Teclado     53            5
57  25                 Mouse    144            5
58  32               Cadeira    164            6
59  19     A História de SQL     23            3
60  12                    TV   1992            2
61   4   Vestido Super curto     57            0
62  37              Notebook    493            7
63   8               Shampoo     15            1
64   3    Camisa apertadinha    170            0



Quantidade de linhas duplicadas: 15.


In [41]:
# com esse código vamos eliminas as 15 linha duplicadas. Levando em conta que o total de linhas são 65. subtraindo destas 15, teremos que ter 50
df_distinct = df.drop_duplicates()


In [43]:
# O código acima eliminou as 15 linhas duplicadas.
# o código abaixo deve trazer ppor resultado apenas 50 linhas em cada coluna

print(df_distinct.count())

ID             50
Name           50
Price          50
Id_Category    50
dtype: int64


### Procurar informações expecificas 

#### Por que isso é importante?

##### Foco nos dados relevantes

    Planilhas grandes podem ter milhares de linhas e colunas.

    Filtrar por informações específicas ajuda a trabalhar apenas com o que importa para o objetivo da análise.

    Exemplo: trazer apenas as vendas de um determinado produto ou mês.

##### Facilita a tomada de decisão

    Ao encontrar dados precisos rapidamente, você consegue tomar decisões mais informadas e ágeis.

    Evita conclusões baseadas em informações irrelevantes ou incorretas.

##### Identificação de padrões e problemas

    Procurar informações específicas ajuda a detectar erros, duplicações ou inconsistências.

    Exemplo: localizar clientes com compras duplicadas ou valores incorretos.

##### Otimização do tempo

    Trabalhar com filtros e buscas direcionadas economiza horas de análise manual.

    Automatizando buscas no Python (com pandas), você consegue filtrar milhares de registros em segundos.

##### Preparação para relatórios e dashboards

    Para criar gráficos, KPIs ou dashboards, muitas vezes você precisa de subconjuntos de dados específicos.

    Exemplo: calcular a receita apenas de um estado ou segmento de clientes.

In [16]:
# QUERO SABER SOBRE UM PRODUTO EM EXPECIFICO

# df_FUTEBOL = É O NOME DA VARIÁVEL QUE VOU ARMAZENAR ESSA NOVA INFORMAÇÃO
# df.loc DF É O O MEU ARQUIVO COMPLETO. .LOC É LOCALIZAR
# [df['Name'] == REPITO O DF (ARQUIVO COMPLETO), INSIRO O NOME DA COLUNA QUE ESTÁ A INFORMAÇÃO QUE BUSCO ['Name'], == ESTOU DIZENDO QUE BUSCO ALGO IGUAL
# 'Vestido Super curto'] É O INTEN EXATO QUE ESTOU BUSCANDO

df_FUTEBOL = df.loc[df['Name'] == 'Futebol 2020']
df_FUTEBOL


Unnamed: 0,ID,Name,Price,Id_Category
45,45,Futebol 2020,36,9


In [19]:
# PARA TRAZERMOS MAIS DE UM ITEM
df_itens2 = df.loc[df['Name'].isin(['Nóquia','TV', 'Galáxia R10','Bolsa mais que Velha'])]
df_itens2

Unnamed: 0,ID,Name,Price,Id_Category
1,1,Bolsa mais que Velha,8000,0
12,12,TV,1992,2
21,21,Galáxia R10,2007,4
24,24,Nóquia,2663,4


In [20]:
# PARA SABERMOS OS PRODUTOS ACIMA DE UM PREÇO EM EXPECIFICO

MAIOR_1000 = df.loc[df['Price'] >= 1000]
MAIOR_1000

Unnamed: 0,ID,Name,Price,Id_Category
1,1,Bolsa mais que Velha,8000,0
10,10,Geladeira,1952,2
11,11,Fogão,1373,2
12,12,TV,1992,2
13,13,Máquina de Lavar,1826,2
14,14,Máquina de Secar,1774,2
20,20,Ai-Fone,1720,4
21,21,Galáxia R10,2007,4
22,22,Chiai-homi,1152,4
23,23,Ruaei,2795,4


In [22]:
MAIOR_800 = df.loc[(df['Price'] >= 800) & (df['Price'] <= 1800)]
MAIOR_800

Unnamed: 0,ID,Name,Price,Id_Category
7,7,Hidratante caro,800,1
11,11,Fogão,1373,2
14,14,Máquina de Secar,1774,2
20,20,Ai-Fone,1720,4
22,22,Chiai-homi,1152,4
