<a href="https://colab.research.google.com/github/ze-2000/An-lise-de-Dados/blob/main/Analise_de_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Etapa 1: Preparação do Ambiente e Carregamento de Dados
Descrição do documento:

Objetivo: Configurar o ambiente e carregar o arquivo de dados para análise.

Algoritmo:

Instalar Bibliotecas (se necessário): No Google Colab, pandas, matplotlib e seaborn já vêm pré-instalados.

Importar Bibliotecas: Importe as bibliotecas necessárias no início do seu script ou notebook.

Carregar Dados:

Exiba as primeiras linhas do DataFrame (.head()) e suas informações gerais (.info()) para uma primeira inspeção.

Ponto de Atenção: Verifique o nome exato do arquivo e o caminho.

In [None]:
# Importar bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Carregar o arquivo Excel (certifique-se que o arquivo está no mesmo diretório do script ou notebook)
df = pd.read_excel('12 RP07 Análise de Dados com Python.xlsx')

# Exibir as primeiras linhas e informações gerais
print(df.head())
print(df.info())


 Etapa 2: Limpeza e Pré-processamento de Dados
Descrição do documento:

Objetivo: Tratar inconsistências e preparar os dados para análise.

Algoritmo:

Renomear Colunas: Padronize nomes de colunas (ex: remover espaços, caracteres especiais).

Verificar Valores Ausentes: Identifique colunas com valores nulos.

Converter Tipos de Dados:

Verifique os tipos de dados.

Converta colunas numéricas para float/int (ex: Total Vendas, Quantidade...).

Atenção a vírgulas como separadores decimais.

Converta a coluna Data Pedido para datetime.

Tratar Duplicatas: Verifique e remova duplicatas se houver.

In [None]:
# Padronizar os nomes das colunas
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_').str.replace(r'[^\w\s]', '', regex=True)

# Verificar valores ausentes
print("Valores ausentes por coluna:")
print(df.isnull().sum())

# Converter colunas numéricas com vírgulas para float
colunas_numericas = ['total_vendas', 'quantidade', 'desconto', 'lucro']
for col in colunas_numericas:
    df[col] = df[col].astype(str).str.replace(',', '.').astype(float)

# Converter coluna de data
df['data_pedido'] = pd.to_datetime(df['data_pedido'], errors='coerce')

# Remover duplicatas
df.drop_duplicates(inplace=True)


 Etapa 3: Análise Exploratória de Dados (EDA) e Respostas às Perguntas de Negócio
Descrição do documento:

Objetivo: Utilizar o Pandas para responder às perguntas estratégicas dos gestores.

Algoritmo:

Total de Vendas Acumulado: Soma da coluna Total Vendas.

Categorias de Produtos Mais Vendidas: Agrupar por Categoria e somar.

Prioridade de Entrega vs. Vendas por País: Agrupar por País e Prioridade.

Impacto dos Descontos nas Subcategorias: Média de Desconto e soma de Vendas.

Países com Maior Ticket Médio: Soma Total Vendas / Soma Quantidade por País.

In [None]:
# Total de Vendas Acumulado
total_vendas = df['total_vendas'].sum()
print(f"Total de Vendas: R${total_vendas:,.2f}")

# Categorias de Produtos Mais Vendidas
vendas_por_categoria = df.groupby('categoria')['total_vendas'].sum().sort_values(ascending=False)
print("\nVendas por Categoria:")
print(vendas_por_categoria)

# Prioridade de Entrega vs. Vendas por País
vendas_pais_prioridade = df.groupby(['pais', 'prioridade'])['total_vendas'].sum().unstack().fillna(0)
print("\nVendas por País e Prioridade:")
print(vendas_pais_prioridade)

# Impacto dos Descontos nas Subcategorias
desconto_subcategoria = df.groupby('subcategoria').agg(
    media_desconto=('desconto', 'mean'),
    total_vendas=('total_vendas', 'sum')
).sort_values(by='media_desconto', ascending=False)
print("\nDesconto médio e total de vendas por Subcategoria:")
print(desconto_subcategoria)

# Países com Maior Ticket Médio
df['ticket_medio'] = df['total_vendas'] / df['quantidade']
ticket_medio_pais = df.groupby('pais')['ticket_medio'].mean().sort_values(ascending=False)
print("\nTop países por ticket médio:")
print(ticket_medio_pais)


Etapa 4: Visualização de Dados
Descrição do documento:

Objetivo: Criar gráficos para apresentar os insights de forma clara e visualmente atraente.

Algoritmo:

Total de Vendas por Categoria: Gráfico de barras ou pizza.

Média de Desconto por SubCategoria: Gráfico de barras horizontal.

Total de Vendas Global: Exibir valor formatado ou em destaque.

Vendas por País e Prioridade: Gráfico de barras empilhadas.

Ticket Médio por País: Gráfico de barras com top N países.

In [None]:
# Gráfico de barras: Vendas por Categoria
vendas_por_categoria.plot(kind='bar', title='Total de Vendas por Categoria')
plt.ylabel('Total de Vendas')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Gráfico de barras horizontal: Média de Desconto por SubCategoria
desconto_subcategoria['media_desconto'].sort_values().plot(kind='barh', title='Média de Desconto por SubCategoria')
plt.xlabel('Desconto Médio')
plt.tight_layout()
plt.show()

# Exibir Total Global de Vendas
print(f"\nTOTAL GLOBAL DE VENDAS: R${total_vendas:,.2f}")

# Gráfico de barras empilhadas: Vendas por País e Prioridade
vendas_pais_prioridade.plot(kind='bar', stacked=True, title='Vendas por País e Prioridade')
plt.ylabel('Total de Vendas')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

# Gráfico de barras: Top 10 Países por Ticket Médio
ticket_medio_pais.head(10).plot(kind='bar', title='Top 10 Países por Ticket Médio')
plt.ylabel('Ticket Médio')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
