# Data Analysis Workflow

This notebook contains the data analysis workflow for the AI Data Analysis Project. It includes data exploration, visualization, and insights derived from the data.

In [None]:
# Import necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Set visualization style
sns.set(style='whitegrid')

In [None]:
# Load the dataset
data = pd.read_csv('../data/processed/cleaned_data.csv')

# Display the first few rows of the dataset
data.head()

In [None]:
# Análise de vendas e pós-venda na indústria de café

# Exemplo de análise de vendas
# Supondo que o dataset contém colunas como 'sales_volume', 'revenue', 'customer_satisfaction'

# Análise de volume de vendas ao longo do tempo
plt.figure(figsize=(12, 6))
sns.lineplot(data=data, x='date', y='sales_volume', marker='o')
plt.title('Volume de Vendas ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Volume de Vendas')
plt.show()

# Análise de receita ao longo do tempo
plt.figure(figsize=(12, 6))
sns.lineplot(data=data, x='date', y='revenue', marker='o', color='green')
plt.title('Receita ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Receita')
plt.show()

# Análise de satisfação do cliente
plt.figure(figsize=(12, 6))
sns.histplot(data['customer_satisfaction'], bins=10, kde=True, color='orange')
plt.title('Distribuição da Satisfação do Cliente')
plt.xlabel('Satisfação do Cliente')
plt.ylabel('Frequência')
plt.show()

In [None]:
# Data exploration
# Summary statistics
data.describe()

In [None]:
# Análise de produtos não vendidos, produtos vendidos, estoque e produção

# Produtos não vendidos
unsold_products = data[data['units_sold'] == 0]
print(f"Total de produtos não vendidos: {len(unsold_products)}")
print(unsold_products[['product_name', 'stock', 'production']])

# Produtos vendidos
sold_products = data[data['units_sold'] > 0]
print(f"Total de produtos vendidos: {len(sold_products)}")
print(sold_products[['product_name', 'units_sold', 'stock', 'production']])

# Análise de estoque
plt.figure(figsize=(12, 6))
sns.histplot(data['stock'], bins=20, kde=True, color='blue')
plt.title('Distribuição de Estoque')
plt.xlabel('Estoque')
plt.ylabel('Frequência')
plt.show()

# Análise de produção
plt.figure(figsize=(12, 6))
sns.histplot(data['production'], bins=20, kde=True, color='purple')
plt.title('Distribuição de Produção')
plt.xlabel('Produção')
plt.ylabel('Frequência')
plt.show()

In [None]:
# Data visualization
# Example: Distribution of a specific feature
plt.figure(figsize=(10, 6))
sns.histplot(data['feature_name'], bins=30, kde=True)
plt.title('Distribution of Feature Name')
plt.xlabel('Feature Name')
plt.ylabel('Frequency')
plt.show()

In [None]:
# Insights derived from the data
# Example: Correlation matrix
plt.figure(figsize=(12, 8))
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()