**Importando bibliotecas:**

In [1]:
import pandas as pd

df = pd.read_csv("supermarket_sales.csv", sep=';')

**Convertendo valores para o tipo Float:**

In [2]:
def convert_decimal_columns_to_float(df):
    for col in df.columns:
        if df[col].dtype == 'object':
            try:
                df[col] = df[col].str.replace(',', '.').astype(float)
                print(f"Coluna '{col}' convertida para float.")
            except (ValueError, AttributeError):
                print(f"Coluna '{col}' não foi convertida (não é decimal).")
    return df

df = convert_decimal_columns_to_float(df)

print("\nTipos de dados das colunas após a conversão:")
print(df.dtypes)

Coluna 'Invoice ID' não foi convertida (não é decimal).
Coluna 'Branch' não foi convertida (não é decimal).
Coluna 'City' não foi convertida (não é decimal).
Coluna 'Customer type' não foi convertida (não é decimal).
Coluna 'Gender' não foi convertida (não é decimal).
Coluna 'Product line' não foi convertida (não é decimal).
Coluna 'Unit price' convertida para float.
Coluna 'Tax 5%' convertida para float.
Coluna 'Total' convertida para float.
Coluna 'Date' não foi convertida (não é decimal).
Coluna 'Time' não foi convertida (não é decimal).
Coluna 'Payment' não foi convertida (não é decimal).
Coluna 'cogs' convertida para float.
Coluna 'gross margin percentage' convertida para float.
Coluna 'gross income' convertida para float.
Coluna 'Rating' convertida para float.

Tipos de dados das colunas após a conversão:
Unnamed: 0                   int64
Invoice ID                  object
Branch                      object
City                        object
Customer type               object
Ge

**Convertendo valores para o tipo DateTime:**

In [3]:
df['Date'] = pd.to_datetime(df['Date'], format='mixed')
df['Time'] = pd.to_datetime(df['Time'], format='mixed').dt.time

**Formatando valores Nulos e Duplicados:**

In [4]:
df = df.dropna()
df = df.drop_duplicates()

# Análise Descritiva por Categoria


**Quantidade vendida por Linha de Produto:**

In [5]:
unique_product_line = df['Product line'].unique()

for product_line in unique_product_line:

  filtered_df = df[df['Product line'] == product_line]

  total_quantity = filtered_df['Quantity'].sum()

  print(f"Total de vendas de '{product_line}': {total_quantity} unidades")

Total de vendas de 'Health and beauty': 854 unidades
Total de vendas de 'Electronic accessories': 971 unidades
Total de vendas de 'Home and lifestyle': 911 unidades
Total de vendas de 'Sports and travel': 920 unidades
Total de vendas de 'Food and beverages': 952 unidades
Total de vendas de 'Fashion accessories': 902 unidades


**Total vendido por Linha de Produto:**

In [6]:
sales_product_line = df.groupby('Product line')['Total'].sum()
sales_product_line = sales_product_line.reset_index()
sales_product_line.columns = ['Linha de Produto', 'Total de Vendas']
sales_product_line['Total de Vendas'] = sales_product_line['Total de Vendas'].apply(lambda x: f"${x:,.2f}")

print(sales_product_line)

         Linha de Produto Total de Vendas
0  Electronic accessories      $54,337.53
1     Fashion accessories      $54,305.89
2      Food and beverages      $56,144.84
3       Health and beauty      $49,193.74
4      Home and lifestyle      $53,861.91
5       Sports and travel      $55,122.83


**Média de vendas por Linha de Produto:**

In [7]:
mean_sales_product_line = df.groupby('Product line')['Total'].mean()
mean_sales_product_line = mean_sales_product_line.reset_index()
mean_sales_product_line.columns = ['Linha de produto', 'Média de vendas']
mean_sales_product_line['Média de vendas'] = mean_sales_product_line['Média de vendas'].apply(lambda x: f"${x:,.2f}")

print("Média de vendas por filial:")
print(mean_sales_product_line)

Média de vendas por filial:
         Linha de produto Média de vendas
0  Electronic accessories         $319.63
1     Fashion accessories         $305.09
2      Food and beverages         $322.67
3       Health and beauty         $323.64
4      Home and lifestyle         $336.64
5       Sports and travel         $332.07


# Análise Descritiva por Filial

**Total vendido por Filial:**

In [8]:
sales_branch = df.groupby('Branch')['Total'].sum()
sales_branch = sales_branch.reset_index()
sales_branch.columns = ['Filial', 'Total de Vendas']
sales_branch['Total de Vendas'] = sales_branch['Total de Vendas'].apply(lambda x: f"${x:,.2f}")

print(sales_branch)

  Filial Total de Vendas
0      A     $106,200.37
1      B     $106,197.67
2      C     $110,568.71


**Média de vendas por Filial:**

In [9]:
mean_sales_branch = df.groupby('Branch')['Total'].mean()
mean_sales_branch = mean_sales_branch.reset_index()
mean_sales_branch.columns = ['Filial', 'Média de vendas']
mean_sales_branch['Média de vendas'] = mean_sales_branch['Média de vendas'].apply(lambda x: f"${x:,.2f}")

print(mean_sales_branch)

  Filial Média de vendas
0      A         $312.35
1      B         $319.87
2      C         $337.10


**Quantidade de vendas por Filial:**

In [10]:
unique_product_branch = df['Branch'].unique()

for product_line in unique_product_branch:

  filtered_df = df[df['Branch'] == product_line]

  total_quantity = filtered_df['Quantity'].sum()

  print(f"Total de vendas de '{product_line}': {total_quantity} unidades")

Total de vendas de 'A': 1859 unidades
Total de vendas de 'C': 1831 unidades
Total de vendas de 'B': 1820 unidades


# Análise Descritiva por Produto

**Média de preço dos Produtos:**

In [11]:
mean_price_product = df.groupby('Product line')['Unit price'].mean().reset_index()
mean_price_product.columns = ['Linha de Produto', 'Preço médio unitário']
mean_price_product["Preço médio unitário"] = mean_price_product['Preço médio unitário'].apply(lambda x:f"${x:,.2f}")

print(mean_price_product)

         Linha de Produto Preço médio unitário
0  Electronic accessories               $53.55
1     Fashion accessories               $57.15
2      Food and beverages               $56.01
3       Health and beauty               $54.85
4      Home and lifestyle               $55.32
5       Sports and travel               $56.99


# Análise Descritiva por Cliente

**Total vendido por Tipo de Cliente:**

In [12]:
sales_customer_type = df.groupby('Customer type')['Total'].sum()
sales_customer_type = sales_customer_type.reset_index()
sales_customer_type.columns = ['Tipo de Cliente', 'Total de Vendas']
sales_customer_type["Total de Vendas"] = sales_customer_type['Total de Vendas'].apply(lambda x:f"${x:,.2f}")

# Exibir o resultado
print(sales_customer_type)

  Tipo de Cliente Total de Vendas
0          Member     $164,223.44
1          Normal     $158,743.30


**Quantidade vendido por Tipo de Cliente:**

In [13]:
unique_customer_type = df['Customer type'].unique()

for customer_type in unique_customer_type:

  filtered_df = df[df['Customer type'] == customer_type]

  total_quantity = filtered_df['Quantity'].sum()

  print(f"Total de vendas de '{customer_type}': {total_quantity} unidades")

Total de vendas de 'Member': 2785 unidades
Total de vendas de 'Normal': 2725 unidades


# Análises Temporais

**Total vendido Diariamente:**

In [14]:
daily_sales = df.groupby('Date')['Total'].sum().reset_index()
daily_sales.columns = ['Data', 'Total de Vendas']
daily_sales['Total de Vendas'] = daily_sales["Total de Vendas"].apply(lambda x: f"${x:,.2f}")

print(daily_sales)

         Data Total de Vendas
0  2019-01-01       $4,745.18
1  2019-01-02       $1,945.50
2  2019-01-03       $2,078.13
3  2019-01-04       $1,623.69
4  2019-01-05       $3,536.68
..        ...             ...
84 2019-03-26       $1,962.51
85 2019-03-27       $2,902.82
86 2019-03-28       $2,229.40
87 2019-03-29       $4,023.24
88 2019-03-30       $4,487.06

[89 rows x 2 columns]


**Total vendido Mensalmente:**

In [15]:
df['Month'] = df['Date'].dt.to_period('M')
monthly_sales = df.groupby('Month')['Total'].sum().reset_index()
monthly_sales.columns = ['Mês', 'Total de Vendas']
monthly_sales['Mês'] = monthly_sales['Mês'].astype(str)
monthly_sales['Total de Vendas'] = monthly_sales['Total de Vendas'].apply(lambda x: f"${x:,.2f}")

print(monthly_sales)

       Mês Total de Vendas
0  2019-01     $116,291.87
1  2019-02      $97,219.37
2  2019-03     $109,455.51


**Total vendido por Hora:**

In [16]:
df['Hour'] = df['Time'].apply(lambda x: x.hour)
sales_by_hour = df.groupby('Hour')['Total'].sum().reset_index()
sales_by_hour.columns = ['Hora', 'Total de Vendas']
sales_by_hour['Total de Vendas'] = sales_by_hour['Total de Vendas'].apply(lambda x: f"${x:,.2f}")

print(sales_by_hour)

    Hora Total de Vendas
0     10      $31,421.48
1     11      $30,377.33
2     12      $26,065.88
3     13      $34,723.23
4     14      $30,828.40
5     15      $31,179.51
6     16      $25,226.32
7     17      $24,445.22
8     18      $26,030.34
9     19      $39,699.51
10    20      $22,969.53


# Análise de Pagamento

**Métodos de Pagamento Mais Utilizados:**

In [17]:
payment_methods = df['Payment'].value_counts().reset_index()
payment_methods.columns = ['Método de Pagamento', 'Número de Transações']

print(payment_methods)

  Método de Pagamento  Número de Transações
0             Ewallet                   345
1                Cash                   344
2         Credit card                   311


**Total de Vendas por Método de Pagamento:**

In [18]:
sales_payment = df.groupby('Payment')['Total'].sum().reset_index()
sales_payment.columns = ['Método de Pagamento', 'Total de Vendas']
sales_payment['Total de Vendas'] = sales_payment['Total de Vendas'].apply(lambda x: f"${x:,.2f}")

print(sales_payment)

  Método de Pagamento Total de Vendas
0                Cash     $112,206.57
1         Credit card     $100,767.07
2             Ewallet     $109,993.11


# Análise de clientes

**Distribuição de Clientes por Gênero:**

In [19]:
gender_distribution = df['Gender'].value_counts().reset_index()
gender_distribution.columns = ['Gênero', 'Número de Clientes']

print(gender_distribution)

   Gênero  Número de Clientes
0  Female                 501
1    Male                 499


# Análise de Avaliações

**Avaliação Média Geral:**

In [24]:
mean_rating = df['Rating'].mean()

print(f"A média de avaliação é de {mean_rating:.2f}")

A média de avaliação é de 6.97


**Avaliação média por Linha de Produto:**

In [22]:
mean_rating_product_line = df.groupby('Product line')['Rating'].mean().reset_index()
mean_rating_product_line.columns = ['Linha de Produto', 'Média de Avaliação']

print(mean_rating_product_line)

         Linha de Produto  Média de Avaliação
0  Electronic accessories            6.924706
1     Fashion accessories            7.029213
2      Food and beverages            7.113218
3       Health and beauty            7.003289
4      Home and lifestyle            6.837500
5       Sports and travel            6.916265


**Avaliação média por Filial:**

In [23]:
mean_rating_branch = df.groupby('Branch')['Rating'].mean().reset_index()
mean_rating_branch.columns = ['Filial','Avaliação Média']

print(mean_rating_branch)

  Filial  Avaliação Média
0      A         7.027059
1      B         6.818072
2      C         7.072866


**Quantidade de Clientes Satisfeitos e Insatisfeitos:**

In [None]:
limit_rating = 6.0
df['Client Satisfaction'] = df['Rating'].apply(lambda x: 'Insatisfeitos' 
                                               if x < limit_rating
                                               else 'Satisfeitos')

# Contar a distribuição de satisfação
print(df['Client Satisfaction'].value_counts())

Client Satisfaction
Satisfeitos      685
Insatisfeitos    315
Name: count, dtype: int64
