**Importando bibliotecas:**

In [3]:
import pandas as pd

df = pd.read_csv("supermarket_sales.csv", sep=';')

**Convertendo valores para o tipo Float:**

In [11]:
def convert_decimal_columns_to_float(df):
    for col in df.columns:
        if df[col].dtype == 'object':
            try:
                df[col] = df[col].str.replace(',', '.').astype(float)
                print(f"Coluna '{col}' convertida para float.")
            except (ValueError, AttributeError):
                print(f"Coluna '{col}' não foi convertida (não é decimal).")
    return df

df = convert_decimal_columns_to_float(df)

print("\nTipos de dados das colunas após a conversão:")
print(df.dtypes)

Coluna 'Invoice ID' não foi convertida (não é decimal).
Coluna 'Branch' não foi convertida (não é decimal).
Coluna 'City' não foi convertida (não é decimal).
Coluna 'Customer type' não foi convertida (não é decimal).
Coluna 'Gender' não foi convertida (não é decimal).
Coluna 'Product line' não foi convertida (não é decimal).
Coluna 'Time' não foi convertida (não é decimal).
Coluna 'Payment' não foi convertida (não é decimal).
Coluna 'Hour_Formatted' não foi convertida (não é decimal).

Tipos de dados das colunas após a conversão:
Unnamed: 0                          int64
Invoice ID                         object
Branch                             object
City                               object
Customer type                      object
Gender                             object
Product line                       object
Unit price                        float64
Quantity                            int64
Tax 5%                            float64
Total                             float64
Da

**Convertendo valores para o tipo DateTime:**

In [5]:
df['Date'] = pd.to_datetime(df['Date'], format='mixed')
df['Time'] = pd.to_datetime(df['Time'], format='mixed').dt.time

**Formatando valores Nulos e Duplicados:**

In [6]:
df = df.dropna()
df = df.drop_duplicates()

---
# Análise de vendas por Linha de Produto


**Quantidade vendida por Linha de Produto:**

In [12]:
results = []

unique_product_line = df['Product line'].unique()

for quantity_line_sales in unique_product_line:
    filtered_df = df[df['Product line'] == quantity_line_sales]
    total_quantity = filtered_df['Quantity'].sum()
    
    results.append({'Linha de Produto': quantity_line_sales, 'Total de Vendas': total_quantity})

quantity_line_sales = pd.DataFrame(results)

print(quantity_line_sales)

         Linha de Produto  Total de Vendas
0       Health and beauty              854
1  Electronic accessories              971
2      Home and lifestyle              911
3       Sports and travel              920
4      Food and beverages              952
5     Fashion accessories              902


**Total vendido por Linha de Produto:**

In [13]:
sales_product_line = df.groupby('Product line')['Total'].sum()
sales_product_line = sales_product_line.reset_index()
sales_product_line.columns = ['Linha de Produto', 'Total de Vendas']

print(sales_product_line)

         Linha de Produto  Total de Vendas
0  Electronic accessories       54337.5315
1     Fashion accessories       54305.8950
2      Food and beverages       56144.8440
3       Health and beauty       49193.7390
4      Home and lifestyle       53861.9130
5       Sports and travel       55122.8265


**Média de vendas por Linha de Produto:**

In [14]:
mean_sales_product_line = df.groupby('Product line')['Total'].mean()
mean_sales_product_line = mean_sales_product_line.reset_index()
mean_sales_product_line.columns = ['Linha de produto', 'Média de vendas']

print(mean_sales_product_line)

         Linha de produto  Média de vendas
0  Electronic accessories       319.632538
1     Fashion accessories       305.089298
2      Food and beverages       322.671517
3       Health and beauty       323.643020
4      Home and lifestyle       336.636956
5       Sports and travel       332.065220


---
# Análise de Vendas por Filial

**Total vendido por Filial:**

In [15]:
sales_branch = df.groupby('Branch')['Total'].sum()
sales_branch = sales_branch.reset_index()
sales_branch.columns = ['Filial', 'Total de Vendas']

print(sales_branch)

  Filial  Total de Vendas
0      A      106200.3705
1      B      106197.6720
2      C      110568.7065


**Média de vendas por Filial:**

In [16]:
mean_sales_branch = df.groupby('Branch')['Total'].mean()
mean_sales_branch = mean_sales_branch.reset_index()
mean_sales_branch.columns = ['Filial', 'Média de vendas']

print(mean_sales_branch)

  Filial  Média de vendas
0      A       312.354031
1      B       319.872506
2      C       337.099715


**Quantidade de vendas por Filial:**

In [17]:
results = []

unique_product_branch = df['Branch'].unique()

for quantity_branch_sales in unique_product_branch:
    filtered_df = df[df['Branch'] == quantity_branch_sales]
    total_quantity = filtered_df['Quantity'].sum()
    
    results.append({'Filial': quantity_branch_sales, 'Total de Vendas': total_quantity})

quantity_branch_sales = pd.DataFrame(results)

print(quantity_branch_sales)

  Filial  Total de Vendas
0      A             1859
1      C             1831
2      B             1820


---
# Análise de vendas por Cliente

**Total vendido por Tipo de Cliente:**

In [18]:
sales_customer_type = df.groupby('Customer type')['Total'].sum()
sales_customer_type = sales_customer_type.reset_index()
sales_customer_type.columns = ['Tipo de Cliente', 'Total de Vendas']

print(sales_customer_type)

  Tipo de Cliente  Total de Vendas
0          Member       164223.444
1          Normal       158743.305


**Quantidade vendido por Tipo de Cliente:**

In [19]:
results = []

unique_customer_type = df['Customer type'].unique()

for quantity_client_sales in unique_customer_type:
    filtered_df = df[df['Customer type'] == quantity_client_sales]
    total_quantity = filtered_df['Quantity'].sum()
    
    results.append({'Tipo de Cliente': quantity_client_sales, 'Total de Vendas': total_quantity})

quantity_client_sales = pd.DataFrame(results)

print(quantity_client_sales)

  Tipo de Cliente  Total de Vendas
0          Member             2785
1          Normal             2725


---
# Análise Temporal

**Total vendido Diariamente:**

In [20]:
daily_sales = df.groupby('Date')['Total'].sum().reset_index()
daily_sales.columns = ['Data', 'Total de Vendas']

print(daily_sales)

         Data  Total de Vendas
0  2019-01-01        4745.1810
1  2019-01-02        1945.5030
2  2019-01-03        2078.1285
3  2019-01-04        1623.6885
4  2019-01-05        3536.6835
..        ...              ...
84 2019-03-26        1962.5130
85 2019-03-27        2902.8195
86 2019-03-28        2229.4020
87 2019-03-29        4023.2430
88 2019-03-30        4487.0595

[89 rows x 2 columns]


**Total vendido Mensalmente:**

In [21]:
df['Month'] = df['Date'].dt.to_period('M')
monthly_sales = df.groupby('Month')['Total'].sum().reset_index()
monthly_sales.columns = ['Mês', 'Total de Vendas']
monthly_sales['Mês'] = monthly_sales['Mês'].astype(str)

print(monthly_sales)

       Mês  Total de Vendas
0  2019-01       116291.868
1  2019-02        97219.374
2  2019-03       109455.507


**Total vendido por Hora:**

In [22]:
df['Hour'] = df['Time'].apply(lambda x: x.hour)

df['Hour_Formatted'] = df['Hour'].apply(lambda x: f"{x:02d}:00")

sales_by_hour = df.groupby('Hour_Formatted')['Total'].sum().reset_index()
sales_by_hour.columns = ['Hora', 'Total de Vendas']

print(sales_by_hour)

     Hora  Total de Vendas
0   10:00       31421.4810
1   11:00       30377.3295
2   12:00       26065.8825
3   13:00       34723.2270
4   14:00       30828.3990
5   15:00       31179.5085
6   16:00       25226.3235
7   17:00       24445.2180
8   18:00       26030.3400
9   19:00       39699.5130
10  20:00       22969.5270


---
# Análise de Produtos

**Média de preço dos Produtos:**

In [23]:
mean_price_product = df.groupby('Product line')['Unit price'].mean().reset_index()
mean_price_product.columns = ['Linha de Produto', 'Preço médio unitário']

print(mean_price_product)

         Linha de Produto  Preço médio unitário
0  Electronic accessories             53.551588
1     Fashion accessories             57.153652
2      Food and beverages             56.008851
3       Health and beauty             54.854474
4      Home and lifestyle             55.316937
5       Sports and travel             56.993253


---
# Análise de Pagamento

**Métodos de Pagamento Mais Utilizados:**

In [24]:
payment_methods = df['Payment'].value_counts().reset_index()
payment_methods.columns = ['Método de Pagamento', 'Número de Transações']

print(payment_methods)

  Método de Pagamento  Número de Transações
0             Ewallet                   345
1                Cash                   344
2         Credit card                   311


**Total de Vendas por Método de Pagamento:**

In [25]:
sales_payment = df.groupby('Payment')['Total'].sum().reset_index()
sales_payment.columns = ['Método de Pagamento', 'Total de Vendas']

print(sales_payment)

  Método de Pagamento  Total de Vendas
0                Cash       112206.570
1         Credit card       100767.072
2             Ewallet       109993.107


---
# Análise de Clientes

**Distribuição de Clientes por Gênero:**

In [26]:
gender_distribution = df['Gender'].value_counts().reset_index()
gender_distribution.columns = ['Gênero', 'Número de Clientes']

print(gender_distribution)

   Gênero  Número de Clientes
0  Female                 501
1    Male                 499


---
# Análise de Avaliações

**Avaliação Média Geral:**

In [27]:
mean_rating = df['Rating'].mean()

print(f"A média de avaliação é de {mean_rating:.2f}")

A média de avaliação é de 6.97


**Avaliação média por Linha de Produto:**

In [28]:
mean_rating_product_line = df.groupby('Product line')['Rating'].mean().reset_index()
mean_rating_product_line.columns = ['Linha de Produto', 'Média de Avaliação']

print(mean_rating_product_line)

         Linha de Produto  Média de Avaliação
0  Electronic accessories            6.924706
1     Fashion accessories            7.029213
2      Food and beverages            7.113218
3       Health and beauty            7.003289
4      Home and lifestyle            6.837500
5       Sports and travel            6.916265


**Avaliação média por Filial:**

In [29]:
mean_rating_branch = df.groupby('Branch')['Rating'].mean().reset_index()
mean_rating_branch.columns = ['Filial','Avaliação Média']

print(mean_rating_branch)

  Filial  Avaliação Média
0      A         7.027059
1      B         6.818072
2      C         7.072866


**Quantidade de Clientes Satisfeitos e Insatisfeitos:**

In [30]:
limit_rating = 6.0
df['Client Satisfaction'] = df['Rating'].apply(lambda x: 'Insatisfeitos' 
                                               if x < limit_rating
                                               else 'Satisfeitos')

# Contar a distribuição de satisfação
print(df['Client Satisfaction'].value_counts())

Client Satisfaction
Satisfeitos      685
Insatisfeitos    315
Name: count, dtype: int64


---
# Salvando as Análises em um arquivo CSV:

In [32]:
analises = {
    'Vendas por Linha de Produto (Unidades)': quantity_line_sales,
    'Vendas por Linha de Produto (Valor)': sales_product_line,
    'Média de Vendas por Linha de Produto': mean_sales_product_line,
    'Vendas por Filial (Unidades)': quantity_branch_sales,
    'Vendas por Filial (Valor)': sales_branch,
    'Média de Vendas por Filial': mean_sales_branch,
    'Vendas por Tipo de Cliente (Unidades)': quantity_client_sales,
    'Vendas por Tipo de Cliente (Valor)': sales_customer_type,
    'Vendas Diárias': daily_sales,
    'Vendas Mensais': monthly_sales,
    'Vendas por Hora': sales_by_hour,
    'Métodos de Pagamento': payment_methods,
    'Vendas por Método de Pagamento': sales_payment,
    'Distribuição de Gênero': gender_distribution,
    'Avaliação Média por Linha de Produto': mean_rating_product_line,
    'Avaliação Média por Filial': mean_rating_branch,
    'Satisfação do Cliente': df['Client Satisfaction'].value_counts().reset_index()
}

analises_df = pd.concat(analises.values(), keys=analises.keys(), axis=1)

analises_df.to_csv('analises_vendas.csv', index=False)