In [None]:
# Bibliotecas.
import pandas as pd
import numpy as np

## Conferindo o Dataset "Grocery Store"
* Dataset disponivel no [kaggle](https://www.kaggle.com/datasets/bhavikjikadara/grocery-store-dataset/data).


* Colunas

| Nome da Coluna | Descrição
|:-:|:-|
| **Sub Category** | Esta coluna categoriza os itens de supermercado em subcategorias, proporcionando uma classificação detalhada para facilitar a análise e organização. |
| **Price** | Representa o valor monetário do item de supermercado, indicando seu custo ou preço de varejo na moeda especificada. |
| **Discount** | Reflete quaisquer descontos ou ofertas promocionais aplicáveis ao respectivo item de supermercado, oferecendo insights sobre as estratégias de preços. |
| **Rating** | Indica a satisfação do cliente ou a qualidade do produto com base nas avaliações dos usuários, oferecendo uma medida do valor percebido geral do item de supermercado. |
| **Title** | Descreve o nome ou título do item de supermercado, fornecendo um identificador conciso para fácil referência e compreensão. |
| **Currency** | Especifica a moeda em que os preços são denominados, facilitando a interpretação e comparação dos valores monetários. |
| **Feature** | Inclui características ou atributos do item de supermercado, oferecendo informações adicionais sobre suas qualidades ou pontos de venda exclusivos. |
| **Product Description** | Fornece uma descrição textual detalhada do item de supermercado, oferecendo informações abrangentes sobre suas especificações, usos e outros detalhes relevantes.|

In [None]:
# Banco de dados
df = pd.read_csv("/content/GroceryDataset.csv")

df

Unnamed: 0,Sub Category,Price,Discount,Rating,Title,Currency,Feature,Product Description
0,Bakery & Desserts,$56.99,No Discount,Rated 4.3 out of 5 stars based on 265 reviews.,"David’s Cookies Mile High Peanut Butter Cake, ...",$,"""10"""" Peanut Butter Cake\nCertified Kosher OU-...",A cake the dessert epicure will die for!Our To...
1,Bakery & Desserts,$159.99,No Discount,Rated 5 out of 5 stars based on 1 reviews.,"The Cake Bake Shop 8"" Round Carrot Cake (16-22...",$,Spiced Carrot Cake with Cream Cheese Frosting ...,"Due to the perishable nature of this item, ord..."
2,Bakery & Desserts,$44.99,No Discount,Rated 4.1 out of 5 stars based on 441 reviews.,"St Michel Madeleine, Classic French Sponge Cak...",$,100 count\nIndividually wrapped\nMade in and I...,Moist and buttery sponge cakes with the tradit...
3,Bakery & Desserts,$39.99,No Discount,Rated 4.7 out of 5 stars based on 9459 reviews.,"David's Cookies Butter Pecan Meltaways 32 oz, ...",$,Butter Pecan Meltaways\n32 oz 2-Pack\nNo Prese...,These delectable butter pecan meltaways are th...
4,Bakery & Desserts,$59.99,No Discount,Rated 4.5 out of 5 stars based on 758 reviews.,"David’s Cookies Premier Chocolate Cake, 7.2 lb...",$,"""10"" Four Layer Chocolate Cake\nCertified Kosh...",A cake the dessert epicure will die for!To the...
...,...,...,...,...,...,...,...,...
1752,Snacks,$23.99,No Discount,,"Oberto Thin Style Smoked Sausage Stick, Cockta...",$,Cocktail Pepperoni Smoked Sausage Sticks 3...,Cocktail PepperoniSmoked Sausage Sticks3 oz ba...
1753,Snacks,$49.99,No Discount,,"Cheetos Crunchy, Original, 2.1 oz, 64-count",$,Made with Real Cheese,64-count2.1 oz Bags
1754,Snacks,$22.99,No Discount,,"Sabritas Chile & Limon Mix, Variety Pack, 30-c...",$,Chile & Limón Mix Variety Pack 30 ct Net...,8-Doritos Dinamita Chile Limón Flavored Rolled...
1755,Snacks,$17.49,No Discount,,"Fruit Roll-Ups, Variety Pack, 72-count",$,Variety Pack 1 Box with 72 Rolls Flavore...,Fruit Flavored Snacks\nVariety Includes: Straw...


## Conferindo Valores Ausentes

In [None]:
df.isna()

Unnamed: 0,Sub Category,Price,Discount,Rating,Title,Currency,Feature,Product Description
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
1752,False,False,False,True,False,False,False,False
1753,False,False,False,True,False,False,False,False
1754,False,False,False,True,False,False,False,False
1755,False,False,False,True,False,False,False,False


In [None]:
missing_by_column = df.isna().sum()
print("Valores ausentes por coluna:")
print(missing_by_column)

Valores ausentes por coluna:
Sub Category              0
Price                     3
Discount                  0
Rating                 1075
Title                     0
Currency                  5
Feature                  18
Product Description      42
dtype: int64


### Aqui temos nossos primeiro grupo de problemas.


1. **3** Produtos estão com preço faltante.
2. A coluna **Price** está com o cifrão *(\$)* no começo, isso tende a atrapalhar operações futuras com o conjunto de dados.
3. **1075** Produtos estão com sua nota faltando.
4. **5** Produtos estão com sua moeda faltando.
5. **18** Produtos estão com sua Feature Faltando.
6. **42** Produtos estão sem descrição.

*Vamos começar com os preços faltantes.*

### Preço Faltante + Cifrão

In [None]:
linhas_com_preco_vazio = df[df['Price'].isna()]

# Exibindo as linhas filtradas
print(linhas_com_preco_vazio)

        Sub Category Price                                           Discount  \
1064  Meat & Seafood   NaN                                                  .   
1414         Poultry   NaN                                                  .   
1480          Snacks   NaN  Costco Members Receive an Additional $5 OFF Ca...   

                                            Rating  \
1064  Rated 4.5 out of 5 stars based on 4 reviews.   
1414  Rated 4.5 out of 5 stars based on 4 reviews.   
1480                                           NaN   

                                                  Title Currency  \
1064  Hillshire Farm Slow Roasted Turkey Breast, 11 ...      NaN   
1414  Hillshire Farm Slow Roasted Turkey Breast, 11 ...      NaN   
1480                            FITCRUNCH - Costco Next      NaN   

                                                Feature  \
1064  Gluten Free   No Artificial Ingredients   No N...   
1414  Gluten Free   No Artificial Ingredients   No N...   
1480  No

**Descobrimos**

1. **Hillshire Farm Slow Roasted Turkey...** foi inserido duas vezes no *dataframe* e possui informações divergentes como **Sub Category**.
2. Algum produto sem nome foi adicionado ao *dataframe*

* Para arrumar o problema, os 3 produtos serão excluidos do dataframe.

In [None]:
df = df.dropna(subset=['Price'])

In [None]:
df['Price'] = df['Price'].str.replace('$', '', regex=False)
df['Price'] = df['Price'].str.replace(',', '', regex=False)

# Opcional: Converter a coluna para float ou outro tipo numérico
df['Price'] = df['Price'].astype(float)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Price'] = df['Price'].str.replace('$', '', regex=False)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Price'] = df['Price'].str.replace(',', '', regex=False)


ValueError: could not convert string to float: '32.99through-83.99'

Com esse erro, descobrimos que alguns valores estão do seguinte modelo

"**Valor X** até **Valor Y**" para arrumar, utilizaremos uma função

1. Iremos tirar a parte **STRING** que liga os dois valores
2. Somaremos os valores e faremos a média
3. Colocaremos a média do valor

* E por fim, transformaremos a coluna em **INT**

In [None]:
# Função para tratar os valores de Price
def preco_correto(value):
    if 'through' in value:
        # Remover o cifrão e dividir o intervalo
        values = value.replace('$', '').replace(' ', '').split('through-')
        # Calcular a média dos dois valores
        mean_value = np.mean([float(values[0]), float(values[1])])
        return mean_value
    else:
        # Para outros casos, remover o cifrão e converter diretamente
        return float(value.replace('$', '').strip())

# Aplicar a função à coluna 'Price'
df['Price'] = df['Price'].apply(preco_correto)

# Verificar o resultado

df['Price'] = df['Price'].astype(float)

print(df['Price'])

0        56.99
1       159.99
2        44.99
3        39.99
4        59.99
         ...  
1752     23.99
1753     49.99
1754     22.99
1755     17.49
1756     21.99
Name: Price, Length: 1754, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Price'] = df['Price'].apply(preco_correto)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Price'] = df['Price'].astype(float)


### Moeda Faltante

Para esse caso, veremos se os problemas estão em diferentes moedas como *R$* *\$* *¥* entre outros.

In [None]:
contagem_distintos = df['Currency'].value_counts()
print(contagem_distintos)

Currency
$    1752
Name: count, dtype: int64


Como visto, todos os produtos estão em *\$*. Para facilitar agora e futuramente excluiremos a coluna **Currency**

In [None]:
df.drop('Currency', axis=1, inplace=True)
df.columns

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop('Currency', axis=1, inplace=True)


Index(['Sub Category', 'Price', 'Discount', 'Rating', 'Title', 'Feature',
       'Product Description'],
      dtype='object')

### Notas Faltantes

* Verificaremos as diferentes notas que possuem no *dataframe*

In [None]:
contagem_distintos = df['Rating'].value_counts()
print(contagem_distintos)

Rating
No Reviews                                         61
Rated 5 out of 5 stars based on 2 reviews.          5
Rated 5 out of 5 stars based on 1 reviews.          5
through                                             4
Rated 4.2 out of 5 stars based on 104 reviews.      4
                                                   ..
Rated 4.4 out of 5 stars based on 1633 reviews.     1
Rated 4.1 out of 5 stars based on 1633 reviews.     1
Rated 3.5 out of 5 stars based on 4801 reviews.     1
Rated 4.7 out of 5 stars based on 3119 reviews.     1
Rated 4.6 out of 5 stars based on 611 reviews.      1
Name: count, Length: 483, dtype: int64


* Possivelmente as notas faltantes na verdade são produtos que foram adicionados sem Nota e não atribuiram o valor**"No Reviews"** a eles, contudo, do jeito que se encontra a coluna não é prática para ser utilizada, então será feito as seguintes mudanças.

1. Será dividido em 2 colunas, **Rate** e **Reviews**
  * Rate contendo a nota
  * Reviews contendo a quantidade de avaliações
2. Será atribuido o valor "**No Reviews** para as colunas vazias.
3. Será excluida a atual coluna **Rating**

In [None]:
df['Rate'] = df['Rating'].str.extract(r'Rated ([\d.]+)', expand=False)

# Extrair o número de reviews (Review), incluindo 'No Reviews'
df['Review'] = df['Rating'].str.extract(r'based on (\d+) reviews|No Reviews', expand=False)

# Substituir NaN (para casos de 'No Reviews') com 'No Reviews' na coluna Review
df['Review'].fillna('0', inplace=True)

# Excluir a coluna original 'Rating'
df = df.drop('Rating', axis=1)

# Exibir o DataFrame resultante
df.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Rate'] = df['Rating'].str.extract(r'Rated ([\d.]+)', expand=False)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Review'] = df['Rating'].str.extract(r'based on (\d+) reviews|No Reviews', expand=False)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(

Unnamed: 0,Sub Category,Price,Discount,Title,Feature,Product Description,Rate,Review
0,Bakery & Desserts,56.99,No Discount,"David’s Cookies Mile High Peanut Butter Cake, ...","""10"""" Peanut Butter Cake\nCertified Kosher OU-...",A cake the dessert epicure will die for!Our To...,4.3,265
1,Bakery & Desserts,159.99,No Discount,"The Cake Bake Shop 8"" Round Carrot Cake (16-22...",Spiced Carrot Cake with Cream Cheese Frosting ...,"Due to the perishable nature of this item, ord...",5.0,1
2,Bakery & Desserts,44.99,No Discount,"St Michel Madeleine, Classic French Sponge Cak...",100 count\nIndividually wrapped\nMade in and I...,Moist and buttery sponge cakes with the tradit...,4.1,441
3,Bakery & Desserts,39.99,No Discount,"David's Cookies Butter Pecan Meltaways 32 oz, ...",Butter Pecan Meltaways\n32 oz 2-Pack\nNo Prese...,These delectable butter pecan meltaways are th...,4.7,9459
4,Bakery & Desserts,59.99,No Discount,"David’s Cookies Premier Chocolate Cake, 7.2 lb...","""10"" Four Layer Chocolate Cake\nCertified Kosh...",A cake the dessert epicure will die for!To the...,4.5,758


### Features e Descrição vazias

Nesse caso, temos duas possibilidades

1. Colocaram o produto sem descrição/feature no dataframe
2. Colocaram o produto mais de uma vez e esqueceram a descrição/feature

* Para garantir iremos ver se o produto possui alguma duplicata preenchida

In [None]:
# Feature
linhas_com_feature_vazia = df[df['Feature'].isna()]
duplicados = df[df['Title'].isin(linhas_com_feature_vazia['Title']) & df['Feature'].notna()]

print(duplicados)


#  Product Description
linhas_com_feature_vazia = df[df['Product Description'].isna()]
duplicados = df[df['Title'].isin(linhas_com_feature_vazia['Title']) & df['Product Description'].notna()]

print(duplicados)

Empty DataFrame
Columns: [Sub Category, Price, Discount, Title, Feature, Product Description, Rate, Review]
Index: []
Empty DataFrame
Columns: [Sub Category, Price, Discount, Title, Feature, Product Description, Rate, Review]
Index: []


In [None]:
contagem_distintos = df['Product Description'].value_counts()
print(contagem_distintos)

Product Description
Item may be available in your local warehouse for a lower, non-delivered price.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     

In [None]:
contagem_distintos = df['Feature'].value_counts()
print(contagem_distintos)

Feature
120 K-cups\nOrganic\nFair Trade Certified\nKosher\n100% Arabica Coffee                                                                                                         6
2-pack (12 count per box)   Keto   Gluten Free   Non GMO   Natural Ingredients                                                                                                 5
Please Check Below for Pack Contents   Certified Hand-Cut Halal                                                                                                                4
                                                                                                                                                                              ..
Espresso and Cream   Premium Espresso Beverage   Refrigerate After Opening   140 Calories per Can   12 count                                                                   1
2-pack (3 lbs each)   Whole Bean Coffee   100% Arabica coffee   Roast: Medium   Kosher                     

**Conclusões**

1. Os produtos que não possuem descrição ou feature não estão duplicados.
2. Diferente da coluna **Rating** Que possuia o valor **No Reviews**, não existe um valor indicando que não possui descrição ou feature.

* Então, para não excluir todos os produtos com valores faltantes, atribuiremos esses valores.

In [None]:
df['Feature'].fillna('No Feature', inplace = True)
df['Product Description'].fillna('No Description', inplace = True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Feature'].fillna('No Feature', inplace = True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Product Description'].fillna('No Description', inplace = True)


## Linhas duplicadas

Para parte final, verificaremos se existem linhas duplicadas. caso existam, excluiremos deixando apenas 1.

In [None]:
# Verificar se há linhas duplicadas no DataFrame
duplicadas = df.duplicated()

print(df[duplicadas])

                  Sub Category  Price         Discount  \
1344  Paper & Plastic Products  16.19  After $3.80 OFF   
1345  Paper & Plastic Products  16.19  After $3.80 OFF   
1346  Paper & Plastic Products  16.19  After $3.80 OFF   

                                                  Title  \
1344  Ziploc Seal Top Freezer Bag, Gallon, 38-count,...   
1345  Ziploc Seal Top Freezer Bag, Gallon, 38-count,...   
1346  Ziploc Seal Top Freezer Bag, Gallon, 38-count,...   

                                                Feature  \
1344  Seal Top Bags   1-Gallon Freezer Bags   38 Bag...   
1345  Seal Top Bags   1-Gallon Freezer Bags   38 Bag...   
1346  Seal Top Bags   1-Gallon Freezer Bags   38 Bag...   

                                    Product Description Rate Review  
1344  4 - 38 Count Boxes\n152 Gallon Freezer Bags To...  NaN      0  
1345  4 - 38 Count Boxes\n152 Gallon Freezer Bags To...  NaN      0  
1346  4 - 38 Count Boxes\n152 Gallon Freezer Bags To...  NaN      0  


In [None]:
df = df.drop_duplicates()

## Coluna Discount

* Foi notado anteriormente que a coluna desconto não esta padronizada e possui valores de diversos modelos, com.o **porcentagem**, **valor inteiro**, **string** e assim por diante
* Para não atrapalhar o código, optaremos por excluir a coluna

In [None]:
df.drop('Discount', axis=1, inplace=True)
df.columns

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop('Discount', axis=1, inplace=True)


Index(['Sub Category', 'Price', 'Title', 'Feature', 'Product Description',
       'Rate', 'Review'],
      dtype='object')

## Verificação final

* Verificaremos se o *dataframe* possui valores faltantes ou linhas duplicadas e colocaremos com seus tipos corretos.

In [None]:
# Valores faltantes

missing_by_column = df.isna().sum()
print("Valores ausentes por coluna:")
print(missing_by_column)

Valores ausentes por coluna:
Sub Category              0
Price                     0
Title                     0
Feature                   0
Product Description       0
Rate                   1136
Review                    0
dtype: int64


In [None]:
# Verificar se há linhas duplicadas no DataFrame
duplicadas = df.duplicated()

print(df[duplicadas])

Empty DataFrame
Columns: [Sub Category, Price, Title, Feature, Product Description, Rate, Review]
Index: []


In [None]:
df.head()

Unnamed: 0,Sub Category,Price,Title,Feature,Product Description,Rate,Review
0,Bakery & Desserts,56.99,"David’s Cookies Mile High Peanut Butter Cake, ...","""10"""" Peanut Butter Cake\nCertified Kosher OU-...",A cake the dessert epicure will die for!Our To...,4.3,265
1,Bakery & Desserts,159.99,"The Cake Bake Shop 8"" Round Carrot Cake (16-22...",Spiced Carrot Cake with Cream Cheese Frosting ...,"Due to the perishable nature of this item, ord...",5.0,1
2,Bakery & Desserts,44.99,"St Michel Madeleine, Classic French Sponge Cak...",100 count\nIndividually wrapped\nMade in and I...,Moist and buttery sponge cakes with the tradit...,4.1,441
3,Bakery & Desserts,39.99,"David's Cookies Butter Pecan Meltaways 32 oz, ...",Butter Pecan Meltaways\n32 oz 2-Pack\nNo Prese...,These delectable butter pecan meltaways are th...,4.7,9459
4,Bakery & Desserts,59.99,"David’s Cookies Premier Chocolate Cake, 7.2 lb...","""10"" Four Layer Chocolate Cake\nCertified Kosh...",A cake the dessert epicure will die for!To the...,4.5,758


In [None]:
df['Rate'] = df['Rate'].astype(float)
df['Review'] = df['Review'].astype(int)
df.dtypes

Unnamed: 0,0
Sub Category,object
Price,float64
Title,object
Feature,object
Product Description,object
Rate,float64
Review,int64


*O dataframe se encontra em um estado para uso.*

* Baixaremos como *.xlsx* para utilizar no **Power BI**

In [None]:
df.to_excel('Grocery_store.xlsx', index=False)
df.to_csv('Grocery_store.csv', index=False)
df['Price'] = df['Price'].astype(float)

# Power BI

Utilizando já do **Power BI** fizemos algumas modificações antes de produzir os **gráficos** e o **template**

1. Criamos uma coluna nova: **Margem de Preço**
    * A coluna conta com 5 tipos de dados diferentes para cada valor do produto
      * 0 a 51
      * 51 a 100
      * 101 a 200
      * 101 a 300
      * 300 +

Isso nos ajudará a ter melhores **Insights** sobre o foco de venda da loja de conveniência

Após isso, começamos a modificar o template e explorar gráficos que poderiam nos ser úteis, por ter varios produtos diferentes acabamos por utilizar a divisão por **Sub categoria**, e utilizamos a média das **notas** e a quantidade de **Análises** para ter uma base de cada **Sub categoria**.

* Você pode checar o **POWER BI** por esse [link](https://app.powerbi.com/view?r=eyJrIjoiYjRlYjk1OWItYzdhNi00YTU2LTk5N2ItMzZlZmUyMGQ1ZDliIiwidCI6IjJmNGMxYjM3LTk1MGEtNGRhZS05Njc1LWI3MTk4Y2E0NDVhZCJ9)