## codata-nuppa

Tratamento e limpeza dos dados para o dashboard do Nuppa

This notebook contains basic statistical analysis and visualization of the data.

### Data Sources
- summary : Processed file from notebook 1-Data_Prep

### Changes
- 11-28-2024 : Started project

In [31]:
import pandas as pd
from pathlib import Path
from datetime import datetime
import seaborn as sns

In [32]:
%matplotlib inline

### File Locations

In [None]:
today = datetime.today()
in_file_prd = Path.cwd() / "data" / "processed" / f"summary_produtos.pkl"
in_file_blt = Path.cwd() / "data" / "processed" / f"summary_Tabela NUPPA 80.pkl"
report_dir = Path.cwd() / "reports"
report_file = report_dir / f"nuppa_{in_file_blt.stem.split()[-1]}-2022.xlsx"

In [34]:
df_prd = pd.read_pickle(in_file_prd)
df_blt = pd.read_pickle(in_file_blt)

display(df_prd.dtypes)
display(df_blt.dtypes)

PRODUTO            object
UNIDADE MEDIDA     object
QTD UNI MED       float64
DESC UNI MED       object
GRUPO              object
URL IMAGEM         object
dtype: object

PRODUTO            object
UNIDADE MEDIDA     object
QTD UNI MED       float64
DESC UNI MED       object
COMUM             float64
MINIMO            float64
MAXIMO            float64
MEDIA             float64
MEDIANA           float64
COLETA             object
dtype: object

### Perform Data Analysis

In [35]:
df_blt['COLETA'] = pd.to_datetime(df_blt['COLETA'], format='%d/%m/%Y', errors='coerce')
df_blt['COLETA'] = df_blt['COLETA'].dt.strftime('%d/%m/%Y')
df_blt

Unnamed: 0,PRODUTO,UNIDADE MEDIDA,QTD UNI MED,DESC UNI MED,COMUM,MINIMO,MAXIMO,MEDIA,MEDIANA,COLETA
0,ACELGA,12.0 UNIDADES,12.0,UNIDADES,60.0,48.0,60.0,56.0,60.0,22/11/2024
1,AGRIÃO,12.0 UNIDADES,12.0,UNIDADES,,84.0,90.0,87.0,87.0,22/11/2024
2,ALFACE AMERICANA,12.0 UNIDADES,12.0,UNIDADES,,45.0,60.0,51.0,48.0,22/11/2024
3,ALFACE CRESPA,12.0 UNIDADES,12.0,UNIDADES,,30.0,36.0,33.666667,35.0,22/11/2024
4,ALFACE LISA,12.0 UNIDADES,12.0,UNIDADES,,35.0,36.0,35.5,35.5,22/11/2024
5,ALMEIRÃO,12.0 UNIDADES,12.0,UNIDADES,,66.0,72.0,69.0,69.0,22/11/2024
6,BRÓCOLOS NINJA/JAPONÊS,12.0 UNIDADES,12.0,UNIDADES,60.0,60.0,78.0,66.0,60.0,22/11/2024
7,BRÓCOLOS RAMOSO,12.0 UNIDADES,12.0,UNIDADES,72.0,72.0,84.0,76.0,72.0,22/11/2024
8,COUVE-MANTEIGA,12.0 UNIDADES,12.0,UNIDADES,24.0,18.0,24.0,22.0,24.0,22/11/2024
9,COUVE-FLOR,12.0 UNIDADES,12.0,UNIDADES,,72.0,84.0,78.0,78.0,22/11/2024


In [36]:
df_blt['PRODUTO'] = df_blt['PRODUTO'].str.strip()

In [37]:
df_prd

Unnamed: 0,PRODUTO,UNIDADE MEDIDA,QTD UNI MED,DESC UNI MED,GRUPO,URL IMAGEM
0,ABOBORÁ CABOTIÁ,30 KG,30.0,KG,GRUPO C - HORTALIÇAS LEGUMES (LEGUMINOSAS (VAG...,https://lh3.googleusercontent.com/pw/AP1GczNjQ...
1,ABOBRINHA ITALIANA,17 KG,17.0,KG,GRUPO C - HORTALIÇAS LEGUMES (LEGUMINOSAS (VAG...,https://lh3.googleusercontent.com/pw/AP1GczMQu...
2,ACELGA,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczM4r...
3,AGRIÃO,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczNq9...
4,ALFACE AMERICANA,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczOJs...
5,ALFACE CRESPA,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczMEk...
6,ALFACE LISA,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczOxK...
7,ALMEIRÃO,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczNhl...
8,BATATA-DOCE,18 KG,18.0,KG,GRUPO C - HORTALIÇAS LEGUMES (LEGUMINOSAS (VAG...,https://lh3.googleusercontent.com/pw/AP1GczNyu...
9,BERINJELA COMUM,10 KG,10.0,KG,GRUPO C - HORTALIÇAS LEGUMES (LEGUMINOSAS (VAG...,https://lh3.googleusercontent.com/pw/AP1GczN6g...


In [38]:
df_prd['PRODUTO'] = df_prd['PRODUTO'].str.strip()

In [39]:
# Merge dos dataframes com base no campo 'PRODUTO'
comparacao = pd.merge(
    df_blt[['PRODUTO', 'QTD UNI MED', 'DESC UNI MED']],
    df_prd[['PRODUTO', 'QTD UNI MED', 'DESC UNI MED']],
    on='PRODUTO',
    suffixes=('_boletim', '_produtos'),
    how='left'
)

In [40]:
comparacao

Unnamed: 0,PRODUTO,QTD UNI MED_boletim,DESC UNI MED_boletim,QTD UNI MED_produtos,DESC UNI MED_produtos
0,ACELGA,12.0,UNIDADES,12.0,UNIDADES
1,AGRIÃO,12.0,UNIDADES,12.0,UNIDADES
2,ALFACE AMERICANA,12.0,UNIDADES,12.0,UNIDADES
3,ALFACE CRESPA,12.0,UNIDADES,12.0,UNIDADES
4,ALFACE LISA,12.0,UNIDADES,12.0,UNIDADES
5,ALMEIRÃO,12.0,UNIDADES,12.0,UNIDADES
6,BRÓCOLOS NINJA/JAPONÊS,12.0,UNIDADES,12.0,UNIDADES
7,BRÓCOLOS RAMOSO,12.0,UNIDADES,12.0,UNIDADES
8,COUVE-MANTEIGA,12.0,UNIDADES,12.0,UNIDADES
9,COUVE-FLOR,12.0,UNIDADES,12.0,UNIDADES


In [41]:
# Verificação de correspondência entre os campos
comparacao['QTD_CORRESPONDE'] = comparacao['QTD UNI MED_produtos'] == comparacao['QTD UNI MED_boletim']

# Normalizando as colunas antes da comparação
comparacao['DESC UNI MED_produtos'] = comparacao['DESC UNI MED_produtos'].str.strip().str.upper()
comparacao['DESC UNI MED_boletim'] = comparacao['DESC UNI MED_boletim'].str.strip().str.upper()

comparacao['DESC_CORRESPONDE'] = comparacao['DESC UNI MED_produtos'] == comparacao['DESC UNI MED_boletim']


In [42]:
comparacao

Unnamed: 0,PRODUTO,QTD UNI MED_boletim,DESC UNI MED_boletim,QTD UNI MED_produtos,DESC UNI MED_produtos,QTD_CORRESPONDE,DESC_CORRESPONDE
0,ACELGA,12.0,UNIDADES,12.0,UNIDADES,True,True
1,AGRIÃO,12.0,UNIDADES,12.0,UNIDADES,True,True
2,ALFACE AMERICANA,12.0,UNIDADES,12.0,UNIDADES,True,True
3,ALFACE CRESPA,12.0,UNIDADES,12.0,UNIDADES,True,True
4,ALFACE LISA,12.0,UNIDADES,12.0,UNIDADES,True,True
5,ALMEIRÃO,12.0,UNIDADES,12.0,UNIDADES,True,True
6,BRÓCOLOS NINJA/JAPONÊS,12.0,UNIDADES,12.0,UNIDADES,True,True
7,BRÓCOLOS RAMOSO,12.0,UNIDADES,12.0,UNIDADES,True,True
8,COUVE-MANTEIGA,12.0,UNIDADES,12.0,UNIDADES,True,True
9,COUVE-FLOR,12.0,UNIDADES,12.0,UNIDADES,True,True


In [43]:
# Resultado com discrepâncias
discrepancias = comparacao[
    ~comparacao['QTD_CORRESPONDE'] | ~comparacao['DESC_CORRESPONDE']
]

In [44]:
# Exibindo discrepâncias
print("Discrepâncias encontradas:")
display(discrepancias)

Discrepâncias encontradas:


Unnamed: 0,PRODUTO,QTD UNI MED_boletim,DESC UNI MED_boletim,QTD UNI MED_produtos,DESC UNI MED_produtos,QTD_CORRESPONDE,DESC_CORRESPONDE


### Save Excel file into reports directory

Save an Excel file with intermediate results into the report directory

In [45]:
df_blt.to_excel(report_file, index=False)