## codata-nuppa

Tratamento e limpeza dos dados para o dashboard do Nuppa

### Data Sources
- file1 : Description of where this file came from
'https://www.fatecmogidascruzes.com.br/admin/workGroups/view/NUPPA'

### Changes
- 11-28-2024 : Started project

In [35]:
import pandas as pd
from pathlib import Path
from datetime import datetime

### File Locations

In [None]:
today = datetime.today()
in_file = Path.cwd() / "data" / "raw" / "Tabela NUPPA 80.xlsx"
summary_file = Path.cwd() / "data" / "processed" / f"summary_{in_file.stem}.pkl"

In [37]:
df = pd.read_excel(in_file)

### Column Cleanup

- Remove all leading and trailing spaces
- Rename the columns for consistency.

In [38]:
# https://stackoverflow.com/questions/30763351/removing-space-in-dataframe-python
df.columns = [x.strip() for x in df.columns]

In [39]:
{c: '' for c in df.columns}

{'PRODUTO': '',
 'UNIDADE MEDIDA': '',
 'COMUM': '',
 'MINIMO': '',
 'MAXIMO': '',
 'MEDIA': '',
 'MEDIANA': '',
 'COLETA': ''}

In [40]:
cols_to_rename = {'col1': 'New_Name'}
df.rename(columns=cols_to_rename, inplace=True)
df.columns

Index(['PRODUTO', 'UNIDADE MEDIDA', 'COMUM', 'MINIMO', 'MAXIMO', 'MEDIA',
       'MEDIANA', 'COLETA'],
      dtype='object')

### Clean Up Data Types

In [41]:
df.dtypes

PRODUTO                   object
UNIDADE MEDIDA            object
COMUM                    float64
MINIMO                   float64
MAXIMO                   float64
MEDIA                    float64
MEDIANA                  float64
COLETA            datetime64[ns]
dtype: object

### Data Manipulation

In [42]:
df

Unnamed: 0,PRODUTO,UNIDADE MEDIDA,COMUM,MINIMO,MAXIMO,MEDIA,MEDIANA,COLETA
0,Acelga,12 unidades,60.0,48.0,60.0,56.0,60.0,2024-11-22
1,Agrião,12 unidades,,84.0,90.0,87.0,87.0,2024-11-22
2,Alface Americana,12 unidades,,45.0,60.0,51.0,48.0,2024-11-22
3,Alface crespa,12 unidades,,30.0,36.0,33.666667,35.0,2024-11-22
4,Alface lisa,12 unidades,,35.0,36.0,35.5,35.5,2024-11-22
5,Almeirão,12 unidades,,66.0,72.0,69.0,69.0,2024-11-22
6,Brócolos ninja/japonês,12 unidades,60.0,60.0,78.0,66.0,60.0,2024-11-22
7,Brócolos ramoso,12 unidades,72.0,72.0,84.0,76.0,72.0,2024-11-22
8,Couve-Manteiga,12 unidades,24.0,18.0,24.0,22.0,24.0,2024-11-22
9,Couve-flor,12 unidades,,72.0,84.0,78.0,78.0,2024-11-22


In [43]:
df['PRODUTO'] = df['PRODUTO'].str.upper()

In [44]:
df['UNIDADE MEDIDA'] = df['UNIDADE MEDIDA'].str.upper()

In [45]:
df['QTD UNI MED'] = df['UNIDADE MEDIDA'].str.replace(r'[^\d,]', '', regex=True)
df['QTD UNI MED'] = df['QTD UNI MED'].str.replace(',', '.', regex=False)
df['QTD UNI MED'] = df['QTD UNI MED'].astype(float)

In [46]:
df['DESC UNI MED'] = df['UNIDADE MEDIDA'].str.replace(r'[0-9,]', '', regex=True)
df['UNIDADE MEDIDA'] = df['QTD UNI MED'].astype(str) +' '+ df['DESC UNI MED']

In [47]:
df['COLETA'] = pd.to_datetime(df['COLETA'], format='%d/%m/%Y', errors='coerce')
df['COLETA'] = df['COLETA'].dt.strftime('%d/%m/%Y')

In [48]:
# df = df[['PRODUTO', 'UNIDADE MEDIDA', 'COMUM', 'MINIMO', 'MAXIMO', 'MEDIA', 'MEDIANA', 'COLETA', ]]

In [49]:
df = df[['PRODUTO', 'UNIDADE MEDIDA', 'QTD UNI MED', 'DESC UNI MED', 'COMUM', 'MINIMO', 'MAXIMO', 'MEDIA',
       'MEDIANA', 'COLETA', ]]

In [50]:
df.dtypes

PRODUTO            object
UNIDADE MEDIDA     object
QTD UNI MED       float64
DESC UNI MED       object
COMUM             float64
MINIMO            float64
MAXIMO            float64
MEDIA             float64
MEDIANA           float64
COLETA             object
dtype: object

### Save output file into processed directory

Save a file in the processed directory that is cleaned properly. It will be read in and used later for further analysis.

Other options besides pickle include:
- feather
- msgpack
- parquet

In [51]:
df.to_pickle(summary_file)