## codata-nuppa

Tratamento e limpeza dos dados para o dashboard do Nuppa

### Data Sources
- file1 : Description of where this file came from
'https://www.fatecmogidascruzes.com.br/admin/workGroups/view/NUPPA'

### Changes
- 11-28-2024 : Started project

In [1]:
import pandas as pd
from pathlib import Path
from datetime import datetime

### File Locations

In [2]:
today = datetime.today()
in_file = Path.cwd() / "data" / "raw" / "Tabela NUPPA 90.xlsx"
summary_file = Path.cwd() / "data" / "processed" / f"summary_{in_file.stem}.pkl"

In [3]:
df = pd.read_excel(in_file)

### Column Cleanup

- Remove all leading and trailing spaces
- Rename the columns for consistency.

In [4]:
# https://stackoverflow.com/questions/30763351/removing-space-in-dataframe-python
df.columns = [x.strip() for x in df.columns]

In [5]:
{c: '' for c in df.columns}

{'PRODUTO': '',
 'UNIDADE MEDIDA': '',
 'COMUM': '',
 'MINIMO': '',
 'MAXIMO': '',
 'MEDIA': '',
 'MEDIANA': '',
 'COLETA': ''}

In [6]:
cols_to_rename = {'col1': 'New_Name'}
df.rename(columns=cols_to_rename, inplace=True)
df.columns

Index(['PRODUTO', 'UNIDADE MEDIDA', 'COMUM', 'MINIMO', 'MAXIMO', 'MEDIA',
       'MEDIANA', 'COLETA'],
      dtype='object')

### Clean Up Data Types

In [7]:
df.dtypes

PRODUTO            object
UNIDADE MEDIDA     object
COMUM               int64
MINIMO              int64
MAXIMO              int64
MEDIA             float64
MEDIANA           float64
COLETA            float64
dtype: object

### Data Manipulation

In [8]:
df

Unnamed: 0,PRODUTO,UNIDADE MEDIDA,COMUM,MINIMO,MAXIMO,MEDIA,MEDIANA,COLETA
0,Acelga,12 unidades,0,42,72,54.0,51.0,
1,Agrião,12 unidades,84,84,96,90.0,90.0,
2,Alface Americana,12 unidades,0,40,60,48.25,46.5,
3,Alface crespa,12 unidades,33,30,60,39.0,33.0,
4,Alface lisa,12 unidades,33,30,60,39.0,33.0,
5,Almeirão,12 unidades,60,60,72,64.5,63.0,
6,Brócolos ninja/japonês,12 unidades,96,96,96,96.0,96.0,
7,Brócolos ramoso,12 unidades,72,72,96,82.5,81.0,
8,Couve-Manteiga,12 unidades,24,24,30,27.0,27.0,
9,Couve-flor,12 unidades,96,84,96,91.5,93.0,


In [9]:
df['PRODUTO'] = df['PRODUTO'].str.upper()

In [10]:
df['UNIDADE MEDIDA'] = df['UNIDADE MEDIDA'].str.upper()

In [11]:
df['QTD UNI MED'] = df['UNIDADE MEDIDA'].str.replace(r'[^\d,]', '', regex=True)
df['QTD UNI MED'] = df['QTD UNI MED'].str.replace(',', '.', regex=False)
df['QTD UNI MED'] = df['QTD UNI MED'].astype(float)

In [12]:
df['DESC UNI MED'] = df['UNIDADE MEDIDA'].str.replace(r'[0-9,]', '', regex=True)
df['UNIDADE MEDIDA'] = df['QTD UNI MED'].astype(str) +' '+ df['DESC UNI MED']

In [13]:
df['COLETA'] = pd.to_datetime(df['COLETA'], format='%d/%m/%Y', errors='coerce')
df['COLETA'] = df['COLETA'].dt.strftime('%d/%m/%Y')

In [14]:
# df = df[['PRODUTO', 'UNIDADE MEDIDA', 'COMUM', 'MINIMO', 'MAXIMO', 'MEDIA', 'MEDIANA', 'COLETA', ]]

In [15]:
df = df[['PRODUTO', 'UNIDADE MEDIDA', 'QTD UNI MED', 'DESC UNI MED', 'COMUM', 'MINIMO', 'MAXIMO', 'MEDIA',
       'MEDIANA', 'COLETA', ]]

In [16]:
df.dtypes

PRODUTO            object
UNIDADE MEDIDA     object
QTD UNI MED       float64
DESC UNI MED       object
COMUM               int64
MINIMO              int64
MAXIMO              int64
MEDIA             float64
MEDIANA           float64
COLETA             object
dtype: object

### Save output file into processed directory

Save a file in the processed directory that is cleaned properly. It will be read in and used later for further analysis.

Other options besides pickle include:
- feather
- msgpack
- parquet

In [17]:
df.to_pickle(summary_file)