## codata-nuppa

Tratamento e limpeza dos dados para o dashboard do Nuppa

### Data Sources
- file1 : Description of where this file came from

### Changes
- 11-28-2024 : Started project

In [1]:
import pandas as pd
from pathlib import Path
from datetime import datetime

### File Locations

In [2]:
today = datetime.today()
in_file = Path.cwd() / "data" / "external" / "produtos.xlsx"
summary_file = Path.cwd() / "data" / "processed" / f"summary_{in_file.stem}.pkl"

In [3]:
df = pd.read_excel(in_file)

### Column Cleanup

- Remove all leading and trailing spaces
- Rename the columns for consistency.

In [4]:
# https://stackoverflow.com/questions/30763351/removing-space-in-dataframe-python
df.columns = [x.strip() for x in df.columns]

In [5]:
{c: '' for c in df.columns}

{'PRODUTO': '',
 'QTD UNI MED': '',
 'DESC UNI MED': '',
 'UNIDADE MEDIDA': '',
 'GRUPO': '',
 'URL IMAGEM': ''}

In [6]:
cols_to_rename = {'col1': 'New_Name'}
df.rename(columns=cols_to_rename, inplace=True)
df.columns

Index(['PRODUTO', 'QTD UNI MED', 'DESC UNI MED', 'UNIDADE MEDIDA', 'GRUPO',
       'URL IMAGEM'],
      dtype='object')

### Clean Up Data Types

In [7]:
df.dtypes

PRODUTO            object
QTD UNI MED       float64
DESC UNI MED       object
UNIDADE MEDIDA     object
GRUPO              object
URL IMAGEM         object
dtype: object

### Data Manipulation

In [8]:
df = df[['PRODUTO', 'UNIDADE MEDIDA', 'QTD UNI MED', 'DESC UNI MED', 'GRUPO', 'URL IMAGEM']]
df

Unnamed: 0,PRODUTO,UNIDADE MEDIDA,QTD UNI MED,DESC UNI MED,GRUPO,URL IMAGEM
0,ABOBORÁ CABOTIÁ,30 KG,30.0,KG,GRUPO C - HORTALIÇAS LEGUMES (LEGUMINOSAS (VAG...,https://lh3.googleusercontent.com/pw/AP1GczNjQ...
1,ABOBRINHA ITALIANA,17 KG,17.0,KG,GRUPO C - HORTALIÇAS LEGUMES (LEGUMINOSAS (VAG...,https://lh3.googleusercontent.com/pw/AP1GczMQu...
2,ACELGA,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczM4r...
3,AGRIÃO,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczNq9...
4,ALFACE AMERICANA,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczOJs...
5,ALFACE CRESPA,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczMEk...
6,ALFACE LISA,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczOxK...
7,ALMEIRÃO,12 UNIDADES,12.0,UNIDADES,"GRUPO A - VERDURAS (FOLHOSAS, FLORES E HASTES)",https://lh3.googleusercontent.com/pw/AP1GczNhl...
8,BATATA-DOCE,18 KG,18.0,KG,GRUPO C - HORTALIÇAS LEGUMES (LEGUMINOSAS (VAG...,https://lh3.googleusercontent.com/pw/AP1GczNyu...
9,BERINJELA COMUM,10 KG,10.0,KG,GRUPO C - HORTALIÇAS LEGUMES (LEGUMINOSAS (VAG...,https://lh3.googleusercontent.com/pw/AP1GczN6g...


In [9]:
df.dtypes

PRODUTO            object
UNIDADE MEDIDA     object
QTD UNI MED       float64
DESC UNI MED       object
GRUPO              object
URL IMAGEM         object
dtype: object

### Save output file into processed directory

Save a file in the processed directory that is cleaned properly. It will be read in and used later for further analysis.

Other options besides pickle include:
- feather
- msgpack
- parquet

In [10]:
df.to_pickle(summary_file)