> ### Importando packages

In [1]:
# import sys
# !{sys.executable} -m pip install pandas
# !{sys.executable} -m pip install pandera

In [2]:
import pandas as pd
import pandera as pa # A Statistical Data Validation Toolkit for Pandas

> ### Lendo sellers_dataset.csv

In [3]:
usable_cols = ['seller_id', 'seller_city', 'seller_state'] # selecionando colunas 'usáveis'
df_vendedores = pd.read_csv("~/Jupyter/notebook/projects/case_enfase/data/sellers_dataset.csv", usecols=usable_cols)
df_vendedores.rename(columns={"seller_id":"id_vendedor", "seller_city":"cidade_vendedor", "seller_state":"estado_vendedor"}, inplace=True) # renomeando para português

> ### Buscando inconsistências sellers_dataset.csv

In [4]:
df_vendedores.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3095 entries, 0 to 3094
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_vendedor      3095 non-null   object
 1   cidade_vendedor  3095 non-null   object
 2   estado_vendedor  3095 non-null   object
dtypes: object(3)
memory usage: 72.7+ KB


In [5]:
assert df_vendedores.id_vendedor.count() == df_vendedores.id_vendedor.nunique() # verificando a unicidade dos ids

In [6]:
df_vendedores.estado_vendedor.unique() # verificando a integridade dos estados

array(['SP', 'RJ', 'PE', 'PR', 'GO', 'SC', 'BA', 'DF', 'RS', 'MG', 'RN',
       'MT', 'CE', 'PB', 'AC', 'ES', 'RO', 'PI', 'MS', 'SE', 'MA', 'AM',
       'PA'], dtype=object)

In [7]:
df_vendedores.cidade_vendedor = df_vendedores.cidade_vendedor.str.lower() # setando caixa baixa para cidades

In [8]:
df_vendedores.isna().any() # verificando a nulidade dos dados

id_vendedor        False
cidade_vendedor    False
estado_vendedor    False
dtype: bool

> ### Trabalhando a tipagem dos dados sellers_dataset.csv

In [9]:
df_vendedores = df_vendedores.astype(str) # settando tipo string para colunas

In [10]:
df_vendedores.dtypes

id_vendedor        object
cidade_vendedor    object
estado_vendedor    object
dtype: object

In [11]:
# criando schema de validação com pandera
schema_vendedores = pa.DataFrameSchema(
    columns={
        "id_vendedor": pa.Column(pa.String, nullable=False, required=True),
        "cidade_vendedor": pa.Column(pa.String, nullable=False, required=True),
        "estado_vendedor": pa.Column(pa.String, nullable=False, required=True, checks=[pa.Check.str_length(2,2)]),        
    },
)

In [12]:
schema_vendedores.validate(df_vendedores) # validando schema_vendedores

Unnamed: 0,id_vendedor,cidade_vendedor,estado_vendedor
0,3442f8959a84dea7ee197c632cb2df15,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,braganca paulista,SP
...,...,...,...
3090,98dddbc4601dd4443ca174359b237166,sarandi,PR
3091,f8201cab383e484733266d1906e2fdfa,palhoca,SC
3092,74871d19219c7d518d0090283e03c137,sao paulo,SP
3093,e603cf3fec55f8697c9059638d6c8eb5,pelotas,RS


> ### Exportando para clean_sellers_dataset.csv

In [13]:
df_vendedores.to_csv(r'~/Jupyter/notebook/projects/case_enfase/data/clean_sellers_dataset.csv', index = False, header=True)