> ### Importando packages

In [1]:
# import sys
# !{sys.executable} -m pip install pandas
# !{sys.executable} -m pip install pandera

In [2]:
import pandas as pd
import pandera as pa # A Statistical Data Validation Toolkit for Pandas

> ### Lendo customers_dataset.csv

In [3]:
usable_cols = ['customer_id', 'customer_city', 'customer_state'] # selecionando colunas 'usáveis'
df_clientes = pd.read_csv("~/Jupyter/notebook/projects/case_enfase/data/customers_dataset.csv", usecols=usable_cols)
df_clientes.rename(columns={"customer_id":"id_cliente", "customer_city":"cidade_cliente", "customer_state":"estado_cliente"}, inplace=True) # renomeando para português

> ### Buscando inconsistências customers_dataset.csv

In [4]:
df_clientes.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   id_cliente      99441 non-null  object
 1   cidade_cliente  99441 non-null  object
 2   estado_cliente  99441 non-null  object
dtypes: object(3)
memory usage: 2.3+ MB


In [5]:
assert df_clientes.id_cliente.count() == df_clientes.id_cliente.nunique() # verificando a unicidade dos ids

In [6]:
df_clientes.estado_cliente.unique() # verificando a integridade dos estados

array(['SP', 'SC', 'MG', 'PR', 'RJ', 'RS', 'PA', 'GO', 'ES', 'BA', 'MA',
       'MS', 'CE', 'DF', 'RN', 'PE', 'MT', 'AM', 'AP', 'AL', 'RO', 'PB',
       'TO', 'PI', 'AC', 'SE', 'RR'], dtype=object)

In [7]:
df_clientes.cidade_cliente = df_clientes.cidade_cliente.str.lower() # setando caixa baixa para cidades

In [8]:
df_clientes.isna().any() # verificando a nulidade dos dados

id_cliente        False
cidade_cliente    False
estado_cliente    False
dtype: bool

> ### Trabalhando a tipagem dos dados customers_dataset.csv

In [9]:
df_clientes = df_clientes.astype(str)

In [10]:
df_clientes.dtypes

id_cliente        object
cidade_cliente    object
estado_cliente    object
dtype: object

In [11]:
# criando schema de validação com pandera
schema_clientes = pa.DataFrameSchema(
    columns={
        "id_cliente": pa.Column(pa.String, nullable=False, required=True),
        "cidade_cliente": pa.Column(pa.String, nullable=False, required=True),
        "estado_cliente": pa.Column(pa.String, nullable=False, required=True, checks=[pa.Check.str_length(2,2)]),        
    },
)

In [12]:
schema_clientes.validate(df_clientes) # validando schema_clientes

Unnamed: 0,id_cliente,cidade_cliente,estado_cliente
0,06b8999e2fba1a1fbc88172c00ba8bc7,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,campinas,SP
...,...,...,...
99436,17ddf5dd5d51696bb3d7c6291687be6f,sao paulo,SP
99437,e7b71a9017aa05c9a7fd292d714858e8,taboao da serra,SP
99438,5e28dfe12db7fb50a4b2f691faecea5e,fortaleza,CE
99439,56b18e2166679b8a959d72dd06da27f9,canoas,RS


> ### Exportando para clean_customers_dataset.csv

In [13]:
df_clientes.to_csv(r'~/Jupyter/notebook/projects/case_enfase/data/clean_customers_dataset.csv', index = False, header=True)