### Restrições de tipos de dados

É possível que alguma feature possui dados com um data type não usual, o que pode causar problemas de processamento.

In [None]:
df.info() # verificar valores ausentes
df.dtypes # mostra o tipo de cada feature

In [None]:
# números como string (exemplo: '57$')  -> e se o sifrão estiver no começo?
df['price'].sum() # retorna concatenação das strings

# converter:
df['price'] = df['price'].str.strip('$')
df['price'] = df['price'].astype('int')

# verificar:
assert df['price'].dtype == 'int'

In [None]:
# categórico como inteiro (exemplo: 0 para não, 1 para sim)
df['maried'].describe() # vai retornar média, desvio padrão etc.
    # era melhor dados estatísticos de frêquencia para categorias
    
# converter:
df['maried'] = df['maried'].astype('category')

In [None]:
# data como objeto:
df.dtypes

# converter:
df['date'] = pd.to_datetime(df['date'])

# assert:
assert user_signups['subscription_date'].dtype == 'datetime64[ns]'

### Restrições de intervalo

Exemplo: 
- 6 estrelas em avaliação de 1 a 5;
- Registro em data no futuro.

Soluções:
- dropar o registro (não recomendado se temos muitos registros com o problema)
- setar mínimos e máximos e substituir
- tratar o dado como faltante e imputá-lo ()
- substituir por um valor fixo (como a média, mediana)

In [2]:
# filtrando datas futuras
import datetime as dt
df[df['date']>dt.date.today()]

# dropando datas futuras
today_date = dt.date.today()
# Drop values using filtering
df = df[df['subscription_date'] < today_date]
# Drop values using .drop()
df.drop(df[df['subscription_date'] > today_date].index, inplace = True)

# substituindo
# using filtering
df.loc[df['subscription_date'] > today_date, 'subscription_date'] = today_date
# Assert is true
assert df.subscription_date.max().date() <= today_date


In [3]:
# dropando: filtrando e atribuindo
df = df[df['rating']<=5]

# dropando: método drop
df.drop(df[df['rating']>5].index, inplace = True) # inplace = true: método .drop modifica o objeto; se = False ele deve ser atribuido a outra variável.

# verificação:
assert df['rating'].max() <=5 

datetime.date(2021, 11, 11)

In [None]:
# substituindo pelo limite:
df.loc[df['rating'] > 5, 'rating'] = 5 # com esse segundo argumento seleciona so a coluna 'rating'

# assert igual a anterior

### Registros duplicados

- Registros inteiros duplicados -> drope um deles

In [None]:
# identificando
duplicates = df.duplicated() # booleano True para linhas duplicadas; False em todas as primeiras ocorrências
df[df.duplicated()] # retorna todas as linhas duplicadas

# argumentos do método .duplicated()
df2 = df[df.duplicated(subset = ['column1', 'column2'])]    # subset: especificamos quais colunas checar por duplicatas; recebe lista de nomes de features/colunas 
df2 = df[df.duplicated(keep = 'first')]    #keep: admite as strings 'first' (default), 'last' e False; mantém (retorna False para) a ocorrência especificada

# checando após modificação:
df[df.duplicated()].sorf_values(by = 'column1')

In [None]:
# dropando duplicatas completos (registro inteiro é duplicado)

# método .drop_duplicates(): obs.:os argumentos são: subset, keep e inplace (iguais aos do .duplicated() e .drop())
df.drop_duplicates(inplace = True)

In [None]:
# dropando duplicatas com divergências numéricas:

# Output duplicate values
column_names = ['first_name','last_name','address']
duplicates = df.duplicated(subset = column_names, keep = False)
df[duplicates].sort_values(by = 'first_name')

# decisão por estatística:encadeado método .groupby() e .agg()
# Group by column names and produce statistical summaries
column_names = ['first_name','last_name','address'] # colunas a agrupar (cujos valores serão duplicados)
summaries = {'height': 'max', 'weight': 'mean'} # colunas divergentes e o tipo de agregação (máximo e média)
df = df.groupby(by = column_names).agg(summaries).reset_index() # agrupa pela lista column_names; agrega pelo dict summaries
    # reset_index para criar novo índice após a agregação
# Make sure aggregation is done
duplicates = df.duplicated(subset = column_names, keep = False)
df[duplicates].sort_values(by = 'first_name')