In [47]:
import pandas as pd

### Base utilizada

In [48]:
df_data = pd.read_csv('./Base de dados/ConsumidorGov.csv',sep = ';')

# Limpeza

A limpeza de dados é uma etapa essencial na análise, garantindo que os dados sejam consistentes, confiáveis e prontos para uso. Esta etapa faz parte da preparação de dados e é o que garante que os dados utilizados na ponta estejam concisos.

Olhando mais de perto nosso DataFrame `df_data` temos que, ele contém 105.018 linhas e 30 colunas

In [49]:
df_data.shape

(105018, 30)

Dos quais: 
* Existem colunas contendo valores nulos (ex: **'Nota do Consumidor'**);
* Existem colunas contendo campos com tipo errado (ex: **'Data Abertura'**);
* Existem colunas contendo caracteres especiais (ex: **'Faixa Etária'**), dificultando o uso de certas funções;

In [50]:
df_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105018 entries, 0 to 105017
Data columns (total 30 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   Gestor                  105018 non-null  object 
 1   Canal de Origem         105018 non-null  object 
 2   Região                  105018 non-null  object 
 3   UF                      105018 non-null  object 
 4   Cidade                  105018 non-null  object 
 5   Sexo                    105016 non-null  object 
 6   Faixa Etária            105018 non-null  object 
 7   Ano Abertura            105018 non-null  int64  
 8   Mês Abertura            105018 non-null  int64  
 9   Data Abertura           105018 non-null  object 
 10  Data Resposta           88536 non-null   object 
 11  Data Análise            15265 non-null   object 
 12  Data Recusa             16481 non-null   object 
 13  Data Finalização        105018 non-null  object 
 14  Prazo Resposta      

Por questão de **COMPARAÇÃO** utilizaremos uma cópia do DataFrame `df_data`:

In [51]:
df_tratado = df_data.copy()

### Tratando colunas com dados faltantes (`NaN`)

No nosso DataFrame `df_tratado` existem alguns valores nulos (`NaN`) em diversas colunas. Supondo que a área de negócios impôs a necessidade de tratar estes valores por conta de alguma regra de negócio.

Como isso seria feito?

#### 1. Remover **LINHAS** contendo **QUALQUER** coluna `NaN`

Caso exista essa necessidade, de deixar apenas registros com 100% de preenchimento em todas as colunas. Usa-se o método `dropna()`, este remove todas as linhas que possuem valores nulos de um DataFrame.

In [52]:
df_tratado.dropna().info() ## Remove todas as linhas que possuem valores nulos

<class 'pandas.core.frame.DataFrame'>
Index: 1208 entries, 12 to 102824
Data columns (total 30 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Gestor                  1208 non-null   object 
 1   Canal de Origem         1208 non-null   object 
 2   Região                  1208 non-null   object 
 3   UF                      1208 non-null   object 
 4   Cidade                  1208 non-null   object 
 5   Sexo                    1208 non-null   object 
 6   Faixa Etária            1208 non-null   object 
 7   Ano Abertura            1208 non-null   int64  
 8   Mês Abertura            1208 non-null   int64  
 9   Data Abertura           1208 non-null   object 
 10  Data Resposta           1208 non-null   object 
 11  Data Análise            1208 non-null   object 
 12  Data Recusa             1208 non-null   object 
 13  Data Finalização        1208 non-null   object 
 14  Prazo Resposta          1208 non-null   ob

Note que após o uso do método `dropna()` apenas 1.208 linhas foram retornadas e não existe mais nenhuma coluna com valores **'Non-Null Count'** diferente de 1.208 (Total de linhas).

#### 2. Remover **COLUNAS** com valores `NaN`

Caso exista essa necessidade, de deixar apenas colunas com 100% de preenchimento em todas as 105.018 linhas. Usa-se o método `dropna()` juntamente com o parâmetro `axis=1`, da seguinte forma `DataFrame.dropna(axis=1)` este remove todas as colunas que contenham ao menos 1 valor `NaN` deixando apenas os campos onde o total de valores **'Non-Null Count'** é igual ao total de linhas no DataFrame.

 **OBSERVAÇÃO :** O Parâmetro `axis=0|1` indica que a ação em questão será realizado na **LINHA** (`axis=0`) ou na **COLUNA** (`axis=1`).

In [53]:
df_tratado.dropna(axis=1).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105018 entries, 0 to 105017
Data columns (total 21 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   Gestor                  105018 non-null  object
 1   Canal de Origem         105018 non-null  object
 2   Região                  105018 non-null  object
 3   UF                      105018 non-null  object
 4   Cidade                  105018 non-null  object
 5   Faixa Etária            105018 non-null  object
 6   Ano Abertura            105018 non-null  int64 
 7   Mês Abertura            105018 non-null  int64 
 8   Data Abertura           105018 non-null  object
 9   Data Finalização        105018 non-null  object
 10  Prazo Resposta          105018 non-null  object
 11  Nome Fantasia           105018 non-null  object
 12  Segmento de Mercado     105018 non-null  object
 13  Área                    105018 non-null  object
 14  Assunto                 105018 non-n

note que após o uso do método `dropna(axis=1)` apenas 21 colunas restaram. Ou seja, 9 colunas do DataFrame `df_tratado` continha valores do tipo `NaN` em ao menos 1 linha.

#### 3. Preencher valores `NaN`

É possível também substituir valores `NaN` por outro valor desejado.

Por exemplo, existe a necessidade de substituir todos os valores `NaN` pela string **'Sem Valor'**. Podemos cumprir este requisito passando a string desejada dentro do método `fillna()` da seguinte forma:

In [54]:
df_tratado.fillna('Sem Valor').info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105018 entries, 0 to 105017
Data columns (total 30 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   Gestor                  105018 non-null  object
 1   Canal de Origem         105018 non-null  object
 2   Região                  105018 non-null  object
 3   UF                      105018 non-null  object
 4   Cidade                  105018 non-null  object
 5   Sexo                    105018 non-null  object
 6   Faixa Etária            105018 non-null  object
 7   Ano Abertura            105018 non-null  int64 
 8   Mês Abertura            105018 non-null  int64 
 9   Data Abertura           105018 non-null  object
 10  Data Resposta           105018 non-null  object
 11  Data Análise            105018 non-null  object
 12  Data Recusa             105018 non-null  object
 13  Data Finalização        105018 non-null  object
 14  Prazo Resposta          105018 non-n

Note que não existe mais colunas com o valor **'Non-Null Count'** diferente de 105.018.

Olhando mais de perto:

In [55]:
df_tratado.fillna('Sem Valor').iloc[1] ##Retornando a linha 1 do DataFrame 'df_tratado'

Gestor                                  Secretaria Nacional do Consumidor
Canal de Origem                                            Plataforma Web
Região                                                                 NE
UF                                                                     AL
Cidade                                                             Maceió
Sexo                                                                    F
Faixa Etária                                           entre 61 a 70 anos
Ano Abertura                                                         2024
Mês Abertura                                                           10
Data Abertura                                                  01/10/2024
Data Resposta                                                  09/10/2024
Data Análise                                                    Sem Valor
Data Recusa                                                     Sem Valor
Data Finalização                      

As colunas 'Data Análise', 'Data Recusa', 'Prazo Analise Gestor' e 'Análise da Recusa' que continham `NaN` foram substituidas pela string **'Sem Valor'**

No nosso caso, vamos salvar a substituição feita de `NaN` para outra string mas apenas na coluna **'Análise da Recusa'**:

In [56]:
df_tratado['Análise da Recusa'] = df_tratado['Análise da Recusa'].fillna('Sem Valor')

In [57]:
df_tratado['Análise da Recusa'].unique()

array(['Sem Valor', 'Improcedente', 'Procedente', 'Encerrada'],
      dtype=object)

### Conversão de tipos de colunas

Muitas vezes os dados recebidos estarão fora de padrões pré-definidos, podendo conter erros de digitação e tipos de dados diferentes do usual e existirá a necessidade de tratá-los e padronizá-los para um tipo mais adequada.

In [58]:
df_tratado[['Data Abertura','Data Resposta','Data Análise','Data Recusa']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105018 entries, 0 to 105017
Data columns (total 4 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   Data Abertura  105018 non-null  object
 1   Data Resposta  88536 non-null   object
 2   Data Análise   15265 non-null   object
 3   Data Recusa    16481 non-null   object
dtypes: object(4)
memory usage: 3.2+ MB


Note que no nosso DataFrame `df_tratado` todas as colunas de datas estão no tipo **object**. Existe um tipo de atributo no Pandas para data, este é o tipo **datetime** e podemos converter os tipos da seguinte forma:

In [59]:
pd.to_datetime(df_tratado['Data Abertura'])

ValueError: time data "13/10/2024" doesn't match format "%m/%d/%Y", at position 12. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

Este erro ocorre pois o formato de data do arquivo .csv esta diferente `DD/MM/YYYY` do padrão utilizado `YYYY-MM-DD`. Esta correção pode ser feito passando o parâmetro `format=%d/%m/%Y`:

In [60]:
pd.to_datetime(df_tratado['Data Abertura'],format='%d/%m/%Y')

0        2024-10-01
1        2024-10-01
2        2024-10-01
3        2024-10-01
4        2024-10-01
            ...    
105013   2024-12-31
105014   2024-12-31
105015   2024-12-31
105016   2024-12-31
105017   2024-12-31
Name: Data Abertura, Length: 105018, dtype: datetime64[ns]

Vamos alterar todas as colunas de datas para o formato **datetime**:

In [61]:
## Alterando o formato dos campo 'Data Abertura','Data Resposta','Data Análise' e 'Data Recusa' para datetime
df_tratado['Data Abertura'] = pd.to_datetime(df_tratado['Data Abertura'],format='%d/%m/%Y') 
df_tratado['Data Resposta'] = pd.to_datetime(df_tratado['Data Resposta'],format='%d/%m/%Y') 
df_tratado['Data Análise'] = pd.to_datetime(df_tratado['Data Abertura'],format='%d/%m/%Y')
df_tratado['Data Recusa'] = pd.to_datetime(df_tratado['Data Recusa'],format='%d/%m/%Y') 

df_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105018 entries, 0 to 105017
Data columns (total 30 columns):
 #   Column                  Non-Null Count   Dtype         
---  ------                  --------------   -----         
 0   Gestor                  105018 non-null  object        
 1   Canal de Origem         105018 non-null  object        
 2   Região                  105018 non-null  object        
 3   UF                      105018 non-null  object        
 4   Cidade                  105018 non-null  object        
 5   Sexo                    105016 non-null  object        
 6   Faixa Etária            105018 non-null  object        
 7   Ano Abertura            105018 non-null  int64         
 8   Mês Abertura            105018 non-null  int64         
 9   Data Abertura           105018 non-null  datetime64[ns]
 10  Data Resposta           88536 non-null   datetime64[ns]
 11  Data Análise            105018 non-null  datetime64[ns]
 12  Data Recusa             16481 

Repare que a nossa coluna 'Nota do Consumidor' é do tipo **float64**

In [62]:
df_tratado['Nota do Consumidor'].unique()

array([ 5.,  1.,  3.,  4., nan,  2.])

Faz mais sentido alterarmos para o tipo **int32** já que a coluna em si varia apenas entre os valores 1,2,3,4 e 5. Para isto primeiro vamos tratar o valor `NaN` da coluna e em seguida converter para o tipo correto.

In [63]:
df_tratado['Nota do Consumidor'] = df_tratado['Nota do Consumidor'].fillna(0)
df_tratado['Nota do Consumidor'].unique()

array([5., 1., 3., 4., 0., 2.])

Agora a alteração do tipo deste atributo pode ser feita utilizando a função de conversão `astype(type)` :

In [64]:
df_tratado['Nota do Consumidor'] = df_tratado['Nota do Consumidor'].astype(int)
df_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105018 entries, 0 to 105017
Data columns (total 30 columns):
 #   Column                  Non-Null Count   Dtype         
---  ------                  --------------   -----         
 0   Gestor                  105018 non-null  object        
 1   Canal de Origem         105018 non-null  object        
 2   Região                  105018 non-null  object        
 3   UF                      105018 non-null  object        
 4   Cidade                  105018 non-null  object        
 5   Sexo                    105016 non-null  object        
 6   Faixa Etária            105018 non-null  object        
 7   Ano Abertura            105018 non-null  int64         
 8   Mês Abertura            105018 non-null  int64         
 9   Data Abertura           105018 non-null  datetime64[ns]
 10  Data Resposta           88536 non-null   datetime64[ns]
 11  Data Análise            105018 non-null  datetime64[ns]
 12  Data Recusa             16481 

#### Como alterar varias colunas de uma vez?

Para este objetivo, utilizaremos um DataFrame fictício apenas para exemplificar 

In [65]:
df_exemplo = pd.read_excel('./Base de dados/Valores Contratos.xlsx', sheet_name='Plan1')
df_exemplo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Id Contrato                10 non-null     int64 
 1   Valor Contrato             10 non-null     object
 2   Margem Contrato            10 non-null     object
 3   Preço Mínimo Distribuição  10 non-null     object
 4   Preço Máximo Distribuição  10 non-null     object
dtypes: int64(1), object(4)
memory usage: 532.0+ bytes


Os tipos de 'Valor Contrato', 'Margem Contrato', 'Preço Mínimo Distribuição' e 'Preço Máximo Distribuição' não estão representando números e sim strings

Para fazermos essa correção de forma mais eficaz, podemos utilizar a estrutura de repetição `for` (**Laços de repetição serão exemplificados no futuro**) juntamente com a função `to_numeric()`:

In [66]:
for coluna in ['Valor Contrato', 'Margem Contrato', 'Preço Mínimo Distribuição','Preço Máximo Distribuição']:
    df_exemplo[coluna] = pd.to_numeric(df_exemplo[coluna], errors='coerce')

In [67]:
df_exemplo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Id Contrato                10 non-null     int64  
 1   Valor Contrato             9 non-null      float64
 2   Margem Contrato            9 non-null      float64
 3   Preço Mínimo Distribuição  9 non-null      float64
 4   Preço Máximo Distribuição  9 non-null      float64
dtypes: float64(4), int64(1)
memory usage: 532.0 bytes


A função `to_numeric()` possui o parâmetro `errors='ignore'|'raise'|'coerce'`. Este parâmetro indica como a conversão deve prosseguir caso encontre algum registro no qual a conversão se torna impossível para a função.
* **raise:** A análise inválida gerará uma exceção;
* **coerce:** A análise inválida será retornará `NaN` para o registro;
* **ignore:** A análise inválida retornará o registro original;

No nosso caso utilizamos o parâmetro `errors='coerce'` o que fez a conversão retornar o valor `NaN` para registros não tratados pela função:

In [68]:
df_exemplo

Unnamed: 0,Id Contrato,Valor Contrato,Margem Contrato,Preço Mínimo Distribuição,Preço Máximo Distribuição
0,1,8270.0,827.0,248.1,661.6
1,2,1860.0,186.0,55.8,148.8
2,3,6390.0,639.0,191.7,511.2
3,4,6191.0,619.1,185.73,
4,5,,673.4,202.02,538.72
5,6,7265.0,726.5,217.95,581.2
6,7,1466.0,146.0,43.98,117.28
7,8,5426.0,542.6,,434.08
8,9,6578.0,,197.34,526.24
9,10,9322.0,932.2,279.66,745.76


# Estatísticas descritivas

O método `describe()` exibe várias estatísticas descritivas sobre um determinado DataFrame ou para uma Series.

In [69]:
df_exemplo.describe()

Unnamed: 0,Id Contrato,Valor Contrato,Margem Contrato,Preço Mínimo Distribuição,Preço Máximo Distribuição
count,10.0,9.0,9.0,9.0,9.0
mean,5.5,5863.111111,587.977778,180.253333,473.875556
std,3.02765,2649.741942,265.675417,79.758785,213.142646
min,1.0,1466.0,146.0,43.98,117.28
25%,3.25,5426.0,542.6,185.73,434.08
50%,5.5,6390.0,639.0,197.34,526.24
75%,7.75,7265.0,726.5,217.95,581.2
max,10.0,9322.0,932.2,279.66,745.76


Como o resultado do método `describe()` é outro DataFrame, podemos então fazer filtro nele:

Por exemplo, se quisermos apenas a coluna 'Margem Contrato', podemos fazer filtragem direta

In [70]:
df_exemplo['Margem Contrato'].describe()

count      9.000000
mean     587.977778
std      265.675417
min      146.000000
25%      542.600000
50%      639.000000
75%      726.500000
max      932.200000
Name: Margem Contrato, dtype: float64

Desta forma obteremos as mesmas descrições mas apenas da coluna interessada.

Também podemos selecionar apenas as estatísticas desejadas utilizando o `.loc`

In [71]:
df_exemplo.describe().loc[['min','mean','max']]

Unnamed: 0,Id Contrato,Valor Contrato,Margem Contrato,Preço Mínimo Distribuição,Preço Máximo Distribuição
min,1.0,1466.0,146.0,43.98,117.28
mean,5.5,5863.111111,587.977778,180.253333,473.875556
max,10.0,9322.0,932.2,279.66,745.76


Semelhante, também podemos selecionar apenas as estatísticas desejadas das colunas desejadas com  `.loc`

In [72]:
df_exemplo.describe().loc[['min','mean','max'],['Margem Contrato','Valor Contrato']]

Unnamed: 0,Margem Contrato,Valor Contrato
min,146.0,1466.0
mean,587.977778,5863.111111
max,932.2,9322.0


As estatísticas `std`,`mean`,`min`,`max` e todas as outras do método `describe()` podem ser computadas individualmentes.

Se quisermos saber qual o preço mínimo de distribuição?

In [73]:
df_exemplo['Preço Mínimo Distribuição'].min()

43.98

Se quis quisermos saber qual o desvio padrão do valor do contrato?

In [74]:
df_exemplo['Valor Contrato'].std()

2649.7419423617675

Outro método útil para aferir estatísticas básicas do seu DataFrame é a contagem de frequência.

Para isso o método `value_counts()` conta a frequência dos valores de uma dada variável da seguinte maneira:

In [75]:
## Retorna em ordem decrescente uma Series com a quantidade de linhas (No nosso caso reclamações do Consumidor Gov) para cada UF
df_data['UF'].value_counts() 

UF
SP    25691
MG    12978
RJ    11459
PR     7484
BA     6380
RS     5019
SC     4321
GO     4207
DF     4172
CE     2797
PE     2717
ES     2170
PA     1996
MA     1867
MT     1819
AM     1394
PB     1301
PI     1269
MS     1226
RN     1106
AL      932
SE      780
RO      592
TO      504
AP      318
AC      278
RR      241
Name: count, dtype: int64

Caso seja necessário um DataFrame, podemos utilizar o método `to_frame()` para esse objetivo

In [76]:
## Convertendo a Series para DataFrame com o método to_frame()
df_data['UF'].value_counts().to_frame()

Unnamed: 0_level_0,count
UF,Unnamed: 1_level_1
SP,25691
MG,12978
RJ,11459
PR,7484
BA,6380
RS,5019
SC,4321
GO,4207
DF,4172
CE,2797


No nosso caso a UF com mais reclamações é **São Paulo** e a com menos reclamações é **Roraima**.