# Pandas: Limpeza e tratamento de dados

### Aula 1 - Conhecendo os dados

Você recebeu a tarefa de normalizar o seguinte arquivo JSON chamado “informacoes.json” referente a algumas informações de identificação de um cliente.

In [1]:
import json

with open('informacoes.json') as f:
    dados = json.load(f)

In [2]:
import pandas as pd

informacoes = pd.json_normalize(dados, record_path='enderecos', meta=['nome', 'idade'])

In [3]:
informacoes

Unnamed: 0,tipo,rua,numero,cidade,nome,idade
0,casa,Rua A,123,SÃ£o Paulo,JoÃ£o,28
1,trabalho,Rua B,456,Rio de Janeiro,JoÃ£o,28


### Aula 2 - Transformação inicial dos dados

In [4]:
with open('dados.json', 'r') as f:
    dados = json.load(f)

In [5]:
import pandas as pd

df = pd.json_normalize(dados, record_path=['pessoas'])
df

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,JoÃ£o,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,SÃ£o Paulo
1,Maria,30,[21 3333-3333],,456,Rio de Janeiro


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   nome             2 non-null      object
 1   idade            2 non-null      object
 2   telefones        2 non-null      object
 3   endereco.rua     2 non-null      object
 4   endereco.numero  2 non-null      int64 
 5   endereco.cidade  2 non-null      object
dtypes: int64(1), object(5)
memory usage: 228.0+ bytes


In [7]:
df['idade'] = df['idade'].astype(int)

In [8]:
df_filtrado = df.query('`endereco.rua` != ""')
df_filtrado

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,JoÃ£o,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,SÃ£o Paulo


In [9]:
df_filtrado = df[df['endereco.rua'] != ""]
df_filtrado

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,JoÃ£o,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,SÃ£o Paulo


### Aula 3 - Utilizando dados duplicados e nulos

In [10]:
# Importando as bibliotecas necessárias
import pandas as pd
import json

# carrega o conjunto de dados
with open('cursos_cadastrados.json', 'r') as f:
    data = json.load(f)

# normaliza o json
df = pd.json_normalize(data)

# exibe o DataFrame resultante
print(df)

                              curso  ... instrutor.telefone
0     IntroduÃ§Ã£o Ã  programaÃ§Ã£o  ...     (11) 9999-9999
1             Excel para iniciantes  ...     (11) 8888-8888
2  Marketing digital para negÃ³cios  ...     (11) 7777-7777
3          InteligÃªncia artificial  ...                   
4            InglÃªs para negÃ³cios  ...                   
5     IntroduÃ§Ã£o Ã  programaÃ§Ã£o  ...     (11) 9999-9999

[6 rows x 11 columns]


In [11]:
df.isnull().sum().sum()

6

In [12]:
df[df.isna().any(axis=1)]

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
1,Excel para iniciantes,Produtividade,,,,,,,Maria Oliveira,maria.oliveira@emailaleatorio.com,(11) 8888-8888


In [13]:
df.dropna(inplace=True)

In [14]:
df.duplicated()

0    False
2    False
3    False
4    False
5     True
dtype: bool

In [15]:
df.drop_duplicates(inplace=True)

In [16]:
df[df['instrutor.nome'] == ""]

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
3,InteligÃªncia artificial,ProgramaÃ§Ã£o,40 horas,,2022-04-01,,Curso avanÃ§ado sobre inteligÃªncia artificial...,129.9,,contato@emailaleatorio.com,


In [17]:
df[df['data_conclusao'] == ""]

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
3,InteligÃªncia artificial,ProgramaÃ§Ã£o,40 horas,,2022-04-01,,Curso avanÃ§ado sobre inteligÃªncia artificial...,129.9,,contato@emailaleatorio.com,
4,InglÃªs para negÃ³cios,Idiomas,20 horas,30.0,,,Curso de inglÃªs para negÃ³cios,69.9,John Smith,,


In [18]:
# Substitui strings vazias por valores nulos
df.replace('', pd.NA, inplace=True)

In [19]:
df.dropna(inplace=True)
print(df)

                              curso  ... instrutor.telefone
0     IntroduÃ§Ã£o Ã  programaÃ§Ã£o  ...     (11) 9999-9999
2  Marketing digital para negÃ³cios  ...     (11) 7777-7777

[2 rows x 11 columns]


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, 0 to 2
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   curso               2 non-null      object
 1   categoria           2 non-null      object
 2   carga_horaria       2 non-null      object
 3   concluintes         2 non-null      object
 4   data_inicio         2 non-null      object
 5   data_conclusao      2 non-null      object
 6   descricao           2 non-null      object
 7   preco               2 non-null      object
 8   instrutor.nome      2 non-null      object
 9   instrutor.email     2 non-null      object
 10  instrutor.telefone  2 non-null      object
dtypes: object(11)
memory usage: 192.0+ bytes


In [21]:
# Converte a concluintes para o tipo inteiro
df['concluintes'] = df['concluintes'].astype(int)

# Converte a coluna data_inicio e data_conclusao para o tipo datetime
df['data_inicio'] = pd.to_datetime(df['data_inicio'])
df['data_conclusao'] = pd.to_datetime(df['data_conclusao'])

# Convertendo a coluna preço para o tipo float
df['preco'] = df['preco'].astype(float)

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, 0 to 2
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   curso               2 non-null      object        
 1   categoria           2 non-null      object        
 2   carga_horaria       2 non-null      object        
 3   concluintes         2 non-null      int32         
 4   data_inicio         2 non-null      datetime64[ns]
 5   data_conclusao      2 non-null      datetime64[ns]
 6   descricao           2 non-null      object        
 7   preco               2 non-null      float64       
 8   instrutor.nome      2 non-null      object        
 9   instrutor.email     2 non-null      object        
 10  instrutor.telefone  2 non-null      object        
dtypes: datetime64[ns](2), float64(1), int32(1), object(7)
memory usage: 184.0+ bytes


### Aula 4 - Lidando com Outliers

In [23]:
import pandas as pd

# criando um DataFrame com 30 transações aleatórias
df = pd.DataFrame({
    'ID da transação': range(1, 31),
    'Valor da transação': [100, 200, 150, 500, 300, 913, 250, 400, 200, 150, 
                           200, 200, 400, 300, 150, 301, 805, 300, 400, 250, 
                           150, 100, 500, 600, 200, 350, 100, 250, 800, 250],
    'Data da transação': pd.date_range(start='2022-01-01', end='2022-01-30', freq='D'),
    'Local da transação': ['São Paulo, Brasil', 'Rio de Janeiro, Brasil', 'Belo Horizonte, Brasil', 'São Paulo, Brasil', 
                           'São Paulo, Brasil', 'Nova Iorque, EUA', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'Rio de Janeiro, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'Los Angeles, EUA', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'Miami, EUA', 'São Paulo, Brasil']
})

In [24]:
df.head()

Unnamed: 0,ID da transação,Valor da transação,Data da transação,Local da transação
0,1,100,2022-01-01,"São Paulo, Brasil"
1,2,200,2022-01-02,"Rio de Janeiro, Brasil"
2,3,150,2022-01-03,"Belo Horizonte, Brasil"
3,4,500,2022-01-04,"São Paulo, Brasil"
4,5,300,2022-01-05,"São Paulo, Brasil"


In [25]:
# Calculate Q1 (25th percentile) and Q3 (75th percentile)
Q1 = df['Valor da transação'].quantile(0.25)
Q3 = df['Valor da transação'].quantile(0.75)

# Calculate the Interquartile Range (IQR)
IQR = Q3 - Q1

# Define the lower and upper bound for outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Identify outliers
outliers = df[(df['Valor da transação'] < lower_bound) | (df['Valor da transação'] > upper_bound)]

# Display the outliers
outliers

Unnamed: 0,ID da transação,Valor da transação,Data da transação,Local da transação
5,6,913,2022-01-06,"Nova Iorque, EUA"
16,17,805,2022-01-17,"Los Angeles, EUA"
28,29,800,2022-01-29,"Miami, EUA"


In [26]:
lower_bound, upper_bound

(-100.0, 700.0)

In [27]:
# Remove outliers from the dataset
df_no_outliers = df[(df['Valor da transação'] >= lower_bound) & (df['Valor da transação'] <= upper_bound)]
df_no_outliers

Unnamed: 0,ID da transação,Valor da transação,Data da transação,Local da transação
0,1,100,2022-01-01,"São Paulo, Brasil"
1,2,200,2022-01-02,"Rio de Janeiro, Brasil"
2,3,150,2022-01-03,"Belo Horizonte, Brasil"
3,4,500,2022-01-04,"São Paulo, Brasil"
4,5,300,2022-01-05,"São Paulo, Brasil"
6,7,250,2022-01-07,"São Paulo, Brasil"
7,8,400,2022-01-08,"São Paulo, Brasil"
8,9,200,2022-01-09,"São Paulo, Brasil"
9,10,150,2022-01-10,"Rio de Janeiro, Brasil"
10,11,200,2022-01-11,"São Paulo, Brasil"
