# **Data Cleaning**

- Loads a JSON file named informacoes.json into a DataFrame using pandas.read_json() and stores it in json_bruto. Then displays the DataFrame.

In [21]:
import pandas as pd
import json

json_bruto = pd.read_json('/content/informacoes.json')
json_bruto

Unnamed: 0,nome,idade,enderecos
0,João,28,"{'tipo': 'casa', 'rua': 'Rua A', 'numero': 123..."
1,João,28,"{'tipo': 'trabalho', 'rua': 'Rua B', 'numero':..."


- Opens and loads the same JSON file using the standard Python json module, storing it as a dictionary named json.

In [23]:
with open('/content/informacoes.json') as f:
  json = json.load(f)

- Normalizes the nested JSON structure, flattening the list inside the enderecos key and including nome and idade as metadata in each row.

In [24]:
dados_normalizados = pd.json_normalize(json, record_path = 'enderecos', meta = ['nome', 'idade'])

- Displays the normalized DataFrame created from the JSON data.

In [25]:
dados_normalizados

Unnamed: 0,tipo,rua,numero,cidade,nome,idade
0,casa,Rua A,123,São Paulo,João,28
1,trabalho,Rua B,456,Rio de Janeiro,João,28


- Loads another JSON file, dados.json, into a new DataFrame json_bruto2 and displays it.

In [31]:
import pandas as pd
import json

json_bruto2 = pd.read_json('/content/dados.json')
json_bruto2

Unnamed: 0,pessoas
0,"{'nome': 'João', 'idade': '25', 'endereco': {'..."
1,"{'nome': 'Maria', 'idade': 30, 'endereco': {'r..."


- Loads the same dados.json file into a Python dictionary called json2 using the json module.

In [32]:
with open('/content/dados.json') as f:
  json2 = json.load(f)

- Normalizes the structure of the pessoas key from the JSON dictionary into a flat table using pd.json_normalize.

In [34]:
dados_normalizados2 = pd.json_normalize(json2, record_path='pessoas',)

- Displays the normalized DataFrame created from json2.

In [35]:
dados_normalizados2

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,João,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,São Paulo
1,Maria,30,[21 3333-3333],,456,Rio de Janeiro


- Prints a summary of the DataFrame: number of entries, column names, data types, and non-null counts.

In [38]:
dados_normalizados2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   nome             2 non-null      object
 1   idade            2 non-null      int64 
 2   telefones        2 non-null      object
 3   endereco.rua     2 non-null      object
 4   endereco.numero  2 non-null      int64 
 5   endereco.cidade  2 non-null      object
dtypes: int64(2), object(4)
memory usage: 228.0+ bytes


- Casts the idade (age) column to integer type.

In [37]:
dados_normalizados2['idade'] = dados_normalizados2['idade'].astype(int)

- Filters out rows where the endereco.rua field is an empty string.

In [39]:
dados_normalizados2_filtrado = dados_normalizados2[dados_normalizados2['endereco.rua'] != ""]

- Displays the filtered DataFrame with only rows where the street (rua) is not empty.

In [40]:
dados_normalizados2_filtrado

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,João,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,São Paulo


- Loads a third JSON file cursos_cadastrados.json into a DataFrame.

In [41]:
import pandas as pd
import json

json_bruto3 = pd.read_json('/content/cursos_cadastrados.json')
json_bruto3

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."
1,Excel para iniciantes,Produtividade,,,,,,,"{'nome': 'Maria Oliveira', 'email': 'maria.oli..."
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,"{'nome': 'Ana Santos', 'email': 'ana.santos@em..."
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,"{'nome': '', 'email': 'contato@emailaleatorio...."
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,"{'nome': 'John Smith', 'email': '', 'telefone'..."
5,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."


- Loads the same file using the json module and stores it in the json3 dictionary.

In [42]:
with open('/content/cursos_cadastrados.json') as f:
  json3 = json.load(f)

- Normalizes the JSON structure in json3 into a flat table.

In [46]:
dados_normalizados3 = pd.json_normalize(json3)

- Displays the normalized DataFrame of course registrations.

In [47]:
dados_normalizados3

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Excel para iniciantes,Produtividade,,,,,,,Maria Oliveira,maria.oliveira@emailaleatorio.com,(11) 8888-8888
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,
5,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999


- Counts the number of duplicated rows in the DataFrame.

In [49]:
dados_normalizados3.duplicated().sum()

np.int64(1)

- Removes duplicated rows in-place.

In [50]:
dados_normalizados3.drop_duplicates(inplace = True)

- Displays the DataFrame after removing duplicates.

In [51]:
dados_normalizados3

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Excel para iniciantes,Produtividade,,,,,,,Maria Oliveira,maria.oliveira@emailaleatorio.com,(11) 8888-8888
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,


- Counts the number of missing (NaN) values in each column.

In [52]:
dados_normalizados3.isna().sum()

Unnamed: 0,0
curso,0
categoria,0
carga_horaria,1
concluintes,1
data_inicio,1
data_conclusao,1
descricao,1
preco,1
instrutor.nome,0
instrutor.email,0


- Defines a list of columns to check for missing values.

In [54]:
colunas_dropar = ['carga_horaria', 'concluintes', 'data_inicio', 'data_conclusao', 'descricao', 'preco']

- Replaces all empty strings in the DataFrame with pd.NA (missing value placeholder).

In [58]:
dados_normalizados3.replace('', pd.NA, inplace = True)

- Drops rows that contain missing values in the specified colunas_dropar, and stores the result in a new DataFrame.

In [59]:
df_sem_nulos = dados_normalizados3.dropna(subset = colunas_dropar).copy()

- Displays the cleaned DataFrame with no missing values in key columns.

In [60]:
df_sem_nulos

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
0,Introdução à programação,Programação,20 horas,100,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
2,Marketing digital para negócios,Marketing,30 horas,75,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777


- Shows info about the cleaned DataFrame: shape, column types, and null counts.



In [61]:
df_sem_nulos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, 0 to 2
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   curso               2 non-null      object
 1   categoria           2 non-null      object
 2   carga_horaria       2 non-null      object
 3   concluintes         2 non-null      object
 4   data_inicio         2 non-null      object
 5   data_conclusao      2 non-null      object
 6   descricao           2 non-null      object
 7   preco               2 non-null      object
 8   instrutor.nome      2 non-null      object
 9   instrutor.email     2 non-null      object
 10  instrutor.telefone  2 non-null      object
dtypes: object(11)
memory usage: 300.0+ bytes


- Casts column types:
    - concluintes to int,
    - data_inicio and data_conclusao to datetime,
    - preco to float.



In [64]:
df_sem_nulos['concluintes'] = df_sem_nulos['concluintes'].astype(int)
df_sem_nulos['data_inicio'] = pd.to_datetime(df_sem_nulos['data_inicio'])
df_sem_nulos['data_conclusao'] = pd.to_datetime(df_sem_nulos['data_conclusao'])
df_sem_nulos['preco'] = df_sem_nulos['preco'].astype(float)

- Displays the updated info after type conversion.

In [65]:
df_sem_nulos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, 0 to 2
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   curso               2 non-null      object        
 1   categoria           2 non-null      object        
 2   carga_horaria       2 non-null      object        
 3   concluintes         2 non-null      int64         
 4   data_inicio         2 non-null      datetime64[ns]
 5   data_conclusao      2 non-null      datetime64[ns]
 6   descricao           2 non-null      object        
 7   preco               2 non-null      float64       
 8   instrutor.nome      2 non-null      object        
 9   instrutor.email     2 non-null      object        
 10  instrutor.telefone  2 non-null      object        
dtypes: datetime64[ns](2), float64(1), int64(1), object(7)
memory usage: 300.0+ bytes


- Creates a new DataFrame df representing 30 sample transactions with ID, value, date, and location (Brazil and USA).

In [69]:
import pandas as pd
import numpy as np

# criando um DataFrame com 30 transações aleatórias
df = pd.DataFrame({
    'ID da transação': range(1, 31),
    'Valor da transação': [100, 200, 150, 500, 300, 913, 250, 400, 200, 150,
                           200, 200, 400, 300, 150, 301, 805, 300, 400, 250,
                           150, 100, 500, 600, 200, 350, 100, 250, 800, 250],
    'Data da transação': pd.date_range(start='2022-01-01', end='2022-01-30', freq='D'),
    'Local da transação': ['São Paulo, Brasil', 'Rio de Janeiro, Brasil', 'Belo Horizonte, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'Nova Iorque, EUA', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'Rio de Janeiro, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'Los Angeles, EUA', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil', 'São Paulo, Brasil',
                           'São Paulo, Brasil', 'São Paulo, Brasil', 'Miami, EUA', 'São Paulo, Brasil']
})

- Displays the newly created DataFrame of transactions.

In [68]:
df

Unnamed: 0,ID da transação,Valor da transação,Data da transação,Local da transação
0,1,100,2022-01-01,"São Paulo, Brasil"
1,2,200,2022-01-02,"Rio de Janeiro, Brasil"
2,3,150,2022-01-03,"Belo Horizonte, Brasil"
3,4,500,2022-01-04,"São Paulo, Brasil"
4,5,300,2022-01-05,"São Paulo, Brasil"
5,6,913,2022-01-06,"Nova Iorque, EUA"
6,7,250,2022-01-07,"São Paulo, Brasil"
7,8,400,2022-01-08,"São Paulo, Brasil"
8,9,200,2022-01-09,"São Paulo, Brasil"
9,10,150,2022-01-10,"Rio de Janeiro, Brasil"


- Defines a function fraude() to detect outliers using the IQR (interquartile range) method in a given column.

In [88]:
def fraude(coluna, df):
  Q1 = df[coluna].quantile(.25)
  Q3 = df[coluna].quantile(.75)
  IQR = Q3 - Q1
  limite_inferior = Q1 - 1.5*IQR
  limite_superior = Q3 + 1.5*IQR

  outliers = df[(df[coluna] < limite_inferior) | (df[coluna] > limite_superior)]

  return outliers


- Calls the fraude() function on the Valor da transação column to identify outlier transactions and prints them.

In [89]:
print(fraude('Valor da transação', df))

    ID da transação  Valor da transação Data da transação Local da transação
5                 6                 913        2022-01-06   Nova Iorque, EUA
16               17                 805        2022-01-17   Los Angeles, EUA
28               29                 800        2022-01-29         Miami, EUA
