In [2]:
import pandas as pd
import json

In [5]:
with open('curso_cadastro.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

dados_curso = pd.json_normalize(data)
dados_curso

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Excel para iniciantes,Produtividade,,,,,,,Maria Oliveira,maria.oliveira@emailaleatorio.com,(11) 8888-8888
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,
5,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999


### Valores nulos: são valores ausentes em algumas das colunas que devem ser preenchidos para que a análise seja correta.

In [6]:
# verificando valores nulos
dados_curso.isnull().sum().sum()

6

In [7]:
# amostra nulos
dados_curso[dados_curso.isna().any(axis=1)]

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
1,Excel para iniciantes,Produtividade,,,,,,,Maria Oliveira,maria.oliveira@emailaleatorio.com,(11) 8888-8888


In [8]:
# removendo as amostra
dados_curso.dropna(inplace=True)

### Duplicatas: registros iguais que podem prejudicar a análise dos dados, já que estão representando a mesma informação.

In [9]:
# FALSE - amostra nao duplicada
# TRUE - amostra duplicada
dados_curso.duplicated()

0    False
2    False
3    False
4    False
5     True
dtype: bool

In [10]:
# removendo as linhas duplicadas
dados_curso.drop_duplicates(inplace=True)

### Strings vazias: valores de texto que não apresentam nenhum conteúdo escrito, o que pode dificultar a análise de dados, principalmente se a coluna tiver muitos valores assim.

In [11]:
# verificando se a coluna intrutor.nome esta vazia
dados_curso[dados_curso["instrutor.nome"] == '']

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,


In [12]:
# verificando se possui labels vazias na coluna data_conclusao
dados_curso[dados_curso["data_conclusao"] == '']

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,


In [13]:
# substituindo string vazias por valores nulos
dados_curso.replace('', pd.NA, inplace=True)

In [14]:
# removendo
dados_curso.dropna(inplace=True)
# exibindo o data
dados_curso

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
0,Introdução à programação,Programação,20 horas,100,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
2,Marketing digital para negócios,Marketing,30 horas,75,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777


### Conversão de tipos: algumas colunas do arquivo podem estar no tipo de dados errado, como texto em vez de número, o que pode prejudicar a análise. Nesse caso você deve realizar a conversão para o tipo correto de cada coluna.

In [15]:
# verificando os tipos
dados_curso.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2 entries, 0 to 2
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   curso               2 non-null      object
 1   categoria           2 non-null      object
 2   carga_horaria       2 non-null      object
 3   concluintes         2 non-null      object
 4   data_inicio         2 non-null      object
 5   data_conclusao      2 non-null      object
 6   descricao           2 non-null      object
 7   preco               2 non-null      object
 8   instrutor.nome      2 non-null      object
 9   instrutor.email     2 non-null      object
 10  instrutor.telefone  2 non-null      object
dtypes: object(11)
memory usage: 192.0+ bytes


In [16]:
# alterando a coluna concluintes para o tipo inteiro
dados_curso['concluintes'] = dados_curso['concluintes'].astype(int)

# alterando a coluna data_inicio e data_conclusao para o tipo datetime
# usando a funcao do pandas to_datetime
dados_curso['data_inicio'] = pd.to_datetime(dados_curso['data_inicio'])
dados_curso['data_conclusao'] = pd.to_datetime(dados_curso['data_conclusao'])

# alterando a coluna preço para o tipo float
dados_curso['preco'] = dados_curso['preco'].astype(float)

In [17]:
dados_curso.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2 entries, 0 to 2
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   curso               2 non-null      object        
 1   categoria           2 non-null      object        
 2   carga_horaria       2 non-null      object        
 3   concluintes         2 non-null      int32         
 4   data_inicio         2 non-null      datetime64[ns]
 5   data_conclusao      2 non-null      datetime64[ns]
 6   descricao           2 non-null      object        
 7   preco               2 non-null      float64       
 8   instrutor.nome      2 non-null      object        
 9   instrutor.email     2 non-null      object        
 10  instrutor.telefone  2 non-null      object        
dtypes: datetime64[ns](2), float64(1), int32(1), object(7)
memory usage: 184.0+ bytes
