Para facilitar a análise dos dados de cadastro de cursos de uma plataforma, você recebeu um arquivo chamado cursos_cadastrados.json. Você foi informado que esses dados podem apresentar problemas que podem prejudicar a análise e interpretação correta dos dados.

Para resolver isso, foi solicitado que você identifique e remova as amostras que apresentam os seguintes problemas:

    Valores nulos: são valores ausentes em algumas das colunas que devem ser preenchidos para que a análise seja correta.
    Duplicatas: registros iguais que podem prejudicar a análise dos dados, já que estão representando a mesma informação.
    Strings vazias: valores de texto que não apresentam nenhum conteúdo escrito, o que pode dificultar a análise de dados, principalmente se a coluna tiver muitos valores assim.
    Conversão de tipos: algumas colunas do arquivo podem estar no tipo de dados errado, como texto em vez de número, o que pode prejudicar a análise. Nesse caso você deve realizar a conversão para o tipo correto de cada coluna.

Dentro desse contexto, você precisará de uma abordagem sistemática para limpar os dados. Assim, como isso pode ser feito?

In [46]:
import pandas as pd
import json 


with open('../Dados/cursos_cadastrados.json', 'r') as file:
    json_bruto = json.load(file)


dados = pd.json_normalize(json_bruto)


In [22]:
dados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
1,Excel para iniciantes,Produtividade,,,,,,,Maria Oliveira,maria.oliveira@emailaleatorio.com,(11) 8888-8888
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,John Smith,,
5,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999


In [23]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   curso               6 non-null      object
 1   categoria           6 non-null      object
 2   carga_horaria       5 non-null      object
 3   concluintes         5 non-null      object
 4   data_inicio         5 non-null      object
 5   data_conclusao      5 non-null      object
 6   descricao           5 non-null      object
 7   preco               5 non-null      object
 8   instrutor.nome      6 non-null      object
 9   instrutor.email     6 non-null      object
 10  instrutor.telefone  6 non-null      object
dtypes: object(11)
memory usage: 660.0+ bytes


In [51]:
# Realizar a correção dos concluintes
dados.loc[(dados['concluintes'] == "") | (dados['concluintes'].isnull()), 'concluintes'] = 0

dados['concluintes'] = dados['concluintes'].astype(int)

In [44]:
dados['concluintes'].unique

<bound method Series.unique of 0     100
1    None
2      75
3       0
4      30
5     100
Name: concluintes, dtype: object>

In [59]:
# Remoção da valores duplicados
dados = dados[dados.duplicated() == False]

In [65]:
# Remover a coluna onde possui muitos dados nulos
dados = dados[(dados['carga_horaria'].isnull() == False)]

In [70]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 0 to 4
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   curso               4 non-null      object 
 1   categoria           4 non-null      object 
 2   carga_horaria       4 non-null      object 
 3   concluintes         4 non-null      int64  
 4   data_inicio         4 non-null      object 
 5   data_conclusao      4 non-null      object 
 6   descricao           4 non-null      object 
 7   preco               4 non-null      float64
 8   instrutor.nome      4 non-null      object 
 9   instrutor.email     4 non-null      object 
 10  instrutor.telefone  4 non-null      object 
dtypes: float64(1), int64(1), object(9)
memory usage: 384.0+ bytes


In [69]:
dados['preco'] = dados['preco'].astype(float)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados['preco'] = dados['preco'].astype(float)


In [74]:
dados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
0,Introdução à programação,Programação,20 horas,100,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
2,Marketing digital para negócios,Marketing,30 horas,75,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
3,Inteligência artificial,Programação,40 horas,0,2022-04-01,NaT,Curso avançado sobre inteligência artificial c...,129.9,,contato@emailaleatorio.com,
4,Inglês para negócios,Idiomas,20 horas,30,NaT,NaT,Curso de inglês para negócios,69.9,John Smith,,


In [73]:
# Formatar os campos de data
dados['data_inicio'] = pd.to_datetime(dados['data_inicio'], format="%Y-%m-%d")
dados['data_conclusao'] = pd.to_datetime(dados['data_conclusao'], format="%Y-%m-%d")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados['data_inicio'] = pd.to_datetime(dados['data_inicio'], format="%Y-%m-%d")
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados['data_conclusao'] = pd.to_datetime(dados['data_conclusao'], format="%Y-%m-%d")


In [80]:
dados = dados[dados['curso'].isin(['Inglês para negócios', 'Inteligência artificial']) == False ]
dados

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor.nome,instrutor.email,instrutor.telefone
0,Introdução à programação,Programação,20 horas,100,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,João Silva,joao.silva@emailaleatorio.com,(11) 9999-9999
2,Marketing digital para negócios,Marketing,30 horas,75,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,Ana Santos,ana.santos@emailaleatorio.com,(11) 7777-7777
