Para facilitar a análise dos dados de cadastro de cursos de uma plataforma, você recebeu um arquivo chamado ```cursos_cadastrados.json.``` Você foi informado que esses dados podem apresentar problemas que podem prejudicar a análise e interpretação correta dos dados.


Para resolver isso, foi solicitado que você identifique e remova as amostras que apresentam os seguintes problemas:

- Valores nulos: são valores ausentes em algumas das colunas que devem ser preenchidos para que a análise seja correta.

- Duplicatas: registros iguais que podem prejudicar a análise dos dados, já que estão representando a mesma informação.

- Strings vazias: valores de texto que não apresentam nenhum conteúdo escrito, o que pode dificultar a análise de dados, principalmente se a coluna tiver muitos valores assim.

- Conversão de tipos: algumas colunas do arquivo podem estar no tipo de dados errado, como texto em vez de número, o que pode prejudicar a análise. Nesse caso você deve realizar a conversão para o tipo correto de cada coluna.

In [None]:
# Importar as bibliotecas necessárias
import pandas as pd
import requests
from http import HTTPStatus

In [24]:
# Buscar os dados JSON da URL

url = "https://cdn3.gnarususercontent.com.br/2929-pandas/cursos_cadastrados.json"
response = requests.get(url)
response.raise_for_status()  # Levanta um erro para códigos de status ruins

# Carregar os dados JSON em um DataFrame
data = response.json()
df = pd.DataFrame(data)

# Se o código de status estiver OK, imprimir o DataFrame
df.head()

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."
1,Excel para iniciantes,Produtividade,,,,,,,"{'nome': 'Maria Oliveira', 'email': 'maria.oli..."
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,"{'nome': 'Ana Santos', 'email': 'ana.santos@em..."
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,"{'nome': '', 'email': 'contato@emailaleatorio...."
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,"{'nome': 'John Smith', 'email': '', 'telefone'..."


### Valores nulos

In [None]:
# Analisar o DataFrame usando o método info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   curso           6 non-null      object
 1   categoria       6 non-null      object
 2   carga_horaria   5 non-null      object
 3   concluintes     5 non-null      object
 4   data_inicio     5 non-null      object
 5   data_conclusao  5 non-null      object
 6   descricao       5 non-null      object
 7   preco           5 non-null      object
 8   instrutor       6 non-null      object
dtypes: object(9)
memory usage: 564.0+ bytes


In [None]:
# Remover linhas com valores nulos
df_cleaned = df.dropna().copy()


df_cleaned

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,"{'nome': 'Ana Santos', 'email': 'ana.santos@em..."
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,"{'nome': '', 'email': 'contato@emailaleatorio...."
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,"{'nome': 'John Smith', 'email': '', 'telefone'..."
5,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."


### Valores duplicados

In [None]:
# Remover linhas duplicadas, excluindo a coluna 'instrutor'
df_cleaned = df_cleaned.drop_duplicates(subset=[col for col in df_cleaned.columns if col != 'instrutor'])
df_cleaned

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."
2,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,"{'nome': 'Ana Santos', 'email': 'ana.santos@em..."
3,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,"{'nome': '', 'email': 'contato@emailaleatorio...."
4,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,"{'nome': 'John Smith', 'email': '', 'telefone'..."


In [None]:
# Reiniciar o índice do DataFrame
df_cleaned.reset_index(drop=True, inplace=True)

In [None]:
df_cleaned

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."
1,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,"{'nome': 'Ana Santos', 'email': 'ana.santos@em..."
2,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,"{'nome': '', 'email': 'contato@emailaleatorio...."
3,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,"{'nome': 'John Smith', 'email': '', 'telefone'..."


### Strings vazias

In [None]:
# Verificar se há strings vazias no DataFrame
for col in df_cleaned.columns:
    if df_cleaned[col].dtype == 'object':
        empty_strings = (df_cleaned[col] == '')
        if empty_strings.any():
            print(f"Coluna '{col}' tem {empty_strings.sum()} strings vazias")

Column 'concluintes' has 1 empty strings
Column 'data_inicio' has 1 empty strings
Column 'data_conclusao' has 2 empty strings


In [None]:
# Substituir strings vazias por NaN para facilitar o tratamento
df_cleaned = df_cleaned.replace('', pd.NA)
df_cleaned

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em..."
1,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,"{'nome': 'Ana Santos', 'email': 'ana.santos@em..."
2,Inteligência artificial,Programação,40 horas,,2022-04-01,,Curso avançado sobre inteligência artificial c...,129.9,"{'nome': '', 'email': 'contato@emailaleatorio...."
3,Inglês para negócios,Idiomas,20 horas,30.0,,,Curso de inglês para negócios,69.9,"{'nome': 'John Smith', 'email': '', 'telefone'..."


### Conversão de tipos

In [None]:
# Converter colunas para tipos de dados apropriados
# Primeiro, vamos fazer uma cópia para evitar o aviso SettingWithCopyWarning
df_final = df_cleaned.copy()

# Converter colunas numéricas
df_final['concluintes'] = pd.to_numeric(df_final['concluintes'], errors='coerce')
df_final['preco'] = pd.to_numeric(df_final['preco'], errors='coerce')

# Converter colunas de data
df_final['data_inicio'] = pd.to_datetime(df_final['data_inicio'], errors='coerce')
df_final['data_conclusao'] = pd.to_datetime(df_final['data_conclusao'], errors='coerce')

# Extrair informação de horas da carga_horaria
df_final['carga_horaria_num'] = df_final['carga_horaria'].str.extract('(\d+)').astype(float)

df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   curso              4 non-null      object        
 1   categoria          4 non-null      object        
 2   carga_horaria      4 non-null      object        
 3   concluintes        3 non-null      float64       
 4   data_inicio        3 non-null      datetime64[ns]
 5   data_conclusao     2 non-null      datetime64[ns]
 6   descricao          4 non-null      object        
 7   preco              4 non-null      float64       
 8   instrutor          4 non-null      object        
 9   carga_horaria_num  4 non-null      float64       
dtypes: datetime64[ns](2), float64(3), object(5)
memory usage: 452.0+ bytes


  df_final['carga_horaria_num'] = df_final['carga_horaria'].str.extract('(\d+)').astype(float)


In [None]:
# Display the final cleaned DataFrame
df_final

Unnamed: 0,curso,categoria,carga_horaria,concluintes,data_inicio,data_conclusao,descricao,preco,instrutor,carga_horaria_num
0,Introdução à programação,Programação,20 horas,100.0,2022-01-01,2022-01-20,Curso introdutório à programação com Python,99.9,"{'nome': 'João Silva', 'email': 'joao.silva@em...",20.0
1,Marketing digital para negócios,Marketing,30 horas,75.0,2022-03-01,2022-03-31,Curso introdutório em marketing,89.9,"{'nome': 'Ana Santos', 'email': 'ana.santos@em...",30.0
2,Inteligência artificial,Programação,40 horas,,2022-04-01,NaT,Curso avançado sobre inteligência artificial c...,129.9,"{'nome': '', 'email': 'contato@emailaleatorio....",40.0
3,Inglês para negócios,Idiomas,20 horas,30.0,NaT,NaT,Curso de inglês para negócios,69.9,"{'nome': 'John Smith', 'email': '', 'telefone'...",20.0
