# <font color=#f2b16d>**Aula 3. Utilizando dados duplicados e nulos**

#### <font color=d0e0e3> Desafio referente à Aula 3. "Utilizando dados duplicados e nulos" do curso **"Pandas: limpeza e tratamento de dados"**, da *Alura*.

Para facilitar a análise dos dados de cadastro de cursos de uma plataforma, você recebeu um [arquivo chamado cursos_cadastrados.json](https://cdn3.gnarususercontent.com.br/2929-pandas/cursos_cadastrados.json). Você foi informado que esses dados podem apresentar problemas que podem prejudicar a análise e interpretação correta dos dados.

Para resolver isso, foi solicitado que você identifique e remova as amostras que apresentam os seguintes problemas:

- Valores nulos: são valores ausentes em algumas das colunas que devem ser preenchidos para que a análise seja correta.
- Duplicatas: registros iguais que podem prejudicar a análise dos dados, já que estão representando a mesma informação.
- Strings vazias: valores de texto que não apresentam nenhum conteúdo escrito, o que pode dificultar a análise de dados, principalmente se a coluna tiver muitos valores assim.
- Conversão de tipos: algumas colunas do arquivo podem estar no tipo de dados errado, como texto em vez de número, o que pode prejudicar a análise. Nesse caso você deve realizar a conversão para o tipo correto de cada coluna.

Dentro desse contexto, você precisará de uma abordagem sistemática para limpar os dados. Assim, como isso pode ser feito?

Lembrando que o conteúdo de **cursos_cadastrados.json** é:

```json
[
    {
        "curso": "Introdução à programação",
        "categoria": "Programação",
        "carga_horaria": "20 horas",
        "concluintes": 100,
        "data_inicio": "2022-01-01",
        "data_conclusao": "2022-01-20",
        "descricao": "Curso introdutório à programação com Python",
        "preco": "99.90",
        "instrutor": {
            "nome": "João Silva",
            "email": "joao.silva@emailaleatorio.com",
            "telefone": "(11) 9999-9999"
        }
    },
    {
        "curso": "Excel para iniciantes",
        "categoria": "Produtividade",
        "carga_horaria": null,
        "concluintes": null,
        "data_inicio": null,
        "data_conclusao": null,
        "descricao": null,
        "preco": null,
        "instrutor": {
            "nome": "Maria Oliveira",
            "email": "maria.oliveira@emailaleatorio.com",
            "telefone": "(11) 8888-8888"
        }
    },
    {
        "curso": "Marketing digital para negócios",
        "categoria": "Marketing",
        "carga_horaria": "30 horas",
        "concluintes": 75,
        "data_inicio": "2022-03-01",
        "data_conclusao": "2022-03-31",
        "descricao": "Curso introdutório em marketing",
        "preco": 89.90,
        "instrutor": {
            "nome": "Ana Santos",
            "email": "ana.santos@emailaleatorio.com",
            "telefone": "(11) 7777-7777"
        }
    },
    {
        "curso": "Inteligência artificial",
        "categoria": "Programação",
        "carga_horaria": "40 horas",
        "concluintes": "",
        "data_inicio": "2022-04-01",
        "data_conclusao": "",
        "descricao": "Curso avançado sobre inteligência artificial com Python",
        "preco": 129.90,
        "instrutor": {
            "nome": "",
            "email": "contato@emailaleatorio.com",
            "telefone": ""
        }
    },
    {
        "curso": "Inglês para negócios",
        "categoria": "Idiomas",
        "carga_horaria": "20 horas",
        "concluintes": 30,
        "data_inicio": "",
        "data_conclusao": "",
        "descricao": "Curso de inglês para negócios",
        "preco": 69.90,
        "instrutor": {
            "nome": "John Smith",
            "email": "",
            "telefone": ""
        }
    },
    {
        "curso": "Introdução à programação",
        "categoria": "Programação",
        "carga_horaria": "20 horas",
        "concluintes": 100,
        "data_inicio": "2022-01-01",
        "data_conclusao": "2022-01-20",
        "descricao": "Curso introdutório à programação com Python",
        "preco": "99.90",
        "instrutor": {
            "nome": "João Silva",
            "email": "joao.silva@emailaleatorio.com",
            "telefone": "(11) 9999-9999"
        }
    }
]
```


## <font color=#93c47d> **Carregando e normalizando os dados**

In [None]:
# Importa as bibliotecas Pandas, Numpy e JSON
import pandas as pd
import numpy as np
import json

In [None]:
# Lê o arquivo JSON com os dados brutos
with open('cursos_cadastrados.json', 'r', encoding='utf-8') as f:
    cursos_bruto = json.load(f)

In [None]:
# Normaliza os dados brutos em um DataFrame
dados_cursos = pd.json_normalize(cursos_bruto)

## <font color=#93c47d> **Removendo dados duplicados**

In [None]:
# Verifica quais linhas estão duplicadas
dados_cursos.duplicated()

In [None]:
# Verifica o número de linhas duplicadas
dados_cursos.duplicated().sum()

In [None]:
# Remove a linha duplicada no DataFrame
dados_cursos.drop_duplicates(inplace=True)

In [None]:
# Confere se a linha duplicada foi removida
dados_cursos.duplicated().sum()

## <font color=#93c47d> **Removendo strings vazias**

In [None]:
# Identificando os valores únicos das colunas e as colunas com strings vazias
for col in dados_cursos.columns:
    print(f"Coluna: {col}")
    print(dados_cursos[col].unique())
    print("-" * 30)

In [None]:
# Retirando as amostras com strings vazias na coluna 'concluintes' 
dados_cursos = dados_cursos[dados_cursos['concluintes'] != '']

In [None]:
# Retirando as amostras com strings vazias na coluna 'data_inicio' 
dados_cursos = dados_cursos[dados_cursos['data_inicio']!= '']

In [None]:
# Retirando as amostras com strings vazias na coluna 'data_conclusao' 
dados_cursos = dados_cursos[dados_cursos['data_conclusao'] != '']

## <font color=#93c47d> **Tratando dados nulos**

In [None]:
# Verifica a presença de dados nulos no DataFrame
dados_cursos.isna()

In [None]:
# Verifica a quantidade de dados nulos por coluna no DataFrame
dados_cursos.isna().sum()

In [None]:
# Remove a linha que possui dados nulos
dados_cursos.dropna(inplace=True)

In [None]:
# Reseta o index do DataFrame
dados_cursos = dados_cursos.reset_index(drop=True)

## <font color=#93c47d> **Alterando os tipos das colunas**

In [None]:
# Visualiza o DataFrame
dados_cursos

In [None]:
# Verifica os tipos das colunas
dados_cursos.info()

In [None]:
# Transforma a coluna 'concluintes' em int64
dados_cursos['concluintes'] = dados_cursos['concluintes'].astype(np.int64)

In [None]:
# Transforma a coluna 'data_inicio' em datetime
dados_cursos['data_inicio'] = pd.to_datetime(dados_cursos['data_inicio'])

In [None]:
# Transforma a coluna 'data_conclusao' em datetime
dados_cursos['data_conclusao'] = pd.to_datetime(dados_cursos['data_conclusao'])

In [None]:
# Transforma a coluna preco em float64
dados_cursos['preco'] = dados_cursos['preco'].astype(np.float64)

In [None]:
# Confere a transformação dos tipos das colunas
dados_cursos.info()

---