# Introdução ao Pandas

## Módulo 3: DataFrames Continuação

### Pandas DataFrames Continuação - Identificando Valores Ausentes
- Identificando e Contando Valores Ausentes
- Removendo Linhas com Informações Ausentes
- Removendo Colunas de um DataFrame

In [None]:
import pandas as pd

In [None]:
# Vamos gerar alguns dados com valores ausentes.
# Os dados do mundo real geralmente apresentam valores ausentes
df = pd.DataFrame([
    {
        "item": "biscoito",
        "tamanho_porcao": 4,
        "calorias": 10,
        "gordura": "1.1g",
        "sodio": "125mg",
        "preco": 2.99,
        "desconto": None
    },
    {
        "item": "soda",
        "tamanho_porcao": "200ml",
        "calorias": None,
        "gordura": None,
        "sodio": "75mg",
        "preco": 2.25,
        "desconto": None

    },
    {
        "item": "maça",
        "tamanho_porcao": 2,
        "calorias": 95,
        "gordura": None,
        "sodio": None,
        "preco": 1.99,
        "desconto": None
    },
    {
        "item": "banana",
        "tamanho_porcao": 3,
        "calorias": 105,
        "gordura": "0.4g",
        "sodio": "1mg",
        "preco": None,
        "desconto": None
    },
    {
        "item": "sardinha",
        "tamanho_porcao": "1 lata",
        "calorias": None,
        "gordura": None,
        "sodio": None,
        "preco": None,
        "desconto": None
    }
])

# Defina o índice como o nome do item
df.set_index("item", inplace=True)
df

In [None]:
# O método .info gera tipos de dados e contagens de valores não nulos
df.info()

In [None]:
# Observe que os valores ausentes em uma coluna numérica são exibidos como NaN, que significa "não é um número".
# Para mais informações sobre NaN, consulte https://en.wikipedia.org/wiki/NaN
df.calorias

In [None]:
# O NaN existe para nos permitir fazer cálculos sem erros de execução
# Muitas funções matemáticas ignoram NaNs
df.calorias.mean()

In [None]:
# Por padrão, .value_counts também ignora NaNs
df.sodio.value_counts()

In [None]:
# Use dropna=False para contar valores ausentes
df.sodio.value_counts(dropna=False)

In [None]:
# Observe que os valores ausentes em uma coluna de string/objeto são exibidos como Nenhum
df.gordura

In [None]:
# .isna() pode operar em uma coluna, retornando uma série booleana
df.sodio.isna()

In [None]:
# .isna() também pode operar em todo o dataframe
df.isna()

In [None]:
# Contando o número de nulos por coluna
print("Número de nulos por coluna")
df.isna().sum()

In [None]:
print("Proporção de nulos por coluna")
df.isna().mean()

In [None]:
# Contando o número de nulos por linha
# Lembre-se de que .sum pode ser executado em colunas ou por linha, por linha com axis=1
print("Número de nulos por linha")
df.isna().sum(axis=1)

In [None]:
# Proporção do número de nulos por linha
# Lembre-se de que .sum pode ser executado em colunas ou por linha, por linha com eixo=1
print("Proporção de nulos por linha")
df.isna().mean(axis=1)

### Lidando com Valores Ausentes
- Não existe uma resposta única para todos os casos.
- "Depende" é uma resposta comum em ciência de dados. O contexto importa.
- Às vezes, valores ausentes podem significar zero, dependendo do contexto, então podemos preencher zero.
- Às vezes, remover linhas ou colunas inteiras é apropriado.
- Às vezes, preencher valores ausentes faz sentido para manter o restante dos dados da linha ou coluna.

In [None]:
# Exemplo de remoção de valores nulos
# dropna descarta todas as linhas com valor nulo
# Como há dados faltantes em todas as linhas, isso é bastante destrutivo...
# o argumento padrão do eixo é axis=0, o que significa linha por linha
df.dropna()

In [None]:
# dropna(axis=1) descarta todas as colunas com valores ausentes
# Isso também é muito destrutivo para ser útil
df.dropna(axis=1)

In [None]:
# Vamos revisar o dataframe
df

In [None]:
# A coluna de desconto não está adicionando nenhuma informação aqui, então podemos removê-la
df.drop(columns="desconto", inplace=True)
df

In [None]:
# Reatribuir o df
# df.drop(index=["sardinha"], inplace=True) produziria o mesmo resultado
df = df[df.index != "sardinha"]
df

## Recursos Adicionais
- [.isnull](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html) é um alias para `isna`.
- A documentação [.value_counts](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html)
- [Documentação Pandas .isna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html)

## Exercícios
- Use `pd.read_csv` para ler `"penguins.csv"` em uma variável de dataframe chamada `penguins`
- Escreva o código do Pandas para contar o número de valores ausentes por coluna
- Escreva o código do Pandas necessário para obter a proporção de valores ausentes por linha. Armazene isso em uma variável chamada `porcentagem_faltando_por_linha`
- Classifique a série `porcentagem_faltando_por_linha` em ordem decrescente. Quantas linhas estão praticamente vazias?

In [None]:
# Use `pd.read_csv("", storage_options = {'User-Agent': 'Mozilla/5.0'})` para ler `"https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/penguins.csv"` em uma variável de dataframe chamada `penguins`


In [None]:
# Use .isna para contar o número de valores ausentes por coluna


In [None]:
# Escreva os pandas necessários para obter a proporção de valores ausentes por linha.
# Armazene isso em uma variável chamada `porcentagem_faltando_por_linha`


In [None]:
# Classifica a série `porcentagem_faltando_por_linha` em ordem decrescente
# Quantas linhas estão quase vazias
