# Introdução ao Pandas

## Módulo 3: DataFrames Continuação

### Pandas DataFrames Continuação - Preenchendo Valores Ausentes
- Preenchendo Valores Ausentes
- Usando `.fillna`
- Usando `.loc` com DataFrames (semelhante a `.loc` em Séries, mas bidimensional com linhas e colunas)

### Lidar com Valores Ausentes é um Caso na Resolução Criativa de Problemas
- Não existe uma única resposta correta para todos os casos.
- "Depende" é uma resposta comum em ciência de dados. O contexto importa.

- Às vezes, valores ausentes podem significar zero, dependendo do contexto, então podemos preencher zero.
- Às vezes, remover linhas ou colunas inteiras é apropriado
- Outras vezes, preencher valores ausentes com a média, a mediana, a moda ou um valor provável é apropriado

- Às vezes, analistas removem linhas com muitos valores ausentes
- Outras vezes, analistas removem colunas com muitos valores ausentes
- Valores ausentes também podem ser preenchidos com uma estimativa razoável, como um valor de mediana, média ou moda.

- Preencher muitos valores ausentes pode distorcer os dados originais.

In [None]:
import pandas as pd

In [None]:
# Vamos gerar alguns dados com valores ausentes.
# Os dados do mundo real geralmente apresentam valores ausentes
df = pd.DataFrame([
    {
        "item": "biscoito",
        "tamanho_porcao": 4,
        "calorias": 10,
        "gordura": "1.1g",
        "sodio": "125mg",
        "preco": 2.99,
        "desconto": None
    },
    {
        "item": "soda",
        "tamanho_porcao": "200ml",
        "calorias": None,
        "gordura": None,
        "sodio": "75mg",
        "preco": 2.25,
        "desconto": None

    },
    {
        "item": "maça",
        "tamanho_porcao": 2,
        "calorias": 95,
        "gordura": None,
        "sodio": None,
        "preco": 1.99,
        "desconto": None
    },
    {
        "item": "banana",
        "tamanho_porcao": 3,
        "calorias": 105,
        "gordura": "0.4g",
        "sodio": "1mg",
        "preco": None,
        "desconto": None
    },
    {
        "item": "sardinha",
        "tamanho_porcao": "1 lata",
        "calorias": None,
        "gordura": None,
        "sodio": None,
        "preco": None,
        "desconto": None
    }
])

# Defina o índice como o nome do item
df.set_index("item", inplace=True)
df

In [None]:
# Exemplo de preenchimento de valores nulos com um valor razoável
# A maça e o refrigerante não possuem gordura, então esses valores ausentes podem ser 0
df.gordura = df.gordura.fillna(0)
df

### Um aparte sobre os avisos do Pandas
- Os avisos do Pandas não são erros. O código será executado. O aviso é um aviso, não um erro que interrompe a execução.
- Dependendo da sua versão do Pandas, o código acima pode gerar o seguinte aviso.
- Pandas warnings are not errors. The code will run. The warning is a notice, not an error that halts execution.
- Depending on your version of pandas, the above code might produce the following warning.
```
SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_index,col_indexer] = value instead
```
- Como isso pode afetar alguns usuários, passaremos a trabalhar com `.loc`


In [None]:
# Exemplo de indexação de linha e indexação de coluna de .loc
# [start_row:end_row, column_start:column_end]
# [:,] retorna todas as linhas e todas as colunas
df.loc[:,]

In [None]:
# Observe como estamos obtendo o intervalo de linhas de soda a maça
# df.loc["soda":"banana", :]
df.loc["soda":"banana"]

In [None]:
# Observe como .loc usa a sintaxe de indexação
df.loc[df.index == "maça"]

In [None]:
# Observe como .loc usa a sintaxe de indexação
df.loc[df.tamanho_porcao == 3]

In [None]:
# Observe como .loc usa a sintaxe de indexação
df.loc[df.index == "maça", "tamanho_porcao":"gordura"]

In [None]:
# Todas as linhas mostram apenas calorias como coluna
df.loc[:, "calorias"]

In [None]:
# Observe como : for linhas retorna todas as linhas
# mostra todas as colunas de calorias até preco 9(inclusive)
df.loc[:, "calorias":"preco"]

In [None]:
# Algumas operações do Pandas podem gerar um SettingWithCopyWarning
# Recomenda-se a leitura atenta da documentação
# Os desenvolvedores do Pandas criaram este aviso porque os efeitos podem ser difíceis de prever
# Observe como a operação acima foi avaliada, mas o aviso pode parecer perturbador.
df.loc[df.calorias.isna(), "calorias"] = 0
df

In [None]:
# Um preço médio pode ser razoável aqui, já que não temos outras informações
df.loc[df.preco.isna(), "preco"] = df.preco.mean()
df

In [None]:
# Informações atuais da sardinha
sardinha_calorias = 1080
sardinha_gordura = "96g"
sardinha_sodio = "4740mg" 
sardinha_preco = 3.25

df.loc[df.index == "sardinha", "calorias":"preco"] = [sardinha_calorias, sardinha_gordura, sardinha_sodio, sardinha_preco]
df

In [None]:
# Digamos que recebemos novas informações sobre descontos
# O gerente de negócios diz que usaremos descontos no futuro e que os valores existentes devem ser 0.
# Precisaremos recriar a coluna e atribuir zero a ela
df["desconto"] = 0

In [None]:
df

## Recursos Adicionais
- Usando [.fillna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html)
- [Retornando uma visualização versus uma cópia nos documentos do pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)
- [documentação do pandas .loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)
- [documentação do pandas .iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

## Exercícios
- Execute as células acima para remover ou preencher a maioria dos valores ausentes da variável `df`.
- Preencha o valor de sódio ausente com uma opção lógica.
- Use `pd.read_csv("", storage_options = {'User-Agent': 'Mozilla/5.0'})` para ler `"https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/penguins.csv"` em uma variável de dataframe chamada `penguins`
- Preencha os valores ausentes de `bill_length_mm` com sua média
- Preencha os valores ausentes de `bill_depth_mm` com sua média
- Preencha os valores ausentes de `body_mass_g` com sua média
- Execute `.value_counts` na coluna `sex`
- Preencha os valores ausentes na coluna `sex` com `mode` (siga .mode() com [0] para acessar o valor da string)
- Execute `.value_counts` na coluna `sex` novamente, após preencher os valores ausentes

In [None]:
# Use `pd.read_csv` para ler `"penguins.csv"` em uma variável de dataframe chamada `penguins`


In [None]:
# Preencha os valores faltantes de `bill_length_mm` com sua média


In [None]:
# Preencha os valores faltantes para `bill_depth_mm` com sua média


In [None]:
# Preencha os valores faltantes para `body_mass_g` com sua média


In [None]:
# Execute `.value_counts` na coluna `sex`


In [None]:
# Preencha os valores faltantes na coluna `sex` com o `mode` (siga .mode() com [0] para acessar o valor da string)


In [None]:
# Execute `.value_counts` na coluna `sex` novamente, após preencher os valores ausentes
