# Introdução aos Pandas

## Módulo 2: Introdução aos DataFrames

### Noções básicas sobre DataFrames do Pandas - Parte 1
- Como criar DataFrames do Pandas a partir de outras coleções em Python
- Aprendendo sobre as propriedades e informações do seu dataframe
- Selecionando uma única coluna
- Adicionando novas colunas a um DataFrame
- Renomeando colunas
- Estatísticas descritivas sobre as colunas

In [None]:
import pandas as pd

In [None]:
# Criando um dataframe a partir de uma lista de dicionários
cesta = [
{"item": "manga", "quantidade": 4, "preco": 2.99},
{"item": "pão", "quantidade": 2, "preco": 3.25},
{"item": "suco", "quantidade": 1, "preco": 5.90},
{"item": "laranja", "quantidade": 3, "preco": 2.99},
{"item": "limão", "quantidade": 3, "preco": 0.3},
]
cesta

In [None]:
# Com dataframes, nossas colunas são nossas variáveis ​​ou recursos
# Cada linha representa uma observação única (geralmente)
df = pd.DataFrame(cesta)
df

In [None]:
# Criando um dataframe a partir de um dicionário de listas
cesta = {
"item": ["manga", "pão", "suco", "laranja", "limão"],
"quantidade": [4, 2, 1, 3, 3],
"preco": [2.99, 3.25, 5.90, 2.99, 0.30]
}
cesta

In [None]:
pd.DataFrame(cesta)

In [None]:
# Criando um dataframe a partir de uma lista de listas
exemplo = [
[1, 2, 3],
[4, 5, 6],
[7, 8, 9]
]

nomes_coluna = ["variável_a", "variável_b", "variável_c"]
nomes_linha = ["observação_1", "observação_2", "observação_3"]

pd.DataFrame(exemplo, columns=nomes_coluna, index=nomes_linha)

In [None]:
# Criando um dataframe vazio
df = pd.DataFrame()

# Adicionando colunas a um dataframe
# Qualquer tipo de dado do tipo lista pode se tornar uma coluna
df["item"] = pd.Series(["Manga", "Pão", "Suco", "Laranja", "Limão"])
df["quantidade"] = [2, 2, 1, 3, 3]
df["preco"] = (2.99, 3.25, 5.90, 2.99, 0.30)
df

In [None]:
# .shape retorna linhas e colunas
df.shape

In [None]:
# Retorna as linhas
df.shape[0]

In [None]:
# Retorna o número de colunas
df.shape[1]

In [None]:
# len retorna o número de linhas
len(df)

In [None]:
# tamanho retorna linhas * colunas
df.size

In [None]:
# Adicionando novas colunas ao dataframe
df["subtotal"] = df["quantidade"] * df["preco"]
df

In [None]:
# set_index pode sobrescrever o índice padrão
df.set_index("item", inplace=True)
df

In [None]:
# Acessando os valores do índice
df.index

In [None]:
# Também podemos sobrescrever o índice com uma série de igual comprimento
df.index = df.index.str.lower()
df

In [None]:
# Acessando todas as colunas
df.columns

In [None]:
# Outro exemplo de criação de uma nova coluna
df["imposto"] = 0.07
df

In [None]:
# A coluna "custo total" não existe, mas esta sintaxe de colchetes a cria.
df["custo total"] = df["subtotal"] + (df["subtotal"] * df["imposto"])
df

In [None]:
# A sintaxe de ponto também permite chamar uma coluna existente
# Usar a sintaxe .column só funciona se a coluna já existir, não tiver espaços e não for um método de dataframe
df.preco

In [None]:
# .dtypes gera os tipos de dados de todas as colunas no dataframe
df.dtypes

In [None]:
# .info retorna tipo de dado e contagem não nula
df.info()

In [None]:
df.preco.describe()

In [None]:
# Mostrar estatísticas descritivas para colunas numéricas
df.describe()

In [None]:
# Uma coluna em um dataframe é uma série
type(df.quantidade)

In [None]:
# .value_counts retorna uma série
df.quantidade.value_counts()

In [None]:
# Funções de agregação podem ser executadas em todos os valores numéricos do dataframe
df.mean()

In [None]:
# Obter a mediana de todas as colunas numéricas
df.median()

In [None]:
# Desvio padrão de todas as colunas numéricas
df.std()

In [None]:
# A sintaxe de colchetes pode ser usada para acessar nomes de colunas com espaços
# O mesmo vale para nomes de colunas que coincidem com métodos do objeto DataFrame
# Recomenda-se evitar nomes de colunas com espaços; remova os espaços quando encontrar
# Também é recomendável evitar nomear colunas com o mesmo nome de métodos do DataFrame
df["formato"] = ["redondo", "pão", "jarro", "redondo", "redondo"]
df

In [None]:
# Lembre-se de que o atributo .shape mostra # linhas, # colunas
df.formato

In [None]:
# A sintaxe de colchetes retorna a coluna
df["formato"]

In [None]:
# Nomear colunas da mesma forma que os métodos de dataframe integrados e espaços nos nomes das colunas não ajuda.
# .rename permite renomear colunas em um dataframe usando um dicionário.
df.rename(columns={"formato": "item_formato", "custo total": "total"}, inplace=True)
df

## Exercícios
- Atribua um dataframe chamado `items` da seguinte lista de dicionários.
```
items = [
{"item nome": "Cabo USB", "preco": "R$ 10,99", "tipo": "USB C para USB C"},
{"item nome": "Cabo USB", "preco": "R$ 10,99", "tipo": "USB A para USB C"},
{"item nome": "Pilhas", "preco": "R$ 9,99", "tipo": "AA"},
{"item nome": "Pilhas", "preco": "R$ 8,99", "tipo": "AAA"},
{"item nome": "Mouse", "preco": "R$ 12,99", "tipo": "USB sem fio"},
]
```
- Renomeie a coluna `item nome` para `nome_item`
- Adicione uma coluna chamada `unidades_vendidas` a este dataframe e atribua os valores `[41, 113, 54, 35, 22]`
- Use o que você aprendeu trabalhando com strings para converter a coluna de preço em um valor flutuante (dica: remova caracteres não numéricos antes de tentar converter o tipo de dado para um valor flutuante)
- Crie uma nova coluna chamada `total` que contenha a coluna `preco` multiplicada pela coluna `unidades_vendidas`
- Arredonde os valores da coluna `total` para o centavo mais próximo. (dica: pesquise ou consulte a documentação do pandas

In [None]:
# Atribua um dataframe chamado `items` da seguinte lista de dicionários.


In [None]:
# Renomeie a coluna de nome item para item_nome

In [None]:
# Adicione uma coluna chamada `unidades_vendidas` a este dataframe e atribua os valores `[41, 113, 54, 35, 22]`


In [None]:
# Converta a coluna de preco em um tipo de dado float


In [None]:
# Crie uma nova coluna chamada `total` que contenha a coluna `preco` multiplicada pela coluna `unidades_vendidas`


In [None]:
# Arredonde os valores da coluna `total` para o centavo mais próximo.
