# Capítulo 2: O Domínio das Planilhas

Prepare-se para explorar o Pandas DataFrame, a ferramenta mágica que abrirá as portas para análises de dados avançadas. Aprenda a manipular dados de forma ágil.

**Introdução ao Pandas DataFrame:**

O Pandas é uma biblioteca amplamente utilizada para análise de dados em Python. O Pandas DataFrame é uma estrutura de dados poderosa que permite armazenar, manipular e analisar dados de forma eficiente. Ele é frequentemente usado em projetos de ciência de dados, análise de negócios e muito mais.

**Criando um DataFrame:**

Você pode criar um DataFrame a partir de diferentes fontes de dados, como arquivos CSV, Excel, bancos de dados ou até mesmo a partir de listas de dicionários em Python. Vamos criar um DataFrame simples:

**O que é um DataFrame:**


In [1]:
import pandas as pd

In [2]:
dados = {
    "nome": ("karineGrandeAmor", "eogabs", "patraozin", "parede"),
    "data_nascimento": ('1998-04-27', '1955-10-10', '2000-01-01', '2004-12-10'),
    "idade": [25, 28, 23, 19],
    "cidade": ["EUA", "São Paulo", "Rio de Janeiro", "Santana do Paraíso"]
}
dados

{'nome': ('karineGrandeAmor', 'eogabs', 'patraozin', 'parede'),
 'data_nascimento': ('1998-04-27', '1955-10-10', '2000-01-01', '2004-12-10'),
 'idade': [25, 28, 23, 19],
 'cidade': ['EUA', 'São Paulo', 'Rio de Janeiro', 'Santana do Paraíso']}

**CHAVES**

As chaves são os identificadores únicos usados para acessar os valores associados em um dicionário.

In [3]:
dados.keys()

dict_keys(['nome', 'data_nascimento', 'idade', 'cidade'])

As chaves são usadas para indexar ou buscar os valores correspondentes em um dicionário.

In [4]:
dados['nome']

('karineGrandeAmor', 'eogabs', 'patraozin', 'parede')

**VALORES**

Os valores são os dados associados às chaves em um dicionário.

In [5]:
dados.values()

dict_values([('karineGrandeAmor', 'eogabs', 'patraozin', 'parede'), ('1998-04-27', '1955-10-10', '2000-01-01', '2004-12-10'), [25, 28, 23, 19], ['EUA', 'São Paulo', 'Rio de Janeiro', 'Santana do Paraíso']])

In [6]:
# repare que após filtrar as chaves, temos a lista
# logo, podemos filtrar a lista utilizando colchetes [].
dados['nome'][0]

'karineGrandeAmor'

In [7]:
dados['nome'][-1]

'parede'

In [8]:
# Criar um DataFrame a partir de um dicionário
dados = {
    "nome": ("karineGrandeAmor", "eogabs", "patraozin", "parede"),
    "data_nascimento": ('1998-04-27', '1955-10-10', '2000-01-01', '2004-12-10'),
    "idade": [25, 28, 23, 19],
    "cidade": ["EUA", "São Paulo", "Rio de Janeiro", "Santana do Paraíso"]
}
df = pd.DataFrame(dados)
df

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25,EUA
1,eogabs,1955-10-10,28,São Paulo
2,patraozin,2000-01-01,23,Rio de Janeiro
3,parede,2004-12-10,19,Santana do Paraíso


**Explorando um DataFrame:**

Uma vez criado, você pode explorar e analisar os dados em um DataFrame. Aqui estão algumas operações comuns:

In [9]:
# Exibir as primeiras linhas do DataFrame
df.head(2)

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25,EUA
1,eogabs,1955-10-10,28,São Paulo


In [10]:
df.tail()

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25,EUA
1,eogabs,1955-10-10,28,São Paulo
2,patraozin,2000-01-01,23,Rio de Janeiro
3,parede,2004-12-10,19,Santana do Paraíso


In [11]:
# Retornar o número de linhas e colunas do DataFrame
df.shape

(4, 4)

Lembram das tuplas? ↓↓↓

In [12]:
df.shape[0] = 2

TypeError: 'tuple' object does not support item assignment

In [13]:
# Gerar estatísticas resumidas para colunas numéricas
df.describe()

Unnamed: 0,idade
count,4.0
mean,23.75
std,3.774917
min,19.0
25%,22.0
50%,24.0
75%,25.75
max,28.0


In [14]:
# Mostrar informações sobre o DataFrame, incluindo tipos de dados e valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   nome             4 non-null      object
 1   data_nascimento  4 non-null      object
 2   idade            4 non-null      int64 
 3   cidade           4 non-null      object
dtypes: int64(1), object(3)
memory usage: 256.0+ bytes


**Acessando Dados:**

Você pode acessar dados específicos em um DataFrame usando índices e seleções condicionais. Por exemplo:

In [15]:
df

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25,EUA
1,eogabs,1955-10-10,28,São Paulo
2,patraozin,2000-01-01,23,Rio de Janeiro
3,parede,2004-12-10,19,Santana do Paraíso


In [16]:
nomes = df["nome"]
nomes

0    karineGrandeAmor
1              eogabs
2           patraozin
3              parede
Name: nome, dtype: object

In [17]:
df

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25,EUA
1,eogabs,1955-10-10,28,São Paulo
2,patraozin,2000-01-01,23,Rio de Janeiro
3,parede,2004-12-10,19,Santana do Paraíso


In [18]:
# Selecionar linhas com base em uma condição
adultos = df[df["idade"] > 20]
adultos

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25,EUA
1,eogabs,1955-10-10,28,São Paulo
2,patraozin,2000-01-01,23,Rio de Janeiro


**Modificando e Adicionando Dados:**

Você pode modificar valores em um DataFrame, adicionar novas colunas e realizar operações de transformação de dados.

In [19]:
df.loc[df["nome"] == "eogabs", "idade"] = 25
df

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25,EUA
1,eogabs,1955-10-10,25,São Paulo
2,patraozin,2000-01-01,23,Rio de Janeiro
3,parede,2004-12-10,19,Santana do Paraíso


In [20]:
# Adicionar uma nova coluna
df["cargo"] = ["Cientista de Dados", "Analista de Dados", "Engenheiro de Dados", "Engenheiro Analítico"]
df

Unnamed: 0,nome,data_nascimento,idade,cidade,cargo
0,karineGrandeAmor,1998-04-27,25,EUA,Cientista de Dados
1,eogabs,1955-10-10,25,São Paulo,Analista de Dados
2,patraozin,2000-01-01,23,Rio de Janeiro,Engenheiro de Dados
3,parede,2004-12-10,19,Santana do Paraíso,Engenheiro Analítico


**Exemplo de Dados Duplicados:**

Neste exemplo, você pode ver que o nome "eogabs" aparece duas vezes, criando dados duplicados. Você pode usar o método `duplicated()` para identificar linhas duplicadas:


In [21]:
# Criar um DataFrame a partir de um dicionário
dados = {
    "nome": ("karineGrandeAmor", "eogabs", "patraozin", "parede", "patraozin"),
    "data_nascimento": ('1998-04-27', '1955-10-10', '2000-01-01', '2004-12-10', '2000-01-01'),
    "idade": [25, 28, 23, 19, 23],
    "cidade": ["EUA", "São Paulo", "Rio de Janeiro", "Santana do Paraíso", "Rio de Janeiro"]
}

df = pd.DataFrame(dados)
df

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25,EUA
1,eogabs,1955-10-10,28,São Paulo
2,patraozin,2000-01-01,23,Rio de Janeiro
3,parede,2004-12-10,19,Santana do Paraíso
4,patraozin,2000-01-01,23,Rio de Janeiro


In [22]:
df[df.duplicated()]

Unnamed: 0,nome,data_nascimento,idade,cidade
4,patraozin,2000-01-01,23,Rio de Janeiro


In [23]:
qtd_duplicatas = df.duplicated().sum()
print(f"Quantidade de duplicatas: {qtd_duplicatas}")

Quantidade de duplicatas: 1


In [24]:
df.drop_duplicates()

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25,EUA
1,eogabs,1955-10-10,28,São Paulo
2,patraozin,2000-01-01,23,Rio de Janeiro
3,parede,2004-12-10,19,Santana do Paraíso


**Exemplo de Dados NaN:**

Dados NaN (Not a Number) representam valores ausentes ou inexistentes em um DataFrame. Aqui está um exemplo:


In [25]:
import numpy as np

dados = {
    "nome": ("karineGrandeAmor", "eogabs", "patraozin", np.nan),
    "data_nascimento": ('1998-04-27', '1955-10-10', '2000-01-01', '2004-12-10'),
    "idade": [25, np.nan, 23, 19],
    "cidade": ["EUA", "São Paulo", "Rio de Janeiro", "Santana do Paraíso"]
}

df = pd.DataFrame(dados)
df

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25.0,EUA
1,eogabs,1955-10-10,,São Paulo
2,patraozin,2000-01-01,23.0,Rio de Janeiro
3,,2004-12-10,19.0,Santana do Paraíso


Neste exemplo, usamos `np.nan` do NumPy para representar valores NaN. Você pode usar o método `isna()` ou `isnull()` para identificar valores NaN:

In [26]:
df.isna().sum()

nome               1
data_nascimento    0
idade              1
cidade             0
dtype: int64

In [27]:
df.loc[df.nome.isna()]

Unnamed: 0,nome,data_nascimento,idade,cidade
3,,2004-12-10,19.0,Santana do Paraíso


In [28]:
df.loc[df.idade.isna()]

Unnamed: 0,nome,data_nascimento,idade,cidade
1,eogabs,1955-10-10,,São Paulo


Preenchendo NaN com a média da coluna:

In [29]:
# Preencher todos os NaN na coluna "Idade" com o valor 0
df["idade"].fillna(0)

0    25.0
1     0.0
2    23.0
3    19.0
Name: idade, dtype: float64

In [30]:
# Preencher todos os NaN na coluna "Nome" com o valor "Desconhecido"
df["nome"].fillna("Desconhecido")

0    karineGrandeAmor
1              eogabs
2           patraozin
3        Desconhecido
Name: nome, dtype: object

In [31]:
# Calcular a média da coluna "Idade" e preencher os NaN com essa média
media_idade = df["idade"].mean()
media_idade

22.333333333333332

In [32]:
df["idade"].fillna(media_idade)

0    25.000000
1    22.333333
2    23.000000
3    19.000000
Name: idade, dtype: float64

**Por que não adicionamos valores a uma variável nos exemplos anteriores:**

1. **Não adicionar valores a uma variável:** Nos exemplos anteriores, não adicionamos os resultados do preenchimento de NaN a variáveis adicionais porque queríamos apenas demonstrar o efeito do preenchimento. Ao realizar o preenchimento sem atribuir o resultado a uma variável, o DataFrame original é modificado temporariamente, mas não é armazenado em uma nova variável. Isso é útil quando você deseja apenas visualizar o resultado sem alterar permanentemente o DataFrame original.

2. **Não usar `inplace=True`:** O argumento `inplace` no método `fillna()` permite que você especifique se deseja modificar o DataFrame original (quando `inplace=True`) ou criar uma cópia modificada sem afetar o original (quando `inplace=False`, que é o padrão). Nos exemplos anteriores, não usamos `inplace=True` porque queríamos manter o DataFrame original inalterado para futuras operações. Ao não usar `inplace`, você pode revisar o resultado, verificar se está correto e, se necessário, atribuí-lo a uma nova variável ou atualizar o DataFrame original mais tarde.

**Exemplo com `inplace=True` e atribuição a uma variável:**

In [33]:
import pandas as pd
import numpy as np

dados = {
    "nome": ("karineGrandeAmor", "eogabs", "patraozin", np.nan),
    "data_nascimento": ('1998-04-27', '1955-10-10', '2000-01-01', '2004-12-10'),
    "idade": [25, np.nan, 23, 19],
    "cidade": ["EUA", "São Paulo", "Rio de Janeiro", "Santana do Paraíso"]
}

df = pd.DataFrame(dados)
df


Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25.0,EUA
1,eogabs,1955-10-10,,São Paulo
2,patraozin,2000-01-01,23.0,Rio de Janeiro
3,,2004-12-10,19.0,Santana do Paraíso


In [34]:
# Preencher os NaN na coluna "Nome" com os valores anteriores (forward fill) e usar inplace=True
df["nome"].fillna(method="ffill", inplace=True)
df

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25.0,EUA
1,eogabs,1955-10-10,,São Paulo
2,patraozin,2000-01-01,23.0,Rio de Janeiro
3,patraozin,2004-12-10,19.0,Santana do Paraíso


In [35]:
# Preencher os NaN na coluna "Idade" com os valores posteriores (backward fill) e atribuir a uma nova variável
df['idade'] = df["idade"].fillna(method="bfill")
df

Unnamed: 0,nome,data_nascimento,idade,cidade
0,karineGrandeAmor,1998-04-27,25.0,EUA
1,eogabs,1955-10-10,23.0,São Paulo
2,patraozin,2000-01-01,23.0,Rio de Janeiro
3,patraozin,2004-12-10,19.0,Santana do Paraíso


Neste exemplo, a primeira operação usa `inplace=True` para preencher os NaN na coluna "Nome" no DataFrame original, enquanto a segunda operação preenche os NaN na coluna "Idade" e atribui o resultado a uma nova variável chamada `df_idade_preenchida`. Isso demonstra como você pode escolher entre modificar o DataFrame original ou criar uma cópia modificada, dependendo das suas necessidades.

# Exercício: Filtrando Funcionários

Você recebeu um DataFrame fictício com informações sobre funcionários de uma empresa. O DataFrame possui as seguintes colunas:

- "Nome": Nome do funcionário.
- "Idade": Idade do funcionário.
- "Cargo": Cargo do funcionário.
- "Salario": Salário do funcionário.
- "Cidade": Cidade onde o funcionário trabalha.

Sua tarefa é usar a função `loc` do Pandas para aplicar filtros e encontrar funcionários que atendam a critérios específicos.

**Critérios de Filtragem:**

1. Adicione a coluna cidade.
2. Encontre todos os funcionários com idade inferior a 30 anos.
3. Encontre todos os funcionários com salários acima de 60.000.

**Instruções:**

1. Crie um DataFrame com os dados fornecidos (veja abaixo).
2. Adicione a coluna 'cidade' conforme orientado na célula de exercício.
3. Use a função `loc` para aplicar os critérios de filtragem.
4. Exiba os funcionários que atendem a cada critério em separado.

**Dados do DataFrame:**

In [36]:
dados = {
    "nome": ["Alice", "Bob", "Charlie", "David", "Eve", "Frank", "Grace", "Hank", "Ivy", "Jack"],
    "idade": [30, 25, 22, 28, 35, 40, 33, 29, 27, 32],
    "cargo": ["Gerente", "Analista", "Analista", "Analista", "Gerente", "Diretor", "Analista", "Analista", "Gerente", "Diretor"],
    "salario": [60000, 50000, 52000, 48000, 70000, 90000, 55000, 51000, 62000, 95000]
}

**Dica:** Use operadores lógicos para combinar múltiplos critérios de filtragem.

**Resultado Esperado:**

Você deve ser capaz de identificar e exibir os funcionários que atendem aos critérios de filtragem especificados. Certifique-se de usar a função `loc` para realizar a filtragem.

**Observação:** Este exercício tem como objetivo praticar a aplicação de filtros em DataFrames usando o Pandas, uma habilidade importante para análise de dados.

**Resposta:**

![Alt text](image.png)

In [37]:
# Comece seu código aqui
df = ...

# Adicionar uma coluna "Cidade"
cidades = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "São Paulo", "Rio de Janeiro", "São Paulo", "Belo Horizonte", "Belo Horizonte", "São Paulo", "São Paulo"]
# ... = cidades

# Exibir o DataFrame completo
print("DataFrame completo:")
# ...


DataFrame completo:


In [38]:
# Usar filtros com loc para encontrar funcionários com salários acima de 60000 e idade inferior a 30 anos
# filtro = ...
# funcionarios_selecionados = 

# Exibir os funcionários que atendem aos critérios
print("\nFuncionários com salários acima de 60000 e idade inferior a 30 anos:")
# funcionarios_selecionados


Funcionários com salários acima de 60000 e idade inferior a 30 anos:
