# Aula 6 - Introdução à Manipulação de Dados com Pandas I

### 1. Introdução ao Pandas
Pandas é uma biblioteca Python de código aberto que oferece estruturas de dados e ferramentas de análise de dados de alto desempenho e fáceis de usar.

https://pandas.pydata.org/

##### Estruturas de Dados do Pandas:

* **Séries**: Um array unidimensional com rótulos.
* **DataFrames**: Uma tabela bidimensional com rótulos em linhas e colunas.

### 2. Séries no Pandas

#### 2.1 Criação de Séries

In [1]:
import pandas as pd

# Criando uma Série a partir de uma lista
data = [1, 2, 3, 4, 5]
series = pd.Series(data)
series

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [2]:
# Criando uma Série a partir de um dicionário
data_dict = {'a': 1, 'b': 2, 'c': 3}
series_dict = pd.Series(data_dict)
series_dict


a    1
b    2
c    3
dtype: int64

In [3]:
# Criando uma Série a partir de um array do NumPy
import numpy as np
data_np = np.array([10, 20, 30, 40])
series_np = pd.Series(data_np)
series_np

0    10
1    20
2    30
3    40
dtype: int32

#### 2.2 Atributos de uma Série

In [4]:
# Índices da Série
series.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
# Valores da Série
series.values

array([1, 2, 3, 4, 5], dtype=int64)

In [6]:
# Índices da Série criada a partir de dicionário
series_dict.index

Index(['a', 'b', 'c'], dtype='object')

In [7]:
# Valores da Série criada a partir de array do NumPy
series_np.values

array([10, 20, 30, 40])

#### 2.3 Personalizando Índices

In [8]:
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']
series = pd.Series(data, index=index)
series

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [9]:
# Personalizando índices ao criar uma Série a partir de um array
data_np = np.array([10, 20, 30, 40])
index_np = ['x', 'y', 'z', 'w']
series_np = pd.Series(data_np, index=index_np)
series_np

x    10
y    20
z    30
w    40
dtype: int32

### 3. DataFrames no Pandas

#### 3.1 Criação de DataFrames

In [10]:
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela', 'Eduardo'],
    'Idade': [28, 34, 29, 42, 36],
    'Salário': [7000, 8000, 5000, 6500, 10000]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Nome,Idade,Salário
0,Ana,28,7000
1,Bruno,34,8000
2,Carlos,29,5000
3,Daniela,42,6500
4,Eduardo,36,10000


In [11]:
# Criando um DataFrame a partir de uma lista de listas
data_list = [
    ['Ana', 28, 7000],
    ['Bruno', 34, 8000],
    ['Carlos', 29, 5000],
    ['Daniela', 42, 6500],
    ['Eduardo', 36, 10000]
]
df_list = pd.DataFrame(data_list, columns=['Nome', 'Idade', 'Salário'])
df_list


Unnamed: 0,Nome,Idade,Salário
0,Ana,28,7000
1,Bruno,34,8000
2,Carlos,29,5000
3,Daniela,42,6500
4,Eduardo,36,10000


In [12]:
# Criando um DataFrame a partir de um array do NumPy
data_np = np.array([
    ['Ana', 28, 7000],
    ['Bruno', 34, 8000],
    ['Carlos', 29, 5000],
    ['Daniela', 42, 6500],
    ['Eduardo', 36, 10000]
])
df_np = pd.DataFrame(data_np, columns=['Nome', 'Idade', 'Salário'])
df_np

Unnamed: 0,Nome,Idade,Salário
0,Ana,28,7000
1,Bruno,34,8000
2,Carlos,29,5000
3,Daniela,42,6500
4,Eduardo,36,10000


#### 3.2 Atributos de um DataFrame

In [13]:
# Índices do DataFrame
df.index

RangeIndex(start=0, stop=5, step=1)

In [14]:
# Colunas do DataFrame
df.columns

Index(['Nome', 'Idade', 'Salário'], dtype='object')

In [15]:
# Valores do DataFrame
df.values

array([['Ana', 28, 7000],
       ['Bruno', 34, 8000],
       ['Carlos', 29, 5000],
       ['Daniela', 42, 6500],
       ['Eduardo', 36, 10000]], dtype=object)

In [16]:
# Exibindo informações resumidas do DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Nome     5 non-null      object
 1   Idade    5 non-null      int64 
 2   Salário  5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 252.0+ bytes


In [17]:
df.describe()

Unnamed: 0,Idade,Salário
count,5.0,5.0
mean,33.8,7300.0
std,5.674504,1857.417562
min,28.0,5000.0
25%,29.0,6500.0
50%,34.0,7000.0
75%,36.0,8000.0
max,42.0,10000.0


### 4. Seleção de Dados

#### 4.1 Selecionando Colunas

In [18]:
df['Nome'] # Seleciona a coluna 'Nome'

0        Ana
1      Bruno
2     Carlos
3    Daniela
4    Eduardo
Name: Nome, dtype: object

In [19]:
df[['Nome', 'Idade']] # Seleciona as colunas 'Nome' e 'Idade'

Unnamed: 0,Nome,Idade
0,Ana,28
1,Bruno,34
2,Carlos,29
3,Daniela,42
4,Eduardo,36


In [20]:
# Selecionando colunas usando atributos
df.Nome

0        Ana
1      Bruno
2     Carlos
3    Daniela
4    Eduardo
Name: Nome, dtype: object

In [21]:
df.Idade

0    28
1    34
2    29
3    42
4    36
Name: Idade, dtype: int64

#### 4.2 Selecionando Linhas

In [22]:
df.loc[0] # Seleciona a primeira linha

Nome        Ana
Idade        28
Salário    7000
Name: 0, dtype: object

In [23]:
df.loc[1:3] # Seleciona as linhas de 1 a 3 (inclusivo)

Unnamed: 0,Nome,Idade,Salário
1,Bruno,34,8000
2,Carlos,29,5000
3,Daniela,42,6500


In [24]:
# Selecionando linhas por condição
df[df['Idade'] > 30]

Unnamed: 0,Nome,Idade,Salário
1,Bruno,34,8000
3,Daniela,42,6500
4,Eduardo,36,10000


In [25]:
df[df['Salário'] >= 7000]

Unnamed: 0,Nome,Idade,Salário
0,Ana,28,7000
1,Bruno,34,8000
4,Eduardo,36,10000


#### 4.3 Seleção com iloc

##### Resumo das Diferenças
* loc: Seleciona dados com base nos rótulos dos índices e colunas.
    * Útil quando você conhece os rótulos.
    * Sintaxe: DataFrame.loc[row_labels, column_labels].


* iloc: Seleciona dados com base na posição dos índices e colunas.
    * Útil quando você conhece as posições.
    * Sintaxe: DataFrame.iloc[row_indices, column_indices].

In [26]:
# Seleciona a primeira linha (baseado em posição)
df.iloc[0]

Nome        Ana
Idade        28
Salário    7000
Name: 0, dtype: object

In [27]:
# Seleciona as linhas de 1 a 3 (baseado em posição)
df.iloc[1:3]

Unnamed: 0,Nome,Idade,Salário
1,Bruno,34,8000
2,Carlos,29,5000


In [28]:
# Selecionando linhas e colunas com iloc
df.iloc[1:3, 0:2]# Seleciona as linhas de 1 a 3 e colunas de 0 a 2

Unnamed: 0,Nome,Idade
1,Bruno,34
2,Carlos,29


### 5. Operações Básicas

#### 5.1 Adicionando Colunas

In [29]:
df['Ano de Contratação'] = [2015, 2016, 2017, 2018, 2019]
df

Unnamed: 0,Nome,Idade,Salário,Ano de Contratação
0,Ana,28,7000,2015
1,Bruno,34,8000,2016
2,Carlos,29,5000,2017
3,Daniela,42,6500,2018
4,Eduardo,36,10000,2019


In [30]:
# Adicionando uma coluna calculada
df['Bônus'] = df['Salário'] * 0.10
df

Unnamed: 0,Nome,Idade,Salário,Ano de Contratação,Bônus
0,Ana,28,7000,2015,700.0
1,Bruno,34,8000,2016,800.0
2,Carlos,29,5000,2017,500.0
3,Daniela,42,6500,2018,650.0
4,Eduardo,36,10000,2019,1000.0


#### 5.2 Removendo Colunas

In [31]:
df = df.drop(columns=['Ano de Contratação'])
df

Unnamed: 0,Nome,Idade,Salário,Bônus
0,Ana,28,7000,700.0
1,Bruno,34,8000,800.0
2,Carlos,29,5000,500.0
3,Daniela,42,6500,650.0
4,Eduardo,36,10000,1000.0


In [32]:
# Removendo múltiplas colunas
df = df.drop(columns=['Bônus'])
df

Unnamed: 0,Nome,Idade,Salário
0,Ana,28,7000
1,Bruno,34,8000
2,Carlos,29,5000
3,Daniela,42,6500
4,Eduardo,36,10000


### 6. Trabalhando com Dados Ausentes

#### 6.1 Identificando Valores Ausentes

In [33]:
df.isnull()

Unnamed: 0,Nome,Idade,Salário
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False


In [34]:
df.isnull().sum()

Nome       0
Idade      0
Salário    0
dtype: int64

In [35]:
# Adicionando dados ausentes para exemplo
df.loc[2, 'Salário'] = None

In [36]:
df.isnull()

Unnamed: 0,Nome,Idade,Salário
0,False,False,False
1,False,False,False
2,False,False,True
3,False,False,False
4,False,False,False


In [37]:
df.isnull().sum()

Nome       0
Idade      0
Salário    1
dtype: int64

#### 6.2 Preenchendo Valores Ausentes

In [38]:
df['Salário'].fillna(0, inplace=True)
df

Unnamed: 0,Nome,Idade,Salário
0,Ana,28,7000.0
1,Bruno,34,8000.0
2,Carlos,29,0.0
3,Daniela,42,6500.0
4,Eduardo,36,10000.0


In [39]:
# Preenchendo valores ausentes com a média da coluna
df.loc[2, 'Salário'] = None
df['Salário'].fillna(df['Salário'].mean(), inplace=True)
df

Unnamed: 0,Nome,Idade,Salário
0,Ana,28,7000.0
1,Bruno,34,8000.0
2,Carlos,29,7875.0
3,Daniela,42,6500.0
4,Eduardo,36,10000.0


#### 6.3 Removendo Valores Ausentes

In [40]:
df.loc[2, 'Salário'] = None
df.dropna(subset=['Salário'], inplace=True)
df

Unnamed: 0,Nome,Idade,Salário
0,Ana,28,7000.0
1,Bruno,34,8000.0
3,Daniela,42,6500.0
4,Eduardo,36,10000.0


In [41]:
# Removendo linhas com qualquer valor ausente
df.loc[2, 'Salário'] = None
df.dropna(inplace=True)
df

Unnamed: 0,Nome,Idade,Salário
0,Ana,28.0,7000.0
1,Bruno,34.0,8000.0
3,Daniela,42.0,6500.0
4,Eduardo,36.0,10000.0


## Exercícios

#### 1. Exercício : Crie uma Série a partir de uma lista de 5 números e exiba seus valores e índices.

In [1]:
import pandas as pd

# Criando uma Série a partir de uma lista de 5 números
data = [10, 20, 30, 40, 50]
series = pd.Series(data)

# Exibindo os valores e índices da Série
print("Valores da Série:")
print(series.values)
print("Índices da Série:")
print(series.index)
print("Série completa:")
print(series)


Valores da Série:
[10 20 30 40 50]
Índices da Série:
RangeIndex(start=0, stop=5, step=1)
Série completa:
0    10
1    20
2    30
3    40
4    50
dtype: int64


#### 2. Exercício : Crie um DataFrame a partir do seguinte dicionário de dados e exiba as colunas e os índices.

In [2]:
import pandas as pd

# Dicionário de dados
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela', 'Eduardo'],
    'Idade': [23, 35, 45, 22, 30],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Curitiba']
}

# Criando o DataFrame
df = pd.DataFrame(dados)

# Exibindo as colunas e os índices do DataFrame
print("Colunas do DataFrame:")
print(df.columns)
print("Índices do DataFrame:")
print(df.index)
print("DataFrame completo:")
print(df)


Colunas do DataFrame:
Index(['Nome', 'Idade', 'Cidade'], dtype='object')
Índices do DataFrame:
RangeIndex(start=0, stop=5, step=1)
DataFrame completo:
      Nome  Idade          Cidade
0      Ana     23       São Paulo
1    Bruno     35  Rio de Janeiro
2   Carlos     45  Belo Horizonte
3  Daniela     22    Porto Alegre
4  Eduardo     30        Curitiba


#### 3. Exercício : Adicione uma coluna 'Desconto' ao DataFrame criado no exercício 2, onde o desconto é 10% do preço.

In [3]:
import pandas as pd

# Dicionário de dados (incluindo a coluna 'Preço')
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela', 'Eduardo'],
    'Idade': [23, 35, 45, 22, 30],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Curitiba'],
    'Preço': [100, 200, 300, 400, 500]  # Valores fictícios para a coluna 'Preço'
}

# Criando o DataFrame
df = pd.DataFrame(dados)

# Adicionando a coluna 'Desconto' (10% do preço)
df['Desconto'] = df['Preço'] * 0.10

# Exibindo o DataFrame completo
print("DataFrame com a coluna 'Desconto':")
print(df)


DataFrame com a coluna 'Desconto':
      Nome  Idade          Cidade  Preço  Desconto
0      Ana     23       São Paulo    100      10.0
1    Bruno     35  Rio de Janeiro    200      20.0
2   Carlos     45  Belo Horizonte    300      30.0
3  Daniela     22    Porto Alegre    400      40.0
4  Eduardo     30        Curitiba    500      50.0


#### 4. Exercício : Usando o DataFrame criado na aula, selecione todos os funcionários com idade superior a 30 anos e exiba apenas as colunas 'Nome' e 'Idade'.

In [4]:
import pandas as pd

# Dicionário de dados (incluindo a coluna 'Preço' e 'Desconto')
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela', 'Eduardo'],
    'Idade': [23, 35, 45, 22, 30],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Curitiba'],
    'Preço': [100, 200, 300, 400, 500],  # Valores fictícios para a coluna 'Preço'
    'Desconto': [10.0, 20.0, 30.0, 40.0, 50.0]  # Descontos já calculados
}

# Criando o DataFrame
df = pd.DataFrame(dados)

# Filtrando funcionários com idade superior a 30 anos
filtro = df['Idade'] > 30

# Selecionando as colunas 'Nome' e 'Idade'
resultado = df.loc[filtro, ['Nome', 'Idade']]

# Exibindo o resultado
print("Funcionários com idade superior a 30 anos:")
print(resultado)


Funcionários com idade superior a 30 anos:
     Nome  Idade
1   Bruno     35
2  Carlos     45


#### 5. Exercício : Crie um novo DataFrame com os mesmos dados do DataFrame original, mas sem a coluna 'Salário'. Em seguida, adicione uma coluna 'Imposto' onde o valor é 15% do salário original.

In [7]:
import pandas as pd

# Dicionário de dados original
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela', 'Eduardo'],
    'Idade': [23, 35, 45, 22, 30],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Curitiba'],
    'Salário': [3000, 4000, 5000, 2500, 3500]
}

# Criando o DataFrame original
df = pd.DataFrame(dados)

# Criando um novo DataFrame sem a coluna 'Salário'
df_sem_salario = df.drop(columns=['Salário'])

# Adicionando a coluna 'Imposto' (15% do salário original)
df_sem_salario['Imposto'] = df['Salário'] * 0.15

# Exibindo o novo DataFrame
print("Novo DataFrame sem a coluna 'Salário' e com a coluna 'Imposto':")
print(df_sem_salario)


Novo DataFrame sem a coluna 'Salário' e com a coluna 'Imposto':
      Nome  Idade          Cidade  Imposto
0      Ana     23       São Paulo    450.0
1    Bruno     35  Rio de Janeiro    600.0
2   Carlos     45  Belo Horizonte    750.0
3  Daniela     22    Porto Alegre    375.0
4  Eduardo     30        Curitiba    525.0


#### 6. Exercício : Crie um DataFrame a partir do seguinte dicionário de dados:

In [42]:
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela', 'Eduardo'],
    'Idade': [28, 34, 29, 42, 36],
    'Salário': [7000, 8000, 5000, 6500, 10000]
}

In [6]:
import pandas as pd

# Dicionário de dados
dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela', 'Eduardo'],
    'Idade': [23, 35, 45, 22, 30],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Curitiba'],
    'Salário': [3000, 4000, 5000, 2500, 3500]
}

# Criando o DataFrame
df = pd.DataFrame(dados)

# Exibindo o DataFrame
print("DataFrame criado a partir do dicionário de dados:")
print(df)


DataFrame criado a partir do dicionário de dados:
      Nome  Idade          Cidade  Salário
0      Ana     23       São Paulo     3000
1    Bruno     35  Rio de Janeiro     4000
2   Carlos     45  Belo Horizonte     5000
3  Daniela     22    Porto Alegre     2500
4  Eduardo     30        Curitiba     3500
