<a href="https://colab.research.google.com/github/raphasariedine/utfpr/blob/main/pos_aula05_(exercicios).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplos de Operações sobre DataFrame

In [None]:
# Importando pandas
import pandas as pd

# Dicionário com uma lista de pessoas
dados = {
    'nomes': ['José', 'Ana', 'Lis', 'Pedro', 'Lucas', 'Maria', 'Carmen'],
    'sobrenomes': ['Silva', 'Silva', 'Costa', 'Gates', 'Pereira', 'Costa', 'Brasil'],
    'idades': [18, 33, 27, 45, 76, 19, 21],
    'generos': ['M', 'F', 'F', 'M', 'M', 'F', 'F']
}

# Criando um DataFrame
df = pd.DataFrame(dados)

In [None]:
# Configurando a quantidade máxima de colunas e linhas visíveis ao imprimir o DataFrame
pd.set_option('display.max_columns', 85)
pd.set_option('display.max_rows', 85)


In [None]:
# Exibindo o DataFrame
df

Unnamed: 0,nomes,sobrenomes,idades,generos
0,José,Silva,18,M
1,Ana,Silva,33,F
2,Lis,Costa,27,F
3,Pedro,Gates,45,M
4,Lucas,Pereira,76,M
5,Maria,Costa,19,F
6,Carmen,Brasil,21,F


In [None]:
# Exibindo os primeiros n registros
df.head(2)


Unnamed: 0,nomes,sobrenomes,idades,generos
0,José,Silva,18,M
1,Ana,Silva,33,F


In [None]:
# Exibindo os últimos n registros
df.tail(2)

Unnamed: 0,nomes,sobrenomes,idades,generos
5,Maria,Costa,19,F
6,Carmen,Brasil,21,F


In [None]:
# Exibindo sua forma
df.shape

(7, 4)

In [None]:
# Exibindo a lista de colunas
df.columns

Index(['nomes', 'sobrenomes', 'idades', 'generos'], dtype='object')

In [None]:
# Exibindo a lista de índices
df.index.to_list()

[0, 1, 2, 3, 4, 5, 6]

In [None]:
# Exibindo as linhas no intervalo 0:2 e apenas as colunas no intervalo 'sobrenomes' a 'generos'
df.loc[0:2, 'sobrenomes':'generos']

Unnamed: 0,sobrenomes,idades,generos
0,Silva,18,M
1,Silva,33,F
2,Costa,27,F


In [None]:
# Exibindo todas as linhas do DataFrame, exibindo as colunas 'nomes' e 'generos'
df.loc[:, ['nomes', 'generos']]

Unnamed: 0,nomes,generos
0,José,M
1,Ana,F
2,Lis,F
3,Pedro,M
4,Lucas,M
5,Maria,F
6,Carmen,F


In [None]:
# Filtrar com base no conteúdo de uma coluna.
filt = df['nomes'].str.contains('Ana', na=False)
df.loc[filt]

Unnamed: 0,nomes,sobrenomes,idades,generos
1,Ana,Silva,33,F


In [None]:
# Mudar o índice do Df para outra coluna
df.set_index('nomes', inplace=True)

# Listar o índices
df.index

Index(['José', 'Ana', 'Lis', 'Pedro', 'Lucas', 'Maria', 'Carmen'], dtype='object', name='nomes')

In [None]:
# Localizar com base no índice
df.loc['Ana']

Unnamed: 0,Ana
sobrenomes,Silva
idades,33
generos,F


# Operadores Matemáticos, Relacionais e Lógicos

 - Pandas permite o uso de operadores matemáticos, relacionais e lógicos sobre DataFrames

 - Matemáticos (+, -, /, *)

 - Relacionais (>, >=, ==, <, <=, !=)

 - Lógicos (**&** para **and**, **|** para **or**, **~** para **not**)

In [None]:
# Carregando os dados originais no DataFrame
dados = {
    'nomes': ['José', 'Ana', 'Lis', 'Pedro', 'Lucas', 'Maria', 'Carmen'],
    'sobrenomes': ['Silva', 'Silva', 'Costa', 'Gates', 'Pereira', 'Costa', 'Brasil'],
    'idades': [18, 33, 27, 45, 76, 19, 21],
    'generos': ['M', 'F', 'F', 'M', 'M', 'F', 'F']
}

df = pd.DataFrame(dados)

### Exemplo - Aplicando operador de adição sobre a coluna idades.



In [None]:
# Somando o valor de cada célula idade em uma unidade.

df['idades'] = df['idades'] + 1

df

Unnamed: 0,nomes,sobrenomes,idades,generos
0,José,Silva,19,M
1,Ana,Silva,34,F
2,Lis,Costa,28,F
3,Pedro,Gates,46,M
4,Lucas,Pereira,77,M
5,Maria,Costa,20,F
6,Carmen,Brasil,22,F


## Operador Relacional

In [None]:
# Definição de filtro sobre a coluna 'idades'
filtro = df['idades'] > 30

# Aplicando o filtro sobre o df
novo_df = df[filtro]

# Exibindo os dados do novo df
novo_df


Unnamed: 0,nomes,sobrenomes,idades,generos
1,Ana,Silva,34,F
3,Pedro,Gates,46,M
4,Lucas,Pereira,77,M


In [None]:
# Aplicando o filtro DIRETAMENTE sobre o df
novo_df = df[df['idades'] > 30]

# Exibindo os dados do novo df
novo_df = df[filtro]

novo_df

Unnamed: 0,nomes,sobrenomes,idades,generos
1,Ana,Silva,34,F
3,Pedro,Gates,46,M
4,Lucas,Pereira,77,M


## Operador Lógico

In [None]:
# Filtro usando and (e lógico)
# Note que devemos usar & para and
#  nome igual a 'Ana' e idade maior que 18
filtro = (df['nomes'] == 'Ana') & (df['idades'] > 18)

# Aplica o filtro
novo_df = df[filtro]

# Exibe o df
novo_df

Unnamed: 0,nomes,sobrenomes,idades,generos
1,Ana,Silva,34,F


In [None]:
# Filtrom usando or (ou lógico)
#  nome igual a 'Ana' ou idade maior que 18
filtro = (df['nomes'] == 'Ana') | (df['idades'] > 18)

# Aplica o filtro
novo_df = df[filtro]

# Exibe o df
novo_df

Unnamed: 0,nomes,sobrenomes,idades,generos
0,José,Silva,19,M
1,Ana,Silva,34,F
2,Lis,Costa,28,F
3,Pedro,Gates,46,M
4,Lucas,Pereira,77,M
5,Maria,Costa,20,F
6,Carmen,Brasil,22,F


# Ordenando um DataFrame

In [None]:
# Odernando o dataframe por nome, em ordem ascendente.
print('Ordem ascendente')
novo_df = df.sort_values(by='nomes', ascending=True)
print(novo_df)

Ordem ascendente
    nomes sobrenomes  idades generos
1     Ana      Silva      34       F
6  Carmen     Brasil      22       F
0    José      Silva      19       M
2     Lis      Costa      28       F
4   Lucas    Pereira      77       M
5   Maria      Costa      20       F
3   Pedro      Gates      46       M


In [None]:
print('Ordem decrescente')
novo_df = df.sort_values(by='nomes', ascending=False)
print(novo_df)


Ordem decrescente
    nomes sobrenomes  idades generos
3   Pedro      Gates      46       M
5   Maria      Costa      20       F
4   Lucas    Pereira      77       M
2     Lis      Costa      28       F
0    José      Silva      19       M
6  Carmen     Brasil      22       F
1     Ana      Silva      34       F


In [None]:
# Adicionando duas novas pessoas.
# Como os índices 7 e 8 não existem, novas linhas são adicionadas
df.loc[7] = ['Raul', 'Vaz', 45, 'M']
df.loc[8] = ['Maria', 'Paz', 67, 'F']

# Ordenando por 'idades', depois por 'nomes'
print('Ordenando por duas colunas')
novo_df = df.sort_values(by=['idades', 'nomes'], ascending=True)

novo_df

Ordenando por duas colunas


Unnamed: 0,nomes,sobrenomes,idades,generos
0,José,Silva,19,M
5,Maria,Costa,20,F
6,Carmen,Brasil,22,F
2,Lis,Costa,28,F
1,Ana,Silva,34,F
7,Raul,Vaz,45,M
3,Pedro,Gates,46,M
8,Maria,Paz,67,F
4,Lucas,Pereira,77,M


# Concatenando colunas

In [None]:
# A coluna 'nome_completo' será criada, com o valor da contaneção de 'nomes' + ' ' + 'sobrenomes'
df['nome_completo'] = df['nomes'] + ' ' + df['sobrenomes']

df

Unnamed: 0,nomes,sobrenomes,idades,generos,nome_completo
0,José,Silva,19,M,José Silva
1,Ana,Silva,34,F,Ana Silva
2,Lis,Costa,28,F,Lis Costa
3,Pedro,Gates,46,M,Pedro Gates
4,Lucas,Pereira,77,M,Lucas Pereira
5,Maria,Costa,20,F,Maria Costa
6,Carmen,Brasil,22,F,Carmen Brasil
7,Raul,Vaz,45,M,Raul Vaz
8,Maria,Paz,67,F,Maria Paz


In [None]:
# Removendo as colunas 'nomes' e 'sobrenomes'
df.drop(columns=['nomes', 'sobrenomes'], inplace=True)

df

Unnamed: 0,idades,generos,nome_completo
0,19,M,José Silva
1,34,F,Ana Silva
2,28,F,Lis Costa
3,46,M,Pedro Gates
4,77,M,Lucas Pereira
5,20,F,Maria Costa
6,22,F,Carmen Brasil
7,45,M,Raul Vaz
8,67,F,Maria Paz


# Separando o conteúdo de uma coluna com dados do tipo string

In [None]:
# A função split cria uma lista de valores com base no separador informado.
df['nome_completo'].str.split(' ')

Unnamed: 0,nome_completo
0,"[José, Silva]"
1,"[Ana, Silva]"
2,"[Lis, Costa]"
3,"[Pedro, Gates]"
4,"[Lucas, Pereira]"
5,"[Maria, Costa]"
6,"[Carmen, Brasil]"
7,"[Raul, Vaz]"
8,"[Maria, Paz]"


In [None]:
# Criando novamente as colunas 'nomes' e 'sobrenomes' com base na lista de nomes completos
df[['nomes', 'sobrenomes']] = df['nome_completo'].str.split(' ', expand=True)

df

Unnamed: 0,idades,generos,nome_completo,nomes,sobrenomes
0,19,M,José Silva,José,Silva
1,34,F,Ana Silva,Ana,Silva
2,28,F,Lis Costa,Lis,Costa
3,46,M,Pedro Gates,Pedro,Gates
4,77,M,Lucas Pereira,Lucas,Pereira
5,20,F,Maria Costa,Maria,Costa
6,22,F,Carmen Brasil,Carmen,Brasil
7,45,M,Raul Vaz,Raul,Vaz
8,67,F,Maria Paz,Maria,Paz


In [None]:
# Removendo a coluna 'nome_completo'
df.drop(columns='nome_completo', inplace=True)

df

Unnamed: 0,idades,generos,nomes,sobrenomes
0,19,M,José,Silva
1,34,F,Ana,Silva
2,28,F,Lis,Costa
3,46,M,Pedro,Gates
4,77,M,Lucas,Pereira
5,20,F,Maria,Costa
6,22,F,Carmen,Brasil
7,45,M,Raul,Vaz
8,67,F,Maria,Paz


# Removendo Linhas

In [None]:
# Removendo a linha com índice 0 (zero)
df.drop(0)

Unnamed: 0,idades,generos,nomes,sobrenomes
1,34,F,Ana,Silva
2,28,F,Lis,Costa
3,46,M,Pedro,Gates
4,77,M,Lucas,Pereira
5,20,F,Maria,Costa
6,22,F,Carmen,Brasil
7,45,M,Raul,Vaz
8,67,F,Maria,Paz


In [None]:
# Removendo linhas com base em um filtro
filtro = df['idades'] > 40

# A instrução df[filtro].index retorna uma lista de índices que correspondem ao filtro.
# Então, essa lista é passada para o método drop remover cada linha correspondente.
df.drop(index=df[filtro].index)

Unnamed: 0,idades,generos,nomes,sobrenomes
0,19,M,José,Silva
1,34,F,Ana,Silva
2,28,F,Lis,Costa
5,20,F,Maria,Costa
6,22,F,Carmen,Brasil


# Cálculos sobre colunas

In [None]:
# Contando o número de células existentes para determinada coluna
print(df['nomes'].count())
print(df['idades'].count())

9
9


In [None]:
# nNúmero de elementos únicos das colunas nomes e idades
print(df['nomes'].nunique())
print(df['idades'].nunique())

8
9


In [None]:
# Soma dos elementos de uma coluna'
print(f"Soma: {df['idades'].sum()}")

Soma: 358


In [None]:
# Valor mínimo e máximo de uma coluna
print(f"Mínimo: {df['idades'].min()}")
print(f"Máximo: {df['idades'].max()}")

Mínimo: 19
Máximo: 77


In [None]:
# Média e mediana
print(f"Média: {df['idades'].mean()}")
print(f"Mediana: {df['idades'].median()}")

Média: 39.77777777777778
Mediana: 34.0


In [None]:
# Contando valores
df['generos'].value_counts()

Unnamed: 0_level_0,count
generos,Unnamed: 1_level_1
F,5
M,4


In [None]:
# Contando valores
df['nomes'].value_counts()

Unnamed: 0_level_0,count
nomes,Unnamed: 1_level_1
Maria,2
José,1
Ana,1
Lis,1
Pedro,1
Lucas,1
Carmen,1
Raul,1
