## bibliotecas

In [2]:
import pandas as pd 

## Importação bases de dados

In [3]:
df = pd.read_csv('./data/teste.csv')

df.head() 

#df.to_parquet('./data/teste.parquet', index=False)
results = pd.read_parquet('./data/results.parquet') # base de dados em uma versão mais leve que xlsx ou csv, 
bios = pd.read_csv('./data/bios.csv')

## Metodos básicos de seleção de dados

In [None]:
display(df.loc[0:5, ['unidades vendidas', 'dia']]) # permite localizar pela label do index

display(df.iloc[0:5]) #somente index numerico como 0,1,2,3 alem de excluir o ultimo valor

display(df.at[0, "café"]) # loc porem somente para um valor 
display(df.iat[0,0]) # iloc porem somente para um valor

In [None]:
# como definir valores de uma linha e coluna 
display(df.head())
df.loc[0:5, ["unidades vendidas"]] = 20
display(df.head())


## Ordenação de dados

In [None]:
# utilizando somente um parametro para o sort, neste caso é um numero entao vai ser por ordem de valor
# ascending=True diz que vai ser do menor pro maior, se for False o contrario
display(df.sort_values("unidades vendidas", ascending=True))

# é possivel utilizar mais de um criterio no sort, neste caso unidades e cafe
# unidades sendo numerico vai ser por valor, ja no cafe como é uma string é alfabética
# no ascending é passado uma lista que representa respectivamente como cada criterio vai ser organizado
display(df.sort_values(["unidades vendidas", "café"],ascending=[0,1]))



## Filtragem de dados

#### Com loc e seleção personalizada

In [None]:
# filtrando por valor de uma coluna, retorna todas as linhas onde height_cm é maior igual a 200
display(bios.loc[bios["height_cm"] >= 200,["name", "height_cm"]]) # loc é [index, columns]

# loc nao é obrigatorio bios[bios["height_cm"] >= 200][["name", "height_cm"]] traz o mesmo resultado

# é possível passar mais de uma condição, é necessario colocar entre () cada uma
# a sintaxe ficaria (condição 1) & ou | (condição 2), & para and = dois lados verdadeira e | para or = 1 lado verdadeiro é suficiente
display(bios[(bios["height_cm"] >= 200) & (bios["born_country"] == "BRA")])


### Utilizando metodos de string e regex

In [None]:
# traz todas as linhas onde o campo nome == joão ignorando case
display(bios[bios['name'].str.contains('joão', case=False)])

# traz todas as linhas onde o campo nome começa com "Maria" (case insensitive)
# O parâmetro na=False faz com que valores nulos (NaN) sejam tratados como False na filtragem, linhas onde 'name' é NaN não serão selecionadas.
display(bios[bios['name'].str.startswith('Maria', na=False)])

# traz todas as linhas onde o campo nome termina com "son" (case insensitive)
display(bios[bios['name'].str.endswith('son', na=False)])

# traz todas as linhas onde o campo nome contém apenas letras (sem números ou caracteres especiais)
display(bios[bios['name'].str.match(r'^[A-Za-z\s]+$', na=False)])

# traz todas as linhas onde o campo nome contém "da Silva" usando regex, ignorando case
display(bios[bios['name'].str.contains(r'da\s+silva', case=False, regex=True)])

# traz todas as linhas onde o campo nome possui exatamente dois nomes (dois grupos de letras separados por espaço)
display(bios[bios['name'].str.match(r'^[A-Za-z]+ [A-Za-z]+$', na=False)])



In [None]:
# metodo isin serve para checar se existe um valor dentro de uma lista de valores
display(bios[bios["born_country"].isin(['USA', 'FRA', 'BRA', 'GBR'])])

# é possivel adicionar mais imposições junto como nesse caso onde somente nome com j nos paises da lista
display(bios[bios["born_country"].isin(['USA', 'FRA', 'BRA', 'GBR']) & (bios['name'].str.startswith('J'))])

### query


In [6]:
bios.query('born_country == "BRA" and born_city == "Rio de Janeiro"')

Unnamed: 0,athlete_id,name,born_date,born_city,born_region,born_country,NOC,height_cm,weight_kg,died_date
143,144,Marc-Kevin Goellner,1970-09-22,Rio de Janeiro,Rio de Janeiro,BRA,Germany,196.0,85.0,
354,355,Jorge Azevedo,1950-05-10,Rio de Janeiro,Rio de Janeiro,BRA,Brazil,168.0,70.0,
355,356,Renato Dutra e Mello,1955-05-12,Rio de Janeiro,Rio de Janeiro,BRA,Brazil,167.0,72.0,
2836,2848,Coroa,1906-01-15,Rio de Janeiro,Rio de Janeiro,BRA,Brazil,,,1963-01-01
5097,5116,Baiano,1912-09-27,Rio de Janeiro,Rio de Janeiro,BRA,Brazil,,,1956-07-17
...,...,...,...,...,...,...,...,...,...,...
137878,141260,Lucas Verthein,1998-05-12,Rio de Janeiro,Rio de Janeiro,BRA,Brazil,190.0,85.0,
137900,141282,Alan Souza,1994-03-21,Rio de Janeiro,Rio de Janeiro,BRA,Brazil,199.0,80.0,
137902,141284,Isac Viana,1990-12-13,Rio de Janeiro,Rio de Janeiro,BRA,Brazil,205.0,99.0,
142408,146015,Bárbara Timo,1991-03-10,Rio de Janeiro,Rio de Janeiro,BRA,Portugal,168.0,70.0,


## adicionar e remover colunas


In [None]:
# Adiciona uma nova coluna chamada 'preço' ao DataFrame df e define todos os valores dessa coluna como 10.
# O operador de atribuição (=) cria a coluna se ela não existir ou sobrescreve se já existir.
# Sintaxe: df['nome_coluna'] = valor ou expressão
df['preço'] = 10

df

In [None]:
# Importa a biblioteca numpy para operações numéricas
import numpy as np

# Cria uma nova coluna 'novo_preço' no DataFrame df.
# np.where permite definir valores diferentes para a coluna com base em uma condição.
# Aqui, se o valor da coluna 'café' for 'expresso', o preço será 8.90; caso contrário, será 7.50.
df['novo_preço'] = np.where(df['café'] == 'expresso', 8.90, 7.50)

df

In [None]:
# Remove a coluna 'preço' do DataFrame df.
# O parâmetro inplace=True faz com que a alteração seja feita diretamente no DataFrame original.
df.drop(columns=['preço'], inplace=True)

df

In [None]:
# Cria uma nova coluna chamada 'lucro' multiplicando as colunas 'unidades vendidas' e 'novo_preço'.
# Isso calcula o lucro de cada linha com base na quantidade vendida e no preço do produto.
df['lucro'] = df['unidades vendidas'] * df['novo_preço']

df

In [None]:
# Renomeia a coluna 'novo_preço' para 'preço' no DataFrame df.
# O parâmetro inplace=True faz a alteração diretamente no DataFrame original.
df.rename(columns={'novo_preço':'preço'}, inplace=True)


In [None]:
# Cria uma cópia do DataFrame bios para evitar alterações no original.
bios_new = bios.copy()

In [None]:
# Cria uma nova coluna chamada 'first_name' contendo apenas o primeiro nome de cada pessoa.
# O método str.split(' ') divide o nome pelo espaço e str[0] seleciona o primeiro elemento da lista.
bios_new['first_name'] = bios_new['name'].str.split(' ').str[0]

bios_new

In [None]:
# Converte a coluna 'born_date' para o tipo datetime e armazena em uma nova coluna 'born_datetime'.
# Isso facilita operações com datas, como extração de ano, mês, etc.
bios_new['born_datetime'] = pd.to_datetime(bios_new['born_date'])

bios_new

In [None]:
# Cria uma nova coluna 'born_year' extraindo o ano da coluna 'born_datetime'.
# O atributo .dt.year retorna apenas o ano da data.
bios_new['born_year'] = bios_new['born_datetime'].dt.year

bios_new