## bibliotecas

In [2]:
import pandas as pd 

## Importação bases de dados

In [3]:
df = pd.read_csv('./data/teste.csv')

df.head() 

#df.to_parquet('./data/teste.parquet', index=False)
results = pd.read_parquet('./data/results.parquet') # base de dados em uma versão mais leve que xlsx ou csv, 
bios = pd.read_csv('./data/bios.csv')

## Metodos básicos de seleção de dados

In [None]:
display(df.loc[0:5, ['unidades vendidas', 'dia']]) # permite localizar pela label do index

display(df.iloc[0:5]) #somente index numerico como 0,1,2,3 alem de excluir o ultimo valor

display(df.at[0, "café"]) # loc porem somente para um valor 
display(df.iat[0,0]) # iloc porem somente para um valor

In [None]:
# como definir valores de uma linha e coluna 
display(df.head())
df.loc[0:5, ["unidades vendidas"]] = 20
display(df.head())


## Ordenação de dados

In [None]:
# utilizando somente um parametro para o sort, neste caso é um numero entao vai ser por ordem de valor
# ascending=True diz que vai ser do menor pro maior, se for False o contrario
display(df.sort_values("unidades vendidas", ascending=True))

# é possivel utilizar mais de um criterio no sort, neste caso unidades e cafe
# unidades sendo numerico vai ser por valor, ja no cafe como é uma string é alfabética
# no ascending é passado uma lista que representa respectivamente como cada criterio vai ser organizado
display(df.sort_values(["unidades vendidas", "café"],ascending=[0,1]))



## Filtragem de dados

#### Com loc e seleção personalizada

In [None]:
# filtrando por valor de uma coluna, retorna todas as linhas onde height_cm é maior igual a 200
display(bios.loc[bios["height_cm"] >= 200,["name", "height_cm"]]) # loc é [index, columns]

# loc nao é obrigatorio bios[bios["height_cm"] >= 200][["name", "height_cm"]] traz o mesmo resultado

# é possível passar mais de uma condição, é necessario colocar entre () cada uma
# a sintaxe ficaria (condição 1) & ou | (condição 2), & para and = dois lados verdadeira e | para or = 1 lado verdadeiro é suficiente
display(bios[(bios["height_cm"] >= 200) & (bios["born_country"] == "BRA")])


### Utilizando metodos de string e regex

In [None]:
# traz todas as linhas onde o campo nome == joão ignorando case
display(bios[bios['name'].str.contains('joão', case=False)])

# traz todas as linhas onde o campo nome começa com "Maria" (case insensitive)
# O parâmetro na=False faz com que valores nulos (NaN) sejam tratados como False na filtragem, linhas onde 'name' é NaN não serão selecionadas.
display(bios[bios['name'].str.startswith('Maria', na=False)])

# traz todas as linhas onde o campo nome termina com "son" (case insensitive)
display(bios[bios['name'].str.endswith('son', na=False)])

# traz todas as linhas onde o campo nome contém apenas letras (sem números ou caracteres especiais)
display(bios[bios['name'].str.match(r'^[A-Za-z\s]+$', na=False)])

# traz todas as linhas onde o campo nome contém "da Silva" usando regex, ignorando case
display(bios[bios['name'].str.contains(r'da\s+silva', case=False, regex=True)])

# traz todas as linhas onde o campo nome possui exatamente dois nomes (dois grupos de letras separados por espaço)
display(bios[bios['name'].str.match(r'^[A-Za-z]+ [A-Za-z]+$', na=False)])



In [None]:
# metodo isin serve para checar se existe um valor dentro de uma lista de valores
display(bios[bios["born_country"].isin(['USA', 'FRA', 'BRA', 'GBR'])])

# é possivel adicionar mais imposições junto como nesse caso onde somente nome com j nos paises da lista
display(bios[bios["born_country"].isin(['USA', 'FRA', 'BRA', 'GBR']) & (bios['name'].str.startswith('J'))])