## bibliotecas

In [None]:
import pandas as pd 
import numpy as np

## Importação bases de dados

In [None]:
df = pd.read_csv('./data/teste.csv')

df.head() 

#df.to_parquet('./data/teste.parquet', index=False)
results = pd.read_parquet('./data/results.parquet') # base de dados em uma versão mais leve que xlsx ou csv, 
bios = pd.read_csv('./data/bios.csv')

## Metodos básicos de seleção de dados

In [None]:
display(df.loc[0:5, ['unidades vendidas', 'dia']]) # permite localizar pela label do index

display(df.iloc[0:5]) #somente index numerico como 0,1,2,3 alem de excluir o ultimo valor

display(df.at[0, "café"]) # loc porem somente para um valor 
display(df.iat[0,0]) # iloc porem somente para um valor

In [None]:
# como definir valores de uma linha e coluna 
display(df.head())
df.loc[0:5, ["unidades vendidas"]] = 20
display(df.head())


## Ordenação de dados

In [None]:
# utilizando somente um parametro para o sort, neste caso é um numero entao vai ser por ordem de valor
# ascending=True diz que vai ser do menor pro maior, se for False o contrario
display(df.sort_values("unidades vendidas", ascending=True))

# é possivel utilizar mais de um criterio no sort, neste caso unidades e cafe
# unidades sendo numerico vai ser por valor, ja no cafe como é uma string é alfabética
# no ascending é passado uma lista que representa respectivamente como cada criterio vai ser organizado
display(df.sort_values(["unidades vendidas", "café"],ascending=[0,1]))



## Filtragem de dados

#### Com loc e seleção personalizada

In [None]:
# filtrando por valor de uma coluna, retorna todas as linhas onde height_cm é maior igual a 200
display(bios.loc[bios["height_cm"] >= 200,["name", "height_cm"]]) # loc é [index, columns]

# loc nao é obrigatorio bios[bios["height_cm"] >= 200][["name", "height_cm"]] traz o mesmo resultado

# é possível passar mais de uma condição, é necessario colocar entre () cada uma
# a sintaxe ficaria (condição 1) & ou | (condição 2), & para and = dois lados verdadeira e | para or = 1 lado verdadeiro é suficiente
display(bios[(bios["height_cm"] >= 200) & (bios["born_country"] == "BRA")])


### Utilizando metodos de string e regex

In [None]:
# traz todas as linhas onde o campo nome == joão ignorando case
display(bios[bios['name'].str.contains('joão', case=False)])

# traz todas as linhas onde o campo nome começa com "Maria" (case insensitive)
# O parâmetro na=False faz com que valores nulos (NaN) sejam tratados como False na filtragem, linhas onde 'name' é NaN não serão selecionadas.
display(bios[bios['name'].str.startswith('Maria', na=False)])

# traz todas as linhas onde o campo nome termina com "son" (case insensitive)
display(bios[bios['name'].str.endswith('son', na=False)])

# traz todas as linhas onde o campo nome contém apenas letras (sem números ou caracteres especiais)
display(bios[bios['name'].str.match(r'^[A-Za-z\s]+$', na=False)])

# traz todas as linhas onde o campo nome contém "da Silva" usando regex, ignorando case
display(bios[bios['name'].str.contains(r'da\s+silva', case=False, regex=True)])

# traz todas as linhas onde o campo nome possui exatamente dois nomes (dois grupos de letras separados por espaço)
display(bios[bios['name'].str.match(r'^[A-Za-z]+ [A-Za-z]+$', na=False)])



In [None]:
# metodo isin serve para checar se existe um valor dentro de uma lista de valores
display(bios[bios["born_country"].isin(['USA', 'FRA', 'BRA', 'GBR'])])

# é possivel adicionar mais imposições junto como nesse caso onde somente nome com j nos paises da lista
display(bios[bios["born_country"].isin(['USA', 'FRA', 'BRA', 'GBR']) & (bios['name'].str.startswith('J'))])

### query


In [None]:
bios.query('born_country == "BRA" and born_city == "Rio de Janeiro"')

## adicionar e remover colunas


In [None]:
# Adiciona uma nova coluna chamada 'preço' ao DataFrame df e define todos os valores dessa coluna como 10.
# O operador de atribuição (=) cria a coluna se ela não existir ou sobrescreve se já existir.
# Sintaxe: df['nome_coluna'] = valor ou expressão
df['preço'] = 10

df

In [None]:
# Cria uma nova coluna 'novo_preço' no DataFrame df.
# np.where permite definir valores diferentes para a coluna com base em uma condição.
# Aqui, se o valor da coluna 'café' for 'expresso', o preço será 8.99; caso contrário, será 7.59.
df['novo_preço'] = np.where(df['café'] == 'expresso', 8.99, 7.59)

df

In [None]:
# Remove a coluna 'preço' do DataFrame df.
# O parâmetro inplace=True faz com que a alteração seja feita diretamente no DataFrame original.
df.drop(columns=['preço'], inplace=True)

df

In [None]:
# Cria uma nova coluna chamada 'lucro' multiplicando as colunas 'unidades vendidas' e 'novo_preço'.
# Isso calcula o lucro de cada linha com base na quantidade vendida e no preço do produto.
df['lucro'] = df['unidades vendidas'] * df['novo_preço']

df

In [None]:
# Renomeia a coluna 'novo_preço' para 'preço' no DataFrame df.
# O parâmetro inplace=True faz a alteração diretamente no DataFrame original.
df.rename(columns={'novo_preço':'preço'}, inplace=True)


In [None]:
# Cria uma cópia do DataFrame bios para evitar alterações no original.
bios_new = bios.copy()

In [None]:
# Cria uma nova coluna chamada 'first_name' contendo apenas o primeiro nome de cada pessoa.
# O método str.split(' ') divide o nome pelo espaço e str[0] seleciona o primeiro elemento da lista.
bios_new['first_name'] = bios_new['name'].str.split(' ').str[0]

bios_new

In [None]:
# Converte a coluna 'born_date' para o tipo datetime e armazena em uma nova coluna 'born_datetime'.
# Isso facilita operações com datas, como extração de ano, mês, etc.
bios_new['born_datetime'] = pd.to_datetime(bios_new['born_date'])

bios_new

In [None]:
# Cria uma nova coluna 'born_year' extraindo o ano da coluna 'born_datetime'.
# O atributo .dt.year retorna apenas o ano da data.
bios_new['born_year'] = bios_new['born_datetime'].dt.year

bios_new

In [None]:
bios['height_category'] = bios['height_cm'].apply(lambda x: 'Short' if x< 165 else('Average' if x < 185 else 'Tall'))

bios

In [None]:
def categorize(row):
    if pd.isna(row['height_cm']) or pd.isna(row['weight_kg']):
        return 'not enough data'
    elif row['height_cm'] <= 175 and row['weight_kg'] <= 70:
        return 'Lightweight'
    elif row['height_cm'] <= 185 and row['weight_kg'] <= 80:
        return 'Midleweight'
    else:
        return "Heavweight"
    
bios['category'] = bios.apply(categorize, axis=1)

bios

## Merging & Concatenating

In [None]:
# Lê o arquivo 'noc_regions.csv' e armazena o conteúdo no DataFrame nocs.
# Este arquivo contém informações sobre os países e regiões dos atletas.
nocs = pd.read_csv('./data/noc_regions.csv')

# Exibe as primeiras linhas do DataFrame para visualização rápida dos dados.
nocs.head()

In [None]:
# Realiza um merge (junção) entre os DataFrames bios e nocs.
# A junção é feita usando a coluna 'born_country' de bios e 'NOC' de nocs.
# O parâmetro how='left' garante que todos os registros de bios sejam mantidos, mesmo que não haja correspondência em nocs.
bios_new = pd.merge(bios, nocs, left_on='born_country', right_on='NOC', how='left')

# Exibe as primeiras linhas do novo DataFrame resultante do merge.
bios_new.head()

In [None]:
# Renomeia a coluna 'region' para 'born_country_full' para facilitar a identificação do país completo.
bios_new.rename(columns={'region': 'born_country_full'}, inplace=True)

# Exibe as primeiras linhas do DataFrame após a renomeação da coluna.
bios_new.head()

In [None]:
# Filtra os atletas nascidos no Brasil e nos EUA, criando cópias dos DataFrames.
bra = bios[bios['born_country']== 'BRA'].copy()
usa = bios[bios['born_country']== 'USA'].copy()

# Concatena os DataFrames bra e usa em um novo DataFrame chamado new_df.
# O resultado é um DataFrame com atletas de ambos os países.
new_df = pd.concat([bra,usa])

# Exibe o DataFrame concatenado.
new_df

In [None]:
# Realiza um merge entre os DataFrames results e bios usando a coluna 'athlete_id'.
# O parâmetro how='left' garante que todos os registros de results sejam mantidos.
combined_df = pd.merge(results, bios, on='athlete_id', how='left')

# Exibe o DataFrame resultante do merge.
combined_df

## Valores vazios

In [None]:
# Define valores ausentes (NaN) nas linhas 2 e 3 da coluna 'unidades vendidas'.
# Isso é útil para simular ou tratar dados faltantes em análises.
df.loc[[2,3], 'unidades vendidas'] = np.nan

In [None]:
# Preenchimento de valores ausentes na coluna 'unidades vendidas'.
# O método interpolate() preenche os valores NaN com base em uma interpolação linear dos valores vizinhos.
# Também é possível usar fillna() para preencher com a média, mediana ou outro valor.
#df.fillna(round(df['unidades vendidas'].mean()))

df['unidades vendidas'] = df['unidades vendidas'].interpolate()

df.head()

In [None]:
# Remove as linhas do DataFrame onde a coluna 'unidades vendidas' possui valores ausentes (NaN).
# Útil para análises que exigem apenas dados completos.
df.dropna(subset=['unidades vendidas'])

In [None]:
# Filtra e exibe apenas as linhas onde 'unidades vendidas' é ausente (NaN).
df[df['unidades vendidas'].isna()]

# Filtra e exibe apenas as linhas onde 'unidades vendidas' NÃO é ausente (não é NaN).
df[df['unidades vendidas'].notna()]

## Agregação

In [None]:
bios['born_city'].value_counts().iloc[:5]

In [None]:
bios[bios['born_country'] == 'BRA']['born_city'].value_counts()

In [None]:
df.groupby(['café'])['unidades vendidas'].sum()

In [None]:
df.groupby(['café', 'dia']).agg({'unidades vendidas': 'sum', 'preço': 'mean'})

In [None]:
pivot = df.pivot(columns='café', index='dia', values='lucro')

pivot

In [None]:
pivot.sum(axis=1)

In [None]:
bios['born_date'] = pd.to_datetime(bios['born_date'])

bios.groupby(bios['born_date'].dt.year)['name'].count().reset_index().sort_values('name', ascending=False)

In [None]:
bios['born_date'] = pd.to_datetime(bios['born_date'])
bios['month_born'] = bios['born_date'].dt.month
bios['year_born'] = bios['born_date'].dt.year
bios.groupby([bios['year_born'],bios['month_born']])['name'].count().reset_index().sort_values('name', ascending=False)