<a href="https://colab.research.google.com/github/fabiobaroliveira/python_basico/blob/main/python_basico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Leitura e Escrita de Dados


# Lendo um arquivo CSV
# sep=',' é o padrão, mas pode ser alterado para ';' ou outro delimitador. [3, 17]
# header=0 significa que a primeira linha é o cabeçalho. [13]
# encoding='utf-8' é importante para evitar problemas com caracteres especiais. [13]
df_csv = pd.read_csv('seu_arquivo.csv', sep=',', header=0, encoding='utf-8')

# Lendo um arquivo Excel
# É necessário ter a biblioteca openpyxl instalada (pip install openpyxl). [16]
# sheet_name=0 lê a primeira aba. Pode ser o nome da aba também, ex: 'Vendas'. [10, 19]
df_excel = pd.read_excel('sua_planilha.xlsx', sheet_name='NomeDaAba')

# Lendo múltiplas abas de uma planilha de uma vez
# Retorna um dicionário onde as chaves são os nomes das abas e os valores são os DataFrames
dict_de_dfs = pd.read_excel('sua_planilha.xlsx', sheet_name=None)
df_aba1 = dict_de_dfs['Aba1']
df_aba2 = dict_de_dfs['Aba2']


In [None]:
# Escrevendo Arquivos

# Salvando um DataFrame em um arquivo CSV
# index=False evita que o índice do DataFrame seja salvo como uma coluna no arquivo. [1, 8]
df.to_csv('novo_arquivo.csv', index=False, sep=';', encoding='utf-8-sig')

# Salvando um DataFrame em um arquivo Excel
# Da mesma forma, index=False é geralmente recomendado. [9]
df.to_excel('nova_planilha.xlsx', sheet_name='Resultados', index=False)

# Salvando múltiplos DataFrames em abas diferentes de um mesmo arquivo Excel
with pd.ExcelWriter('relatorio_completo.xlsx') as writer:
    df_vendas.to_excel(writer, sheet_name='Vendas', index=False)
    df_clientes.to_excel(writer, sheet_name='Clientes', index=False)



In [None]:
# Inspeção Inicial do DataFrame

# Visualizar as 5 primeiras linhas
print(df.head())

# Visualizar as 5 últimas linhas
print(df.tail())

# Obter o número de linhas e colunas (formato: (linhas, colunas))
print(df.shape)

# Obter informações sobre as colunas, tipos de dados e valores não nulos
print(df.info())

# Obter estatísticas descritivas para colunas numéricas (média, desvio padrão, etc.)
print(df.describe())

# Listar os nomes das colunas
print(df.columns)

# Contar valores únicos em uma coluna específica (Series)
print(df['nome_da_coluna'].value_counts())


In [None]:
# Seleção e Filtragem de Dados (Slicing)

# Selecionar uma única coluna (retorna uma Series)
coluna_a = df['nome_da_coluna']

# Selecionar múltiplas colunas (retorna um novo DataFrame)
novo_df = df[['coluna_1', 'coluna_2', 'coluna_3']]

# Selecionar linhas por índice numérico (loc é baseado em rótulo, iloc em posição)
# Linhas de índice 0 a 4
primeiras_cinco_linhas = df.iloc[0:5]

# Selecionar uma linha específica pelo seu rótulo de índice
linha_especifica = df.loc['rotulo_do_indice']

# Filtragem baseada em condições
# Filtra o DataFrame para linhas onde o valor na 'coluna_x' é maior que 100
df_filtrado = df[df['coluna_x'] > 100]

# Múltiplas condições (& para 'E', | para 'OU')
df_filtrado_complexo = df[(df['coluna_x'] > 100) & (df['coluna_y'] == 'Categoria A')]

# Filtrar usando o método .query() (alternativa mais legível)
df_query = df.query('coluna_x > 100 and coluna_y == "Categoria A"')


In [None]:
# Manipulação e Limpeza de Dados

# Criar uma nova coluna
df['nova_coluna'] = df['coluna_existente_1'] * df['coluna_existente_2']

# Aplicar uma função a uma coluna
def minha_funcao(valor):
    return valor * 2
df['coluna_transformada'] = df['coluna_original'].apply(minha_funcao)

# Renomear colunas
df = df.rename(columns={'nome_antigo': 'nome_novo', 'outro_nome_antigo': 'outro_nome_novo'})

# Remover colunas
# axis=1 indica que estamos removendo uma coluna, não uma linha
df = df.drop('coluna_para_remover', axis=1)

# Lidar com valores ausentes (NaN)
# Verificar valores ausentes
print(df.isnull().sum())

# Remover linhas com qualquer valor ausente
df_sem_na = df.dropna()

# Preencher valores ausentes com um valor específico (ex: 0 ou a média)
df_preenchido = df.fillna(0)
media_coluna = df['coluna_com_na'].mean()
df['coluna_com_na'] = df['coluna_com_na'].fillna(media_coluna)


In [None]:
# Tratamento de Strings (Textos)

# Exemplo de DataFrame
data = {'produto': ['  Produto A  ', 'produto b', 'PRODUTO C', 'Produto D (novo)', 'Produto E - 110V'],
        'codigo': ['SKU-001', 'sku-002', 'SKU-003', 'sku-004', 'SKU-005']}
df_texto = pd.DataFrame(data)

In [None]:
# Limpeza e Padronização

# Converter para minúsculas
df_texto['produto_lower'] = df_texto['produto'].str.lower()

# Converter para maiúsculas
df_texto['produto_upper'] = df_texto['produto'].str.upper()

# Remover espaços em branco no início e no fim
df_texto['produto_stripped'] = df_texto['produto'].str.strip()

# Remover apenas espaços à esquerda (lstrip) ou à direita (rstrip)
df_texto['produto_lstrip'] = df_texto['produto'].str.lstrip()
df_texto['produto_rstrip'] = df_texto['produto'].str.rstrip()

In [None]:
# Substituição (Replace)

# Substituir uma substring por outra
# Útil para corrigir erros de digitação ou padronizar termos
df_texto['codigo_padronizado'] = df_texto['codigo'].str.replace('sku-', 'SKU-')

# A substituição também pode usar expressões regulares (regex)
# Exemplo: remover todos os dígitos de uma string
df_texto['produto_sem_numeros'] = df_texto['produto'].str.replace(r'\d+', '', regex=True)


In [None]:
# Extração e Verificação de Padrões

# Verificar se a string contém uma substring
# Retorna uma série de True/False, útil para filtros
contem_produto = df_texto['produto'].str.contains('Produto', case=False) # case=False ignora maiúsculas/minúsculas
print(df_texto[contem_produto])

# Verificar se a string começa com um padrão
comeca_com_sku = df_texto['codigo'].str.startswith('SKU')

# Verificar se a string termina com um padrão
termina_com_v = df_texto['produto'].str.endswith('V')

# Extrair partes de uma string usando expressões regulares (regex)
# Exemplo: extrair o que está dentro dos parênteses
df_texto['detalhe'] = df_texto['produto'].str.extract(r'\((.*?)\)')
# Resultado para 'Produto D (novo)' -> 'novo'


In [None]:
# Divisão de Strings (Split)

# Dividir uma string em uma lista com base em um delimitador
# Exemplo: separar 'Produto E - 110V' em 'Produto E' e '110V'
split_produto = df_texto['produto'].str.split(' - ')
print(split_produto)
# O resultado é uma Series de listas: [['  Produto A  '], ['produto b'], ..., ['Produto E', '110V']]

# Para expandir a lista em novas colunas, use expand=True
df_produto_split = df_texto['produto'].str.split(' - ', expand=True)
df_produto_split.columns = ['nome_base', 'especificacao'] # Renomeia as novas colunas
print(df_produto_split)

# Você pode então juntar essas novas colunas ao DataFrame original
df_final = pd.concat([df_texto, df_produto_split], axis=1)


In [4]:
# Outras Funções Úteis

# Obter o comprimento de cada string
df_texto['tamanho_produto'] = df_texto['produto'].str.len()

# Acessar um caractere por posição (slicing)
# Pega os 3 primeiros caracteres da coluna 'codigo'
df_texto['prefixo_codigo'] = df_texto['codigo'].str[:3]


In [None]:
# Agrupamento e Agregação (Group By)

# Agrupar por uma coluna e calcular a média de outras
media_por_categoria = df.groupby('coluna_categoria')['coluna_valor'].mean()

# Agrupar por múltiplas colunas e aplicar várias funções de agregação
agregado = df.groupby(['categoria_1', 'categoria_2']).agg(
    soma_valor=('coluna_valor', 'sum'),
    media_quantidade=('coluna_quantidade', 'mean'),
    contagem_eventos=('id_evento', 'count')
).reset_index() # .reset_index() transforma o resultado agrupado de volta em um DataFrame

print(agregado)


In [1]:
# Cruzamento de Dados (Merge e Join)

# Suponha que temos df1 e df2
# Merge (similar ao JOIN do SQL)
# 'inner': retorna apenas as linhas onde a chave de junção existe em ambos os DataFrames
df_merged = pd.merge(df1, df2, on='coluna_em_comum', how='inner')

# 'left': retorna todas as linhas de df1 e as correspondentes de df2
df_left_join = pd.merge(df1, df2, on='coluna_em_comum', how='left')

# 'outer': retorna todas as linhas de ambos os DataFrames
df_outer_join = pd.merge(df1, df2, on='coluna_em_comum', how='outer')



In [None]:
# Análise de Correlação

# Calcular a matriz de correlação entre todas as colunas numéricas
matriz_correlacao = df.corr(numeric_only=True)

print(matriz_correlacao)

# Para visualizar melhor, pode-se usar um mapa de calor (heatmap) com a biblioteca Seaborn
# import seaborn as sns
# import matplotlib.pyplot as plt
# sns.heatmap(matriz_correlacao, annot=True, cmap='coolwarm')
# plt.show()


In [None]:
# Convertendo Colunas para o Tipo datetime

# Suponha um DataFrame com uma coluna 'data_pedido' como string
df['data_pedido'] = pd.to_datetime(df['data_pedido'])

# Se o formato da data não for o padrão (YYYY-MM-DD), você pode especificar o formato
# Exemplo para datas no formato brasileiro 'DD/MM/YYYY'
df['data_venda'] = pd.to_datetime(df['data_venda'], format='%d/%m/%Y')

# Em caso de erros na conversão, você pode forçá-los a se tornarem NaT (Not a Time)
df['data_evento'] = pd.to_datetime(df['data_evento'], errors='coerce')
# 'coerce' é útil para identificar e tratar datas mal formatadas.


In [None]:
# Extraindo Componentes de Datas com o Acessador .dt

# Certifique-se que a coluna é do tipo datetime
df['data'] = pd.to_datetime(df['data'])

# Extraindo componentes
df['ano'] = df['data'].dt.year
df['mes'] = df['data'].dt.month
df['dia'] = df['data'].dt.day
df['dia_da_semana'] = df['data'].dt.dayofweek  # Segunda=0, Domingo=6
df['nome_dia_semana'] = df['data'].dt.day_name() # Retorna o nome do dia (ex: 'Monday')
df['semana_do_ano'] = df['data'].dt.isocalendar().week
df['trimestre'] = df['data'].dt.quarter

# Formatar a data de volta para uma string em um formato específico
df['data_formatada'] = df['data'].dt.strftime('%d-%m-%Y') # Formato DD-MM-YYYY


In [None]:
# Filtrando por Datas

# Definindo a coluna de data como o índice do DataFrame (muito comum em séries temporais)
df_temporal = df.set_index('data')

# Filtrar por um ano específico
vendas_2023 = df_temporal['2023']

# Filtrar por um mês específico de um ano
vendas_junho_2023 = df_temporal['2023-06']

# Filtrar por um intervalo de datas (slice)
vendas_q1_2024 = df_temporal['2024-01-01':'2024-03-31']

# Também funciona sem definir a data como índice
data_inicio = pd.to_datetime('2024-01-01')
data_fim = pd.to_datetime('2024-03-31')
df_filtrado = df[(df['data'] >= data_inicio) & (df['data'] <= data_fim)]


In [None]:
# Reamostragem (Resampling)

# Certifique-se que o índice é do tipo datetime
df_temporal.index = pd.to_datetime(df_temporal.index)

# Reamostrar dados diários para obter a soma mensal de vendas
vendas_mensais = df_temporal['valor_venda'].resample('M').sum()
# 'M' significa frequência mensal (Month End). Outras opções:
# 'D' -> Dia
# 'W' -> Semana
# 'Q' -> Trimestre (Quarter End)
# 'Y' -> Ano (Year End)

# Reamostrar para obter a média trimestral
media_trimestral = df_temporal['valor_venda'].resample('Q').mean()

print(vendas_mensais)


In [None]:
# Janelas Móveis (Rolling Windows)

# Calcular a média móvel de 7 dias para a coluna 'valor_venda'
df_temporal['media_movel_7d'] = df_temporal['valor_venda'].rolling(window=7).mean()

# Calcular a soma móvel dos últimos 30 dias
df_temporal['soma_movel_30d'] = df_temporal['valor_venda'].rolling(window=30).sum()

# O argumento min_periods define o número mínimo de observações na janela para ter um valor
df_temporal['media_movel_7d_min_3'] = df_temporal['valor_venda'].rolling(window=7, min_periods=3).mean()
