- Tema: Fundamentos de manipulação e validação de dados em Python.
- Objetivo: Avaliar a qualidade de uma amostra de dados de clientes de uma empresa e-commerce('Store 1') e implementar rotinas de pré-processamento.
- Técnicas/Ferramentas:
- Manipulação de Strings(.strip(), .replace(), .split()) para padronizar nomes de usuários.
- Conversão de tipos de dados (Ex.: float para int) e tratamento de valores não numéricos usando blocos try-except.
- Uso de loops (for) e condicionais (while) para normalização de dados (Ex.: conversão de textos para mnúsculas) e cálculo de métricas de consumo (total, mínimo e máximo gasto).
- Destaque: Demonstra proficiência em lidar com sujeira e inconsistência de dados do mundo real usando Python puro e lógica de programação.
- Tema: Análise do comportamento de usuários de um serviço de streaming de música e teste de hipóteses.
- Objetivo: Comparar as preferências musicais e a atividade de streaming entre os habitantes de duas cidades (Springfield e Shelbyville).
- Técnicas/Ferramentas:
- Uso extensivo do pandas para ingestão, inspeção inicial (.info(), .head()) e limpeza de dados (padronização de cabeçalhos, tratamento de valores ausentes).
- Aplicação de lógica para substituir dados faltantes nas colunas track, artist e genre com o valor 'unknown'.
- Realização de análise estatística para validar a hipótese de que a atividade dos usuários é diferente dependendo do dia da semana e da cidade.
- Destaque: Foco em EDA estruturada e metodologia de teste de hipótese para extrair insights de negócio.
- Tema: Pré-processamento e agregação de dados complexos de um serviço de entrega de supermercado.
- Objetivo: Limpar e combinar cinco tabelas de dados do Instacart (pedidos, produtos, corredores e departamentos) para criar um conjunto de dados pronto para análise.
- Técnicas/Ferramentas:
- Leitura de múltiplos arquivos CSV com separador não padrão (sep=';').
- Tratamento robusto de duplicatas em diferentes DataFrames (Ex.: instacart_orders, products).
- Identificação e tratamento de valores ausentes significativos (Ex.: preenchimento de days_since_prior_order para identificar o primeiro pedido).
- Combinação eficiente de múltiplas tabelas usando a função pd.merge() com junção outer para preservar todos os dados.
- Destaque: Habilidade em ETL (Extract, Transform, Load) e em lidar com a complexidade de bases de dados relacionais.
- Tema: Análise do comportamento do cliente para determinar a rentabilidade de diferentes planos de serviço.
- Objetivo: Comparar os planos pré-pagos 'Surf' e 'Ultimate' da operadora Megaline, calculando a receita mensal por cliente e realizando análises estatísticas sobre o uso.
- Técnicas/Ferramentas:
- Pré-processamento de dados de uso (minutos, mensagens, internet) e transformação de colunas de data para o tipo datetime.
- Criação de uma função personalizada com max(0, ...) e np.ceil() para calcular a receita excedente com base nos limites dos planos (minutos arredondados para cima e internet por GB consumido).
- Uso de gráficos de barras (sns.barplot) e histogramas (sns.histplot) para visualizar e comparar a distribuição de consumo e a receita total entre os planos.
- Destaque: Aplicação prática de agregação de dados e cálculo de métricas de receita (KPIs) para tomada de decisão de marketing.
- Tema: Análise de um grande conjunto de dados de vendas de videogames para identificar padrões e tendências.
- Objetivo: Determinar as plataformas e gêneros mais lucrativos, e utilizar testes estatísticos para comparar as classificações de usuários.
- Técnicas/Ferramentas:
- Limpeza e enriquecimento de um dataset real (Kaggle), incluindo o cálculo da coluna total_sales.
- Análise temporal para identificar o período de maior atividade da indústria (picos de lançamento de jogos nos anos de 2008 e 2009).
- Realização de Testes T de Student (scipy.stats.ttest_ind) para testar a hipótese de que as classificações médias de usuários são diferentes entre gêneros populares (e.g., Ação vs. Esportes).
- Destaque: Demonstração de todo o ciclo de vida da análise de dados: limpeza, EDA, visualização e testes estatísticos formais.