Skip to content

TodiBoas/python-jupyter-notebook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Meu Portfólio de projetos Python com o Jupyter Notebook pelo curso de Ciência de Dados da TripleTen

Projeto 1. Avaliação e Preparação de Dados de E-Commerce

  • Tema: Fundamentos de manipulação e validação de dados em Python.
  • Objetivo: Avaliar a qualidade de uma amostra de dados de clientes de uma empresa e-commerce('Store 1') e implementar rotinas de pré-processamento.
  • Técnicas/Ferramentas:
  • Manipulação de Strings(.strip(), .replace(), .split()) para padronizar nomes de usuários.
  • Conversão de tipos de dados (Ex.: float para int) e tratamento de valores não numéricos usando blocos try-except.
  • Uso de loops (for) e condicionais (while) para normalização de dados (Ex.: conversão de textos para mnúsculas) e cálculo de métricas de consumo (total, mínimo e máximo gasto).
  • Destaque: Demonstra proficiência em lidar com sujeira e inconsistência de dados do mundo real usando Python puro e lógica de programação.

Projeto 2. Análise Exploratória de Dados (EDA) de Música

  • Tema: Análise do comportamento de usuários de um serviço de streaming de música e teste de hipóteses.
  • Objetivo: Comparar as preferências musicais e a atividade de streaming entre os habitantes de duas cidades (Springfield e Shelbyville).
  • Técnicas/Ferramentas:
  • Uso extensivo do pandas para ingestão, inspeção inicial (.info(), .head()) e limpeza de dados (padronização de cabeçalhos, tratamento de valores ausentes).
  • Aplicação de lógica para substituir dados faltantes nas colunas track, artist e genre com o valor 'unknown'.
  • Realização de análise estatística para validar a hipótese de que a atividade dos usuários é diferente dependendo do dia da semana e da cidade.
  • Destaque: Foco em EDA estruturada e metodologia de teste de hipótese para extrair insights de negócio.

Projeto 3. Preparação de Dados Multi-tabela de E-commerce

  • Tema: Pré-processamento e agregação de dados complexos de um serviço de entrega de supermercado.
  • Objetivo: Limpar e combinar cinco tabelas de dados do Instacart (pedidos, produtos, corredores e departamentos) para criar um conjunto de dados pronto para análise.
  • Técnicas/Ferramentas:
  • Leitura de múltiplos arquivos CSV com separador não padrão (sep=';').
  • Tratamento robusto de duplicatas em diferentes DataFrames (Ex.: instacart_orders, products).
  • Identificação e tratamento de valores ausentes significativos (Ex.: preenchimento de days_since_prior_order para identificar o primeiro pedido).
  • Combinação eficiente de múltiplas tabelas usando a função pd.merge() com junção outer para preservar todos os dados.
  • Destaque: Habilidade em ETL (Extract, Transform, Load) e em lidar com a complexidade de bases de dados relacionais.

Projeto 4. Análise de Receita de Planos de Telecomunicações

  • Tema: Análise do comportamento do cliente para determinar a rentabilidade de diferentes planos de serviço.
  • Objetivo: Comparar os planos pré-pagos 'Surf' e 'Ultimate' da operadora Megaline, calculando a receita mensal por cliente e realizando análises estatísticas sobre o uso.
  • Técnicas/Ferramentas:
  • Pré-processamento de dados de uso (minutos, mensagens, internet) e transformação de colunas de data para o tipo datetime.
  • Criação de uma função personalizada com max(0, ...) e np.ceil() para calcular a receita excedente com base nos limites dos planos (minutos arredondados para cima e internet por GB consumido).
  • Uso de gráficos de barras (sns.barplot) e histogramas (sns.histplot) para visualizar e comparar a distribuição de consumo e a receita total entre os planos.
  • Destaque: Aplicação prática de agregação de dados e cálculo de métricas de receita (KPIs) para tomada de decisão de marketing.

Projeto 6. Análise e Teste de Hipóteses sobre Vendas de Jogos

  • Tema: Análise de um grande conjunto de dados de vendas de videogames para identificar padrões e tendências.
  • Objetivo: Determinar as plataformas e gêneros mais lucrativos, e utilizar testes estatísticos para comparar as classificações de usuários.
  • Técnicas/Ferramentas:
  • Limpeza e enriquecimento de um dataset real (Kaggle), incluindo o cálculo da coluna total_sales.
  • Análise temporal para identificar o período de maior atividade da indústria (picos de lançamento de jogos nos anos de 2008 e 2009).
  • Realização de Testes T de Student (scipy.stats.ttest_ind) para testar a hipótese de que as classificações médias de usuários são diferentes entre gêneros populares (e.g., Ação vs. Esportes).
  • Destaque: Demonstração de todo o ciclo de vida da análise de dados: limpeza, EDA, visualização e testes estatísticos formais.

About

projetos do curso de Ciência de Dados da TripleTen

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published