Meu Portfólio de projetos Python com o Jupyter Notebook pelo curso de Ciência de Dados da TripleTen

Projeto 1. Avaliação e Preparação de Dados de E-Commerce

Tema: Fundamentos de manipulação e validação de dados em Python.
Objetivo: Avaliar a qualidade de uma amostra de dados de clientes de uma empresa e-commerce('Store 1') e implementar rotinas de pré-processamento.
Técnicas/Ferramentas:
Manipulação de Strings(.strip(), .replace(), .split()) para padronizar nomes de usuários.
Conversão de tipos de dados (Ex.: float para int) e tratamento de valores não numéricos usando blocos try-except.
Uso de loops (for) e condicionais (while) para normalização de dados (Ex.: conversão de textos para mnúsculas) e cálculo de métricas de consumo (total, mínimo e máximo gasto).
Destaque: Demonstra proficiência em lidar com sujeira e inconsistência de dados do mundo real usando Python puro e lógica de programação.

Tema: Análise do comportamento de usuários de um serviço de streaming de música e teste de hipóteses.
Objetivo: Comparar as preferências musicais e a atividade de streaming entre os habitantes de duas cidades (Springfield e Shelbyville).
Técnicas/Ferramentas:
Uso extensivo do pandas para ingestão, inspeção inicial (.info(), .head()) e limpeza de dados (padronização de cabeçalhos, tratamento de valores ausentes).
Aplicação de lógica para substituir dados faltantes nas colunas track, artist e genre com o valor 'unknown'.
Realização de análise estatística para validar a hipótese de que a atividade dos usuários é diferente dependendo do dia da semana e da cidade.
Destaque: Foco em EDA estruturada e metodologia de teste de hipótese para extrair insights de negócio.

Tema: Pré-processamento e agregação de dados complexos de um serviço de entrega de supermercado.
Objetivo: Limpar e combinar cinco tabelas de dados do Instacart (pedidos, produtos, corredores e departamentos) para criar um conjunto de dados pronto para análise.
Técnicas/Ferramentas:
Leitura de múltiplos arquivos CSV com separador não padrão (sep=';').
Tratamento robusto de duplicatas em diferentes DataFrames (Ex.: instacart_orders, products).
Identificação e tratamento de valores ausentes significativos (Ex.: preenchimento de days_since_prior_order para identificar o primeiro pedido).
Combinação eficiente de múltiplas tabelas usando a função pd.merge() com junção outer para preservar todos os dados.
Destaque: Habilidade em ETL (Extract, Transform, Load) e em lidar com a complexidade de bases de dados relacionais.

Tema: Análise do comportamento do cliente para determinar a rentabilidade de diferentes planos de serviço.
Objetivo: Comparar os planos pré-pagos 'Surf' e 'Ultimate' da operadora Megaline, calculando a receita mensal por cliente e realizando análises estatísticas sobre o uso.
Técnicas/Ferramentas:
Pré-processamento de dados de uso (minutos, mensagens, internet) e transformação de colunas de data para o tipo datetime.
Criação de uma função personalizada com max(0, ...) e np.ceil() para calcular a receita excedente com base nos limites dos planos (minutos arredondados para cima e internet por GB consumido).
Uso de gráficos de barras (sns.barplot) e histogramas (sns.histplot) para visualizar e comparar a distribuição de consumo e a receita total entre os planos.
Destaque: Aplicação prática de agregação de dados e cálculo de métricas de receita (KPIs) para tomada de decisão de marketing.

Tema: Análise de um grande conjunto de dados de vendas de videogames para identificar padrões e tendências.
Objetivo: Determinar as plataformas e gêneros mais lucrativos, e utilizar testes estatísticos para comparar as classificações de usuários.
Técnicas/Ferramentas:
Limpeza e enriquecimento de um dataset real (Kaggle), incluindo o cálculo da coluna total_sales.
Análise temporal para identificar o período de maior atividade da indústria (picos de lançamento de jogos nos anos de 2008 e 2009).
Realização de Testes T de Student (scipy.stats.ttest_ind) para testar a hipótese de que as classificações médias de usuários são diferentes entre gêneros populares (e.g., Ação vs. Esportes).
Destaque: Demonstração de todo o ciclo de vida da análise de dados: limpeza, EDA, visualização e testes estatísticos formais.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Projeto1.ipynb		Projeto1.ipynb
Projeto2.ipynb		Projeto2.ipynb
Projeto3.ipynb		Projeto3.ipynb
Projeto4.ipynb		Projeto4.ipynb
Projeto6.ipynb		Projeto6.ipynb
README.md		README.md