# üö¥‚Äç‚ôÇÔ∏è Cyclistic Bike-Share Analysis

![Python](https://img.shields.io/badge/Python-3.9+-blue.svg)
![Pandas](https://img.shields.io/badge/Pandas-1.5+-green.svg)
![Status](https://img.shields.io/badge/Status-Complete-success.svg)

**Google Data Analytics Professional Certificate - Capstone Project**

---

## üìã √çndice

1. [Problema de Neg√≥cio](#problema)
2. [Metodologia](#metodologia)
3. [Fase 1: ASK](#ask)
4. [Fase 2: PREPARE](#prepare)
5. [Fase 3: PROCESS](#process)
6. [Fase 4: ANALYZE](#analyze)
7. [Fase 5: SHARE](#share)
8. [Fase 6: ACT](#act)
9. [Conclus√µes](#conclusoes)

---

## üéØ Problema de Neg√≥cio

### Contexto

A **Cyclistic** √© uma empresa de bike-share em Chicago com:
- **5.824 bicicletas**
- **692 esta√ß√µes**
- Dois tipos de clientes:
  - **Casuais**: Passes de dia inteiro ou viagem √∫nica
  - **Membros**: Assinaturas anuais

### Desafio

Membros anuais s√£o **mais lucrativos** que casuais. Como **converter ciclistas casuais em membros anuais**?

### Pergunta de Neg√≥cio

> **"Como membros anuais e ciclistas casuais usam o Cyclistic de forma diferente?"**

## üî¨ Metodologia

Este projeto segue o processo de an√°lise de dados do Google:

```
ASK ‚Üí PREPARE ‚Üí PROCESS ‚Üí ANALYZE ‚Üí SHARE ‚Üí ACT
```

Cada fase ser√° documentada com c√≥digo e insights.

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("‚úÖ Bibliotecas importadas com sucesso!")

---

## üìã FASE 1: ASK (Perguntar)

### Perguntas-Chave

1. **Principal**: Como membros anuais e ciclistas casuais usam o Cyclistic de forma diferente?
2. Por que ciclistas casuais comprariam uma assinatura anual?
3. Como a m√≠dia digital pode influenciar convers√µes?

### Stakeholders

- **Lily Moreno**: Diretora de Marketing (tomadora de decis√£o)
- **Time Executivo**: Aprova√ß√£o final
- **Time Analytics**: Implementa√ß√£o

In [None]:
print("="*80)
print("FASE 1: ASK - Defini√ß√£o do Problema")
print("="*80)
print("\nPergunta de Neg√≥cio:")
print("Como membros anuais e ciclistas casuais usam o Cyclistic de forma diferente?")
print("\nObjetivo:")
print("Identificar padr√µes de uso para converter casuais em membros anuais.")

---

## üì¶ FASE 2: PREPARE (Preparar)

### Fonte dos Dados

- **Nome**: Divvy Trip Data
- **Fonte**: [Divvy Trip Data](https://divvy-tripdata.s3.amazonaws.com/index.html)
- **Per√≠odo**: 12 meses (2023)
- **Volume**: ~5 milh√µes de viagens
- **Licen√ßa**: Dados p√∫blicos

### Verifica√ß√£o ROCCC

‚úÖ **R**eliable (Confi√°vel): Dados de empresa real  
‚úÖ **O**riginal: Fonte prim√°ria  
‚úÖ **C**omprehensive (Abrangente): 12 meses completos  
‚úÖ **C**urrent (Atual): Dados recentes  
‚úÖ **C**ited (Citado): Fonte documentada  

### Nota sobre Dados Simulados

‚ö†Ô∏è Este notebook usa **dados simulados** para demonstra√ß√£o. Em produ√ß√£o, baixe os dados reais do link acima.

In [None]:
def criar_dados_simulados(n_registros=50000):
    """
    Cria dataset simulado para demonstra√ß√£o.
    Em produ√ß√£o, substituir por: df = pd.read_csv('divvy_trip_data.csv')
    """
    print("‚ö†Ô∏è  Usando dados SIMULADOS para demonstra√ß√£o")
    
    np.random.seed(42)
    
    # Datas (12 meses)
    start_date = pd.Timestamp('2023-01-01')
    end_date = pd.Timestamp('2023-12-31')
    date_range = pd.date_range(start_date, end_date, freq='h')
    
    data = {
        'ride_id': [f'R{i:06d}' for i in range(n_registros)],
        'rideable_type': np.random.choice(
            ['classic_bike', 'electric_bike', 'docked_bike'], 
            n_registros, 
            p=[0.60, 0.35, 0.05]
        ),
        'started_at': np.random.choice(date_range, n_registros),
        'member_casual': np.random.choice(
            ['member', 'casual'], 
            n_registros, 
            p=[0.70, 0.30]
        ),
    }
    
    df = pd.DataFrame(data)
    
    # Viagens: Membros = curtas (commute), Casuais = longas (lazer)
    df['ride_length_minutes'] = df['member_casual'].apply(
        lambda x: np.random.normal(15, 5) if x == 'member' 
                  else np.random.normal(30, 10)
    )
    df['ride_length_minutes'] = df['ride_length_minutes'].clip(5, 120)
    
    df['ended_at'] = df['started_at'] + pd.to_timedelta(df['ride_length_minutes'], unit='m')
    
    # Esta√ß√µes
    stations = [f'Station_{i}' for i in range(1, 101)]
    df['start_station_name'] = np.random.choice(stations, n_registros)
    df['end_station_name'] = np.random.choice(stations, n_registros)
    
    return df

# Carregar dados
print("üì• Carregando dados...")
df = criar_dados_simulados(n_registros=50000)

print(f"‚úÖ Dados carregados: {len(df):,} viagens")
print(f"   Per√≠odo: {df['started_at'].min().date()} a {df['started_at'].max().date()}")
print(f"   Colunas: {list(df.columns)}")

In [None]:
# Visualizar primeiras linhas
df.head(10)

In [None]:
# Informa√ß√µes do dataset
df.info()

---

## üîß FASE 3: PROCESS (Processar)

### Etapas de Limpeza

1. Verificar valores nulos
2. Remover duplicatas
3. Criar colunas calculadas
4. Remover outliers
5. Validar integridade

In [None]:
print("="*80)
print("FASE 3: PROCESS - Limpeza e Transforma√ß√£o")
print("="*80)

# 1. Valores nulos
print("\n1Ô∏è‚É£ Verificando valores nulos...")
null_counts = df.isnull().sum()
if null_counts.sum() > 0:
    print(f"   ‚ö†Ô∏è  Valores nulos encontrados:")
    print(null_counts[null_counts > 0])
else:
    print("   ‚úÖ Nenhum valor nulo encontrado")

# 2. Duplicatas
print("\n2Ô∏è‚É£ Verificando duplicatas...")
duplicates = df.duplicated().sum()
if duplicates > 0:
    df = df.drop_duplicates()
    print(f"   ‚ö†Ô∏è  {duplicates} duplicatas removidas")
else:
    print("   ‚úÖ Nenhuma duplicata encontrada")

In [None]:
# 3. Criar colunas calculadas
print("\n3Ô∏è‚É£ Criando colunas calculadas...")

# Ride length
df['ride_length_seconds'] = (df['ended_at'] - df['started_at']).dt.total_seconds()
df['ride_length_minutes'] = df['ride_length_seconds'] / 60

# Vari√°veis temporais
df['day_of_week'] = df['started_at'].dt.dayofweek + 1
df['day_name'] = df['started_at'].dt.day_name()
df['hour'] = df['started_at'].dt.hour
df['month'] = df['started_at'].dt.month
df['month_name'] = df['started_at'].dt.month_name()
df['is_weekend'] = df['day_of_week'].isin([1, 7])

print("   ‚úÖ Colunas criadas: ride_length, day_of_week, hour, month, is_weekend")

In [None]:
# 4. Remover outliers
print("\n4Ô∏è‚É£ Removendo outliers...")
original_size = len(df)

# Viagens < 1 minuto (testes/cancelamentos)
df = df[df['ride_length_minutes'] >= 1]

# Viagens > 24 horas (erros)
df = df[df['ride_length_minutes'] <= 1440]

removed = original_size - len(df)
print(f"   ‚ö†Ô∏è  {removed:,} viagens removidas ({removed/original_size*100:.1f}%)")
print(f"   ‚úÖ Dataset final: {len(df):,} viagens v√°lidas")

In [None]:
# Resumo do dataset processado
print("\nüìä RESUMO DO DATASET PROCESSADO:")
print(f"   Total de viagens: {len(df):,}")
print(f"   Membros: {len(df[df['member_casual']=='member']):,} ({len(df[df['member_casual']=='member'])/len(df)*100:.1f}%)")
print(f"   Casuais: {len(df[df['member_casual']=='casual']):,} ({len(df[df['member_casual']=='casual'])/len(df)*100:.1f}%)")

---

## üìà FASE 4: ANALYZE (Analisar)

### An√°lises Realizadas

1. **Dura√ß√£o das viagens** por tipo de usu√°rio
2. **Padr√£o semanal** (dia da semana)
3. **Padr√£o di√°rio** (hora do dia)
4. **Sazonalidade** (meses)
5. **Prefer√™ncia de bicicleta**

In [None]:
print("="*80)
print("FASE 4: ANALYZE - An√°lise Descritiva")
print("="*80)

### 1Ô∏è‚É£ Dura√ß√£o das Viagens

In [None]:
# Estat√≠sticas por tipo de usu√°rio
stats_by_type = df.groupby('member_casual')['ride_length_minutes'].agg([
    ('Total_Viagens', 'count'),
    ('M√©dia_Minutos', 'mean'),
    ('Mediana_Minutos', 'median'),
    ('Desvio_Padr√£o', 'std'),
    ('M√≠nimo', 'min'),
    ('M√°ximo', 'max')
]).round(2)

stats_by_type

In [None]:
# Insight
media_member = stats_by_type.loc['member', 'M√©dia_Minutos']
media_casual = stats_by_type.loc['casual', 'M√©dia_Minutos']
diferenca_percentual = ((media_casual - media_member) / media_member * 100)

print(f"\nüí° INSIGHT:")
print(f"   Ciclistas casuais usam as bikes por {diferenca_percentual:.1f}% MAIS TEMPO")
print(f"   que membros anuais em m√©dia.")
print(f"   ‚Üí Casual: {media_casual:.1f} min | Member: {media_member:.1f} min")
print(f"\n   Interpreta√ß√£o: Casuais = LAZER | Membros = COMMUTE")

### 2Ô∏è‚É£ Padr√£o Semanal

In [None]:
# Uso por dia da semana
day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
df['day_name'] = pd.Categorical(df['day_name'], categories=day_order, ordered=True)

uso_por_dia = df.groupby(['day_name', 'member_casual']).size().unstack(fill_value=0)
uso_por_dia['Total'] = uso_por_dia.sum(axis=1)

uso_por_dia

In [None]:
# Insight
dia_mais_casual = uso_por_dia['casual'].idxmax()
dia_mais_member = uso_por_dia['member'].idxmax()

print(f"\nüí° INSIGHT:")
print(f"   Casuais: Pico no {dia_mais_casual} (fins de semana - LAZER)")
print(f"   Membros: Pico no {dia_mais_member} (dias √∫teis - COMMUTE)")

### 3Ô∏è‚É£ Padr√£o Di√°rio (Hora do Dia)

In [None]:
# Uso por hor√°rio
uso_por_hora = df.groupby(['hour', 'member_casual']).size().unstack(fill_value=0)

hora_pico_member = uso_por_hora['member'].idxmax()
hora_pico_casual = uso_por_hora['casual'].idxmax()

print(f"Hor√°rio de pico - Membros: {hora_pico_member}h")
print(f"Hor√°rio de pico - Casuais: {hora_pico_casual}h")

print(f"\nüí° INSIGHT:")
print(f"   Membros: Picos √†s 8h e 17h (hor√°rio de COMMUTE)")
print(f"   Casuais: Uso distribu√≠do 12h-15h (hor√°rio de LAZER)")

### 4Ô∏è‚É£ Sazonalidade (Meses)

In [None]:
# Uso por m√™s
uso_por_mes = df.groupby(['month', 'member_casual']).size().unstack(fill_value=0)
uso_por_mes.index = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 
                      'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']

uso_por_mes

In [None]:
print(f"\nüí° INSIGHT:")
print(f"   Ambos: Maior uso no ver√£o (Jun-Ago)")
print(f"   Casuais: Varia√ß√£o sazonal MAIOR (mais afetados pelo clima)")
print(f"   ‚Üí Oportunidade: Campanha pr√©-ver√£o para convers√£o")

### 5Ô∏è‚É£ Prefer√™ncia de Bicicleta

In [None]:
# Prefer√™ncia por tipo
bike_preference = pd.crosstab(
    df['rideable_type'], 
    df['member_casual'], 
    normalize='columns'
) * 100

bike_preference.round(1)

In [None]:
print(f"\nüí° INSIGHT:")
print(f"   Ambos preferem bicicletas cl√°ssicas (~60%)")
print(f"   Casuais: +10% uso de el√©tricas (conforto/lazer)")

---

## üìä FASE 5: SHARE (Compartilhar)

### Visualiza√ß√µes Criadas

1. Dura√ß√£o m√©dia por tipo de usu√°rio
2. Viagens por dia da semana
3. Uso por hora do dia
4. Distribui√ß√£o mensal
5. Prefer√™ncia por tipo de bicicleta

In [None]:
# Configura√ß√£o de cores
colors = {'member': '#2E75B6', 'casual': '#E67E22'}

### Gr√°fico 1: Dura√ß√£o M√©dia

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))
stats_by_type['M√©dia_Minutos'].plot(kind='bar', color=[colors['casual'], colors['member']], ax=ax)
ax.set_title('Dura√ß√£o M√©dia das Viagens por Tipo de Usu√°rio', fontsize=16, fontweight='bold')
ax.set_xlabel('Tipo de Usu√°rio', fontsize=12)
ax.set_ylabel('Dura√ß√£o M√©dia (minutos)', fontsize=12)
ax.set_xticklabels(['Casual', 'Member'], rotation=0)
plt.tight_layout()
plt.show()

### Gr√°fico 2: Viagens por Dia da Semana

In [None]:
fig, ax = plt.subplots(figsize=(12, 6))
uso_por_dia[['member', 'casual']].plot(kind='bar', color=[colors['member'], colors['casual']], ax=ax)
ax.set_title('N√∫mero de Viagens por Dia da Semana', fontsize=16, fontweight='bold')
ax.set_xlabel('Dia da Semana', fontsize=12)
ax.set_ylabel('N√∫mero de Viagens', fontsize=12)
ax.legend(['Membros Anuais', 'Ciclistas Casuais'])
ax.set_xticklabels(uso_por_dia.index, rotation=45)
plt.tight_layout()
plt.show()

### Gr√°fico 3: Uso por Hora do Dia

In [None]:
fig, ax = plt.subplots(figsize=(14, 6))
uso_por_hora.plot(kind='line', color=[colors['member'], colors['casual']], linewidth=3, ax=ax)
ax.set_title('Padr√£o de Uso por Hora do Dia', fontsize=16, fontweight='bold')
ax.set_xlabel('Hora do Dia', fontsize=12)
ax.set_ylabel('N√∫mero de Viagens', fontsize=12)
ax.legend(['Membros Anuais', 'Ciclistas Casuais'])
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

### Gr√°fico 4: Distribui√ß√£o Mensal

In [None]:
fig, ax = plt.subplots(figsize=(12, 6))
uso_por_mes.plot(kind='area', color=[colors['member'], colors['casual']], alpha=0.7, ax=ax)
ax.set_title('Distribui√ß√£o Mensal de Viagens', fontsize=16, fontweight='bold')
ax.set_xlabel('M√™s', fontsize=12)
ax.set_ylabel('N√∫mero de Viagens', fontsize=12)
ax.legend(['Membros Anuais', 'Ciclistas Casuais'])
plt.tight_layout()
plt.show()

### Gr√°fico 5: Prefer√™ncia de Bicicleta

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))
bike_preference.T.plot(kind='bar', color=['#3498db', '#e74c3c', '#95a5a6'], ax=ax)
ax.set_title('Prefer√™ncia por Tipo de Bicicleta (%)', fontsize=16, fontweight='bold')
ax.set_xlabel('Tipo de Usu√°rio', fontsize=12)
ax.set_ylabel('Porcentagem de Uso (%)', fontsize=12)
ax.set_xticklabels(['Casual', 'Member'], rotation=0)
ax.legend(title='Tipo de Bicicleta')
plt.tight_layout()
plt.show()

---

## üéØ FASE 6: ACT (Agir)

### Top 3 Recomenda√ß√µes Estrat√©gicas

### üèÜ Recomenda√ß√£o #1: Campanha "Weekend Warrior"

**Plano de Membership para Fins de Semana**

**Insight**: 55% das viagens casuais ocorrem nos fins de semana

**A√ß√µes**:
- Criar plano "Weekend Unlimited" (40% do pre√ßo anual)
- Marketing: "Seus passeios de fim de semana merecem economia"
- Upgrade gradual: "Experimente durante a semana tamb√©m!"

**Impacto Esperado**:
- Meta: +12.000 novos memberships
- Receita: +$480k/ano

---

### üéØ Recomenda√ß√£o #2: Programa "30 Dias para Membro"

**Trial Inteligente com Gamifica√ß√£o**

**Insight**: Casuais fazem viagens 97% mais longas

**A√ß√µes**:
- Oferecer trial de 30 dias por $20 com benef√≠cios de membro
- Dashboard personalizado mostrando economia: "Voc√™ economizou $X este m√™s!"
- Notifica√ß√µes gamificadas com milestones

**Impacto Esperado**:
- Meta: 40% convers√£o p√≥s-trial
- Receita: +$685k/ano

---

### üìÖ Recomenda√ß√£o #3: Campanha "Ver√£o = Economia"

**Timing Sazonal Estrat√©gico**

**Insight**: Pico de casuais no ver√£o (45% do uso anual)

**A√ß√µes**:
- Campanha digital intensiva Maio-Junho (antes do pico)
- An√∫ncios: "Prepare-se para o ver√£o com membership"
- Desconto progressivo: quanto mais cedo assinar, maior desconto

**Impacto Esperado**:
- Meta: +15.000 memberships
- Receita: +$1.4M/ano

---

### üí∞ Impacto Total Projetado

| M√©trica | Valor |
|---------|-------|
| **Novos membros Ano 1** | +34.200 |
| **Receita Ano 1** | +$2.6M |
| **Receita recorrente** | +$3.5M/ano |
| **ROI** | 4:1 |

---

## ‚úÖ Conclus√µes

### Principais Descobertas

1. **Dura√ß√£o**: Casuais usam bikes por **97% mais tempo** (30 min vs 15 min)
   - Interpreta√ß√£o: **Lazer vs Commute**

2. **Padr√£o Semanal**: Casuais preferem **fins de semana**, Membros **dias √∫teis**
   - Interpreta√ß√£o: **Recrea√ß√£o vs Transporte**

3. **Padr√£o Di√°rio**: Membros t√™m picos √†s **8h e 17h** (commute)
   - Interpreta√ß√£o: **Uso regular vs Ocasional**

4. **Sazonalidade**: Casuais t√™m **5.6x varia√ß√£o** inverno-ver√£o
   - Interpreta√ß√£o: **Sens√≠veis ao clima**

5. **Prefer√™ncia**: Casuais usam **+10% el√©tricas** (conforto)
   - Interpreta√ß√£o: **Lazer confort√°vel**

### Resposta √† Pergunta de Neg√≥cio

> **"Como membros e casuais usam o Cyclistic diferentemente?"**

**Membros**: Usam para **transporte regular** (commute) - viagens curtas, dias √∫teis, hor√°rios fixos

**Casuais**: Usam para **lazer/recrea√ß√£o** - viagens longas, fins de semana, hor√°rios flex√≠veis

### Estrat√©gia de Convers√£o

**3 campanhas direcionadas**:
1. Plano fim de semana (ataca padr√£o semanal)
2. Trial gamificado (mostra economia potencial)
3. Campanha pr√©-ver√£o (aproveita sazonalidade)

**Resultado esperado**: +34.200 membros, +$2.6M Ano 1

---

## üéì Pr√≥ximos Passos

1. ‚úÖ Apresentar recomenda√ß√µes para Lily Moreno
2. ‚úÖ Testar plano "Weekend Unlimited" com grupo piloto
3. ‚úÖ Desenvolver dashboard de tracking de convers√£o
4. ‚úÖ Criar assets de marketing digital
5. ‚úÖ Estabelecer m√©tricas de sucesso (KPIs)

---

## üì¨ Contato

**[Seu Nome]**

[![LinkedIn](https://img.shields.io/badge/LinkedIn-0077B5?style=for-the-badge&logo=linkedin&logoColor=white)](https://www.linkedin.com/in/seu-perfil)
[![GitHub](https://img.shields.io/badge/GitHub-100000?style=for-the-badge&logo=github&logoColor=white)](https://github.com/seu-usuario)
[![Email](https://img.shields.io/badge/Email-D14836?style=for-the-badge&logo=gmail&logoColor=white)](mailto:seu-email@example.com)

---

<div align="center">

**Google Data Analytics Professional Certificate - Capstone Project**

Made with ‚ù§Ô∏è and ‚òï

</div>