# Análisis de ventas de productos digitales simuladas 

## Fase 3. Insight y segmentación 
El objetivo de esta fase es profundizar en patrones específicos y segmentar para estrategias dirigidas, se dividirá en el siguiente esquema:

```mermaid
    graph TD
    A[1 <br> Segmentación simple]
    B[2 <br> Hallazgos y recomendaciones]
    
    A-->B

    style A fill: #939a3f
    style B fill: #818555

```

1. **Segmetación simple:** Agrupar clientes por valor, frecuencia o preferencias.
    - **Ánálisis de Clientes ballena**
        1. Clientes VIP
        2. Caracterización 
        3. Diagnostico de riesgos 
        4. Estrategia de retención
2. **Hallazgos y recomendaciones:** Sintetizar insights clave y proponer acciones estratégicas



In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('C:/Users/nat27/Desktop/Desktop/Proyectos/CienciaDatos/digital-sales-analytics/data/clean/digital_products_sales_cleaned.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8000 entries, 0 to 7999
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   order_id          8000 non-null   int64  
 1   customer_id       8000 non-null   int64  
 2   product_name      8000 non-null   object 
 3   category          8000 non-null   object 
 4   price_usd         8000 non-null   float64
 5   quantity          8000 non-null   int64  
 6   discount_rate     8000 non-null   float64
 7   gross_amount_usd  8000 non-null   float64
 8   net_revenue_usd   8000 non-null   float64
 9   purchase_dt       8000 non-null   object 
 10  region            8000 non-null   object 
 11  channel           8000 non-null   object 
 12  payment_method    8000 non-null   object 
 13  order_date        8000 non-null   object 
 14  year              8000 non-null   int64  
 15  month             8000 non-null   int64  
 16  day               8000 non-null   int64  


In [6]:
# Identificar el % de clientes que genera el 80% de los ingresos
total_revenue = data['net_revenue_usd'].sum()
data_sorted = data.sort_values(by='net_revenue_usd', ascending=False) 
data_sorted['cumulative_revenue'] = data_sorted['net_revenue_usd'].cumsum()
data_sorted['cumulative_revenue_pct'] = data_sorted['cumulative_revenue'] / total_revenue   
top_80_pct_revenue = data_sorted[data_sorted['cumulative_revenue_pct'] <= 0.8]
num_top_customers = top_80_pct_revenue['customer_id'].nunique()
total_customers = data['customer_id'].nunique()
pct_top_customers = (num_top_customers / total_customers) * 100
print(f"El {pct_top_customers:.2f}% de los clientes genera el 80% de los ingresos.")



El 58.89% de los clientes genera el 80% de los ingresos.
