In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Configuraci√≥n para mostrar gr√°ficas en notebook
%matplotlib inline
plt.style.use('default')
sns.set_palette("husl")

# Cargar los datos
df = pd.read_csv('/Users/n.arcos89/Documents/GitHub/Diva_digital/Data/data_unificada.csv')

# Mostrar las primeras filas y las columnas disponibles
print("üìä AN√ÅLISIS EXPLORATORIO DE DATOS")
print("=" * 50)
print("\nüîç Primeras 5 filas:")
display(df.head())

print("\nüìã Columnas disponibles:")
print(df.columns.tolist())

print("\nüìà Informaci√≥n del dataset:")
print(f"- Filas: {len(df)}")
print(f"- Columnas: {len(df.columns)}")
print(f"- Tipos de datos:")
for col in df.columns:
    print(f"  ‚Ä¢ {col}: {df[col].dtype}")

# An√°lisis de valores faltantes
print("\n‚ùå Valores faltantes:")
missing = df.isnull().sum()
for col in missing[missing > 0].index:
    print(f"  ‚Ä¢ {col}: {missing[col]} ({missing[col]/len(df)*100:.1f}%)")

# Gr√°ficas y an√°lisis adaptados a las columnas reales
print("\nüìä VISUALIZACIONES")
print("=" * 30)

# Verificar columnas espec√≠ficas de tu dataset
if 'Canal' in df.columns:
    plt.figure(figsize=(10,6))
    canal_counts = df['Canal'].value_counts()
    plt.subplot(1,2,1)
    sns.countplot(data=df, x='Canal', order=canal_counts.index)
    plt.title('Distribuci√≥n por Canal')
    plt.xticks(rotation=45)
    
    plt.subplot(1,2,2)
    plt.pie(canal_counts.values, labels=canal_counts.index, autopct='%1.1f%%')
    plt.title('Porcentaje por Canal')
    plt.tight_layout()
    plt.show()

if 'Formato' in df.columns:
    plt.figure(figsize=(8,5))
    sns.countplot(data=df, x='Formato')
    plt.title('Distribuci√≥n por Formato')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

# An√°lisis temporal si hay fecha
if 'Fecha' in df.columns:
    df['Fecha'] = pd.to_datetime(df['Fecha'], errors='coerce')
    if df['Fecha'].notna().any():
        plt.figure(figsize=(12,6))
        
        # Tendencia por mes
        plt.subplot(2,2,1)
        monthly_counts = df.set_index('Fecha').resample('M').size()
        monthly_counts.plot(kind='line', marker='o')
        plt.title('Publicaciones por Mes')
        plt.xticks(rotation=45)
        
        # Distribuci√≥n por d√≠a de la semana
        plt.subplot(2,2,2)
        df['dia_semana'] = df['Fecha'].dt.day_name()
        dias_orden = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
        sns.countplot(data=df, x='dia_semana', order=dias_orden)
        plt.title('Publicaciones por D√≠a de la Semana')
        plt.xticks(rotation=45)
        
        # Distribuci√≥n por hora si est√° disponible
        plt.subplot(2,2,3)
        df['hora'] = df['Fecha'].dt.hour
        sns.histplot(df['hora'], bins=24, kde=True)
        plt.title('Distribuci√≥n por Hora del D√≠a')
        plt.xlabel('Hora')
        
        plt.tight_layout()
        plt.show()

# Variables num√©ricas
num_cols = df.select_dtypes(include=[np.number]).columns.tolist()
print(f"\nüî¢ Variables num√©ricas encontradas: {num_cols}")

if len(num_cols) > 1:
    plt.figure(figsize=(10,8))
    correlation_matrix = df[num_cols].corr()
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, square=True)
    plt.title('Matriz de Correlaci√≥n de Variables Num√©ricas')
    plt.tight_layout()
    plt.show()

# Estad√≠sticas descriptivas
if len(num_cols) > 0:
    print("\nüìà Estad√≠sticas descriptivas:")
    display(df[num_cols].describe())

print("\n‚úÖ An√°lisis completado!")

Unnamed: 0,id_post;Hora;Canal;Formato;Alcance;Interacciones;Reproducciones;Duracion_video;DM;Retencion;Visitas_perfil;Link_bio;Visitas_producto;Carrito;Compras;Valor_compra;Contacto;Inversion;ROI;Engagement;CPC;Unnamed: 23;Ruta;Fecha;Imagen
0,POST_190;17:57:51;Facebook;Carrusel;7508;3655;...
1,POST_146;16:17:20;Instagram;Carrusel;1128;3815...
2,POST_74;21:26:57;Instagram;Carrusel;26066;4460...
3,POST_183;07:20:17;TikTok;Imagen;44693;2877;Sin...
4,POST_198;09:15:13;Twitter;Reel;21886;2582;3505...


Index(['id_post;Hora;Canal;Formato;Alcance;Interacciones;Reproducciones;Duracion_video;DM;Retencion;Visitas_perfil;Link_bio;Visitas_producto;Carrito;Compras;Valor_compra;Contacto;Inversion;ROI;Engagement;CPC;Unnamed: 23;Ruta;Fecha;Imagen'], dtype='object')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 1 columns):
 #   Column                                                                                                                                                                                                                                 Non-Null Count  Dtype 
---  ------                                                                                                                                                                                                                                 --------------  ----- 
 0   id_post;Hora;Canal;Formato;Alcance;Interacciones;Reproducciones;Duracion_video;DM;Retencion;Visitas_perfil;Link_bio;Visitas_producto;Carrito;Compras;Valor_compra;Contacto;Inversion;ROI;Engagement;CPC;Unnamed: 23;Ruta;Fecha;Imagen  200 non-null    object
dtypes: object(1)
memory usage: 1.7+ KB


None

In [4]:
# Gr√°ficos de correlaci√≥n avanzados
print("üîç AN√ÅLISIS DE CORRELACI√ìN AVANZADO")
print("=" * 40)

# Variables num√©ricas para an√°lisis
num_cols = df.select_dtypes(include=[np.number]).columns.tolist()

if len(num_cols) > 1:
    print(f"üìä Analizando {len(num_cols)} variables num√©ricas: {num_cols}")
    
    # Pairplot para ver relaciones entre variables
    plt.figure(figsize=(12, 10))
    pairplot = sns.pairplot(df[num_cols], diag_kind='hist', plot_kws={'alpha': 0.6})
    pairplot.fig.suptitle('Gr√°fico de Correlaci√≥n de Variables Num√©ricas', y=1.02, fontsize=16)
    plt.show()
    
    # An√°lisis de distribuciones
    if len(num_cols) >= 2:
        plt.figure(figsize=(15, 5))
        for i, col in enumerate(num_cols[:3]):  # M√°ximo 3 variables
            plt.subplot(1, min(3, len(num_cols)), i+1)
            sns.histplot(df[col].dropna(), kde=True, alpha=0.7)
            plt.title(f'Distribuci√≥n de {col}')
            plt.xlabel(col)
        plt.tight_layout()
        plt.show()
    
    # Boxplots para detectar outliers
    if len(num_cols) >= 2:
        plt.figure(figsize=(12, 6))
        for i, col in enumerate(num_cols[:4]):  # M√°ximo 4 variables
            plt.subplot(2, 2, i+1)
            sns.boxplot(y=df[col])
            plt.title(f'Boxplot de {col}')
        plt.tight_layout()
        plt.show()
        
else:
    print("‚ÑπÔ∏è  No hay suficientes variables num√©ricas para an√°lisis de correlaci√≥n")
    print(f"Variables disponibles: {df.columns.tolist()}")

# An√°lisis por categor√≠as si existen
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
if categorical_cols:
    print(f"\nüìã Variables categ√≥ricas encontradas: {categorical_cols}")
    
    # An√°lisis de las primeras 2 variables categ√≥ricas
    for col in categorical_cols[:2]:
        if df[col].nunique() <= 10:  # Solo si tiene pocas categor√≠as
            plt.figure(figsize=(10, 4))
            
            plt.subplot(1, 2, 1)
            value_counts = df[col].value_counts()
            sns.barplot(x=value_counts.values, y=value_counts.index, palette='viridis')
            plt.title(f'Distribuci√≥n de {col}')
            plt.xlabel('Frecuencia')
            
            plt.subplot(1, 2, 2)
            plt.pie(value_counts.values, labels=value_counts.index, autopct='%1.1f%%')
            plt.title(f'Porcentaje de {col}')
            
            plt.tight_layout()
            plt.show()

print("\n‚úÖ An√°lisis de correlaci√≥n completado!")

üîç AN√ÅLISIS DE CORRELACI√ìN AVANZADO


NameError: name 'np' is not defined

In [5]:
# AN√ÅLISIS DE M√âTRICAS DE RENDIMIENTO
print("üìà AN√ÅLISIS DE M√âTRICAS DE RENDIMIENTO")
print("=" * 45)

# Verificar si existen columnas de m√©tricas
metricas_cols = ['Alcance', 'Engagement', 'Impresiones', 'Likes', 'Comentarios', 'Compartir']
metricas_disponibles = [col for col in metricas_cols if col in df.columns]

if metricas_disponibles:
    print(f"üìä M√©tricas encontradas: {metricas_disponibles}")
    
    # An√°lisis de distribuci√≥n de m√©tricas
    if len(metricas_disponibles) >= 1:
        plt.figure(figsize=(15, 10))
        
        for i, metrica in enumerate(metricas_disponibles[:6]):
            plt.subplot(3, 2, i+1)
            
            # Eliminar valores nulos para el an√°lisis
            data_clean = df[metrica].dropna()
            
            if len(data_clean) > 0:
                # Histograma con estad√≠sticas
                sns.histplot(data_clean, kde=True, alpha=0.7)
                plt.axvline(data_clean.mean(), color='red', linestyle='--', label=f'Media: {data_clean.mean():.1f}')
                plt.axvline(data_clean.median(), color='green', linestyle='--', label=f'Mediana: {data_clean.median():.1f}')
                plt.title(f'Distribuci√≥n de {metrica}')
                plt.legend()
            else:
                plt.text(0.5, 0.5, f'No hay datos\npara {metrica}', 
                        horizontalalignment='center', verticalalignment='center', 
                        transform=plt.gca().transAxes, fontsize=12)
                plt.title(f'Distribuci√≥n de {metrica}')
        
        plt.tight_layout()
        plt.show()
    
    # Top performers por m√©tricas
    if 'Alcance' in df.columns and df['Alcance'].notna().any():
        plt.figure(figsize=(12, 8))
        
        # Top 10 publicaciones por alcance
        plt.subplot(2, 2, 1)
        top_alcance = df.nlargest(10, 'Alcance')
        sns.barplot(data=top_alcance, x='Alcance', y=range(len(top_alcance)), palette='viridis')
        plt.title('Top 10 Publicaciones por Alcance')
        plt.xlabel('Alcance')
        
        # An√°lisis por canal si est√° disponible
        if 'Canal' in df.columns:
            plt.subplot(2, 2, 2)
            alcance_por_canal = df.groupby('Canal')['Alcance'].mean().sort_values(ascending=False)
            sns.barplot(x=alcance_por_canal.values, y=alcance_por_canal.index, palette='plasma')
            plt.title('Alcance Promedio por Canal')
            plt.xlabel('Alcance Promedio')
        
        # An√°lisis por formato si est√° disponible
        if 'Formato' in df.columns:
            plt.subplot(2, 2, 3)
            alcance_por_formato = df.groupby('Formato')['Alcance'].mean().sort_values(ascending=False)
            sns.barplot(x=alcance_por_formato.values, y=alcance_por_formato.index, palette='cividis')
            plt.title('Alcance Promedio por Formato')
            plt.xlabel('Alcance Promedio')
        
        # Tendencia temporal del alcance
        if 'Fecha' in df.columns:
            plt.subplot(2, 2, 4)
            df_fecha = df.dropna(subset=['Fecha', 'Alcance'])
            if len(df_fecha) > 0:
                alcance_temporal = df_fecha.set_index('Fecha').resample('M')['Alcance'].mean()
                alcance_temporal.plot(kind='line', marker='o', color='darkblue')
                plt.title('Evoluci√≥n del Alcance Promedio')
                plt.ylabel('Alcance Promedio')
                plt.xticks(rotation=45)
        
        plt.tight_layout()
        plt.show()

else:
    print("‚ÑπÔ∏è  No se encontraron columnas de m√©tricas est√°ndar")
    print("üí° Revisando otras columnas num√©ricas que podr√≠an ser m√©tricas...")
    
    # Buscar otras columnas que podr√≠an ser m√©tricas
    otras_numericas = [col for col in df.select_dtypes(include=[np.number]).columns 
                      if col not in ['id_post'] and df[col].max() > 0]
    
    if otras_numericas:
        print(f"üìä Posibles m√©tricas encontradas: {otras_numericas}")
        
        # An√°lisis b√°sico de estas m√©tricas
        plt.figure(figsize=(12, 6))
        for i, col in enumerate(otras_numericas[:3]):
            plt.subplot(1, min(3, len(otras_numericas)), i+1)
            data_clean = df[col].dropna()
            if len(data_clean) > 0:
                sns.histplot(data_clean, kde=True, alpha=0.7)
                plt.title(f'Distribuci√≥n de {col}')
            
        plt.tight_layout()
        plt.show()

print("\n‚úÖ An√°lisis de m√©tricas completado!")

üìà AN√ÅLISIS DE M√âTRICAS DE RENDIMIENTO
‚ÑπÔ∏è  No se encontraron columnas de m√©tricas est√°ndar
üí° Revisando otras columnas num√©ricas que podr√≠an ser m√©tricas...


NameError: name 'np' is not defined

In [None]:
# INSIGHTS Y RECOMENDACIONES ESTRAT√âGICAS
print("üí° INSIGHTS Y RECOMENDACIONES ESTRAT√âGICAS")
print("=" * 50)

# An√°lisis de patrones temporales
if 'Fecha' in df.columns and df['Fecha'].notna().any():
    print("\nüìÖ PATRONES TEMPORALES:")
    
    # An√°lisis por d√≠a de la semana
    df['dia_semana'] = df['Fecha'].dt.day_name()
    publicaciones_por_dia = df['dia_semana'].value_counts()
    
    dias_orden = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
    dias_espa√±ol = ['Lunes', 'Martes', 'Mi√©rcoles', 'Jueves', 'Viernes', 'S√°bado', 'Domingo']
    
    mejor_dia = publicaciones_por_dia.index[0]
    peor_dia = publicaciones_por_dia.index[-1]
    
    print(f"‚úÖ D√≠a con m√°s publicaciones: {mejor_dia} ({publicaciones_por_dia.iloc[0]} posts)")
    print(f"‚ùå D√≠a con menos publicaciones: {peor_dia} ({publicaciones_por_dia.iloc[-1]} posts)")
    
    # An√°lisis por hora si est√° disponible
    if 'hora' in df.columns or df['Fecha'].dt.hour.notna().any():
        df['hora'] = df['Fecha'].dt.hour
        publicaciones_por_hora = df.groupby('hora').size()
        
        if len(publicaciones_por_hora) > 0:
            mejor_hora = publicaciones_por_hora.idxmax()
            print(f"‚è∞ Mejor hora para publicar: {mejor_hora}:00h ({publicaciones_por_hora.max()} posts)")

# An√°lisis de rendimiento por canal
if 'Canal' in df.columns:
    print("\nüì∫ AN√ÅLISIS POR CANAL:")
    
    canal_stats = df.groupby('Canal').agg({
        'Canal': 'count',  # N√∫mero de publicaciones
    }).rename(columns={'Canal': 'num_publicaciones'})
    
    # Si hay m√©tricas de alcance
    if 'Alcance' in df.columns:
        canal_alcance = df.groupby('Canal')['Alcance'].agg(['mean', 'sum', 'count']).round(1)
        mejor_canal_alcance = canal_alcance['mean'].idxmax()
        print(f"üèÜ Canal con mejor alcance promedio: {mejor_canal_alcance} ({canal_alcance.loc[mejor_canal_alcance, 'mean']:.1f})")
    
    # Canal m√°s activo
    canal_mas_activo = canal_stats['num_publicaciones'].idxmax()
    print(f"üìà Canal m√°s activo: {canal_mas_activo} ({canal_stats.loc[canal_mas_activo, 'num_publicaciones']} posts)")

# An√°lisis de formato de contenido
if 'Formato' in df.columns:
    print("\nüé® AN√ÅLISIS DE FORMATO:")
    
    formato_stats = df['Formato'].value_counts()
    formato_popular = formato_stats.index[0]
    print(f"üéØ Formato m√°s utilizado: {formato_popular} ({formato_stats.iloc[0]} posts, {formato_stats.iloc[0]/len(df)*100:.1f}%)")
    
    if 'Alcance' in df.columns:
        formato_alcance = df.groupby('Formato')['Alcance'].mean().sort_values(ascending=False)
        if not formato_alcance.empty:
            mejor_formato = formato_alcance.index[0]
            print(f"‚≠ê Formato con mejor alcance: {mejor_formato} ({formato_alcance.iloc[0]:.1f} alcance promedio)")

# Recomendaciones basadas en datos
print("\nüéØ RECOMENDACIONES ESTRAT√âGICAS:")
print("-" * 35)

# Recomendaci√≥n 1: Frecuencia de publicaci√≥n
total_posts = len(df)
if 'Fecha' in df.columns and df['Fecha'].notna().any():
    fecha_min = df['Fecha'].min()
    fecha_max = df['Fecha'].max()
    periodo_dias = (fecha_max - fecha_min).days
    
    if periodo_dias > 0:
        posts_por_dia = total_posts / periodo_dias
        print(f"üìä Frecuencia actual: {posts_por_dia:.1f} posts/d√≠a")
        
        if posts_por_dia < 1:
            print("üí° RECOMENDACI√ìN: Aumentar la frecuencia de publicaci√≥n a al menos 1 post/d√≠a para mayor visibilidad")
        elif posts_por_dia > 3:
            print("‚ö†Ô∏è  CUIDADO: Alta frecuencia de publicaci√≥n. Asegurar calidad sobre cantidad")

# Recomendaci√≥n 2: Diversificaci√≥n de canales
if 'Canal' in df.columns:
    num_canales = df['Canal'].nunique()
    print(f"üì∫ Canales activos: {num_canales}")
    
    if num_canales < 3:
        print("üí° RECOMENDACI√ìN: Considerar diversificar a m√°s canales para ampliar alcance")
    
    # Balance entre canales
    canal_distribution = df['Canal'].value_counts(normalize=True) * 100
    canal_dominante = canal_distribution.iloc[0]
    
    if canal_dominante > 70:
        print(f"‚ö†Ô∏è  ATENCI√ìN: {canal_distribution.index[0]} domina con {canal_dominante:.1f}% - Equilibrar distribuci√≥n")

# Recomendaci√≥n 3: Optimizaci√≥n temporal
if 'dia_semana' in df.columns:
    weekend_posts = df[df['dia_semana'].isin(['Saturday', 'Sunday'])].shape[0]
    weekday_posts = df[~df['dia_semana'].isin(['Saturday', 'Sunday'])].shape[0]
    
    if weekend_posts < weekday_posts * 0.3:
        print("üí° RECOMENDACI√ìN: Aumentar actividad en fines de semana para mejor engagement")

# An√°lisis de consistencia
print(f"\nüìà M√âTRICAS GENERALES:")
print(f"‚Ä¢ Total de publicaciones analizadas: {total_posts:,}")
print(f"‚Ä¢ Periodo analizado: {(fecha_max - fecha_min).days if 'Fecha' in df.columns and df['Fecha'].notna().any() else 'N/A'} d√≠as")

if 'Alcance' in df.columns and df['Alcance'].notna().any():
    alcance_total = df['Alcance'].sum()
    alcance_promedio = df['Alcance'].mean()
    print(f"‚Ä¢ Alcance total: {alcance_total:,.0f}")
    print(f"‚Ä¢ Alcance promedio: {alcance_promedio:,.1f}")

print("\n‚úÖ An√°lisis de insights completado!")
print("üöÄ Usa estos insights para optimizar tu estrategia de contenido digital")