<a href="https://colab.research.google.com/github/NatSama2/Bootcamp-Analisis-de-Datos/blob/main/Modulo-5/Seaborn_(1).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:


# Instalaci√≥n e importaci√≥n de librer√≠as
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de estilo
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

# Datos de ejemplo para los ejercicios
np.random.seed(42)

# Dataset de ventas ficticias
ventas_data = pd.DataFrame({
    'mes': ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio'] * 4,
    'vendedor': ['Ana', 'Carlos', 'Luis', 'Mar√≠a'] * 6,
    'ventas': np.random.normal(15000, 3000, 24),
    'region': ['Norte', 'Sur', 'Este', 'Oeste'] * 6,
    'producto': ['A', 'B', 'C', 'A', 'B', 'C'] * 4
})

# Dataset de estudiantes ficticios
estudiantes_data = pd.DataFrame({
    'estudiante': [f'Est_{i}' for i in range(1, 101)],
    'matematicas': np.random.normal(75, 15, 100),
    'ciencias': np.random.normal(80, 12, 100),
    'historia': np.random.normal(78, 10, 100),
    'edad': np.random.randint(18, 25, 100),
    'genero': np.random.choice(['M', 'F'], 100),
    'carrera': np.random.choice(['Ingenier√≠a', 'Medicina', 'Letras', 'Econom√≠a'], 100)
})

# Dataset de empleados ficticios
empleados_data = pd.DataFrame({
    'empleado': [f'Emp_{i}' for i in range(1, 151)],
    'salario': np.random.lognormal(10.5, 0.5, 150),
    'experiencia': np.random.randint(0, 20, 150),
    'departamento': np.random.choice(['IT', 'Marketing', 'Ventas', 'RRHH', 'Finanzas'], 150),
    'edad': np.random.randint(22, 65, 150),
    'satisfaccion': np.random.uniform(1, 10, 150)
})

print("‚úÖ Datos cargados exitosamente")
print(f"üìä Datos de ventas: {ventas_data.shape}")
print(f"üéì Datos de estudiantes: {estudiantes_data.shape}")
print(f"üíº Datos de empleados: {empleados_data.shape}")



In [None]:
#=============================================================================
# 1. GR√ÅFICOS DE L√çNEA (lineplot)
# =============================================================================

print("\n" + "="*50)
print("1. GR√ÅFICOS DE L√çNEA (lineplot)")
print("="*50)

# Ejercicio 1.1: Evoluci√≥n de ventas por mes
print("\nüìà Ejercicio 1.1: Evoluci√≥n de ventas por mes")

# Preparar datos
ventas_mes = ventas_data.groupby('mes')['ventas'].mean().reset_index()
orden_meses = ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio']

plt.figure(figsize=(12, 6))
sns.lineplot(data=ventas_data, x='mes', y='ventas', marker='o', linewidth=2.5, markersize=8)
plt.title('Evoluci√≥n de Ventas Promedio por Mes', fontsize=16, fontweight='bold')
plt.xlabel('Mes', fontsize=12)
plt.ylabel('Ventas Promedio', fontsize=12)
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# An√°lisis
print("üìä An√°lisis:")
print(f"‚Ä¢ Mes con mayores ventas: {ventas_mes.loc[ventas_mes['ventas'].idxmax(), 'mes']}")
print(f"‚Ä¢ Mes con menores ventas: {ventas_mes.loc[ventas_mes['ventas'].idxmin(), 'mes']}")
print(f"‚Ä¢ Promedio general: ${ventas_mes['ventas'].mean():.0f}")

# Ejercicio 1.2: Comparaci√≥n de ventas por vendedor a lo largo del tiempo
print("\nüìà Ejercicio 1.2: Comparaci√≥n de ventas por vendedor")

plt.figure(figsize=(12, 6))
sns.lineplot(data=ventas_data, x='mes', y='ventas', hue='vendedor', marker='o', linewidth=2)
plt.title('Evoluci√≥n de Ventas por Vendedor', fontsize=16, fontweight='bold')
plt.xlabel('Mes', fontsize=12)
plt.ylabel('Ventas', fontsize=12)
plt.xticks(rotation=45)
plt.legend(title='Vendedor', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# An√°lisis
vendedor_promedio = ventas_data.groupby('vendedor')['ventas'].mean().sort_values(ascending=False)
print("üìä An√°lisis:")
print("‚Ä¢ Ranking de vendedores por promedio de ventas:")
for i, (vendedor, promedio) in enumerate(vendedor_promedio.items(), 1):
    print(f"  {i}. {vendedor}: ${promedio:.0f}")


In [None]:

# =============================================================================
# 2. GR√ÅFICOS DE DISPERSI√ìN (scatterplot)
# =============================================================================

print("\n" + "="*50)
print("2. GR√ÅFICOS DE DISPERSI√ìN (scatterplot)")
print("="*50)

# Ejercicio 2.1: Relaci√≥n entre notas de matem√°ticas y ciencias
print("\nüîç Ejercicio 2.1: Relaci√≥n entre matem√°ticas y ciencias")

plt.figure(figsize=(10, 8))
sns.scatterplot(data=estudiantes_data, x='matematicas', y='ciencias', hue='genero',
                size='edad', sizes=(50, 200), alpha=0.7)
plt.title('Relaci√≥n entre Notas de Matem√°ticas y Ciencias', fontsize=16, fontweight='bold')
plt.xlabel('Matem√°ticas', fontsize=12)
plt.ylabel('Ciencias', fontsize=12)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# An√°lisis de correlaci√≥n
correlacion = estudiantes_data['matematicas'].corr(estudiantes_data['ciencias'])
print("üìä An√°lisis:")
print(f"‚Ä¢ Correlaci√≥n matem√°ticas-ciencias: {correlacion:.3f}")
print(f"‚Ä¢ Interpretaci√≥n: {'Correlaci√≥n fuerte' if abs(correlacion) > 0.7 else 'Correlaci√≥n moderada' if abs(correlacion) > 0.3 else 'Correlaci√≥n d√©bil'}")

# Ejercicio 2.2: Salario vs Experiencia por departamento
print("\nüîç Ejercicio 2.2: Salario vs Experiencia por departamento")

plt.figure(figsize=(12, 8))
sns.scatterplot(data=empleados_data, x='experiencia', y='salario', hue='departamento',
                size='edad', sizes=(50, 200), alpha=0.7)
plt.title('Relaci√≥n entre Salario y Experiencia por Departamento', fontsize=16, fontweight='bold')
plt.xlabel('A√±os de Experiencia', fontsize=12)
plt.ylabel('Salario', fontsize=12)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# An√°lisis
salario_dept = empleados_data.groupby('departamento')['salario'].mean().sort_values(ascending=False)
print("üìä An√°lisis:")
print("‚Ä¢ Salario promedio por departamento:")
for dept, salario in salario_dept.items():
    print(f"  ‚Ä¢ {dept}: ${salario:.0f}")


In [None]:
# =============================================================================
# 3. GR√ÅFICOS DE BARRAS (barplot)
# =============================================================================

print("\n" + "="*50)
print("3. GR√ÅFICOS DE BARRAS (barplot)")
print("="*50)

# Ejercicio 3.1: Ventas promedio por regi√≥n
print("\nüìä Ejercicio 3.1: Ventas promedio por regi√≥n")

plt.figure(figsize=(10, 6))
sns.barplot(data=ventas_data, x='region', y='ventas', palette='viridis')
plt.title('Ventas Promedio por Regi√≥n', fontsize=16, fontweight='bold')
plt.xlabel('Regi√≥n', fontsize=12)
plt.ylabel('Ventas Promedio', fontsize=12)
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

# An√°lisis
region_stats = ventas_data.groupby('region')['ventas'].agg(['mean', 'std']).round(0)
print("üìä An√°lisis:")
print("‚Ä¢ Estad√≠sticas por regi√≥n:")
for region, stats in region_stats.iterrows():
    print(f"  ‚Ä¢ {region}: ${stats['mean']:.0f} ¬± ${stats['std']:.0f}")

# Ejercicio 3.2: N√∫mero de estudiantes por carrera y g√©nero
print("\nüìä Ejercicio 3.2: Estudiantes por carrera y g√©nero")

plt.figure(figsize=(12, 6))
sns.countplot(data=estudiantes_data, x='carrera', hue='genero', palette='Set2')
plt.title('Distribuci√≥n de Estudiantes por Carrera y G√©nero', fontsize=16, fontweight='bold')
plt.xlabel('Carrera', fontsize=12)
plt.ylabel('N√∫mero de Estudiantes', fontsize=12)
plt.xticks(rotation=45)
plt.legend(title='G√©nero')
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

# An√°lisis
genero_carrera = estudiantes_data.groupby(['carrera', 'genero']).size().unstack(fill_value=0)
print("üìä An√°lisis:")
print("‚Ä¢ Distribuci√≥n por carrera y g√©nero:")
print(genero_carrera)


In [None]:

# =============================================================================
# 4. HISTOGRAMAS (histplot)
# =============================================================================

print("\n" + "="*50)
print("4. HISTOGRAMAS (histplot)")
print("="*50)

# Ejercicio 4.1: Distribuci√≥n de notas de matem√°ticas
print("\nüìà Ejercicio 4.1: Distribuci√≥n de notas de matem√°ticas")

plt.figure(figsize=(10, 6))
sns.histplot(data=estudiantes_data, x='matematicas', bins=15, kde=True, alpha=0.7)
plt.title('Distribuci√≥n de Notas de Matem√°ticas', fontsize=16, fontweight='bold')
plt.xlabel('Nota de Matem√°ticas', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# An√°lisis estad√≠stico
math_stats = estudiantes_data['matematicas'].describe()
print("üìä An√°lisis estad√≠stico:")
print(f"‚Ä¢ Media: {math_stats['mean']:.2f}")
print(f"‚Ä¢ Mediana: {math_stats['50%']:.2f}")
print(f"‚Ä¢ Desviaci√≥n est√°ndar: {math_stats['std']:.2f}")
print(f"‚Ä¢ Rango: {math_stats['min']:.2f} - {math_stats['max']:.2f}")

# Ejercicio 4.2: Distribuci√≥n de salarios por departamento
print("\nüìà Ejercicio 4.2: Distribuci√≥n de salarios por departamento")

plt.figure(figsize=(12, 8))
sns.histplot(data=empleados_data, x='salario', hue='departamento', bins=20,
             alpha=0.6, kde=True, multiple='stack')
plt.title('Distribuci√≥n de Salarios por Departamento', fontsize=16, fontweight='bold')
plt.xlabel('Salario', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.legend(title='Departamento')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()


In [None]:
# =============================================================================
# 5. GR√ÅFICOS DE CAJA (boxplot)
# =============================================================================

print("\n" + "="*50)
print("5. GR√ÅFICOS DE CAJA (boxplot)")
print("="*50)

# Ejercicio 5.1: Distribuci√≥n de ventas por vendedor
print("\nüì¶ Ejercicio 5.1: Distribuci√≥n de ventas por vendedor")

plt.figure(figsize=(10, 6))
sns.boxplot(data=ventas_data, x='vendedor', y='ventas', palette='Set1')
plt.title('Distribuci√≥n de Ventas por Vendedor', fontsize=16, fontweight='bold')
plt.xlabel('Vendedor', fontsize=12)
plt.ylabel('Ventas', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# An√°lisis de outliers
print("üìä An√°lisis de outliers:")
for vendedor in ventas_data['vendedor'].unique():
    datos = ventas_data[ventas_data['vendedor'] == vendedor]['ventas']
    Q1 = datos.quantile(0.25)
    Q3 = datos.quantile(0.75)
    IQR = Q3 - Q1
    outliers = datos[(datos < Q1 - 1.5*IQR) | (datos > Q3 + 1.5*IQR)]
    print(f"‚Ä¢ {vendedor}: {len(outliers)} outliers detectados")

# Ejercicio 5.2: Notas por carrera
print("\nüì¶ Ejercicio 5.2: Distribuci√≥n de notas por carrera")

# Crear datos en formato largo para el boxplot
notas_long = pd.melt(estudiantes_data,
                     id_vars=['carrera'],
                     value_vars=['matematicas', 'ciencias', 'historia'],
                     var_name='materia',
                     value_name='nota')

plt.figure(figsize=(12, 8))
sns.boxplot(data=notas_long, x='carrera', y='nota', hue='materia', palette='Set2')
plt.title('Distribuci√≥n de Notas por Carrera y Materia', fontsize=16, fontweight='bold')
plt.xlabel('Carrera', fontsize=12)
plt.ylabel('Nota', fontsize=12)
plt.xticks(rotation=45)
plt.legend(title='Materia', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# An√°lisis
print("üìä An√°lisis por carrera:")
for carrera in estudiantes_data['carrera'].unique():
    carrera_data = estudiantes_data[estudiantes_data['carrera'] == carrera]
    print(f"‚Ä¢ {carrera}:")
    print(f"  - Math: {carrera_data['matematicas'].mean():.1f}")
    print(f"  - Ciencias: {carrera_data['ciencias'].mean():.1f}")
    print(f"  - Historia: {carrera_data['historia'].mean():.1f}")


In [None]:
# =============================================================================
# 6. GR√ÅFICOS DE VIOL√çN (violinplot)
# =============================================================================

print("\n" + "="*50)
print("6. GR√ÅFICOS DE VIOL√çN (violinplot)")
print("="*50)

# Ejercicio 6.1: Distribuci√≥n de satisfacci√≥n por departamento
print("\nüéª Ejercicio 6.1: Satisfacci√≥n laboral por departamento")

plt.figure(figsize=(12, 6))
sns.violinplot(data=empleados_data, x='departamento', y='satisfaccion', palette='viridis')
plt.title('Distribuci√≥n de Satisfacci√≥n Laboral por Departamento', fontsize=16, fontweight='bold')
plt.xlabel('Departamento', fontsize=12)
plt.ylabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# An√°lisis de forma de distribuci√≥n
print("üìä An√°lisis de distribuci√≥n:")
for dept in empleados_data['departamento'].unique():
    dept_data = empleados_data[empleados_data['departamento'] == dept]['satisfaccion']
    skewness = dept_data.skew() # Use pandas .skew() method
    print(f"‚Ä¢ {dept}: Asimetr√≠a = {skewness:.3f} {'(sesgada derecha)' if skewness > 0 else '(sesgada izquierda)' if skewness < 0 else '(sim√©trica)'}")

# Ejercicio 6.2: Edad vs g√©nero con comparaci√≥n
print("\nüéª Ejercicio 6.2: Distribuci√≥n de edad por g√©nero")

plt.figure(figsize=(10, 6))
sns.violinplot(data=estudiantes_data, x='genero', y='edad', palette='Set1', inner='box')
plt.title('Distribuci√≥n de Edad por G√©nero', fontsize=16, fontweight='bold')
plt.xlabel('G√©nero', fontsize=12)
plt.ylabel('Edad', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Test estad√≠stico
from scipy.stats import ttest_ind
edad_m = estudiantes_data[estudiantes_data['genero'] == 'M']['edad']
edad_f = estudiantes_data[estudiantes_data['genero'] == 'F']['edad']
t_stat, p_value = ttest_ind(edad_m, edad_f)
print("üìä An√°lisis estad√≠stico:")
print(f"‚Ä¢ Edad promedio M: {edad_m.mean():.2f}")
print(f"‚Ä¢ Edad promedio F: {edad_f.mean():.2f}")
print(f"‚Ä¢ Test t: p-value = {p_value:.3f}")

In [None]:
# =============================================================================
# 7. MAPAS DE CALOR (heatmap)
# =============================================================================

print("\n" + "="*50)
print("7. MAPAS DE CALOR (heatmap)")
print("="*50)

# Ejercicio 7.1: Matriz de correlaci√≥n de notas
print("\nüî• Ejercicio 7.1: Matriz de correlaci√≥n de notas")

# Seleccionar solo columnas num√©ricas para correlaci√≥n
correlation_matrix = estudiantes_data[['matematicas', 'ciencias', 'historia', 'edad']].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
            square=True, fmt='.3f', cbar_kws={'label': 'Correlaci√≥n'})
plt.title('Matriz de Correlaci√≥n - Notas y Edad', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# An√°lisis de correlaciones
print("üìä Correlaciones m√°s fuertes:")
correlaciones = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        var1 = correlation_matrix.columns[i]
        var2 = correlation_matrix.columns[j]
        corr = correlation_matrix.iloc[i, j]
        correlaciones.append((var1, var2, corr))

correlaciones.sort(key=lambda x: abs(x[2]), reverse=True)
for var1, var2, corr in correlaciones[:3]:
    print(f"‚Ä¢ {var1} - {var2}: {corr:.3f}")

# Ejercicio 7.2: Tabla cruzada de ventas
print("\nüî• Ejercicio 7.2: Ventas promedio por regi√≥n y mes")

# Crear tabla pivot
ventas_pivot = ventas_data.pivot_table(values='ventas', index='region', columns='mes', aggfunc='mean')
# Reordenar columnas por orden cronol√≥gico
ventas_pivot = ventas_pivot[['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio']]

plt.figure(figsize=(12, 6))
sns.heatmap(ventas_pivot, annot=True, fmt='.0f', cmap='YlOrRd',
            cbar_kws={'label': 'Ventas Promedio'})
plt.title('Ventas Promedio por Regi√≥n y Mes', fontsize=16, fontweight='bold')
plt.xlabel('Mes', fontsize=12)
plt.ylabel('Regi√≥n', fontsize=12)
plt.tight_layout()
plt.show()

# An√°lisis
print("üìä An√°lisis de ventas:")
print(f"‚Ä¢ Mejor combinaci√≥n: {ventas_pivot.stack().idxmax()} = ${ventas_pivot.stack().max():.0f}")
print(f"‚Ä¢ Peor combinaci√≥n: {ventas_pivot.stack().idxmin()} = ${ventas_pivot.stack().min():.0f}")

In [None]:
# =============================================================================
# 8. AN√ÅLISIS COMPLEMENTARIO
# =============================================================================

print("\n" + "="*50)
print("8. AN√ÅLISIS COMPLEMENTARIO")
print("="*50)

# Ejercicio 8.1: Distribuci√≥n conjunta (jointplot)
print("\nüéØ Ejercicio 8.1: Distribuci√≥n conjunta salario-experiencia")

sns.jointplot(data=empleados_data, x='experiencia', y='salario', kind='reg', height=8)
plt.suptitle('Distribuci√≥n Conjunta: Salario vs Experiencia', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

# Ejercicio 8.2: Matriz de gr√°ficos (pairplot)
print("\nüéØ Ejercicio 8.2: Matriz de correlaciones visuales")

# Seleccionar subset de datos para pairplot
subset_estudiantes = estudiantes_data[['matematicas', 'ciencias', 'historia', 'edad', 'genero']].sample(50)

sns.pairplot(subset_estudiantes, hue='genero', diag_kind='hist', plot_kws={'alpha': 0.7})
plt.suptitle('Matriz de Correlaciones - Notas de Estudiantes', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

# =============================================================================
# RESUMEN FINAL
# =============================================================================

print("\n" + "="*60)
print("üìä RESUMEN EJECUTIVO")
print("="*60)

print(f"""
üéØ INSIGHTS PRINCIPALES:

üìà VENTAS:
‚Ä¢ Mejor vendedor: {ventas_data.groupby('vendedor')['ventas'].mean().idxmax()}
‚Ä¢ Mejor regi√≥n: {ventas_data.groupby('region')['ventas'].mean().idxmax()}
‚Ä¢ Promedio general: ${ventas_data['ventas'].mean():.0f}

üéì ESTUDIANTES:
‚Ä¢ Correlaci√≥n Math-Ciencias: {estudiantes_data['matematicas'].corr(estudiantes_data['ciencias']):.3f}
‚Ä¢ Carrera m√°s popular: {estudiantes_data['carrera'].value_counts().index[0]}
‚Ä¢ Promedio general: {estudiantes_data[['matematicas', 'ciencias', 'historia']].mean().mean():.1f}

üíº EMPLEADOS:
‚Ä¢ Depto. mejor pagado: {empleados_data.groupby('departamento')['salario'].mean().idxmax()}
‚Ä¢ Correlaci√≥n Exp-Salario: {empleados_data['experiencia'].corr(empleados_data['salario']):.3f}
‚Ä¢ Satisfacci√≥n promedio: {empleados_data['satisfaccion'].mean():.1f}/10

üîß GR√ÅFICOS UTILIZADOS:
‚úÖ Line plots (2 ejercicios)
‚úÖ Scatter plots (2 ejercicios)
‚úÖ Bar plots (2 ejercicios)
‚úÖ Histogramas (2 ejercicios)
‚úÖ Box plots (2 ejercicios)
‚úÖ Violin plots (2 ejercicios)
‚úÖ Heatmaps (2 ejercicios)
‚úÖ An√°lisis complementario (2 ejercicios)

üìö TOTAL: 16 ejercicios desarrollados
""")

print("üéâ ¬°Notebook completado exitosamente!")
print("üìù Todos los gr√°ficos de Seaborn han sido implementados con ejemplos pr√°cticos")
print("üîç Cada ejercicio incluye an√°lisis y interpretaci√≥n de resultados")
print("üìä Datos sint√©ticos realistas para facilitar el aprendizaje")
print("üí° C√≥digo reutilizable y bien documentado")
print("="*60)

In [None]:
#. Gr√°ficos de Dispersi√≥n Avanzados
#Ejemplo 1: Scatter plot con regresi√≥n lineal

plt.figure(figsize=(10, 6))
sns.regplot(data=empleados_data, x='experiencia', y='salario',
           scatter_kws={'alpha':0.4}, line_kws={'color':'red'})
plt.title('Relaci√≥n entre Experiencia y Salario con L√≠nea de Regresi√≥n', fontsize=14)
plt.xlabel('A√±os de Experiencia')
plt.ylabel('Salario ($)')
plt.grid(True, alpha=0.3)
plt.show()

# Seleccionar subset de datos
subset_empleados = empleados_data[['salario', 'experiencia', 'edad', 'satisfaccion', 'departamento']].sample(50)

# Crear pairplot con m√°s personalizaci√≥n
g = sns.pairplot(subset_empleados, hue='departamento',
                palette='viridis',
                plot_kws={'alpha':0.7, 's':50},
                diag_kind='kde',
                corner=True)
g.fig.suptitle('Relaciones entre Variables de Empleados por Departamento', y=1.02, fontsize=14)
plt.show()
#2. Gr√°ficos de Distribuci√≥n Mejorados
#Ejemplo 3: Histograma con m√∫ltiples variables
plt.figure(figsize=(12, 6))
sns.histplot(data=estudiantes_data,
            x='matematicas',
            hue='carrera',
            element='step',
            stat='density',
            common_norm=False,
            palette='Set2',
            alpha=0.5)
plt.title('Distribuci√≥n de Notas de Matem√°ticas por Carrera', fontsize=14)
plt.xlabel('Nota de Matem√°ticas')
plt.ylabel('Densidad')
plt.legend(title='Carrera')
plt.grid(True, alpha=0.3)
plt.show()
Ejemplo 4: ECDF Plot (Empirical Cumulative Distribution Function)

plt.figure(figsize=(10, 6))
sns.ecdfplot(data=empleados_data, x='salario', hue='departamento', stat='proportion')
plt.title('Distribuci√≥n Acumulativa de Salarios por Departamento', fontsize=14)
plt.xlabel('Salario ($)')
plt.ylabel('Proporci√≥n Acumulada')
plt.grid(True, alpha=0.3)
plt.legend(title='Departamento')
plt.show()
3. Gr√°ficos Categ√≥ricos Extendidos
Ejemplo 5: Gr√°fico de barras apiladas
python
# Preparar datos
ventas_producto = ventas_data.groupby(['region', 'producto'])['ventas'].mean().unstack()

# Gr√°fico de barras apiladas
ventas_producto.plot(kind='bar', stacked=True, figsize=(10, 6), colormap='viridis')
plt.title('Ventas Promedio por Regi√≥n y Producto (Apiladas)', fontsize=14)
plt.xlabel('Regi√≥n')
plt.ylabel('Ventas Promedio ($)')
plt.legend(title='Producto', bbox_to_anchor=(1.05, 1))
plt.grid(True, alpha=0.3, axis='y')
plt.show()

plt.figure(figsize=(12, 6))
sns.pointplot(data=estudiantes_data,
             x='carrera',
             y='matematicas',
             hue='genero',
             palette='Set2',
             dodge=True,
             capsize=0.1,
             errwidth=1.5)
plt.title('Notas Promedio de Matem√°ticas por Carrera y G√©nero', fontsize=14)
plt.xlabel('Carrera')
plt.ylabel('Nota Promedio de Matem√°ticas')
plt.xticks(rotation=45)
plt.legend(title='G√©nero')
plt.grid(True, alpha=0.3)
plt.show()
4. Visualizaciones Multivariadas
Ejemplo 7: Gr√°fico de viol√≠n con swarmplot superpuesto

plt.figure(figsize=(10, 6))
sns.violinplot(data=empleados_data, x='departamento', y='satisfaccion', palette='pastel', inner=None)
sns.swarmplot(data=empleados_data, x='departamento', y='satisfaccion', color='black', alpha=0.5, size=3)
plt.title('Distribuci√≥n de Satisfacci√≥n con Datos Individuales', fontsize=14)
plt.xlabel('Departamento')
plt.ylabel('Satisfacci√≥n (1-10)')
plt.grid(True, alpha=0.3)
plt.show()
Ejemplo 8: Mapa de calor con clustering
python
# Calcular correlaciones
corr = estudiantes_data[['matematicas', 'ciencias', 'historia', 'edad']].corr()

# Cluster map
sns.clustermap(corr,
              annot=True,
              cmap='coolwarm',
              figsize=(8, 8),
              row_cluster=False,
              dendrogram_ratio=0.1)
plt.suptitle('Mapa de Calor con Clustering de Correlaciones', y=1.02, fontsize=14)
plt.show()
#5. Visualizaciones de Relaci√≥n
Ejemplo 9: Gr√°fico de facetas (FacetGrid)

g = sns.FacetGrid(ventas_data, col='region', row='producto', height=3, aspect=1.2)
g.map_dataframe(sns.scatterplot, x='mes', y='ventas', hue='vendedor', palette='Set1')
g.add_legend(title='Vendedor')
g.set_axis_labels('Mes', 'Ventas ($)')
g.set_titles(col_template='{col_name}', row_template='Producto {row_name}')
plt.suptitle('Ventas por Mes, Desglosadas por Regi√≥n y Producto', y=1.05, fontsize=14)
plt.tight_layout()
plt.show()
Ejemplo 10: Gr√°fico de l√≠nea con bandas de confianza
python
plt.figure(figsize=(12, 6))
sns.lineplot(data=ventas_data,
            x='mes',
            y='ventas',
            hue='region',
            style='producto',
            markers=True,
            dashes=False,
            ci=95,  # Intervalo de confianza del 95%
            palette='Set2')
plt.title('Tendencia de Ventas por Mes, Regi√≥n y Producto', fontsize=14)
plt.xlabel('Mes')
plt.ylabel('Ventas ($)')
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.show()
6. Visualizaciones de Composici√≥n
Ejemplo 11: Gr√°fico de √°rea apilada
python
# Preparar datos
ventas_mes_region = ventas_data.groupby(['mes', 'region'])['ventas'].sum().unstack()

# Ordenar meses cronol√≥gicamente
meses_orden = ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio']
ventas_mes_region = ventas_mes_region.loc[meses_orden]

# Gr√°fico de √°rea
ventas_mes_region.plot(kind='area', figsize=(12, 6), alpha=0.6, colormap='viridis')
plt.title('Composici√≥n de Ventas por Mes y Regi√≥n', fontsize=14)
plt.xlabel('Mes')
plt.ylabel('Ventas Totales ($)')
plt.legend(title='Regi√≥n', bbox_to_anchor=(1.05, 1))
plt.grid(True, alpha=0.3)
plt.show()
Ejemplo 12: Gr√°fico de waffle (alternativa)
python
from pywaffle import Waffle

# Contar estudiantes por carrera
carrera_counts = estudiantes_data['carrera'].value_counts()

# Crear gr√°fico de waffle
plt.figure(FigureClass=Waffle,
          rows=5,
          columns=10,
          values=carrera_counts,
          colors=['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728'],
          legend={'loc': 'upper left', 'bbox_to_anchor': (1, 1)},
          icons='user-graduate',
          icon_size=12,
          figsize=(10, 5))
plt.title('Distribuci√≥n de Estudiantes por Carrera', fontsize=14, pad=20)
plt.show()
7. Visualizaciones Interactivas (opcional para notebooks)
Ejemplo 13: Gr√°fico interactivo con Plotly Express
python
import plotly.express as px

fig = px.scatter_3d(estudiantes_data,
                   x='matematicas',
                   y='ciencias',
                   z='historia',
                   color='carrera',
                   symbol='genero',
                   size='edad',
                   opacity=0.7,
                   title='Relaci√≥n entre Notas de Matem√°ticas, Ciencias e Historia')
fig.show()
Ejemplo 14: Sunburst chart
python
fig = px.sunburst(ventas_data,
                 path=['region', 'vendedor', 'producto'],
                 values='ventas',
                 color='ventas',
                 color_continuous_scale='viridis',
                 title='Composici√≥n de Ventas por Regi√≥n, Vendedor y Producto')
fig.show()
8. An√°lisis Complementario Avanzado
Ejemplo 15: Gr√°fico de radar (spider chart)
python
from math import pi

# Calcular promedios por carrera
carrera_stats = estudiantes_data.groupby('carrera')[['matematicas', 'ciencias', 'historia']].mean()

# Prepara datos para radar chart
categories = carrera_stats.columns.tolist()
N = len(categories)
angles = [n / float(N) * 2 * pi for n in range(N)]
angles += angles[:1]

plt.figure(figsize=(8, 8))
ax = plt.subplot(111, polar=True)
ax.set_theta_offset(pi / 2)
ax.set_theta_direction(-1)
plt.xticks(angles[:-1], categories)

for idx, carrera in enumerate(carrera_stats.index):
    values = carrera_stats.loc[carrera].values.flatten().tolist()
    values += values[:1]
    ax.plot(angles, values, linewidth=1, linestyle='solid', label=carrera)
    ax.fill(angles, values, alpha=0.1)

plt.title('Perfil Acad√©mico por Carrera (Radar Chart)', y=1.1, fontsize=14)
plt.legend(loc='upper right', bbox_to_anchor=(1.3, 1))
plt.show()
Ejemplo 16: Gr√°fico de correlaci√≥n con seaborn
python
plt.figure(figsize=(10, 8))
sns.scatterplot(data=empleados_data,
               x='experiencia',
               y='salario',
               hue='departamento',
               size='satisfaccion',
               sizes=(20, 200),
               alpha=0.7,
               palette='viridis')
plt.title('Relaci√≥n entre Experiencia, Salario y Satisfacci√≥n por Departamento', fontsize=14)
plt.xlabel('A√±os de Experiencia')
plt.ylabel('Salario ($)')
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.show()