In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

In [None]:
data = {
    'I_x': [10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5],
    'I_y': [8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68],
    'II_x': [10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5],
    'II_y': [9.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74],
    'III_x': [10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5],
    'III_y': [7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73],
    'IV_x': [8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8],
    'IV_y': [6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.50, 5.56, 7.91, 6.89]
}

# Crear DataFrame
df = pd.DataFrame(data)

df.head()


In [None]:
print("ESTADÍSTICAS DESCRIPTIVAS DEL CUARTETO DE ANSCOMBE")

datasets = ['I', 'II', 'III', 'IV']
stats_summary = []

for dataset in datasets:
    x = df[f'{dataset}_x']
    y = df[f'{dataset}_y']
    
    # Calcular estadísticas
    stats_set = {
        'Dataset': dataset,
        'Media_x': np.mean(x),
        'Media_y': np.mean(y),
        'Varianza_x': np.var(x, ddof=1),  # ddof=1 para varianza muestral
        'Varianza_y': np.var(y, ddof=1),
        'Correlación': np.corrcoef(x, y)[0, 1],
        'R²_lin_reg': stats.linregress(x, y).rvalue**2
    }
    stats_summary.append(stats_set)

# Crear DataFrame de estadísticas
stats_df = pd.DataFrame(stats_summary)
print(stats_df.round(3))


In [None]:
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

fig.suptitle(
    'Cuarteto de Anscombe - Mismas estadísticas, distribuciones diferentes',
    fontsize=16,
    fontweight='bold'
    )

# Colores para cada dataset
colors = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728']

for i, dataset in enumerate(datasets):
    row = i // 2
    col = i % 2
    
    x = df[f'{dataset}_x']
    y = df[f'{dataset}_y']
    color = colors[i]
    
    # Scatter plot
    axes[row, col].scatter(x, y, color=color, s=60, alpha=0.8, label='Datos')
    
    # Calcular y trazar línea de regresión
    slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
    x_line = np.array([min(x), max(x)])
    y_line = slope * x_line + intercept
    axes[row, col].plot(x_line, y_line, color='red', linestyle='--', 
                       linewidth=2, label=f'Regresión: y = {intercept:.1f} + {slope:.1f}x')
    
    # Personalizar cada subplot
    axes[row, col].set_title(f'Conjunto {dataset}', fontweight='bold')
    axes[row, col].set_xlabel('x')
    axes[row, col].set_ylabel('y')
    axes[row, col].legend()
    axes[row, col].grid(True, alpha=0.3)
    
    # Añadir texto con estadísticas
    stats_text = f'Media x: {np.mean(x):.1f}\nMedia y: {np.mean(y):.1f}\nCorr: {r_value:.3f}'
    axes[row, col].text(0.05, 0.95, stats_text, transform=axes[row, col].transAxes,
                       verticalalignment='top', bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.tight_layout()
plt.show()


In [None]:
print("ANÁLISIS DETALLADO DE CADA CONJUNTO")

for dataset in datasets:
    x = df[f'{dataset}_x']
    y = df[f'{dataset}_y']
    
    slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
    
    print(f"\nConjunto {dataset}:")
    print(f"  - Ecuación de regresión: y = {intercept:.2f} + {slope:.2f}x")
    print(f"  - Coeficiente de determinación (R²): {r_value**2:.4f}")
    print(f"  - P-valor de la regresión: {p_value:.4f}")
    
    # Análisis cualitativo
    if dataset == 'I':
        print("  - Análisis: Relación lineal clara y bien comportada")
    elif dataset == 'II':
        print("  - Análisis: Relación no lineal (curvatura evidente)")
    elif dataset == 'III':
        print("  - Análisis: Presencia de un outlier que influye en la regresión")
    elif dataset == 'IV':
        print("  - Análisis: Un solo punto define completamente la regresión")



In [None]:
print("VERIFICACIÓN: ¿SON REALMENTE IGUALES LAS ESTADÍSTICAS?")

# Calcular diferencias máximas
max_diff_media_x = max(stats_df['Media_x']) - min(stats_df['Media_x'])
max_diff_media_y = max(stats_df['Media_y']) - min(stats_df['Media_y'])
max_diff_corr = max(stats_df['Correlación']) - min(stats_df['Correlación'])

print(f"Diferencia máxima en media de x: {max_diff_media_x:.6f}")
print(f"Diferencia máxima en media de y: {max_diff_media_y:.6f}")
print(f"Diferencia máxima en correlación: {max_diff_corr:.6f}")
print("\n¡Las diferencias son mínimas! Las estadísticas son prácticamente idénticas.")