In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Cargar el dataset (asegurarse de que el archivo existe)
archivo_csv = "carros.csv"

try:
    df = pd.read_csv(archivo_csv)
    print("‚úÖ Archivo cargado correctamente.")
except FileNotFoundError:
    print("‚ùå Error: No se encontr√≥ el archivo. Verifica el nombre o la ubicaci√≥n.")
    exit()

# 2. Mostrar las primeras filas del dataset
print("\nüìå Primeras filas del dataset:")
print(df.head())

# 3. Verificar que el CSV tiene las columnas esperadas
columnas_esperadas = ["kms", "precio"]
if not all(col in df.columns for col in columnas_esperadas):
    print(f"\n‚ùå Error: El CSV debe contener las columnas {columnas_esperadas}")
    exit()

# 4. Permitir al usuario elegir entre "kms" y "precio"
print("\nColumnas disponibles para an√°lisis:", columnas_esperadas)
columna = input("\nEscribe 'kms' o 'precio' para analizar: ").strip().lower()

if columna not in columnas_esperadas:
    print("‚ùå Error: La columna seleccionada no es v√°lida.")
    exit()

# 5. Extraer los datos num√©ricos y eliminar valores nulos
datos = df[columna].dropna()

if datos.empty:
    print(f"‚ùå Error: La columna '{columna}' no tiene datos v√°lidos.")
    exit()

# 6. Calcular la media muestral
media_muestral = np.mean(datos)
print(f"\nüìä Media muestral de '{columna}': {media_muestral:.2f}")

# 7. Bootstrapping: generar 1000 muestras con reemplazo y calcular la media de cada una
n_bootstraps = 1000
bootstrap_means = []

np.random.seed(42)  # Para reproducibilidad
for _ in range(n_bootstraps):
    sample = np.random.choice(datos, size=len(datos), replace=True)
    bootstrap_means.append(np.mean(sample))

# 8. Calcular el intervalo de confianza del 95%
IC_95 = np.percentile(bootstrap_means, [2.5, 97.5])
print(f"\n‚úÖ Intervalo de confianza del 95% para '{columna}': {IC_95}")

# 9. Visualizar los resultados
plt.figure(figsize=(8, 5))
sns.histplot(bootstrap_means, bins=30, kde=True, color="skyblue")
plt.axvline(IC_95[0], color='red', linestyle='dashed', label=f'IC 2.5%: {IC_95[0]:.2f}')
plt.axvline(IC_95[1], color='red', linestyle='dashed', label=f'IC 97.5%: {IC_95[1]:.2f}')
plt.axvline(media_muestral, color='black', linestyle='solid', label=f'Media Muestral: {media_muestral:.2f}')
plt.title(f"Distribuci√≥n de Medias Bootstrap para '{columna}'")
plt.xlabel(f"Media de {columna}")
plt.ylabel("Frecuencia")
plt.legend()
plt.show()



‚úÖ Archivo cargado correctamente.

üìå Primeras filas del dataset:
      kms  precio
0   75969  509718
1  103098  515768
2   79743  560846
3   79060  565158
4  120001  600041

Columnas disponibles para an√°lisis: ['kms', 'precio']
‚ùå Error: La columna seleccionada no es v√°lida.


KeyError: ''