# Dataset Boston

## 1. Pre√°mbulo/encabezado

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## 2. Base de datos

Ruta a la base de datos o repositorio, por facillidad se asume en el mismo directorio de este notebook.

In [None]:
dataset_name = './boston.csv'

## 3. Carga de datos

Este comando carga en memoria una tabla de datos num√©ricos desde un archivo, asumiendo que los valores est√°n separados por comas. Adem√°s, ignora la primera l√≠nea del archivo, que normalmente contiene los nombres de las columnas.

In [None]:
datos = np.loadtxt(dataset_name, delimiter=',', skiprows=1)

El siguiente fragmento abre el archivo en modo lectura, toma √∫nicamente la primera l√≠nea (que normalmente contiene los nombres de las columnas), elimina espacios o saltos de l√≠nea al inicio y al final, y luego la muestra en pantalla.

In [None]:
with open(dataset_name, "r", encoding="utf-8") as f:
    primera_linea = f.readline().strip()

nombres_columnas = primera_linea.split(",")  # vector/lista con los nombres
print("Nombres de columnas:", nombres_columnas)

### 3.1 Verificaci√≥n de la integridad de los datos

Ese c√≥digo muestra en pantalla una vista r√°pida de los primeros datos del arreglo.

In [None]:
print("Primeras filas:") 
print(datos[:2]) # primeras 5 filas (si es 2D)

## 4. Propiedades de los datos

El siguiente c√≥digo imprime un resumen general del arreglo datos despu√©s de cargarlo.

Permiete conocer la estructura de los datos, cu√°ntas dimensiones posee, cu√°l es su tama√±o (por ejemplo, filas y columnas), cu√°ntos valores contiene en total, qu√© tipo de dato almacena (enteros, decimales, etc.) y cu√°nta memoria ocupa.

In [None]:
print("Tipo:", type(datos))        # tipo de objeto
print("Dimensiones:", datos.ndim)  # n√∫mero de dimensiones
print("Shape:", datos.shape)       # tama√±o por dimensi√≥n (filas, columnas)
print("Cantidad total de datos:", datos.size)  # total de elementos
print("Tipo de dato:", datos.dtype)            # float64, int, etc.
print("Tama√±o en bytes:", datos.nbytes)        # memoria usada

### 4.1 Box plot

In [None]:
# Box plot por columna
plt.figure(figsize=(10, 5))
plt.boxplot(
    datos,
    tick_labels=nombres_columnas,
    showmeans=True
);  # <-- utiliza ';' para solo la figura

Un **boxplot** resume visualmente la distribuci√≥n de una variable num√©rica y permite identificar **tendencia central**, **dispersi√≥n** y **valores at√≠picos**. Elementos gr√°ficos y su significado:

- **üì¶ Caja (Box)**  
  Va desde el **primer cuartil (Q1, 25%)** hasta el **tercer cuartil (Q3, 75%)**.  
  Representa el **50% central de los datos**.

- **‚ûñ L√≠nea dentro de la caja**  
  Corresponde a la **mediana (Q2, 50%)**.

- **üìè Bigotes (Whiskers)**  
  Se extienden desde la caja hasta los valores m√°s extremos que **no se consideran at√≠picos**.  
  Usualmente llegan hasta los l√≠mites definidos por:

  - **L√≠mite inferior:** `Q1 - 1.5 * IQR`
  - **L√≠mite superior:** `Q3 + 1.5 * IQR`

  donde **IQR = Q3 - Q1** (rango intercuart√≠lico).

- **‚óã Puntos fuera de los bigotes**  
  Son **valores at√≠picos (outliers)**.

- **üéØ Marcador de media (opcional)**  
  Si se activa `showmeans=True`, aparece un s√≠mbolo que indica la **media (promedio)**.

---

### 4.1.1 Box plot en detalles

Este c√≥digo selecciona una columna espec√≠fica de la tabla y calcula los valores estad√≠sticos graficados en el anterior boxplot.

In [None]:
col_idx = 0

# nombre de la columna
nombre_col = nombres_columnas[col_idx] 

#Extraer columna
col = datos[:, col_idx]

# Estad√≠sticas del boxplot
q1 = np.percentile(col, 25)
mediana = np.percentile(col, 50)
q3 = np.percentile(col, 75)
iqr = q3 - q1

lim_inf = q1 - 1.5 * iqr
lim_sup = q3 + 1.5 * iqr

# Outliers (convenci√≥n boxplot)
outliers = col[(col < lim_inf) | (col > lim_sup)]
n_outliers = outliers.size

# Datos sin outliers (para "bigotes")
sin_outliers = col[(col >= lim_inf) & (col <= lim_sup)]
min_whisker = np.min(sin_outliers)
max_whisker = np.max(sin_outliers)

# Media y desviaci√≥n est√°ndar (opcional)
media = np.mean(col)
std = np.std(col)

**Visualizaci√≥n**

El siguiente fragmento de c√≥digo imprime en pantalla un reporte estad√≠stico de la columna analizada. Muestra el nombre de la variable, la cantidad de datos y medidas descriptivas como la media y la desviaci√≥n est√°ndar. Tambi√©n presenta los cuartiles, el rango intercuart√≠lico (IQR) y los l√≠mites usados para identificar valores at√≠picos seg√∫n la convenci√≥n del boxplot.

In [None]:
print(f"Columna analizada: {nombre_col}")
print(f"Cantidad de datos: {col.size}")
print(f"Media: {media:.4f}")
print(f"Desviaci√≥n est√°ndar: {std:.4f}")
print(f"Q1 (25%): {q1:.4f}")
print(f"Mediana (Q2): {mediana:.4f}")
print(f"Q3 (75%): {q3:.4f}")
print(f"Rango intercuart√≠lico (IQR): {iqr:.4f}")
print(f"L√≠mite inferior (Q1 - 1.5*IQR): {lim_inf:.4f}")
print(f"L√≠mite superior (Q3 + 1.5*IQR): {lim_sup:.4f}")
print(f"M√≠nimo (sin outliers): {min_whisker:.4f}")
print(f"M√°ximo (sin outliers): {max_whisker:.4f}")
print(f"N√∫mero de outliers: {n_outliers}")

# Visualizar los outliers
#if n_outliers > 0:
#    print("Outliers:", outliers)

**boxplot de una sola columna**

In [None]:
plt.figure(figsize=(6, 5))
plt.boxplot(
    col,
    tick_labels=[nombre_col],
    showmeans=True
)

# Opcional: superponer media y std
plt.scatter([1], [media], marker='o', label='Media')
plt.errorbar([1], [media], yerr=[std], fmt='none', capsize=5, label='Desv. est√°ndar')

plt.title(f"Boxplot - {nombre_col}")
plt.ylabel("Valores")
plt.grid(True, alpha=0.3)
plt.legend()
plt.show()