In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_openml
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import GridSearchCV
from sklearn.feature_selection import RFECV
from math import sqrt

import warnings
warnings.filterwarnings('ignore')

# Configuramos estilo de visualización
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("viridis")
plt.rcParams['figure.figsize'] = [12, 8]
plt.rcParams['font.size'] = 12

In [3]:
# Función para crear todas las visualizaciones de distribución
def plot_distributions(df, figsize=(18, 24)):
    """
    Crea gráficos de distribución (histograma y KDE) para todas las variables numéricas.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        figsize (tuple): Tamaño de la figura.
    """
    # Determinamos el número de variables y configuramos los subplots
    n_vars = len(df.columns)
    rows = int(np.ceil(n_vars / 2))
    
    # Creamos la figura y los subplots
    fig, axes = plt.subplots(rows, 2, figsize=figsize)
    axes = axes.flatten()
    
    # Iteramos sobre cada variable y creamos sus visualizaciones
    for i, col in enumerate(df.columns):
        # Histograma con KDE
        sns.histplot(df[col], kde=True, ax=axes[i], color='royalblue')
        
        # Añadimos líneas verticales para estadísticas clave
        median = df[col].median()
        mean = df[col].mean()
        
        axes[i].axvline(median, color='red', linestyle='--', linewidth=1.5, 
                        label=f'Mediana: {median:.2f}')
        axes[i].axvline(mean, color='green', linestyle='-', linewidth=1.5, 
                       label=f'Media: {mean:.2f}')
        
        # Configuramos títulos y etiquetas
        axes[i].set_title(f'Distribución de {col}', fontsize=14)
        axes[i].set_xlabel(col, fontsize=12)
        axes[i].set_ylabel('Frecuencia', fontsize=12)
        axes[i].legend(fontsize=10)
        
        # Añadimos texto con estadísticas adicionales
        skew = df[col].skew()
        kurtosis = df[col].kurtosis()
        axes[i].text(0.02, 0.95, f'Asimetría: {skew:.2f}\nCurtosis: {kurtosis:.2f}', 
                    transform=axes[i].transAxes, fontsize=10,
                    bbox=dict(facecolor='white', alpha=0.8))
    
    # Ocultamos los ejes vacíos si el número de variables es impar
    if n_vars % 2 != 0:
        axes[-1].set_visible(False)
    
    plt.tight_layout()
    plt.suptitle('Histogramas y Distribuciones de las Variables', fontsize=18, y=1.005)
    return fig

In [None]:
# Función para crear boxplots y detectar outliers
def plot_boxplots(df, figsize=(18, 24)):
    """
    Crea boxplots para todas las variables numéricas e identifica outliers.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        figsize (tuple): Tamaño de la figura.
    """
    # Determinamos el número de variables y configuramos los subplots Select only numerical columns

    numerical_cols = df.select_dtypes(include=['int64', 'float64']).columns
    n_vars = len(numerical_cols)
    rows = int(np.ceil(n_vars / 2))
    
    # Creamos la figura y los subplots
    fig, axes = plt.subplots(rows, 2, figsize=figsize)
    axes = axes.flatten()
    
    # Iteramos sobre cada variable y creamos sus boxplots
    for i, col in enumerate(numerical_cols):
        # Calculamos los límites para los outliers
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        # Identificamos los outliers
        outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)][col]
        n_outliers = len(outliers)
        
        # Creamos el boxplot
        sns.boxplot(x=df[col], ax=axes[i], color='lightgreen', width=0.5)
        
        # Superponemos el strip plot para ver la distribución de puntos
        sns.stripplot(x=df[col], ax=axes[i], color='darkblue', alpha=0.3, size=4)
        
        # Configuramos títulos y etiquetas
        axes[i].set_title(f'Boxplot de {col} ({n_outliers} outliers)', fontsize=14)
        axes[i].set_xlabel(col, fontsize=12)
        
        # Añadimos texto con estadísticas sobre los outliers
        pct_outliers = (n_outliers / len(df)) * 100
        axes[i].text(0.02, 0.95, 
                    f'Outliers: {n_outliers} ({pct_outliers:.1f}%)\n' + 
                    f'Rango normal: [{lower_bound:.2f}, {upper_bound:.2f}]',
                    transform=axes[i].transAxes, fontsize=10,
                    bbox=dict(facecolor='white', alpha=0.8))
    
    # Ocultamos los ejes vacíos si el número de variables es impar
    if n_vars % 2 != 0:
        axes[-1].set_visible(False)
    
    plt.tight_layout()
    plt.suptitle('Boxplots con Detección de Outliers', fontsize=18, y=1.005)
    return fig

In [5]:
# Función para crear pairplots para variables seleccionadas
def plot_pairplot(df, target='MEDV', features=None):
    """
    Crea pairplots para las variables más importantes relacionadas con el precio.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        target (str): Nombre de la variable objetivo.
        features (list): Lista de características a incluir. Si es None, se seleccionan
                      automáticamente las más correlacionadas con el target.
    """
    if features is None:
        # Seleccionamos las 5 variables más correlacionadas con MEDV
        corr_with_target = df.corr()[target].abs().sort_values(ascending=False)
        features = corr_with_target.index[1:6].tolist()  # Excluimos el target mismo
    
    # Creamos el subset de datos
    plot_data = df[features + [target]].copy()
    
    # Creamos el pairplot
    fig = sns.pairplot(plot_data, height=2.5, 
                      diag_kind='kde', 
                      plot_kws={'alpha': 0.6, 's': 80, 'edgecolor': 'k'},
                      corner=True)
    
    fig.fig.suptitle('Pairplot de Variables Importantes vs MEDV', fontsize=18, y=1.02)
    
    return fig.fig

In [6]:
# Función para crear la matriz de correlación
def plot_correlation_matrix(df, figsize=(14, 12)):
    """
    Crea una matriz de correlación para todas las variables.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        figsize (tuple): Tamaño de la figura.
    """
    # Calculamos la matriz de correlación
    corr_matrix = df.corr()
    
    # Creamos la figura
    fig, ax = plt.subplots(figsize=figsize)
    
    # Creamos el mapa de calor
    mask = np.triu(np.ones_like(corr_matrix, dtype=bool))
    cmap = sns.diverging_palette(230, 20, as_cmap=True)
    
    sns.heatmap(corr_matrix, mask=mask, cmap=cmap, vmax=1, vmin=-1, center=0,
                square=True, linewidths=.5, cbar_kws={"shrink": .8}, annot=True, fmt=".2f")
    
    # Configuramos título
    plt.title('Matriz de Correlación', fontsize=18)
    
    return fig

In [7]:
# Función para crear ECDFs (Empirical Cumulative Distribution Function)
def plot_ecdfs(df, figsize=(18, 24)):
    """
    Crea gráficos ECDF para todas las variables numéricas.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        figsize (tuple): Tamaño de la figura.
    """
    # Determinamos el número de variables y configuramos los subplots
    n_vars = len(df.columns)
    rows = int(np.ceil(n_vars / 2))
    
    # Creamos la figura y los subplots
    fig, axes = plt.subplots(rows, 2, figsize=figsize)
    axes = axes.flatten()
    
    # Iteramos sobre cada variable y creamos sus ECDFs
    for i, col in enumerate(df.columns):
        # Ordenamos los valores
        x = np.sort(df[col].values)
        # Calculamos la ECDF
        y = np.arange(1, len(x) + 1) / len(x)
        
        # Graficamos la ECDF
        axes[i].plot(x, y, marker='.', linestyle='none', alpha=0.5)
        axes[i].plot(x, y, linestyle='-', linewidth=1)
        
        # Añadimos líneas para cuartiles
        for p in [0.25, 0.5, 0.75]:
            quantile = df[col].quantile(p)
            axes[i].axvline(x=quantile, color='r', linestyle='--', alpha=0.3)
            axes[i].text(quantile, 0.02, f'Q{int(p*100//25)}', ha='center', color='r')
        
        # Configuramos títulos y etiquetas
        axes[i].set_title(f'ECDF de {col}', fontsize=14)
        axes[i].set_xlabel(col, fontsize=12)
        axes[i].set_ylabel('Proporción acumulada', fontsize=12)
        axes[i].grid(True, alpha=0.3)
    
    # Ocultamos los ejes vacíos si el número de variables es impar
    if n_vars % 2 != 0:
        axes[-1].set_visible(False)
    
    plt.tight_layout()
    plt.suptitle('Funciones de Distribución Acumulada Empírica (ECDF)', fontsize=18, y=1.005)
    return fig

In [8]:
# Función de visualización especial para la variable CHAS (categórica)
def plot_chas_analysis(df):
    """
    Crea visualizaciones específicas para la variable categórica CHAS.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
    """
    fig, axes = plt.subplots(1, 3, figsize=(18, 6))
    
    # Gráfico de conteo
    sns.countplot(x='CHAS', data=df, ax=axes[0], palette='Set2')
    axes[0].set_title('Conteo de propiedades por proximidad al río Charles', fontsize=14)
    axes[0].set_xlabel('CHAS (1 = limita con el río Charles)', fontsize=12)
    axes[0].set_ylabel('Conteo', fontsize=12)
    
    # Añadimos porcentajes
    total = len(df)
    for i, count in enumerate(df['CHAS'].value_counts().values):
        percentage = count / total * 100
        axes[0].annotate(f'{percentage:.1f}%', 
                         xy=(i, count), 
                         xytext=(0, 5),
                         textcoords='offset points',
                         ha='center')
    
    # Boxplot de MEDV por CHAS
    sns.boxplot(x='CHAS', y='MEDV', data=df, ax=axes[1], palette='Set2')
    axes[1].set_title('Precio de vivienda por proximidad al río Charles', fontsize=14)
    axes[1].set_xlabel('CHAS (1 = limita con el río Charles)', fontsize=12)
    axes[1].set_ylabel('MEDV (Precio en miles de $)', fontsize=12)
    
    # Violinplot de MEDV por CHAS
    sns.violinplot(x='CHAS', y='MEDV', data=df, ax=axes[2], palette='Set2', inner='quartile')
    axes[2].set_title('Distribución de precios por proximidad al río Charles', fontsize=14)
    axes[2].set_xlabel('CHAS (1 = limita con el río Charles)', fontsize=12)
    axes[2].set_ylabel('MEDV (Precio en miles de $)', fontsize=12)
    
    plt.tight_layout()
    plt.suptitle('Análisis de la variable CHAS (Proximidad al río Charles)', fontsize=18, y=1.05)
    return fig