In [87]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [88]:
# ------------------------------
# CONFIGURACIÓN Y BUENAS PRÁCTICAS
# ------------------------------
pd.set_option('display.max_columns', None)

# Definir rutas de los archivos de datos
csv_path = r"G:\Mi unidad\DATA ANALYST - THEPOWER\DATA ANALYST\PYTHON\PANDAS\DatosProyecto\data\bank-additional.csv"
excel_path = r"G:\Mi unidad\DATA ANALYST - THEPOWER\DATA ANALYST\PYTHON\PANDAS\DatosProyecto\data\customer-details.xlsx"
backup_path = "backup/"

# Crear carpeta de respaldo si no existe
os.makedirs(backup_path, exist_ok=True)

In [89]:
# ------------------------------
# FUNCIONES
# ------------------------------

def load_csv(path):
    """
    Carga un archivo CSV en un DataFrame de pandas.

    Args:
        path (str): La ruta al archivo CSV.

    Returns:
        pd.DataFrame: El DataFrame cargado.
    """
    try:
        df = pd.read_csv(path, sep=';')
        print(f"✅ CSV cargado correctamente desde: {path}")
        return df
    except FileNotFoundError:
        print(f"❌ Error: No se encontró el archivo CSV en: {path}")
        return None
    except Exception as e:
        print(f"❌ Error inesperado al cargar el CSV: {e}")
        return None

def load_excel(path):
    """
    Carga un archivo Excel en un DataFrame de pandas.

    Args:
        path (str): La ruta al archivo Excel.

    Returns:
        pd.DataFrame: El DataFrame cargado.
    """
    try:
        df = pd.read_excel(path)
        print(f"✅ Excel cargado correctamente desde: {path}")
        return df
    except FileNotFoundError:
        print(f"❌ Error: No se encontró el archivo Excel en: {path}")
        return None
    except Exception as e:
        print(f"❌ Error inesperado al cargar el Excel: {e}")
        return None

In [90]:
def clean_column_names(df):
    """
    Limpia los nombres de las columnas de un DataFrame, reemplazando puntos con guiones bajos y convirtiendo a minúsculas.

    Args:
        df (pd.DataFrame): El DataFrame con las columnas a limpiar.

    Returns:
        pd.DataFrame: El DataFrame con los nombres de las columnas limpiados.
    """
    df.columns = df.columns.str.replace('.', '_').str.lower()
    print("✅ Nombres de columnas limpiados.")
    return df

def merge_dataframes(df1, df2, on_columns, how='inner'):
    """
    Realiza una fusión (merge) de dos DataFrames de pandas.

    Args:
        df1 (pd.DataFrame): El primer DataFrame.
        df2 (pd.DataFrame): El segundo DataFrame.
        on_columns (str or list): La(s) columna(s) para realizar el merge.
        how (str, optional): El tipo de merge a realizar ('inner', 'outer', 'left', 'right'). Por defecto es 'inner'.

    Returns:
        pd.DataFrame: El DataFrame resultante del merge.
    """
    try:
        merged_df = pd.merge(df1, df2, on=on_columns, how=how)
        print(f"✅ Merge realizado correctamente usando las columnas: {on_columns}")
        return merged_df
    except KeyError:
        print(f"❌ Error: La(s) columna(s) {on_columns} no existe(n) en uno o ambos DataFrames.")
        return None
    except Exception as e:
        print(f"❌ Error inesperado al realizar el merge: {e}")
        return None

In [91]:
def plot_boxplot(x, y, df, title, xlabel, ylabel):
    """
    Crea un gráfico de boxplot utilizando seaborn.

    Args:
        x (str): El nombre de la columna para el eje x.
        y (str): El nombre de la columna para el eje y.
        df (pd.DataFrame): El DataFrame con los datos.
        title (str): El título del gráfico.
        xlabel (str): La etiqueta del eje x.
        ylabel (str): La etiqueta del eje y.
    """
    plt.figure(figsize=(8, 6))
    sns.boxplot(x=x, y=y, data=df)
    plt.title(title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.show()
    print(f"✅ Boxplot creado: {title}")

In [92]:
# ------------------------------
# CARGAR DATOS
# ------------------------------

df_bank = load_csv(csv_path)
df_customer = load_excel(excel_path)

if df_bank is not None and df_customer is not None:
    df_bank = clean_column_names(df_bank)
    df_customer = clean_column_names(df_customer)

    # Renombrar la columna 'id' en df_customer para que coincida con 'clientid' en df_bank
    if 'id' in df_customer.columns:
        df_customer.rename(columns={'id': 'clientid'}, inplace=True)

    # Unir los DataFrames usando la columna 'clientid'
    if 'clientid' in df_bank.columns and 'clientid' in df_customer.columns:
        merged_df = merge_dataframes(df_bank, df_customer, on_columns='clientid', how='left')

        if merged_df is not None:
            print("✅ DataFrames unidos correctamente.")
        else:
            print("❌ No se pudo unir los DataFrames.")
    else:
        print("❌ La columna 'clientid' no existe en uno o ambos DataFrames.")
else:
    print("❌ No se pudieron cargar los datos. El programa no puede continuar.")

✅ CSV cargado correctamente desde: G:\Mi unidad\DATA ANALYST - THEPOWER\DATA ANALYST\PYTHON\PANDAS\DatosProyecto\data\bank-additional.csv
✅ Excel cargado correctamente desde: G:\Mi unidad\DATA ANALYST - THEPOWER\DATA ANALYST\PYTHON\PANDAS\DatosProyecto\data\customer-details.xlsx
✅ Nombres de columnas limpiados.
✅ Nombres de columnas limpiados.
❌ La columna 'clientid' no existe en uno o ambos DataFrames.


In [93]:
if merged_df is not None:
    # ANÁLISIS DESCRIPTIVO INICIAL
    print("📊 Análisis Descriptivo del DataFrame:")
    print(merged_df.describe())
    print("\nInformación del DataFrame:")
    print(merged_df.info())
    print("\nValores Nulos en cada columna:")
    print(merged_df.isnull().sum())

📊 Análisis Descriptivo del DataFrame:
         Unnamed:_0           age       default       housing          loan  \
count  21728.000000  21728.000000  21728.000000  21728.000000  21728.000000   
mean   21933.160530     38.992038      0.000092      0.542802      0.156480   
min        2.000000     18.000000      0.000000      0.000000      0.000000   
25%    11958.750000     31.000000      0.000000      0.000000      0.000000   
50%    22729.000000     37.000000      0.000000      1.000000      0.000000   
75%    32141.250000     45.000000      0.000000      1.000000      0.000000   
max    41186.000000     94.000000      1.000000      1.000000      1.000000   
std    11802.157312     10.334738      0.009594      0.498176      0.363318   

           duration      campaign         pdays      previous  emp.var.rate  \
count  21728.000000  21728.000000  21728.000000  21728.000000  21728.000000   
mean     259.612297      2.528673    954.948454      0.196843     -0.067963   
min        0.

In [95]:
# MANEJO DE NULOS
    print("\n--- Manejo de Nulos ---\n")
    print(f"Número de nulos antes de eliminar: {merged_df.isnull().sum().sum()}")
    merged_df.dropna(inplace=True)
    print(f"Número de nulos después de eliminar: {merged_df.isnull().sum().sum()}")
    print("✅ Nulos eliminados.")
    # Explicación: Se eliminan los nulos porque... (justifica tu decisión)

    # MANEJO DE DUPLICADOS
    print("\n--- Manejo de Duplicados ---\n")
    print(f"Número de duplicados antes de eliminar: {merged_df.duplicated().sum()}")
    merged_df.drop_duplicates(inplace=True)
    print(f"Número de duplicados después de eliminar: {merged_df.duplicated().sum()}")
    print("✅ Duplicados eliminados.")

IndentationError: unexpected indent (3350411553.py, line 2)