# PySpark Version of 4_2_Example_Data_Bank

This notebook is an automated best-effort translation from pandas to PySpark.
Some pandas-specific operations (corr matrix, complex plotting, chained indexing) were adapted or annotated with TODOs.


In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession.builder.appName("BankExample").getOrCreate()

# Helper: null counts per column
def null_counts(df):
    exprs = [count(when(col(c).isNull(), c)).alias(c) for c in df.columns]
    return df.agg(*exprs)

# Helper: safe rename using select exprs
def rename_cols(df, mapping: dict):
    return df.select([col(c).alias(mapping.get(c,c)) for c in df.columns])


In [None]:
# load libraries
import numpy as np
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession.builder.appName("BankExample").getOrCreate()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [None]:
!curl -L -o dataset_banco.csv "https://drive.google.com/uc?export=download&id=1QF2Bc5u7pC13LHXL0rC8FiwGUBVL_8Uh"
#https://drive.google.com/file/d/177oC4Pg-2Pzd_t5hcpWECkXAgBcO_CBM/view?usp=sharing

In [None]:
!wget --no-cache -O dataset_banco1 -q "https://drive.google.com/uc?export=download&id=1QF2Bc5u7pC13LHXL0rC8FiwGUBVL_8Uh"

In [None]:
#Cargamos los CSV con los Datos
clientes_Banco = spark.read.option("header", True).option("inferSchema", True).csv("/content/dataset_banco.csv")
clientes_Banco

In [None]:
#Listado de Columnas Dataset
clientes_Banco.columns

In [None]:
# Breve descripcion del dataset

# Mostramos el numero de filas y columnas
print(({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)}))

# Informacion Basica del Dataset
print('\n')
clientes_Banco.printSchema()

In [None]:
#Verificar si hay valores nulos, isnull() nos permite detectar datos nulos,
# TODO: manual null count translation

In [None]:
##Verificar si hay valores nulos, si lo prefieres puedes usar notnull() en vez de isnull():
clientes_Banco.notnull().sum()

In [None]:
#dropna: Eliminar valores nulos, esto solo se recomienda cuando hay muchos datos

# Dado que tenemos entre 1 y dos valores nulos por columna podemos eliminarlos
print(clientes_Banco.isnull())
print('\n')
clientes_Banco.dropna(inplace=True)
print('\n')
clientes_Banco.printSchema()


In [None]:
clientes_Banco.columns

In [None]:
# Para obtener el resumen estad√≠stico de las categoricas:
clientes_Banco.describe(include = 'object')

In [None]:
# Conteo de los niveles en las columnas categ√≥ricas
cont_cat = ['job', 'marital', 'education', 'default','housing',
            'loan', 'contact', 'month', 'balance', 'poutcome', 'y']

for col in cont_cat:
  print(f'Columna¬†{col}: {clientes_Banco[col].nunique()} niveles')

In [None]:
clientes_Banco.describe()

In [None]:
print(f'Tama√±o del dataset antes de eliminar las filas repetidas es: {({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)})}')
clientes_Banco.drop_duplicates(inplace=True)
print(f'Tama√±o del dataset despu√©s de eliminar las filas repetidas es: {({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)})}')

In [None]:
clientes_Banco.printSchema()

In [None]:
# Para cambiar el tipo puede usar cualquiera de los siguientes comandos

# df = df.withColumn("dataframe_column", df["dataframe_column"].astype(int))
# df = df.withColumn("dataframe_column", df["dataframe_column"].apply(int))
# df = df.withColumn("dataframe_column", df["dataframe_column"].map(int))
# df=df.astype({'dataframe_column': 'string', 'dataframe_column':'float64',
#              'dataframe_column': 'datetime64[ns]', 'dataframe_column': 'int'})

In [None]:
# Generar gr√°ficas individuales pues las variables num√©ricas
# est√°n en rangos diferentes
col_num = ['age', 'balance', 'day', 'duration', 'campaign',
            'pdays', 'previous']


fig, ax = plt.subplots(nrows=7, ncols=1, figsize=(8,30))
fig.subplots_adjust(hspace=0.5)

for i, col in enumerate(col_num):
    sns.boxplot(x=col, data=clientes_Banco, ax=ax[i])
    ax[i].set_title(col)

In [None]:
# Mostrar tama√±o inicial del dataset
print("="*60)
print(f"üìä Tama√±o del conjunto antes de correcci√≥n: {({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)})}")
print("="*60)

# Contar registros con edades mayores a 100
edad_incorrecta = clientes_Banco['age'][clientes_Banco['age'] > 100].count()
print(f"üîç Registros con edad > 100 a√±os: {edad_incorrecta}")

# Calcular medidas estad√≠sticas
promedio = clientes_Banco['age'].mean()
mediana = clientes_Banco['age'].median()
moda = clientes_Banco['age'].mode()[0]

print("\nüìà Estad√≠sticas descriptivas de la edad:")
print(f"   ‚û§ Promedio : {promedio:.2f}")
print(f"   ‚û§ Mediana  : {mediana}")
print(f"   ‚û§ Moda     : {moda}")

# Mostrar registros problem√°ticos (si existen)
if edad_incorrecta > 0:
    print("\n‚ö†Ô∏è Clientes con edad superior a 100 a√±os:")
    print(clientes_Banco.loc[clientes_Banco['age'] > 100])
else:
    print("\n‚úÖ No se encontraron registros con edad superior a 100 a√±os.")

# Corregir valores mayores a 100 reemplaz√°ndolos por la mediana
clientes_Banco.loc[clientes_Banco['age'] > 100, 'age'] = mediana

# Confirmar la correcci√≥n
print("\nüîß Correcci√≥n aplicada: valores > 100 reemplazados por la mediana.\n")

# Verificar nuevamente si quedan registros mayores a 100
restantes = clientes_Banco.loc[clientes_Banco['age'] > 100]
if len(restantes) == 0:
    print("‚úÖ Todos los registros fueron corregidos correctamente.")
else:
    print("‚ö†Ô∏è A√∫n hay registros con edad > 100:")
    print(restantes)

# Tama√±o final del dataset
print("\n" + "="*60)
print(f"üìä Tama√±o del conjunto despu√©s de correcci√≥n: {({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)})}")
print("="*60)

In [None]:
print("="*60)
print("üéØ LIMPIEZA DE REGISTROS CON DURACI√ìN NEGATIVA O NULA")
print("="*60)

# Mostrar tama√±o inicial
print(f"\nüìä Tama√±o del conjunto antes de correcci√≥n: {({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)})}")

# Contar registros con duraci√≥n <= 0
duraciones_invalidas = clientes_Banco['duration'][clientes_Banco['duration'] <= 0].count()
print(f"üîç Registros con duraci√≥n ‚â§ 0 segundos: {duraciones_invalidas}")

# Mostrar ejemplos (solo si existen)
if duraciones_invalidas > 0:
    print("\n‚ö†Ô∏è Ejemplos de registros con duraci√≥n inv√°lida:")
    print(clientes_Banco.loc[clientes_Banco['duration'] <= 0].head())
else:
    print("\n‚úÖ No se encontraron registros con duraci√≥n ‚â§ 0.")

# Eliminar registros inv√°lidos
clientes_Banco = clientes_Banco[clientes_Banco['duration'] > 0]

# Mostrar resultados finales
print("\nüßπ Registros con duraci√≥n ‚â§ 0 eliminados correctamente.")
print(f"üìä Tama√±o del conjunto despu√©s de correcci√≥n: {({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)})}")
print("="*60)


In [None]:
print("="*60)
print("üéØ LIMPIEZA DE REGISTROS CON 'previous' MAYOR A 100")
print("="*60)

# Tama√±o inicial
print(f"\nüìä Tama√±o del conjunto antes de correcci√≥n: {({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)})}")

# Contar registros con previous > 100
previous_invalidos = clientes_Banco['previous'][clientes_Banco['previous'] > 100].count()
print(f"üîç Registros con 'previous' > 100: {previous_invalidos}")

# Mostrar ejemplos si existen
if previous_invalidos > 0:
    print("\n‚ö†Ô∏è Ejemplos de registros con 'previous' fuera de rango:")
    print(clientes_Banco.loc[clientes_Banco['previous'] > 100].head())
else:
    print("\n‚úÖ No se encontraron registros con 'previous' mayor a 100.")

# Eliminar registros inv√°lidos
clientes_Banco = clientes_Banco[clientes_Banco['previous'] <= 100]

# Tama√±o final
print("\nüßπ Registros con 'previous' > 100 eliminados correctamente.")
print(f"üìä Tama√±o del conjunto despu√©s de correcci√≥n: {({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)})}")
print("="*60)


In [None]:
# No se tienen columnas en este formato
# Pero para cambiar este tipo de datos se usa
#df = df.withColumn("fecha", pd.to_datetime(df["fecha"].dt.strftime('%Y-%m-%d')))


In [None]:
# df=df.replace(to_replace=r'.\(.+\)$', value='', regex=True)
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession.builder.appName("BankExample").getOrCreate()
df = pd.DataFrame({'X': ["zeppy", "amid", "amily"],
                   'Y': ["xar", "abc", "among"],
                   'Z': ['11.2 (15:30)', '10.0 (03:40)', '64 (22:20)']})
df

In [None]:
# En este caso no requiere dividir columnas y su combinacion se analizara con las variables
# categ√≥ricas se deja para que
df1 = df
Z = df1["Z"].str.split(expand=True)
Z.columns = ['Dato', 'Hora']
print(Z)
print('\n')
df1 = pd.concat([df1, Z], axis=1)
print(df1)
print('\n')
df1.drop(columns=['Z'], inplace=True)
df1

In [None]:
print("Before Replacement")
print(df)
df.replace(to_replace=r'^ami.$', value='song', regex=True,inplace=True)
df

In [None]:
print("After Replacement")
print(df)
print("After Replacement Z")
df=df.replace(to_replace=r'.\(.+\)$', value='', regex=True)
df

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

cols_cat = ['job', 'marital', 'education', 'default', 'housing',
            'loan', 'contact', 'month', 'poutcome', 'y']

sns.set_theme(style="whitegrid", palette="pastel")

fig, axes = plt.subplots(nrows=len(cols_cat), ncols=1, figsize=(12, 40))
fig.subplots_adjust(hspace=0.8)

for i, col in enumerate(cols_cat):
    sns.countplot(
        x=col,
        data=clientes_Banco,
        ax=axes[i],
        order=clientes_Banco[col].value_counts().index
    )
    axes[i].set_title(f"Distribuci√≥n de la variable: {col}", fontsize=14, fontweight='bold')
    axes[i].set_xlabel("")
    axes[i].set_ylabel("Frecuencia", fontsize=12)
    axes[i].tick_params(axis='x', rotation=30)  # ‚úÖ Forma correcta de rotar etiquetas
    axes[i].grid(True, linestyle='--', alpha=0.6)

fig.suptitle("Distribuci√≥n de Variables Categ√≥ricas del Dataset", fontsize=18, fontweight='bold', color='darkblue')
plt.show()



In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Convertir las variables categ√≥ricas a min√∫sculas (seguras)
for column in clientes_Banco.columns:
    if column in cols_cat and clientes_Banco[column].dtype == 'object':
        clientes_Banco[column] = clientes_Banco[column].str.lower()

# Configuraci√≥n de estilo
sns.set_theme(style="whitegrid", palette="pastel")

# Crear figura y ejes
fig, axes = plt.subplots(nrows=len(cols_cat), ncols=1, figsize=(12, 40))
fig.subplots_adjust(hspace=0.8)

# Graficar cada variable categ√≥rica
for i, col in enumerate(cols_cat):
    sns.countplot(
        x=col,
        data=clientes_Banco,
        ax=axes[i],
        order=clientes_Banco[col].value_counts().index
    )
    axes[i].set_title(f"Distribuci√≥n de la variable: {col}", fontsize=14, fontweight='bold')
    axes[i].set_xlabel("")
    axes[i].set_ylabel("Frecuencia", fontsize=12)
    axes[i].tick_params(axis='x', rotation=30)  # ‚úÖ Rotaci√≥n sin warnings
    axes[i].grid(True, linestyle='--', alpha=0.6)

# T√≠tulo global
fig.suptitle("Distribuci√≥n de Variables Categ√≥ricas (en min√∫sculas)", fontsize=18, fontweight='bold', color='darkblue')
plt.show()


In [None]:
# job: unificar admin. y administrative
print(clientes_Banco['job'].unique())
clientes_Banco = clientes_Banco.withColumn("job", clientes_Banco['job'].str.replace('admin.','administrative', regex=False))
print(clientes_Banco['job'].unique())

In [None]:
# marital: unificar div. y divorced
print(clientes_Banco['marital'].unique())
clientes_Banco = clientes_Banco.withColumn("marital", clientes_Banco['marital'].str.replace('div.','divorced', regex=False))
print(clientes_Banco['marital'].unique())

In [None]:
# education: unificar sec. y secondary, unk y unknown
print(clientes_Banco['education'].unique())
clientes_Banco = clientes_Banco.withColumn("education", clientes_Banco['education'].str.replace('sec.','secondary', regex=False))
clientes_Banco.loc[clientes_Banco = clientes_Banco.withColumn("education", ='unk','education'] = 'unknown')
print(clientes_Banco['education'].unique())

In [None]:
# contact: unificar telephone y phone
print(clientes_Banco['contact'].unique())
clientes_Banco.loc[clientes_Banco = clientes_Banco.withColumn("contact", ='phone','contact'] = 'telephone')
clientes_Banco.loc[clientes_Banco = clientes_Banco.withColumn("contact", ='mobile','contact'] = 'cellular')
print(clientes_Banco['contact'].unique())

In [None]:
# poutcome: unificar unk y unknown
print(clientes_Banco['poutcome'].unique())
clientes_Banco.loc[clientes_Banco = clientes_Banco.withColumn("poutcome", ='unk','poutcome']='unknown')
print(clientes_Banco['poutcome'].unique())

In [None]:
print(({"rows": clientes_Banco.count(), "cols": len(clientes_Banco.columns)}))
clientes_Banco

In [None]:
#exportar a csv
clientes_Banco.to_csv('clientes_Banco_clean.csv', index=False)


In [None]:
# Notes / TODOs
# - If the original notebook used .corr() matrix or seaborn pairplots, consider:
#     numeric = [f.name for f in df.schema.fields if isinstance(f.dataType, (IntegerType, LongType, DoubleType, FloatType))]
#     # Example of pairwise correlations:
#     for i, c1 in enumerate(numeric):
#         for c2 in numeric[i+1:]:
#             print(c1, c2, df.stat.corr(c1, c2))
# - For plots, convert to pandas on small samples: df.sample(0.1).toPandas().plot(...)
