## Bank Marketing Dataset 
Contiene datos de una campaña de marketing directo de una institución bancaria portuguesa. El objetivo principal de esta campaña era convencer a los clientes de que suscribieran un depósito a plazo fijo. La tarea es predecir si un cliente se suscribirá a un depósito a plazo fijo. Los atributos son:

<ul>
<li>age: Edad del cliente (numérico).</li>
<li>job: Tipo de trabajo (categórico).</li>
<li>marital: Estado civil (categórico).</li>
<li>education: Nivel de educación (categórico).</li>
<li>default: ¿Tiene crédito en default?.</li>
<li>balance: Balance promedio anual en la cuenta bancaria (numérico, en euros).</li>
<li>housing: ¿Tiene crédito de vivienda?.</li>
<li>loan: ¿Tiene préstamo personal?.</li>
<li>contact: Tipo de comunicación de contacto (categórico).</li>
<li>day: Día del mes en que se realizó el último contacto del cliente (numérico).</li>
<li>month: Mes en que se realizó el último contacto del cliente.</li>
<li>duration: Duración del último contacto en segundos (numérico).</li>
<li>campaign: Número de contactos realizados durante esta campaña para este cliente (numérico).</li>
<li>pdays: Número de días que pasaron después de que el cliente fue contactado por última vez desde una campaña anterior (numérico).</li>
<li>previous: Número de contactos realizados antes de esta campaña para este cliente (numérico).</li>
<li>poutcome: Resultado de la campaña de marketing anterior.</li>
<li>y: Variable objetivo (target) que indica si el cliente ha suscrito un depósito a plazo fijo (binario: "yes", "no").</li>
</ul>

In [1]:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

In [2]:
'''SparkContext: Se utiliza para crear RDDs (Resilient Distributed Datasets), que son la estructura de datos fundamental en Spark. SparkContext también administra la comunicación con el cluster Spark, coordinando la ejecución de operaciones en el cluster y administrando la memoria. 
SparkSession: Es una interfaz unificada de nivel superior que reemplaza a las antiguas clases SQLContext y HiveContext en versiones anteriores de Spark. SparkSession proporciona una forma conveniente de trabajar con Apache Spark y los datos estructurados, como DataFrames y Datasets, así como con SQL. Además de encapsular SparkContext, SparkSession proporciona funcionalidades adicionales
En resumen, SparkContext es la interfaz principal para interactuar con Spark en un nivel más bajo, mientras que SparkSession es una capa más alta que proporciona una interfaz más fácil de usar para trabajar con datos estructurados y realizar operaciones SQL
'''

'SparkContext: Se utiliza para crear RDDs (Resilient Distributed Datasets), que son la estructura de datos fundamental en Spark. SparkContext también administra la comunicación con el cluster Spark, coordinando la ejecución de operaciones en el cluster y administrando la memoria. \nSparkSession: Es una interfaz unificada de nivel superior que reemplaza a las antiguas clases SQLContext y HiveContext en versiones anteriores de Spark. SparkSession proporciona una forma conveniente de trabajar con Apache Spark y los datos estructurados, como DataFrames y Datasets, así como con SQL. Además de encapsular SparkContext, SparkSession proporciona funcionalidades adicionales\nEn resumen, SparkContext es la interfaz principal para interactuar con Spark en un nivel más bajo, mientras que SparkSession es una capa más alta que proporciona una interfaz más fácil de usar para trabajar con datos estructurados y realizar operaciones SQL\n'

In [3]:
spark = SparkSession.builder \
    .appName("Bank Analysis") \
    .getOrCreate()

In [None]:
#leer conjunto de datos
df_pyspark=spark.read.option('header','true').csv('test1.csv',inferSchema=True)
#ver esquema
df_pyspark.printSchema()
#mostrar datos
df_pyspark.show()


In [None]:
#con separador ;
data = spark.read.csv('cars.csv', header=True, sep=";")
data.show(5)


In [None]:
# importar tipos
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType

# definir esquema
schema = StructType([
    StructField(name="id", dataType=IntegerType(), nullable=True),
    StructField(name="name", dataType=StringType(), nullable=True),
    StructField(name="category", dataType=StringType(), nullable=True),
    StructField(name="quantity", dataType=IntegerType(), nullable=True),
    StructField(name="price", dataType=DoubleType(), nullable=True)
])

# leer csv
csv_file_path = "./data/products.csv"
df = spark.read.csv(csv_file_path, header=True, schema=schema)


In [3]:
# Leer datos
bank_df = spark.read.csv("bank.csv", header=True, inferSchema=True)

In [None]:
type(df_pyspark)

In [None]:
df_pyspark.head(3)
df_pyspark.tail(3)


In [4]:
print("Esquema del DataFrame:")
bank_df.printSchema()

Esquema del DataFrame:
root
 |-- PassengerId: integer (nullable = true)
 |-- Survived: integer (nullable = true)
 |-- Pclass: integer (nullable = true)
 |-- Name: string (nullable = true)
 |-- Sex: string (nullable = true)
 |-- Age: double (nullable = true)
 |-- SibSp: integer (nullable = true)
 |-- Parch: integer (nullable = true)
 |-- Ticket: string (nullable = true)
 |-- Fare: double (nullable = true)
 |-- Cabin: string (nullable = true)
 |-- Embarked: string (nullable = true)



In [5]:
print("Primeras filas del DataFrame:")
bank_df.show()

Primeras filas del DataFrame:
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|PassengerId|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25| NULL|       S|
|          2|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|
|          3|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925| NULL|       S|
|          4|       1|     1|Futrelle, Mrs. Ja...|female|35.0|    1|    0|          113803|   53.1| C123|       S|
|          5|       0|     3|Allen, Mr. Willia...|  male|35.0|    0|    0|          373450|   8.05| NULL|       S|
|          6|       0|     3|    Moran, Mr. James|

In [6]:
print("Análisis algunas variables:")
bank_df.select("age", "balance", "duration").describe().show()

Análisis algunas variables:
+-------+------------------+------+-------------------+------------------+-----------------+
|summary|               Age|   Sex|           Survived|            Pclass|             Fare|
+-------+------------------+------+-------------------+------------------+-----------------+
|  count|               714|   891|                891|               891|              891|
|   mean| 29.69911764705882|  NULL| 0.3838383838383838| 2.308641975308642| 32.2042079685746|
| stddev|14.526497332334035|  NULL|0.48659245426485753|0.8360712409770491|49.69342859718089|
|    min|              0.42|female|                  0|                 1|              0.0|
|    max|              80.0|  male|                  1|                 3|         512.3292|
+-------+------------------+------+-------------------+------------------+-----------------+



In [None]:
#seleccionar columnas, sin show para guardarlo en otro dataframe
df_pyspark.select(['Name','Experience']).show()

#seleccionar columnas
finalized_data=output.select("Independent Features","Salary")

from os import truncate
#seleccionar columna
data.select(data.Car).show(truncate=False)

#otra forma
data.select(data['car']).show(truncate=False)

#otra forma
from pyspark.sql.functions import col
data.select(col('car')).show(truncate=False)

#seleccionar multiples columnas
data.select(data.Car, data.Cylinders).show(truncate=False)

#otra forma
data.select(data['car'], data['cylinders']).show(truncate=False)

#otra forma
from pyspark.sql.functions import col
data.select(col('CAR'), col('CYLINDERS')).show(truncate=False)

# seleccionar columnas
selected_columns = df.select("id", "name", "price")
print("Selected Columns:")
selected_columns.show(10)


In [None]:
#ver tipos de las columnas
df_pyspark.dtypes


In [None]:
#resumen de los datos
df_pyspark.describe().show()


In [None]:
#añadir columna en base a otra columna
df_pyspark=df_pyspark.withColumn('Experience After 2 year',df_pyspark['Experience']+2)

# añadir columna calculada
df_with_new_column = df.withColumn("revenue", df.quantity * df.price)
print("DataFrame with New Column:")
df_with_new_column.show(10)


In [None]:
#eliminar columna
df_pyspark=df_pyspark.drop('Experience After 2 year')

# eliminar columnas
dropped_columns = df.drop("quantity", "category")
print("Dropped Columns:")
dropped_columns.show(10)


In [None]:
#renombrar columna
df_pyspark.withColumnRenamed('Name','New Name').show()


In [None]:
#personas con salario inferior a 20.000, sin show para guardarlo en otro dataframe
df_pyspark.filter("Salary<=20000").show()

#solo mostrando columnas necesarias
df_pyspark.filter("Salary<=20000").select(['Name','age']).show()

#otra forma
df_pyspark.filter(df_pyspark['Salary']<=20000).show()

#or con | y and con &
df_pyspark.filter((df_pyspark['Salary']<=20000) & 
                  (df_pyspark['Salary']>=15000)).show()

#opuesto a menores de 20.000
df_pyspark.filter(~(df_pyspark['Salary']<=20000)).show()

# filtrar segun condicion
filtered_data = df.filter(df.quantity > 20)
print("Filtered Data:", filtered_data.count())
filtered_data.show()


In [None]:
# convertir columna tipo

In [7]:
print("Número de pasajeros por job:")
bank_df.groupBy("job").count().show()

Número de pasajeros por clase:
+------+-----+
|Pclass|count|
+------+-----+
|     1|  216|
|     3|  491|
|     2|  184|
+------+-----+



In [8]:
# Agrupa por housing y calcula media age
print("Media de age agruando por housing:")
bank_df.groupBy("housing").agg({"age": "mean"}).show()

Tasa de supervivencia por género:
+------+-------------------+
|   Sex|      avg(Survived)|
+------+-------------------+
|female| 0.7420382165605095|
|  male|0.18890814558058924|
+------+-------------------+



In [9]:
print("Balance medio de los clientes:")
bank_df.agg({"balance": "mean"}).show()

Edad media de los pasajeros:
+-----------------+
|         avg(Age)|
+-----------------+
|29.69911764705882|
+-----------------+



In [10]:
print("Duration media de los clientes:")
bank_df.agg({"duration": "mean"}).show()

Tarifa media pagada por pasajero:
+----------------+
|       avg(Fare)|
+----------------+
|32.2042079685746|
+----------------+



In [11]:
print("Número de clientes suscritos:")
bank_df.filter(col("y") == "yes").count()

Número de pasajeros que sobrevivieron:


342

In [12]:
print("Número de clientes por education:")
bank_df.groupBy("education").count().show()

Número de pasajeros por puerto de embarque:
+--------+-----+
|Embarked|count|
+--------+-----+
|       Q|   77|
|    NULL|    2|
|       C|  168|
|       S|  644|
+--------+-----+



In [None]:
data.groupBy('Horsepower').count().show(5)
data.groupBy('Origin','Model').count().show()


In [None]:
#cuenta filas
num_fils = data.count()
print("Total de registros:", num_fils)

#columnas
num_cols = len(data.columns)

#imprimir con formato
print("El DataFrame tiene {} filas y {} columnas.".format(num_fils, num_cols))


In [None]:
#contar con filtro
europa= data.filter(col('Origin')=="US").count()
print("Total de registros en US:", europa)

#contar filtrados
usa= data.filter((col('Origin')=="US")&(col('Horsepower')=="175.0")).count()
print("Total de registros:", usa)


In [None]:
#ascending se puede quitar
data.orderBy('Cylinders',ascending=False).show(truncate=False)

# ordenamos pr columna
sorted_data = df.orderBy("price")
print("Sorted Data:")
sorted_data.show(10)

# orden descendente
from pyspark.sql.functions import col, desc
sorted_data = df.orderBy(col("price").desc(), col("id").desc())
print("Sorted Data Descending:")
sorted_data.show(10)


In [None]:
# seleccionar elementos distintos
distinct_rows = df.select("category").distinct()
print("Distinct Product Categories:")
distinct_rows.show()


In [None]:
#ordenar group by resultado
data.groupBy('Origin').count().orderBy('count', ascending=False).show()


In [None]:
#Agrupar y realizar calculo:
#agrupo por nombre y sumo salarios
df_pyspark.groupBy('Name').sum().show()

#agrupo por nombre y calculo media
df_pyspark.groupBy('Name').avg().show()

#agrupo por departamentos y calculo media
df_pyspark.groupBy('Departments').mean().show()

#agrupo por departamentos y cuento
df_pyspark.groupBy('Departments').count().show()

# agrupar y aplicar diferentes funciones sobre cada columna
grouped_data = df.groupBy("category").agg({"quantity": "sum", "price": "avg"})
print("Grouped and Aggregated Data:")
grouped_data.show()

#agrupa por sexo y calcula media sobreviven
print("Tasa de supervivencia por género:")
titanic_df.groupBy("Sex").agg({"Survived": "mean"}).show()


In [None]:
#suma de todos los salarios
df_pyspark.agg({'Salary':'sum'}).show()


In [13]:
# Matriz de correlación, con loan y housing
print("Distribución de loan con housing:")
loan_by_housing = bank_df.crosstab("loan", "housing")
loan_by_housing.show()

Distribución de la clase de los pasajeros por puerto de embarque:
+---------------+---+---+---+----+
|Pclass_Embarked|  C|  Q|  S|null|
+---------------+---+---+---+----+
|              3| 66| 72|353|   0|
|              1| 85|  2|127|   2|
|              2| 17|  3|164|   0|
+---------------+---+---+---+----+



In [14]:
# Similar pero con group by
print("Distribución de loan con housing:")
loan_by_housing = bank_df.groupBy("loan", "housing").count().orderBy("loan", "housing")
loan_by_housing.show()

Distribución del puerto de embarque por clase de los pasajeros:
+------+--------+-----+
|Pclass|Embarked|count|
+------+--------+-----+
|     1|    NULL|    2|
|     1|       C|   85|
|     1|       Q|    2|
|     1|       S|  127|
|     2|       C|   17|
|     2|       Q|    3|
|     2|       S|  164|
|     3|       C|   66|
|     3|       Q|   72|
|     3|       S|  353|
+------+--------+-----+



In [15]:
# Total de clientes
total_clientes = bank_df.count()
total_clientes

891

In [16]:
from pyspark.sql.functions import count, col
# Número de personas con préstamo personal y su porcentaje
loan_distribution = bank_df.groupBy("loan").agg(
    count("*").alias("count"),
    ((count("*") / total_clientes) * 100).alias("percentage")
)

In [17]:

# Mostrar los resultados
print("Número de clientes con préstamo personal y su porcentaje sobre el total de clientes:")
loan_distribution.show()

Número de hombres y mujeres que embarcaron y su porcentaje sobre el total de pasajeros:
+------+-----+-----------------+
|   Sex|count|       percentage|
+------+-----+-----------------+
|female|  314|35.24130190796858|
|  male|  577|64.75869809203144|
+------+-----+-----------------+



In [18]:
from pyspark.sql.functions import round

# Porcentaje combinación atributos
y_by_loan_housing_percentage = bank_df.groupBy("loan", "housing", "y").agg(
    (count("*") / total_clientes * 100).alias("percentage")
)

# Redondear 
y_by_loan_housing_percentage = y_by_loan_housing_percentage.withColumn("percentage", round("percentage", 2))

# Ordenar 
y_by_loan_housing_percentage = y_by_loan_housing_percentage.orderBy("Embarked", "Sex", "Survived")

# Tabla
print("Porcentaje de clientes para cada combinación de loan, housing y si se ha suscrito al depósito:")
y_by_loan_housing_percentage.show()

Porcentaje de pasajeros para cada combinación de puerto de embarque, género y si sobrevivieron:
+--------+------+--------+----------+
|Embarked|   Sex|Survived|percentage|
+--------+------+--------+----------+
|    NULL|female|       1|      0.22|
|       C|female|       0|      1.01|
|       C|female|       1|      7.18|
|       C|  male|       0|      7.41|
|       C|  male|       1|      3.25|
|       Q|female|       0|      1.01|
|       Q|female|       1|      3.03|
|       Q|  male|       0|      4.26|
|       Q|  male|       1|      0.34|
|       S|female|       0|      7.07|
|       S|female|       1|     15.71|
|       S|  male|       0|     40.85|
|       S|  male|       1|      8.64|
+--------+------+--------+----------+



In [19]:
from pyspark.sql.functions import expr

# Definir rangos de edades
age_ranges = [(i, i + 4) for i in range(0, 100, 5)]

In [20]:
# columna con rango de edad
bank_df_with_age_range = bank_df.withColumn("AgeRange", expr(
    "CASE WHEN Age IS NULL THEN 'Unknown' " +
    "ELSE CAST(FLOOR(Age / 5) * 5 AS INT) + 1 || '-' || CAST(FLOOR(Age / 5) * 5 + 5 AS STRING) END"
))

bank_df.show()

+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+--------+
|PassengerId|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|AgeRange|
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+--------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25| NULL|       S|   21-25|
|          2|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|   36-40|
|          3|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925| NULL|       S|   26-30|
|          4|       1|     1|Futrelle, Mrs. Ja...|female|35.0|    1|    0|          113803|   53.1| C123|       S|   36-40|
|          5|       0|     3|Allen, Mr. Willia...|  male|35.0|    0|    0|          373450|   8.05| NULL|       S|   36-40|
|       

In [21]:
# agrupar y ordenar
age_distribution = bank_df.groupBy("AgeRange").count().orderBy("AgeRange")

# Mostrar 
print("Tabla de frecuencia de clientes por rangos de edades de 5 años:")
age_distribution.show()

Tabla de frecuencia de pasajeros por rangos de edades de 5 años:
+--------+-----+
|AgeRange|count|
+--------+-----+
|     1-5|   40|
|   11-15|   16|
|   16-20|   86|
|   21-25|  114|
|   26-30|  106|
|   31-35|   95|
|   36-40|   72|
|   41-45|   48|
|   46-50|   41|
|   51-55|   32|
|   56-60|   16|
|    6-10|   22|
|   61-65|   15|
|   66-70|    4|
|   71-75|    6|
|   81-85|    1|
| Unknown|  177|
+--------+-----+



In [22]:
from pyspark.sql.functions import mean

# Agrupar por job y calcular media edad
age_by_job = bank_df.groupBy("job").agg(round(mean("Age"),2).alias("AverageAge")).na.drop()

# puerto con edad media mas alta
job_with_highest_average_age = age_by_job.orderBy(age_by_job["AverageAge"].desc()).first()

# resultado
print("El trabajo donde la edad media de los clientes es la más alta es:", job_with_highest_average_age["job"])
print("La edad media en ese trabajo es:", job_with_highest_average_age["AverageAge"])


El puerto donde la edad media de los pasajeros que embarcaron fue la más alta es: C
La edad media en ese puerto fue: 30.81


In [23]:
from pyspark.sql.functions import when, col

# Evaluar si se hicieron contactos previos
bank_df_with_previous = bank_df.withColumn("HadPrevious", when(col("previous") > 0, 1).otherwise(0))

# porcenajte pasajeros sobrevieiro segun numero de hijos
yes_percentage_by_previous = bank_df_with_previous.groupBy("HadPrevious").agg(
    (round((count(when(col("y") == "yes", True)) / count("*") * 100), 2)).alias("YesPercentage")
)

# resultado
print("Porcentaje de clientes que si se suscribieron al depósito con contactos previos:")
yes_percentage_by_previous.show()


Porcentaje de pasajeros que sobrevivieron según si tenian hijos:
+-----------+------------------+
|HadChildren|SurvivalPercentage|
+-----------+------------------+
|          1|             51.17|
|          0|             34.37|
+-----------+------------------+



In [24]:
from pyspark.sql.functions import avg
# Edad media por loan y clase objetivo
average_age_by_loan_and_y = bank_df.groupBy("loan", "y") \
    .agg(round(avg("age"), 2).alias("AverageAge"))

average_age_by_loan_and_y = average_age_by_loan_and_y.orderBy(average_age_by_loan_and_y["AverageAge"].desc())

# resultado
print("Edad media por loan y si se suscribieron al depósito:")
average_age_by_loan_and_y.show()


Tarifa media por clase y puerto de embarque:
+------+--------+-----------+
|Pclass|Embarked|AverageFare|
+------+--------+-----------+
|     1|       C|     104.72|
|     1|       Q|       90.0|
|     1|    NULL|       80.0|
|     1|       S|      70.36|
|     2|       C|      25.36|
|     2|       S|      20.33|
|     3|       S|      14.64|
|     2|       Q|      12.35|
|     3|       C|      11.21|
|     3|       Q|      11.18|
+------+--------+-----------+



In [26]:
from pyspark.sql.functions import col, floor, count, when

# intervalos
bank_df_with_age_group = bank_df.withColumn("AgeGroup", floor(col("age") / 5) * 5)
bank_df_with_age_group.show()

+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+--------+
|PassengerId|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|AgeGroup|
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+--------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25| NULL|       S|      20|
|          2|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|      35|
|          3|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925| NULL|       S|      25|
|          4|       1|     1|Futrelle, Mrs. Ja...|female|35.0|    1|    0|          113803|   53.1| C123|       S|      35|
|          5|       0|     3|Allen, Mr. Willia...|  male|35.0|    0|    0|          373450|   8.05| NULL|       S|      35|
|       

In [27]:
# Agrupar por intervalo de edad y loan y contar. Loan No y agegroup=10 clientes
age_class_counts = bank_df_with_age_group.groupBy("AgeGroup", "loan").count()
age_class_counts.show()

+--------+------+-----+
|AgeGroup|Pclass|count|
+--------+------+-----+
|      20|     2|   23|
|      60|     2|    2|
|      10|     2|    2|
|      65|     2|    1|
|      60|     3|    2|
|      50|     1|   17|
|      60|     1|   11|
|      35|     3|   24|
|      30|     2|   32|
|    NULL|     1|   30|
|    NULL|     3|  136|
|      25|     3|   60|
|       5|     3|   17|
|      10|     1|    2|
|      55|     1|   10|
|      35|     2|   16|
|      55|     3|    2|
|      15|     1|   16|
|      15|     3|   54|
|      35|     1|   32|
+--------+------+-----+
only showing top 20 rows



In [28]:
# Contar el número de clientes en cada grupo de edades. Agegroup 15 de todos los loan =10 clientes
total_in_age_group = bank_df_with_age_group.groupBy("AgeGroup").agg(count("*").alias("TotalCount"))
total_in_age_group.show()

+--------+----------+
|AgeGroup|TotalCount|
+--------+----------+
|      65|         4|
|       0|        40|
|      50|        32|
|      25|       106|
|    NULL|       177|
|       5|        22|
|      10|        16|
|      55|        16|
|      35|        72|
|      80|         1|
|      15|        86|
|      30|        95|
|      20|       114|
|      70|         6|
|      60|        15|
|      40|        48|
|      45|        41|
+--------+----------+



In [29]:
# Unir dataframes distribución edades e intervalos. Edad 15 de todas las loan total 10 clientes
age_class_distribution = age_class_counts.join(total_in_age_group, "AgeGroup")
age_class_distribution.show()

+--------+------+-----+----------+
|AgeGroup|Pclass|count|TotalCount|
+--------+------+-----+----------+
|      20|     2|   23|       114|
|      60|     2|    2|        15|
|      10|     2|    2|        16|
|      65|     2|    1|         4|
|      60|     3|    2|        15|
|      50|     1|   17|        32|
|      60|     1|   11|        15|
|      35|     3|   24|        72|
|      30|     2|   32|        95|
|      25|     3|   60|       106|
|       5|     3|   17|        22|
|      10|     1|    2|        16|
|      55|     1|   10|        16|
|      35|     2|   16|        72|
|      55|     3|    2|        16|
|      15|     1|   16|        86|
|      15|     3|   54|        86|
|      35|     1|   32|        72|
|      45|     3|   12|        41|
|      40|     2|   12|        48|
+--------+------+-----+----------+
only showing top 20 rows



In [30]:
# Calcular porcentaje clientes dentro de cada elemento. Edad 15 hay 10 clientes. 3 clase 1, 3 clase 2...
age_class_distribution = age_class_distribution.withColumn(
    "Percentage",
    round((col("count") / col("TotalCount")) * 100, 2)
)
age_class_distribution.show()

+--------+------+-----+----------+----------+
|AgeGroup|Pclass|count|TotalCount|Percentage|
+--------+------+-----+----------+----------+
|      20|     2|   23|       114|     20.18|
|      60|     2|    2|        15|     13.33|
|      10|     2|    2|        16|      12.5|
|      65|     2|    1|         4|      25.0|
|      60|     3|    2|        15|     13.33|
|      50|     1|   17|        32|     53.13|
|      60|     1|   11|        15|     73.33|
|      35|     3|   24|        72|     33.33|
|      30|     2|   32|        95|     33.68|
|      25|     3|   60|       106|      56.6|
|       5|     3|   17|        22|     77.27|
|      10|     1|    2|        16|      12.5|
|      55|     1|   10|        16|      62.5|
|      35|     2|   16|        72|     22.22|
|      55|     3|    2|        16|      12.5|
|      15|     1|   16|        86|      18.6|
|      15|     3|   54|        86|     62.79|
|      35|     1|   32|        72|     44.44|
|      45|     3|   12|        41|

In [31]:
# Ordenar
age_class_distribution = age_class_distribution.orderBy("AgeGroup", "loan")
age_class_distribution.show()

+--------+------+-----+----------+----------+
|AgeGroup|Pclass|count|TotalCount|Percentage|
+--------+------+-----+----------+----------+
|       0|     1|    3|        40|       7.5|
|       0|     2|   12|        40|      30.0|
|       0|     3|   25|        40|      62.5|
|       5|     2|    5|        22|     22.73|
|       5|     3|   17|        22|     77.27|
|      10|     1|    2|        16|      12.5|
|      10|     2|    2|        16|      12.5|
|      10|     3|   12|        16|      75.0|
|      15|     1|   16|        86|      18.6|
|      15|     2|   16|        86|      18.6|
|      15|     3|   54|        86|     62.79|
|      20|     1|   18|       114|     15.79|
|      20|     2|   23|       114|     20.18|
|      20|     3|   73|       114|     64.04|
|      25|     1|   16|       106|     15.09|
|      25|     2|   30|       106|      28.3|
|      25|     3|   60|       106|      56.6|
|      30|     1|   18|        95|     18.95|
|      30|     2|   32|        95|

In [32]:

# Resultado
print("Distribución de clientes según la edad y si tienen préstamo personal por intervalos:")
age_class_distribution.show()


Distribución de pasajeros según la edad y la clase por intervalos:
+--------+------+-----+----------+----------+
|AgeGroup|Pclass|count|TotalCount|Percentage|
+--------+------+-----+----------+----------+
|       0|     1|    3|        40|       7.5|
|       0|     2|   12|        40|      30.0|
|       0|     3|   25|        40|      62.5|
|       5|     2|    5|        22|     22.73|
|       5|     3|   17|        22|     77.27|
|      10|     1|    2|        16|      12.5|
|      10|     2|    2|        16|      12.5|
|      10|     3|   12|        16|      75.0|
|      15|     1|   16|        86|      18.6|
|      15|     2|   16|        86|      18.6|
|      15|     3|   54|        86|     62.79|
|      20|     1|   18|       114|     15.79|
|      20|     2|   23|       114|     20.18|
|      20|     3|   73|       114|     64.04|
|      25|     1|   16|       106|     15.09|
|      25|     2|   30|       106|      28.3|
|      25|     3|   60|       106|      56.6|
|      30|   

In [33]:
from pyspark.sql.functions import col

# Filtrar se suscribieron al depósito y default no
filtered_data = bank_df.filter((col("default") == "no") & (col("y") == "yes"))
filtered_data.show()

+-----------+--------+------+--------------------+----+----+-----+-----+---------------+-------+-----------+--------+
|PassengerId|Survived|Pclass|                Name| Sex| Age|SibSp|Parch|         Ticket|   Fare|      Cabin|Embarked|
+-----------+--------+------+--------------------+----+----+-----+-----+---------------+-------+-----------+--------+
|          1|       0|     3|Braund, Mr. Owen ...|male|22.0|    1|    0|      A/5 21171|   7.25|       NULL|       S|
|          5|       0|     3|Allen, Mr. Willia...|male|35.0|    0|    0|         373450|   8.05|       NULL|       S|
|          7|       0|     1|McCarthy, Mr. Tim...|male|54.0|    0|    0|          17463|51.8625|        E46|       S|
|          8|       0|     3|Palsson, Master. ...|male| 2.0|    3|    1|         349909| 21.075|       NULL|       S|
|         13|       0|     3|Saundercock, Mr. ...|male|20.0|    0|    0|      A/5. 2151|   8.05|       NULL|       S|
|         14|       0|     3|Andersson, Mr. An...|male|3

In [34]:
# Agrupar por housing y contar hombre sobrevivieron. Clase 1 sobrevivieron 17.
survived_men_by_class = filtered_data.groupBy("Pclass").agg(count(when(col("Survived") == 1, True)).alias("SurvivedMen"))
survived_men_by_class.show()


+------+-----------+
|Pclass|SurvivedMen|
+------+-----------+
|     1|         28|
|     3|         34|
|     2|         15|
+------+-----------+



In [35]:
# clase donde mas hombres sobrevivieron en el puerto s
most_survived_class = survived_men_by_class.orderBy(survived_men_by_class["SurvivedMen"].desc()).first()


In [36]:
# resultado
print("La clase en la que más hombres sobrevivieron de los que embarcaron en el puerto 'S' fue la clase:", most_survived_class["Pclass"])
print("Número de hombres sobrevivientes en esa clase:", most_survived_class["SurvivedMen"])


La clase en la que más hombres sobrevivieron de los que embarcaron en el puerto 'S' fue la clase: 3
Número de hombres sobrevivientes en esa clase: 34


In [58]:
# Contar filas con nulos
num_rows_with_null = bank_df.na.drop().count()

# Resultado
print(f"El número de filas con al menos un valor nulo es: {bank_df.count() - num_rows_with_null}")


El número de filas con al menos un valor nulo es: 0


In [59]:
# Contar nulos por columnas
null_counts = [(column, bank_df.where(col(column).isNull()).count()) for column in bank_df.columns]

# Resultados
for column, count in null_counts:
    print(f"Columna '{column}' tiene {count} valor(es) nulo(s).")

Columna 'PassengerId' tiene 0 valor(es) nulo(s).
Columna 'Survived' tiene 0 valor(es) nulo(s).
Columna 'Pclass' tiene 0 valor(es) nulo(s).
Columna 'Name' tiene 0 valor(es) nulo(s).
Columna 'Sex' tiene 0 valor(es) nulo(s).
Columna 'Age' tiene 0 valor(es) nulo(s).
Columna 'SibSp' tiene 0 valor(es) nulo(s).
Columna 'Parch' tiene 0 valor(es) nulo(s).
Columna 'Ticket' tiene 0 valor(es) nulo(s).
Columna 'Fare' tiene 0 valor(es) nulo(s).
Columna 'Embarked' tiene 0 valor(es) nulo(s).


In [50]:
# Media de age
mean_age = bank_df.select(mean(bank_df['Age'])).collect()[0][0]

# Nulos reemplazamos por la media
bank_df = bank_df.na.fill(mean_age, subset=['Age'])
bank_df.show()

+-----------+--------+------+--------------------+------+-----------------+-----+-----+----------------+-------+-----+--------+
|PassengerId|Survived|Pclass|                Name|   Sex|              Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|
+-----------+--------+------+--------------------+------+-----------------+-----+-----+----------------+-------+-----+--------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|             22.0|    1|    0|       A/5 21171|   7.25| NULL|       S|
|          2|       1|     1|Cumings, Mrs. Joh...|female|             38.0|    1|    0|        PC 17599|71.2833|  C85|       C|
|          3|       1|     3|Heikkinen, Miss. ...|female|             26.0|    0|    0|STON/O2. 3101282|  7.925| NULL|       S|
|          4|       1|     1|Futrelle, Mrs. Ja...|female|             35.0|    1|    0|          113803|   53.1| C123|       S|
|          5|       0|     3|Allen, Mr. Willia...|  male|             35.0|    0|    0|          373450|

In [53]:
# Eliminar columna
bank_df = bank_df.drop("day")

In [None]:
from pyspark.ml.feature import Imputer
#completa campos vacios con la media de la columna
imputer = Imputer(
    inputCols=['age', 'Experience', 'Salary'], 
    outputCols=["{}_imputed".format(c) for c in ['age', 'Experience', 'Salary']]
    ).setStrategy("median")

# aplicar transformacion
imputer.fit(df_pyspark).transform(df_pyspark).show()


In [None]:
#elimina nulos y muestra
df_pyspark.na.drop().show()

#elimina la fila si hay algun nulo
#all necesita todos nulos en la fila
df_pyspark.na.drop(how="any").show()

#si al menos 3 campos completos, mantiene la fila
df_pyspark.na.drop(how="any",thresh=3).show()

#solo elimina filas si tienen null en esa columna
df_pyspark.na.drop(how="any",subset=['Age']).show()

#Completar campos vacios de columnas con el valor que queramos
df_pyspark.na.fill('Missing Values',['Experience','age']).show()


In [54]:
# Eliminar filas con month null
bank_df = bank_df.na.drop(subset=["month"])

In [60]:
#contar filas con nulos
num_rows_with_null = bank_df.na.drop().count()

# resultado
print(f"El número de filas con al menos un valor nulo es: {bank_df.count() - num_rows_with_null}")


El número de filas con al menos un valor nulo es: 0


In [61]:
from pyspark.ml.feature import StringIndexer
from pyspark.ml import Pipeline

# indices de salida
indexers = [
    StringIndexer(inputCol=col, outputCol=col + "Index")
    for col in ["job", "marital", "education"]
]

In [62]:
# Pipeline
pipeline = Pipeline(stages=indexers)

In [63]:
# Aplicarla
bank_df_indexed = pipeline.fit(bank_df).transform(bank_df)

In [64]:
# resultado
bank_df_indexed.select("job", "marital", "education","jobIndex", "maritalIndex", "educationIndex").show()


+------+--------+------+-----------+--------+-------------+
|   Sex|SexIndex|Pclass|PclassIndex|Embarked|EmbarkedIndex|
+------+--------+------+-----------+--------+-------------+
|  male|     0.0|     3|        0.0|       S|          0.0|
|female|     1.0|     1|        1.0|       C|          1.0|
|female|     1.0|     3|        0.0|       S|          0.0|
|female|     1.0|     1|        1.0|       S|          0.0|
|  male|     0.0|     3|        0.0|       S|          0.0|
|  male|     0.0|     3|        0.0|       Q|          2.0|
|  male|     0.0|     1|        1.0|       S|          0.0|
|  male|     0.0|     3|        0.0|       S|          0.0|
|female|     1.0|     3|        0.0|       S|          0.0|
|female|     1.0|     2|        2.0|       C|          1.0|
|female|     1.0|     3|        0.0|       S|          0.0|
|female|     1.0|     1|        1.0|       S|          0.0|
|  male|     0.0|     3|        0.0|       S|          0.0|
|  male|     0.0|     3|        0.0|    

In [65]:
from pyspark.ml.linalg import Vectors
from pyspark.ml.stat import Correlation

# Indices
index_columns = ["jobIndex", "maritalIndex", "educationIndex"]

In [66]:
# columnas a vector
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=index_columns, outputCol="features")

In [79]:
# dataframe con columnas seleccionadas
df_assembled = assembler.transform(bank_df_indexed).select("features")

+--------------------+
|            features|
+--------------------+
|         [22.0,7.25]|
|      [38.0,71.2833]|
|        [26.0,7.925]|
|         [35.0,53.1]|
|         [35.0,8.05]|
|[29.6991176470588...|
|      [54.0,51.8625]|
|        [2.0,21.075]|
|      [27.0,11.1333]|
|      [14.0,30.0708]|
|          [4.0,16.7]|
|        [58.0,26.55]|
|         [20.0,8.05]|
|       [39.0,31.275]|
|       [14.0,7.8542]|
|         [55.0,16.0]|
|        [2.0,29.125]|
|[29.6991176470588...|
|         [31.0,18.0]|
|[29.6991176470588...|
+--------------------+
only showing top 20 rows



In [68]:
# Matriz de correlación
correlation_matrix = Correlation.corr(df_assembled, "features").collect()[0][0]

In [69]:

# Mostrar la matriz: 1 mucha correlacción, 0 poca
print("Matriz de correlación entre job, marital, education:")
print(correlation_matrix)


Matriz de correlación entre SexIndex, PclassIndex y EmbarkedIndex:
DenseMatrix([[ 1.        ,  0.11708532,  0.11859266],
             [ 0.11708532,  1.        , -0.16763573],
             [ 0.11859266, -0.16763573,  1.        ]])


In [72]:
# Group by de las tres variables
grouped_df = bank_df.groupBy("job", "marital", "education").count().orderBy("job")
grouped_df.show()

+------+------+--------+-----+
|   Sex|Pclass|Embarked|count|
+------+------+--------+-----+
|female|     1|       S|   48|
|female|     1|       Q|    1|
|female|     1|       C|   43|
|female|     3|       C|   23|
|female|     2|       C|    7|
|female|     2|       Q|    2|
|female|     3|       S|   88|
|female|     3|       Q|   33|
|female|     2|       S|   67|
|  male|     2|       Q|    1|
|  male|     1|       S|   79|
|  male|     1|       C|   42|
|  male|     2|       C|   10|
|  male|     3|       C|   43|
|  male|     1|       Q|    1|
|  male|     3|       S|  265|
|  male|     3|       Q|   39|
|  male|     2|       S|   97|
+------+------+--------+-----+



In [73]:
# Outliers edad
# Rango intercuartílico (IQR)
quantiles = bank_df.approxQuantile("age", [0.25, 0.75], 0.05)
Q1 = quantiles[0]
Q3 = quantiles[1]
IQR = Q3 - Q1

# Límites
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Identificar outliers
outliers = bank_df.filter((col("age") < lower_bound) | (col("age") > upper_bound))

# Mostrarlos
outliers.show()

+-----------+--------+------+--------------------+------+----+-----+-----+-------------+-------+--------+
|PassengerId|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|       Ticket|   Fare|Embarked|
+-----------+--------+------+--------------------+------+----+-----+-----+-------------+-------+--------+
|          7|       0|     1|McCarthy, Mr. Tim...|  male|54.0|    0|    0|        17463|51.8625|       S|
|          8|       0|     3|Palsson, Master. ...|  male| 2.0|    3|    1|       349909| 21.075|       S|
|         11|       1|     3|Sandstrom, Miss. ...|female| 4.0|    1|    1|      PP 9549|   16.7|       S|
|         12|       1|     1|Bonnell, Miss. El...|female|58.0|    0|    0|       113783|  26.55|       S|
|         16|       1|     2|Hewlett, Mrs. (Ma...|female|55.0|    0|    0|       248706|   16.0|       S|
|         17|       0|     3|Rice, Master. Eugene|  male| 2.0|    4|    1|       382652| 29.125|       Q|
|         34|       0|     2|Wheadon, Mr. Edwa

In [74]:
# Normalizar
from pyspark.ml.feature import MinMaxScaler
# Combinar las columnas en un vector
assembler = VectorAssembler(inputCols=["age", "balance"], outputCol="features")
df_assembled = assembler.transform(bank_df)

# MinMaxScaler
scaler = MinMaxScaler(inputCol="features", outputCol="features_scaled")

# Ajustar y normalizar
scaler_model = scaler.fit(df_assembled)
df_normalizado = scaler_model.transform(df_assembled)

# Mostrar 
df_normalizado.show()

+-----------+--------+------+--------------------+------+-----------------+-----+-----+----------------+-------+--------+--------------------+--------------------+
|PassengerId|Survived|Pclass|                Name|   Sex|              Age|SibSp|Parch|          Ticket|   Fare|Embarked|            features|     features_scaled|
+-----------+--------+------+--------------------+------+-----------------+-----+-----+----------------+-------+--------+--------------------+--------------------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|             22.0|    1|    0|       A/5 21171|   7.25|       S|         [22.0,7.25]|[0.27117366172405...|
|          2|       1|     1|Cumings, Mrs. Joh...|female|             38.0|    1|    0|        PC 17599|71.2833|       C|      [38.0,71.2833]|[0.47222920331741...|
|          3|       1|     3|Heikkinen, Miss. ...|female|             26.0|    0|    0|STON/O2. 3101282|  7.925|       S|        [26.0,7.925]|[0.32143754712239...|
|          4|   

In [81]:
# Estandarizar
from pyspark.ml.feature import StandardScaler
# Combinar columnas
assembler = VectorAssembler(inputCols=["age", "balance"], outputCol="features")
df_assembled = assembler.transform(bank_df_indexed)

# StandardScaler
scaler = StandardScaler(inputCol="features", outputCol="features_scaled")

# Ajustar 
scaler_model = scaler.fit(df_assembled)
df_estandarizado = scaler_model.transform(df_assembled)

# Combinar categóricas convertidas y numéricas en un vector
assembler_total = VectorAssembler(inputCols=["features_scaled", "jobIndex","maritalIndex","educationIndex"], outputCol="features_total")
df_final = assembler_total.transform(df_estandarizado)

df_final.show(truncate=False)

+-----------+--------+------+-------------------------------------------------------+------+-----------------+-----+-----+----------------+-------+--------+--------+-----------+-------------+--------------------------+-----------------------------------------+----------------------------------------------------+
|PassengerId|Survived|Pclass|Name                                                   |Sex   |Age              |SibSp|Parch|Ticket          |Fare   |Embarked|SexIndex|PclassIndex|EmbarkedIndex|features                  |features_scaled                          |features_total                                      |
+-----------+--------+------+-------------------------------------------------------+------+-----------------+-----+-----+----------------+-------+--------+--------+-----------+-------------+--------------------------+-----------------------------------------+----------------------------------------------------+
|1          |0       |3     |Braund, Mr. Owen Harris      