## Importamos de la libreria pyspark funciones y para iniciar SparkSession

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.types import IntegerType
from pyspark.sql.types import DoubleType
from pyspark.sql.types import StringType
from pyspark.sql.functions import sum, when, col
import pyspark.sql.functions as F
from pyspark.sql.functions import lpad
from pyspark.sql.functions import round,avg
import pandas as pd

## Creamos la sesion Spark

In [2]:
spark = SparkSession.builder .appName("MiAplicacion") .getOrCreate()



##  Leemos el archivo mediante la variable spark que contiene sparksession.
### Al poner como variable header, reconocemos que tiene titulo, y con inferSchema, adapta el csv con sus tipos de datos (Integer, String y Double(Float))

In [3]:
df = spark.read.csv('C:\\Users\\camil\\Desktop\\New Folder\\BBDD-PowerBi-Excel\\titanic.csv',header=True, inferSchema=True)


## Mostramos la tabla y vemos sus datos

In [4]:
df.show()

+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|PassengerId|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25| NULL|       S|
|          2|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|
|          3|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925| NULL|       S|
|          4|       1|     1|Futrelle, Mrs. Ja...|female|35.0|    1|    0|          113803|   53.1| C123|       S|
|          5|       0|     3|Allen, Mr. Willia...|  male|35.0|    0|    0|          373450|   8.05| NULL|       S|
|          6|       0|     3|    Moran, Mr. James|  male|NULL|    0|    0|      

## Mostramos que tipo de datos tenemos

In [5]:
df.printSchema()

root
 |-- PassengerId: integer (nullable = true)
 |-- Survived: integer (nullable = true)
 |-- Pclass: integer (nullable = true)
 |-- Name: string (nullable = true)
 |-- Sex: string (nullable = true)
 |-- Age: double (nullable = true)
 |-- SibSp: integer (nullable = true)
 |-- Parch: integer (nullable = true)
 |-- Ticket: string (nullable = true)
 |-- Fare: double (nullable = true)
 |-- Cabin: string (nullable = true)
 |-- Embarked: string (nullable = true)



## Contamos filas

In [6]:
df.count()

891

## Cambiamos nombre

In [7]:
new_name = 'Name'
df = df.withColumnRenamed('name', new_name)

## Con el metodo importado lpad, corregimos un poco la visual de la columna Name y Sex

In [8]:
df = df.withColumn("Name", lpad(df["Name"], 14, " "))
df = df.withColumn("Sex", lpad(df["Sex"],6 , " "))
df.show()

+-----------+--------+------+--------------+------+----+-----+-----+----------------+-------+-----+--------+
|PassengerId|Survived|Pclass|          Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|
+-----------+--------+------+--------------+------+----+-----+-----+----------------+-------+-----+--------+
|          1|       0|     3|Braund, Mr. Ow|  male|22.0|    1|    0|       A/5 21171|   7.25| NULL|       S|
|          2|       1|     1|Cumings, Mrs. |female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|
|          3|       1|     3|Heikkinen, Mis|female|26.0|    0|    0|STON/O2. 3101282|  7.925| NULL|       S|
|          4|       1|     1|Futrelle, Mrs.|female|35.0|    1|    0|          113803|   53.1| C123|       S|
|          5|       0|     3|Allen, Mr. Wil|  male|35.0|    0|    0|          373450|   8.05| NULL|       S|
|          6|       0|     3|Moran, Mr. Jam|  male|NULL|    0|    0|          330877| 8.4583| NULL|       Q|
|          7|      

## Creamos una funcion para buscar nulos.

In [9]:
def BuscarNulos(df, columna):
    nulos = df.filter(col(columna).isNull()).count()
    return nulos

In [10]:
print(f"La columna PassengerId tiene: {BuscarNulos(df, 'PassengerId')} nulos")
print(f"La columna Survived tiene: {BuscarNulos(df, 'Survived')} nulos")
print(f"La columna Pclass tiene: {BuscarNulos(df, 'Pclass')} nulos")
print(f"La columna Name tiene: {BuscarNulos(df, 'Name')} nulos")
print(f"La columna Sex tiene: {BuscarNulos(df, 'Sex')} nulos")
print(f"La columna Age tiene: {BuscarNulos(df, 'Age')} nulos")
print(f"La columna SibSp tiene: {BuscarNulos(df, 'SibSp')} nulos")
print(f"La columna Parch tiene: {BuscarNulos(df, 'Parch')} nulos")
print(f"La columna Ticket tiene: {BuscarNulos(df, 'Ticket')} nulos")
print(f"La columna Fare tiene: {BuscarNulos(df, 'Fare')} nulos")
print(f"La columna Cabin tiene: {BuscarNulos(df, 'Cabin')} nulos")
print(f"La columna Embarked tiene: {BuscarNulos(df, 'Embarked')} nulos")



La columna PassengerId tiene: 0 nulos
La columna Survived tiene: 0 nulos
La columna Pclass tiene: 0 nulos
La columna Name tiene: 0 nulos
La columna Sex tiene: 0 nulos
La columna Age tiene: 177 nulos
La columna SibSp tiene: 0 nulos
La columna Parch tiene: 0 nulos
La columna Ticket tiene: 0 nulos
La columna Fare tiene: 0 nulos
La columna Cabin tiene: 687 nulos
La columna Embarked tiene: 2 nulos


## Al ser un dataframe chico, la mejor opcion, es dropear la columna Cabin, ya que tiene 3/4 de valores NULL. Para posteriormente eliminar valores NULL.

In [11]:
df_drop = 'Cabin'
df = df.drop(df_drop)

## Lo que tambien se puede hacer, es rellenar los datos NULL en la columna Age, por la media de valores de la misma columna.
## En este caso no lo vamos hacer.


In [12]:
new_values = 'Age'
media = df.select(round(avg(new_values),3)).collect()[0][0]
print(media)

29.699


## Eliminamos nulos

In [13]:
columns_null =['Embarked','Age']
df = df.na.drop(subset=columns_null)

## Conclusiones:
### A continuacion muestro la cantidad de fallecidos por sexo. Agrupamos por sex y agregamos la suma cuando la columna Survived sea igual 0 (Fallecio) se suma segun el sexo +1. De lo contrario (otherwise(0)) y creamos un alias.

In [14]:
result = df.groupBy("Sex").agg(
    sum(when(col("Survived") == 0, 1).otherwise(0)).alias("Cantidad de fallecidos"))
result.show()

+------+----------------------+
|   Sex|Cantidad de fallecidos|
+------+----------------------+
|female|                    64|
|  male|                   360|
+------+----------------------+



In [21]:
df_filtered = df.filter(col('Age') < 10)
result_age = df_filtered.groupBy("Sex").agg(
    sum(when(col("Survived") == 0, 1).otherwise(0)).alias("Cantidad de fallecidos")
)
result_age.show()

+------+----------------------+
|   Sex|Cantidad de fallecidos|
+------+----------------------+
|female|                    11|
|  male|                    13|
+------+----------------------+



SyntaxError: invalid syntax (<ipython-input-22-f188d5ac1197>, line 1)