In [0]:
# Definimos la ruta base del volumen
base_path = "/Volumes/workspace/dbtest/dataclase2/"

# Leemos los archivos CSV como DataFrames
athletes_df = spark.read.option("header", True).option("delimiter", ",").csv(f"{base_path}Athletes.csv")
coaches_df = spark.read.option("header", True).option("delimiter", ",").csv(f"{base_path}Coaches.csv")
entries_gender_df = spark.read.option("header", True).option("delimiter", ",").csv(f"{base_path}EntriesGender.csv")
medals_df = spark.read.option("header", True).option("delimiter", ",").csv(f"{base_path}Medals.csv")
teams_df = spark.read.option("header", True).option("delimiter", ",").csv(f"{base_path}Teams.csv")

# Operaciones en PySpark: `schema` y `show`

## 1. `schema`

La operación **`schema`** en PySpark se utiliza para conocer la **estructura de un DataFrame**. Esto incluye:  

- Los **nombres de las columnas**  
- El **tipo de dato** de cada columna (`StringType`, `IntegerType`, `DoubleType`, etc.)  
- Si la columna permite `null` o no (`nullable`)  

**Ejemplo de uso:**

```python
# Mostramos la estructura del DataFrame athletes_df
athletes_df.printSchema()

Ejemplo de salida:

root
 |-- ID: IntegerType (nullable = true)
 |-- Name: StringType (nullable = true)
 |-- Age: IntegerType (nullable = true)
 |-- Country: StringType (nullable = true)
 |-- Sport: StringType (nullable = true)

Explicación del detalle:

root: Raíz del DataFrame.

Cada línea indica:

Nombre de la columna (ID, Name, etc.)

Tipo de dato (IntegerType, StringType, etc.)

Si acepta valores nulos (nullable = true/false)

2. show

La operación show() se utiliza para visualizar los datos de un DataFrame de manera tabular en la consola.

Ejemplo de uso:

Mostrar las primeras 5 filas del DataFrame athletes_df
athletes_df.show(5)

+---+--------+---+-----------+----------+
| ID|    Name|Age|    Country|     Sport|
+---+--------+---+-----------+----------+
|  1| John Doe| 25|        USA|    Soccer|
|  2| Jane Doe| 23|     Canada|Basketball|
|  3| Mike Lee| 28|        USA|  Swimming|
|  4| Sara Kim| 22| South Korea|   Tennis|
|  5| Tom Chen| 30|     Taiwan| Baseball|
+---+--------+---+-----------+----------+


Opciones útiles de show():

df.show(n=10, truncate=False) → muestra las primeras n filas y evita truncar texto largo.

df.show(vertical=True) → muestra cada fila en formato vertical (útil para muchas columnas).

In [0]:
# mostramos el esquema de cada DataFrame
athletes_df.printSchema()
# coaches_df.printSchema()
# entries_gender_df.printSchema()
# medals_df.printSchema()
# teams_df.printSchema()

# Mostramos un preview de cada DataFrame
athletes_df.show(5)
# coaches_df.show(5)
# entries_gender_df.show(5)
# medals_df.show(5)
# teams_df.show(5)

In [0]:
# Importamos funciones de PySpark
from pyspark.sql import functions as F
from pyspark.sql.types import IntegerType

# Convertimos las columnas a IntegerType usando F.col
entries_gender_df = entries_gender_df \
    .withColumn("Female", F.col("Female").cast(IntegerType())) \
    .withColumn("Male", F.col("Male").cast(IntegerType())) \
    .withColumn("Total", F.col("Total").cast(IntegerType()))

# Mostramos un preview para verificar
entries_gender_df.show(5)

In [0]:
entries_gender_df.printSchema()

In [0]:
from pyspark.sql import functions as F

# Ordenamos por la columna "Gold" de manera descendente y seleccionamos país y medallas de oro
top_gold_medal_countries = medals_df \
    .orderBy(F.col("Gold").desc()) \
    .select(F.col("TeamCountry"), F.col("Gold"))

# Mostramos los primeros resultados
top_gold_medal_countries.show(10)

In [0]:
from pyspark.sql import functions as F

# Calculamos el promedio de entradas por género para cada disciplina
average_entries_by_gender = entries_gender_df \
    .withColumn('Avg_Female', F.col('Female') / F.col('Total')) \
    .withColumn('Avg_Male', F.col('Male') / F.col('Total'))

# Mostramos los resultados
average_entries_by_gender.show(10)

In [0]:
athletes.repartition(1).write.mode("overwrite").option("header",'true').csv("/mnt/tokyoolymic/transformed-data/athletes")

In [0]:
coaches.repartition(1).write.mode("overwrite").option("header","true").csv("/mnt/tokyoolymic/transformed-data/coaches")
entriesgender.repartition(1).write.mode("overwrite").option("header","true").csv("/mnt/tokyoolymic/transformed-data/entriesgender")
medals.repartition(1).write.mode("overwrite").option("header","true").csv("/mnt/tokyoolymic/transformed-data/medals")
teams.repartition(1).write.mode("overwrite").option("header","true").csv("/mnt/tokyoolymic/transformed-data/teams")