## Ejercicio práctico

En esta actividad, vamos a realizar algunos ejercicios prácticos para repasar una de las primeras partes cuando comenzamos a trabajar con datos: "estadisticos descriptivos"


| Comando         | Qué hace                                     | Ejemplo                                  |
|-----------------|----------------------------------------------|------------------------------------------|
| `printSchema()` | Imprime el esquema del DataFrame.            | `df.printSchema()`                       |
| `show(n)`       | Muestra las primeras `n` filas del DataFrame.| `df.show(5)`                             |
| `head(n)`       | Devuelve las primeras `n` filas como una lista de Row. | `df.head(3)`                       |
| `select()`      | Selecciona columnas específicas del DataFrame.| `df.select('column1', 'column2').show()` |
| `describe()`    | Calcula estadísticas resumen (count, mean, stddev, min, max) para columnas numéricas. | `df.describe().show()` |
| `summary()`     | Proporciona estadísticas descriptivas para todas las columnas (numéricas y categóricas). | `df.summary().show()` |
| `count()`       | Devuelve el número de filas en el DataFrame. | `df.count()`                            |
| `distinct()`    | Devuelve un DataFrame sin filas duplicadas.  | `df.distinct().show()`                  |
| `groupBy().agg()` | Agrupa los datos por una o más columnas y realiza operaciones de agregación. | `df.groupBy('column').agg({'other_column': 'mean'}).show()` |
| `columns`       | Devuelve una lista de nombres de las columnas del DataFrame. | `df.columns`                         |
| `dtypes`        | Devuelve una lista de tuplas (nombre_columna, tipo_dato). | `df.dtypes`                           |
| `schema`        | Devuelve el esquema del DataFrame como un objeto StructType. | `df.schema`                          |
| `filter()`      | Filtra filas según una condición.            | `df.filter(df['column'] > 10).show()`  |
| `orderBy()`     | Ordena el DataFrame por una o más columnas.  | `df.orderBy('column', ascending=False).show()` |







### Actividad 0: 
Crea una sesión de Spark y lee el archivo CSV en un DataFrame de Spark

In [46]:
### Ingresar código

from pyspark.sql import SparkSession
# from pyspark.sql.functions import col, avg

# Crear una sesión de Spark
spark = SparkSession.builder.appName("Ejercicios con PySpark").getOrCreate()

# Leer el archivo CSV en un DataFrame de Spark
file_path = "2023_accidents_causa_conductor_gu_bcn_.csv"
sdf = spark.read.csv(file_path, header=True, inferSchema=True)

### Actividad 1: 
Mostrar todas las columnas del DataFrame

In [47]:
print(sdf.columns)

['Numero_expedient', 'Codi_districte', 'Nom_districte', 'Codi_barri', 'Nom_barri', 'Codi_carrer', 'Nom_carrer', 'Num_postal ', 'Descripcio_dia_setmana', 'NK_Any', 'Mes_any', 'Nom_mes', 'Dia_mes', 'Hora_dia', 'Descripcio_torn', 'Descripcio_causa_mediata', 'Coordenada_UTM_X_ED50', 'Coordenada_UTM_Y_ED50', 'Longitud_WGS84', 'Latitud_WGS84']


### Actividad 2: 
Mostrar los tipos de datos de cada columna

In [48]:
print(sdf.dtypes)

[('Numero_expedient', 'string'), ('Codi_districte', 'int'), ('Nom_districte', 'string'), ('Codi_barri', 'int'), ('Nom_barri', 'string'), ('Codi_carrer', 'int'), ('Nom_carrer', 'string'), ('Num_postal ', 'string'), ('Descripcio_dia_setmana', 'string'), ('NK_Any', 'int'), ('Mes_any', 'int'), ('Nom_mes', 'string'), ('Dia_mes', 'int'), ('Hora_dia', 'int'), ('Descripcio_torn', 'string'), ('Descripcio_causa_mediata', 'string'), ('Coordenada_UTM_X_ED50', 'double'), ('Coordenada_UTM_Y_ED50', 'double'), ('Longitud_WGS84', 'double'), ('Latitud_WGS84', 'double')]


### Actividad 3: 
Selecciona y muestra la columna "Descripcio_causa_mediata"

In [49]:
sdf.select("Descripcio_causa_mediata").show()

+------------------------+
|Descripcio_causa_mediata|
+------------------------+
|    Manca d'atenció a...|
|    No respectar dist...|
|    No respectar dist...|
|    No respectat pas ...|
|        Desobeir semàfor|
|    Manca d'atenció a...|
|    Desobeir altres s...|
|    Manca d'atenció a...|
|    Desobeir altres s...|
|    Manca d'atenció a...|
|    Desobeir altres s...|
|    No respectar dist...|
|    Gir indegut o sen...|
|    Gir indegut o sen...|
|                  Altres|
|    Manca d'atenció a...|
|              Desconegut|
|                  Altres|
|              Desconegut|
|                  Altres|
+------------------------+
only showing top 20 rows



### Actividad 4: 
Filtrar las filas donde en "Descripcio_causa_mediata" es "Altres" 

In [50]:
filrar_filas = sdf.filter(sdf["Descripcio_causa_mediata"] == "Altres")

filrar_filas.show()

+----------------+--------------+-------------+----------+--------------------+-----------+--------------------+-----------+----------------------+------+-------+--------+-------+--------+---------------+------------------------+---------------------+---------------------+--------------+-------------+
|Numero_expedient|Codi_districte|Nom_districte|Codi_barri|           Nom_barri|Codi_carrer|          Nom_carrer|Num_postal |Descripcio_dia_setmana|NK_Any|Mes_any| Nom_mes|Dia_mes|Hora_dia|Descripcio_torn|Descripcio_causa_mediata|Coordenada_UTM_X_ED50|Coordenada_UTM_Y_ED50|Longitud_WGS84|Latitud_WGS84|
+----------------+--------------+-------------+----------+--------------------+-----------+--------------------+-----------+----------------------+------+-------+--------+-------+--------+---------------+------------------------+---------------------+---------------------+--------------+-------------+
| 2023S003695    |            10|   Sant Martí|        64|el Camp de l'Arpa...|     226400|

### Actividad 5: 
Calcula el número total de accidentes por distrito (Nom_districte). 


In [51]:
sdf.groupBy("Nom_districte").count().show()

+-------------------+-----+
|      Nom_districte|count|
+-------------------+-----+
|             Gràcia|  434|
|         Sant Martí| 1069|
|     Horta-Guinardó|  651|
|          Les Corts|  655|
|     Sants-Montjuïc|  954|
|         Nou Barris|  527|
|Sarrià-Sant Gervasi|  977|
|           Eixample| 2407|
|         Desconegut|  104|
|        Sant Andreu|  612|
|       Ciutat Vella|  507|
+-------------------+-----+



### Actividad 6: 
Proporciona los estadisticos descriptivos de las variables que refieren al momento que se realizó el accidente: "Mes_any", "Dia_mes", "Descripcion".


In [52]:
sdf.select("Mes_any", "Dia_mes", "Hora_dia").describe().show()

+-------+-----------------+------------------+------------------+
|summary|          Mes_any|           Dia_mes|          Hora_dia|
+-------+-----------------+------------------+------------------+
|  count|             8897|              8897|              8897|
|   mean|6.507811621895021|15.778801843317972|13.793638305046645|
| stddev| 3.38183273001346| 8.811542833036198|  5.41598187812183|
|    min|                1|                 1|                 0|
|    max|               12|                31|                23|
+-------+-----------------+------------------+------------------+



In [53]:
descriptive_stats = sdf.select("Mes_any", "Dia_mes", "Hora_dia").describe()

# Redondear los resultados
descriptive_stats = descriptive_stats.selectExpr(
    "summary",
    "round(Mes_any, 2) as Mes_any",
    "round(Dia_mes, 2) as Dia_mes",
    "round(Hora_dia, 2) as Hora_dia"
)

# Mostrar los resultados
descriptive_stats.show()

+-------+-------+-------+--------+
|summary|Mes_any|Dia_mes|Hora_dia|
+-------+-------+-------+--------+
|  count| 8897.0| 8897.0|  8897.0|
|   mean|   6.51|  15.78|   13.79|
| stddev|   3.38|   8.81|    5.42|
|    min|    1.0|    1.0|     0.0|
|    max|   12.0|   31.0|    23.0|
+-------+-------+-------+--------+



### Actividad 7


Calcula cuántos accidentes hay por día de la semana (Descripcio_dia_setmana).


In [54]:
sdf.groupBy("Descripcio_dia_setmana").count().show()

+----------------------+-----+
|Descripcio_dia_setmana|count|
+----------------------+-----+
|               Dilluns| 1340|
|              Dissabte| 1054|
|               Dimarts| 1364|
|             Divendres| 1455|
|                Dijous| 1414|
|              Diumenge|  842|
|              Dimecres| 1428|
+----------------------+-----+



### Actividad 8
Ingresa la última actividad que es necesaria realizar

In [55]:
# Cerrar la sesión de Spark
spark.stop()