# Plantilla para la Tarea online BDA02

# Nombre del alumno: Victoria Jiménez Martín

En esta tarea deberás completar las celdas que están incompletas. Se muestra el resultado esperado de la ejecución. Se trata de que implementes un proceso MapReduce que produzca ese resultado. Puedes implementar el proceso MapReduce con el lenguaje y librería que prefieras (`Bash`, Python, `mrjob` ...). Los datos de entrada del proceso son meros ejemplos y el proceso que implementes debería funcionar con esos y cualquier otro fichero de entrada que tenga la misma estructura.

## 1.- Partiendo del fichero de `notas.txt`, calcula la nota más alta obtenida por cada alumno con un proceso MapReduce.

Es decir, que si tenemos el fichero de notas:

In [1]:
%%writefile notas.txt
pedro 6 7
luis 0 4
ana 7
pedro 8 1 3
ana 5 6 7
ana 10
luis 3

Overwriting notas.txt


Se espera obtener el siguiente resultado:

![solución 1](./img/1.png)

In [14]:
%%writefile notas.py

from mrjob.job import MRJob

class MaxGrades(MRJob):

    def mapper(self, _, line):
        student, *grades = line.split()
        grades = [int(grade) for grade in grades]
        yield student, max(grades)

    def reducer(self, student, grades):
        yield student, max(grades)

if __name__ == '__main__':
    MaxGrades.run()

Overwriting notas.py


In [15]:
! chmod ugo+x notas.py

In [16]:
! python3 notas.py -r hadoop notas.txt

No configs found; falling back on auto-configuration
No configs specified for hadoop runner
Looking for hadoop binary in /app/hadoop-3.3.1/bin...
Found hadoop binary: /app/hadoop-3.3.1/bin/hadoop
Using Hadoop version 3.3.1
Looking for Hadoop streaming jar in /app/hadoop-3.3.1...
Found Hadoop streaming jar: /app/hadoop-3.3.1/share/hadoop/tools/lib/hadoop-streaming-3.3.1.jar
Creating temp directory /tmp/notas.root.20240117.173229.083758
uploading working dir files to hdfs:///user/root/tmp/mrjob/notas.root.20240117.173229.083758/files/wd...
Copying other local files to hdfs:///user/root/tmp/mrjob/notas.root.20240117.173229.083758/files/
Running step 1 of 1...
  packageJobJar: [/tmp/hadoop-unjar2317807799491329889/] [] /tmp/streamjob2711160104362418343.jar tmpDir=null
  Connecting to ResourceManager at yarnmaster/172.18.0.3:8032
  Connecting to ResourceManager at yarnmaster/172.18.0.3:8032
  Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/root/.staging/job_1705510300565_0005
  

## 2.- Usando un proceso MapReduce muestra las 10 palabras más utilizadas en `El Quijote`.

Lo primero será descargar El Quijote:

In [6]:
! wget -O '2000-0.txt' https://www.gutenberg.org/files/2000/2000-0.txt

--2024-01-07 23:29:34--  https://www.gutenberg.org/files/2000/2000-0.txt
Resolving www.gutenberg.org (www.gutenberg.org)... 152.19.134.47, 2610:28:3090:3000:0:bad:cafe:47
Connecting to www.gutenberg.org (www.gutenberg.org)|152.19.134.47|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2226045 (2.1M) [text/plain]
Saving to: ‘2000-0.txt’


2024-01-07 23:29:38 (761 KB/s) - ‘2000-0.txt’ saved [2226045/2226045]



Al igual que hicimos en la primera práctica, eliminamos aquellas líneas que son metadata y no forman parte de la obra. Sobrescribimos el fichero sin esas líneas.

In [10]:
with open('2000-0.txt') as f:
    lines = f.readlines()

head = 24
tail = 360
book = lines[head:-tail]

with open('2000-0.txt', 'w') as f:
    for line in book:
        f.write(f"{line}\n")


Writing palabrasQuijote.py


El resultado debería ser el mismo que el que obtuvimos en la primera práctica.

![solución 2](./img/2.png)

In [20]:
%%writefile palabrasQuijote.py

from mrjob.job import MRJob
from mrjob.step import MRStep
import re

WORD_RE = re.compile(r"[\w']+")

class MostUsedWords(MRJob):

    def steps(self):
        return [
            MRStep(mapper=self.mapper_get_words,
                   reducer=self.reducer_count_words),
            MRStep(reducer=self.reducer_find_top_words)
        ]

    def mapper_get_words(self, _, line):
        for word in WORD_RE.findall(line):
            yield word.lower(), 1

    def reducer_count_words(self, word, counts):
        yield None, (sum(counts), word)

    def reducer_find_top_words(self, _, word_count_pairs):
        top_words = sorted(word_count_pairs, reverse=True)[:10]
        for count, word in top_words:
            yield word, count

if __name__ == '__main__':
    MostUsedWords.run()

Overwriting palabrasQuijote.py


In [21]:
! chmod ugo+x palabrasQuijote.py

In [22]:
! python3 palabrasQuijote.py -r hadoop 2000-0.txt

No configs found; falling back on auto-configuration
No configs specified for hadoop runner
Looking for hadoop binary in /app/hadoop-3.3.1/bin...
Found hadoop binary: /app/hadoop-3.3.1/bin/hadoop
Using Hadoop version 3.3.1
Looking for Hadoop streaming jar in /app/hadoop-3.3.1...
Found Hadoop streaming jar: /app/hadoop-3.3.1/share/hadoop/tools/lib/hadoop-streaming-3.3.1.jar
Creating temp directory /tmp/palabrasQuijote.root.20240117.173636.260181
uploading working dir files to hdfs:///user/root/tmp/mrjob/palabrasQuijote.root.20240117.173636.260181/files/wd...
Copying other local files to hdfs:///user/root/tmp/mrjob/palabrasQuijote.root.20240117.173636.260181/files/
Running step 1 of 2...
  packageJobJar: [/tmp/hadoop-unjar2934571464954495916/] [] /tmp/streamjob1139812660036353079.jar tmpDir=null
  Connecting to ResourceManager at yarnmaster/172.18.0.3:8032
  Connecting to ResourceManager at yarnmaster/172.18.0.3:8032
  Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/root/.sta

## 3.- Muestra la clasificación de temporada 2021/2022 de La Liga pero únicamente de los puntos obtenidos como visitante.

En [esta Web](https://resultados.as.com/resultados/futbol/primera/2021_2022/clasificacion/) puedes consultar cuántos puntos obtuvo cada equipo fuera de casa.

Empezamos descargando el fichero de resultados de la temporada 2021/2022 y renombrándolo a `laliga2122.csv`.

In [8]:
! wget -O laliga2122.csv https://www.football-data.co.uk/mmz4281/2122/SP1.csv

--2024-01-07 23:47:25--  https://www.football-data.co.uk/mmz4281/2122/SP1.csv
Resolving www.football-data.co.uk (www.football-data.co.uk)... 217.160.0.246
Connecting to www.football-data.co.uk (www.football-data.co.uk)|217.160.0.246|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 172174 (168K) [text/csv]
Saving to: ‘laliga2122.csv’


2024-01-07 23:47:26 (722 KB/s) - ‘laliga2122.csv’ saved [172174/172174]



Se espera este resultado:

![solución 3](./img/3.png)

In [38]:
%%writefile clasificacion.py

from mrjob.job import MRJob
import csv

class VisitorPointsMRJob(MRJob):

    def mapper(self, _, line):
        row = dict(zip(['Div', 'Date', 'Time','HomeTeam', 'AwayTeam', 'FTHG', 'FTAG', 'FTR'], next(csv.reader([line]))))

        visitor_team = row['AwayTeam']
        points = 0
        if row['FTR'] == 'A':
            points = 3
        elif row['FTR'] == 'D':
            points = 1

        yield visitor_team, points

    def reducer(self, team, points):
        yield team, sum(points)

if __name__ == '__main__':
    VisitorPointsMRJob.run()

Overwriting clasificacion.py


In [39]:
! chmod ugo+x clasificacion.py

In [40]:
! python3 clasificacion.py -r hadoop laliga2122.csv

No configs found; falling back on auto-configuration
No configs specified for hadoop runner
Looking for hadoop binary in /app/hadoop-3.3.1/bin...
Found hadoop binary: /app/hadoop-3.3.1/bin/hadoop
Using Hadoop version 3.3.1
Looking for Hadoop streaming jar in /app/hadoop-3.3.1...
Found Hadoop streaming jar: /app/hadoop-3.3.1/share/hadoop/tools/lib/hadoop-streaming-3.3.1.jar
Creating temp directory /tmp/clasificacion.root.20240117.180628.915861
uploading working dir files to hdfs:///user/root/tmp/mrjob/clasificacion.root.20240117.180628.915861/files/wd...
Copying other local files to hdfs:///user/root/tmp/mrjob/clasificacion.root.20240117.180628.915861/files/
Running step 1 of 1...
  packageJobJar: [/tmp/hadoop-unjar4181290725929563182/] [] /tmp/streamjob6530032604275923716.jar tmpDir=null
  Connecting to ResourceManager at yarnmaster/172.18.0.3:8032
  Connecting to ResourceManager at yarnmaster/172.18.0.3:8032
  Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/root/.staging/j

## 4.- Muestra la diferencia de goles entre el equipo que más goles ha marcado y el que menos goles ha marcado en la temporada 2021/2022 de La Liga.

Se espera que el proceso MapReuce produzca una salida similar a la siguiente:

![solución 4](./img/4.png)

In [97]:
%%writefile goaldifference.py

import csv
from collections import defaultdict

def map_function(row):
    """Extrae los equipos y los goles marcados."""
    home_team = row['HomeTeam']
    away_team = row['AwayTeam']
    home_goals = int(row['FTHG'])  # Goles marcados por el equipo local
    away_goals = int(row['FTAG'])  # Goles marcados por el equipo visitante
    return [(home_team, home_goals), (away_team, away_goals)]

def reduce_function(mapped_data):
    """Suma los goles marcados para cada equipo."""
    goals_by_team = defaultdict(int)
    for team, goals in mapped_data:
        goals_by_team[team] += goals
    return goals_by_team

# Procesamiento del archivo CSV
mapped_data = []

with open('laliga2122.csv', mode='r', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        mapped_data.extend(map_function(row))

reduced_data = reduce_function(mapped_data)

# Encontrar el equipo con más y menos goles marcados
max_goals = max(reduced_data.items(), key=lambda x: x[1])
min_goals = min(reduced_data.items(), key=lambda x: x[1])

# Calcular la diferencia de goles
goal_difference = max_goals[1] - min_goals[1]
print(f"Equipo con más goles: {max_goals[0]} ({max_goals[1]} goles)")
print(f"Equipo con menos goles: {min_goals[0]} ({min_goals[1]} goles)")
print(f"Diferencia de goles: {goal_difference}")

Overwriting goaldifference.py


In [98]:
! chmod ugo+x goaldifference.py

In [112]:
! python3 goaldifference.py -r hadoop laliga2122.csv

Equipo con más goles: Real Madrid (80 goles)
Equipo con menos goles: Alaves (31 goles)
Diferencia de goles: 49


## 5.- Calcula la racha de los últimos cinco partidos de cada equipo en la clasificación final de La Liga en la temporada 2021/2022.

[Observa](https://www.google.com/search?q=clasificacion+liga+2021+2022&oq=clasificacion+liga+2021+2022#sie=lg) que las últimas columnas de la clasificación muestran cuál ha sido el resultado de los últimos 5 partidos de cada equipo.

![clasificacion](./img/clasificacion.png)

Se trata de que muestres la clasificación final junto con los resultados de los últimos 5 partidos. Este ejercicio es un poco más difícil y laborioso que los otros. Si usas `mrjob` probablemente te sea útil utilizar [ordenación secundaria por valor](https://mrjob.readthedocs.io/en/latest/job.html#secondary-sort), aunque también se puede resolver sin hacer uso de ella.

Se espera este resultado:

![solución 5](./img/5.png)

In [7]:
%%writefile clasificationMR.py

#!/usr/bin/python3
from collections import defaultdict, deque
import csv

# Diccionario para almacenar los puntos totales y los resultados de los últimos cinco partidos
teams = defaultdict(lambda: {'points': 0, 'last_five': deque(maxlen=5)})

# Reemplaza 'path_to_file.csv' con la ruta real al archivo CSV
with open('laliga2122.csv', 'r') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        home_team = row['HomeTeam']
        away_team = row['AwayTeam']
        home_goals = int(row['FTHG'])
        away_goals = int(row['FTAG'])
        match_result = row['FTR']

        # Puntos y resultados para el equipo local
        if match_result == 'H':  # Victoria local
            teams[home_team]['points'] += 3
            teams[home_team]['last_five'].append(3)
        elif match_result == 'D':  # Empate
            teams[home_team]['points'] += 1
            teams[home_team]['last_five'].append(1)

        # Puntos y resultados para el equipo visitante
        if match_result == 'A':  # Victoria visitante
            teams[away_team]['points'] += 3
            teams[away_team]['last_five'].append(3)
        elif match_result == 'D':  # Empate
            teams[away_team]['points'] += 1
            teams[away_team]['last_five'].append(1)

        if match_result == 'H':  # Derrota visitante
            teams[away_team]['last_five'].append(0)
        elif match_result == 'A':  # Derrota local
            teams[home_team]['last_five'].append(0)

# Convertir los datos a una lista para poder ordenarlos por puntos
team_stats = [(team, data['points'], list(data['last_five'])) for team, data in teams.items()]
team_stats.sort(key=lambda x: x[1], reverse=True)  # Ordenar por puntos de manera descendente

# Imprimir la información de todos los equipos
for team, points, last_five in team_stats:
    print(f"{team}: {points} puntos, Últimos 5 partidos: {last_five}")

Overwriting clasificationMR.py


In [8]:
! chmod ugo+x clasificationMR.py

In [9]:
! python3 clasificationMR.py

Real Madrid: 86 puntos, Últimos 5 partidos: [3, 0, 3, 1, 1]
Barcelona: 73 puntos, Últimos 5 partidos: [3, 3, 3, 1, 0]
Ath Madrid: 71 puntos, Últimos 5 partidos: [0, 3, 3, 1, 3]
Sevilla: 70 puntos, Últimos 5 partidos: [1, 1, 1, 1, 3]
Betis: 65 puntos, Últimos 5 partidos: [1, 0, 3, 3, 1]
Sociedad: 62 puntos, Últimos 5 partidos: [1, 0, 3, 3, 0]
Villarreal: 59 puntos, Últimos 5 partidos: [0, 1, 3, 0, 3]
Ath Bilbao: 55 puntos, Últimos 5 partidos: [3, 1, 0, 3, 0]
Valencia: 48 puntos, Últimos 5 partidos: [1, 1, 0, 1, 3]
Osasuna: 47 puntos, Últimos 5 partidos: [1, 1, 1, 0, 0]
Celta: 46 puntos, Últimos 5 partidos: [1, 3, 0, 3, 0]
Espanol: 42 puntos, Últimos 5 partidos: [0, 1, 0, 1, 1]
Vallecano: 42 puntos, Últimos 5 partidos: [1, 1, 0, 0, 0]
Elche: 42 puntos, Últimos 5 partidos: [1, 0, 0, 0, 3]
Getafe: 39 puntos, Últimos 5 partidos: [1, 1, 1, 1, 0]
Cadiz: 39 puntos, Últimos 5 partidos: [1, 3, 0, 1, 3]
Mallorca: 39 puntos, Últimos 5 partidos: [0, 0, 1, 3, 3]
Granada: 38 puntos, 