# MapReduce

La técnica de programación MapReduce fue diseñada para analizar conjuntos de datos masivos en un clúster. En este cuaderno de Jupyter, tendrá una idea de cómo funciona Hadoop MapReduce; sin embargo, este portátil se ejecutará localmente en lugar de en un clúster.

La mayor diferencia entre Hadoop y Spark es que Spark intenta realizar tantos cálculos como sea posible en la memoria, lo que evita mover datos de un lado a otro a través de un clúster. Hadoop escribe cálculos intermedios en el disco, lo que puede resultar menos eficiente. Hadoop es una tecnología más antigua que Spark y una de las tecnologías fundamentales de big data.

Si hace clic en el logotipo del cuaderno de Jupyter en la parte superior del espacio de trabajo, accederá al directorio del espacio de trabajo. Allí verás un archivo llamado "songplays.txt". Este es un archivo de texto donde cada línea representa una canción que se reprodujo en la aplicación Sparkify. El código MapReduce contará cuántas veces se reprodujo cada canción. En otras palabras, el código cuenta cuántas veces aparece el título de la canción en la lista.

# MapReduce versus Hadoop MapReduce

¡No te dejes confundir por la terminología! MapReduce es una técnica de programación. Hadoop MapReduce es una implementación específica de la técnica de programación.

Parte de la sintaxis parecerá un poco extraña, así que asegúrese de leer la explicación y los comentarios de cada sección. Aprenderá más sobre la sintaxis en lecciones posteriores.

Ejecute cada una de las celdas de código siguientes para ver el resultado.


In [1]:
# Install mrjob library. This package is for running MapReduce jobs with Python
# In Jupyter notebooks, "!" runs terminal commands from inside notebooks 

!pip install mrjob

Defaulting to user installation because normal site-packages is not writeable
Collecting mrjob
  Downloading mrjob-0.7.4-py2.py3-none-any.whl.metadata (7.3 kB)
Downloading mrjob-0.7.4-py2.py3-none-any.whl (439 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m439.6/439.6 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: mrjob
[0mSuccessfully installed mrjob-0.7.4


In [2]:
%%file wordcount.py
# %%file is an Ipython magic function that saves the code cell as a file

from mrjob.job import MRJob # import the mrjob library

class MRSongCount(MRJob):
    
    # the map step: each line in the txt file is read as a key, value pair
    # in this case, each line in the txt file only contains a value but no key
    # _ means that in this case, there is no key for each line
    def mapper(self, _, song):
        # output each line as a tuple of (song_names, 1) 
        yield (song, 1)

    # the reduce step: combine all tuples with the same key
    # in this case, the key is the song name
    # then sum all the values of the tuple, which will give the total song plays
    def reducer(self, key, values):
        yield (key, sum(values))
        
if __name__ == "__main__":
    MRSongCount.run()

Writing wordcount.py


Descarga el conjunto de datos

In [5]:
!sudo apt-get update

Get:1 http://jp.archive.ubuntu.com/ubuntu jammy InRelease [270 kB]
Get:2 http://security.ubuntu.com/ubuntu jammy-security InRelease [110 kB]
Get:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1581 B]
Get:4 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages [713 kB]
Get:5 http://security.ubuntu.com/ubuntu jammy-security/main amd64 Packages [1517 kB]
Get:6 http://jp.archive.ubuntu.com/ubuntu jammy-updates InRelease [119 kB]    
Get:7 http://jp.archive.ubuntu.com/ubuntu jammy-backports InRelease [109 kB]   
Get:8 http://jp.archive.ubuntu.com/ubuntu jammy/main amd64 Packages [1792 kB]
Get:9 http://security.ubuntu.com/ubuntu jammy-security/restricted amd64 Packages [1889 kB]
Get:10 http://security.ubuntu.com/ubuntu jammy-security/universe amd64 Packages [1074 kB]
Get:11 http://jp.archive.ubuntu.com/ubuntu jammy/universe amd64 Packages [17.5 MB]
Get:12 http://security.ubuntu.com/ubuntu jammy-security/multiverse amd64

In [6]:
!sudo apt install wget

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  wget
0 upgraded, 1 newly installed, 0 to remove and 59 not upgraded.
Need to get 367 kB of archives.
After this operation, 1008 kB of additional disk space will be used.
Get:1 http://jp.archive.ubuntu.com/ubuntu jammy/main amd64 wget amd64 1.21.2-2ubuntu1 [367 kB]
Fetched 367 kB in 0s (1154 kB/s)m[33m
debconf: delaying package configuration, since apt-utils is not installed

7[0;23r8[1ASelecting previously unselected package wget.
(Reading database ... 35495 files and directories currently installed.)
Preparing to unpack .../wget_1.21.2-2ubuntu1_amd64.deb ...
7[24;0f[42m[30mProgress: [  0%][49m[39m [..........................................................] 87[24;0f[42m[30mProgress: [ 20%][49m[39m [###########...............................................] 8Unpacking wget (1.21.2-2ubuntu1) ...
7[24;0f[42m[30mProgress: 

In [7]:
!wget https://raw.githubusercontent.com/ranamahmud/Data-Scientist-Nanodegree/master/songplays.txt

--2024-03-01 13:27:06--  https://raw.githubusercontent.com/ranamahmud/Data-Scientist-Nanodegree/master/songplays.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 34979 (34K) [text/plain]
Saving to: ‘songplays.txt’


2024-03-01 13:27:07 (2.88 MB/s) - ‘songplays.txt’ saved [34979/34979]



Ejecute el programa

In [8]:
! python wordcount.py songplays.txt

No configs found; falling back on auto-configuration
No configs specified for inline runner
Creating temp directory /tmp/wordcount.jupyter.20240301.132711.055485
Running step 1 of 1...
job output is in /tmp/wordcount.jupyter.20240301.132711.055485/output
Streaming final output from /tmp/wordcount.jupyter.20240301.132711.055485/output...
"Deep Dreams"	1131
"Broken Networks"	510
"Data House Rock"	828
Removing temp directory /tmp/wordcount.jupyter.20240301.132711.055485...


# Resumen de lo que ha pasado

Hay una lista de canciones en songplays.txt similar a la siguiente:

Deep Dreams Data House Rock Deep Dreams Data House Rock Redes rotas Data House Rock etc.....

Durante el paso del mapa, el código lee el archivo de texto una línea a la vez. Los pasos del mapa generan un conjunto de tuplas que se ven así:

(Deep Dreams, 1)

(Data House Rock, 1)

(Deep Dreams, 1)

(Data House Rock, 1)

(Broken Networks, 1)

(Data House Rock, 1)

etc.....

Finalmente, el paso de reducción combina todos los valores por claves y suma los valores:

(Deep Dreams, [1, 1, 1, 1, 1, 1, ... ])

(Data House Rock, [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...])

(Broken Networks, [1, 1, 1, ...]

Tenemos la salida:

"Deep Dreams"	1131

"Broken Networks"	510

"Data House Rock"	828