<a href="https://colab.research.google.com/github/naniortigoza/prototipo_TF10/blob/master/prototipo_TF10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Instalación de Hadoop

In [None]:
# Descarga Hadoop
!wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

In [None]:
# Descomprime el archivo
!tar -xzvf hadoop-3.3.6.tar.gz

In [3]:
# Elimina el archivo comprimido
!rm hadoop-3.3.6.tar.gz

In [4]:
# Encuentra la ruta de Java
!readlink -f /usr/bin/java | sed "s:bin/java::"

/usr/lib/jvm/java-11-openjdk-amd64/


In [5]:
# Configura la variable de entorno JAVA_HOME
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64/"

In [6]:
# Copia Hadoop a /usr/local
!cp -r hadoop-3.3.6/ /usr/local/

In [7]:
# Genera una clave SSH para la comunicación segura entre los nodos del clúster
!ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
# Agrega la clave pública SSH a authorized_keys
!cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
# Cambia los permisos de authorized_keys
!chmod 0600 ~/.ssh/authorized_keys

Generating public/private rsa key pair.
Created directory '/root/.ssh'.
Your identification has been saved in /root/.ssh/id_rsa
Your public key has been saved in /root/.ssh/id_rsa.pub
The key fingerprint is:
SHA256:Fw8mCBYWyOSsiFzgNInmW/Btccac3AguswHbz3IKbkU root@3e43227898ef
The key's randomart image is:
+---[RSA 3072]----+
|.Bo.*+= +        |
|+*Oo.o X .       |
|oo=E..= . +      |
|+oooBo   o +     |
|+oo+.+  S . .    |
|..o +    .       |
| o .             |
|.                |
|                 |
+----[SHA256]-----+


In [None]:
# Formatea el NameNode
!/usr/local/hadoop-3.3.6/bin/hdfs namenode -format

In [9]:
# Inicia servicios de Hadoop y YARN
%%bash
/usr/local/hadoop-3.3.6/bin/hdfs --daemon start namenode && /usr/local/hadoop-3.3.6/bin/hdfs --daemon start datanode
/usr/local/hadoop-3.3.6/bin/yarn --daemon start resourcemanager && /usr/local/hadoop-3.3.6/bin/yarn --daemon start nodemanager

In [10]:
# Verifica los procesos en ejecución
!jps

772 ResourceManager
838 NodeManager
710 DataNode
875 Jps


## Clonar el repositorio GitHub
Que contiene: Preparación de los Datos, Entrenamiento del Modelo, Evaluación del Modelo, Predicciones y Exportación de Resultados

In [11]:
# Clona un repositorio de GitHub
!git clone https://github.com/naniortigoza/prototipo_TF10.git

Cloning into 'prototipo_TF10'...
remote: Enumerating objects: 145, done.[K
remote: Counting objects: 100% (145/145), done.[K
remote: Compressing objects: 100% (112/112), done.[K
remote: Total 145 (delta 81), reused 91 (delta 31), pack-reused 0[K
Receiving objects: 100% (145/145), 226.89 KiB | 673.00 KiB/s, done.
Resolving deltas: 100% (81/81), done.


In [12]:
# Cambia el directorio de trabajo actual a la carpeta recién clonada
%cd prototipo_TF10/

/content/prototipo_TF10


In [13]:
# Instala paquetes Python necesarios
!pip install faker
!pip install requests
!pip install demoji
!pip install pandas
!pip install Unidecode
!pip install beautifulsoup4
!pip install scikit-learn==1.3.0
!pip install hdfs

Collecting faker
  Downloading Faker-19.6.1-py3-none-any.whl (1.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: faker
Successfully installed faker-19.6.1
Collecting demoji
  Downloading demoji-1.1.0-py3-none-any.whl (42 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.9/42.9 kB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: demoji
Successfully installed demoji-1.1.0
Collecting Unidecode
  Downloading Unidecode-1.3.6-py3-none-any.whl (235 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.9/235.9 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Unidecode
Successfully installed Unidecode-1.3.6
Collecting scikit-learn==1.3.0
  Downloading scikit_learn-1.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (10.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [14]:
# Obtiene datos de propiedades de una fuente externa
!python datos_propiedades_externo.py

Datos guardados en datos/datos_propiedades.csv


In [15]:
# Entrena el modelo de aprendizaje automático
!python entrenar_datos.py

Error cuadrático medio (MSE): 170631579875000.0
Coeficiente de determinación (R^2): 0.9991313797320719

Importancia de las variables:
Variable Tasa_Inflacion: 0.00010979616747551203
Variable Variacion_PIB: 0.00027696108759698223
Variable Precio_m2: 0.027704217736966873
Variable Tamanho: 0.31889802295345115
Variable Habitaciones: 0.6530110020545095
Modelo guardado en modelo_random_forest.pkl


In [17]:
# Crea un directorio en Hadoop para almacenar las predicciones
!/content/hadoop-3.3.6/bin/hadoop fs -mkdir /predicciones_hdfs

In [31]:
# Implementa el modelo entrenado y datos predichos a HDFS
!python predecir_precios.py

In [34]:
# Almacenamiento de resultados de prediccion en Hadoop
!/usr/local/hadoop-3.3.6/bin/hadoop fs -copyFromLocal /content/prototipo_TF10/datos_predichos /predicciones_hdfs

In [36]:
# Lista los archivos que se encuentran en Hadoop
!/usr/local/hadoop-3.3.6/bin/hadoop fs -ls /predicciones_hdfs/

Found 1 items
drwxr-xr-x   - root root       4096 2023-09-13 20:11 /predicciones_hdfs/datos_predichos
