Skip to content

Latest commit

 

History

History
61 lines (46 loc) · 2.45 KB

README-ml.md

File metadata and controls

61 lines (46 loc) · 2.45 KB

Workshop de Big Data con Apache Spark [🇪🇸]

Material del Workshop de Big Data

Machine Learning Lib

Usando un dataset de Credito Alemán se entrenará un algoritmo de Clasificación Random Forest y se buscará predecir el valor Creditable que significa brindar credito.

Codigo

Realizar el entrenamiento

La clase CreditRiskTrain.scala hace las transformaciones de los datos de entrada para generar el modelo de Random Forest. También intentamos mejorar el modelo utilizando CrossValidator

# Compilar el proyecto
cd code/credit-risk-analysis
sbt clean assembly

# Conectarse al SparkMaster y hacer submit del proyecto de Entrenamiento
docker exec -it master bash
cd /app/credit-risk-analysis
spark-submit \
  --class es.arjon.CreditRiskTrain \
  --master 'spark://master:7077' \
  target/scala-2.11/credit-risk-analysis-assembly-0.1.jar \
  /dataset/credit-risk/germancredit.csv \
  /dataset/credit-risk.model

# va tomar 4+ minutos para concluir el entrenamiento

Acceder a http://localhost:8080 y http://localhost:4040 para ver la SPARK-UI

Chequeá el modelo entrenado

ls -la /dataset/credit-risk.model

Realizando predicciones

El archivo /dataset/credit-risk/germancredit-user-input.csv simula entrada de usuarios con sus respectivas que son enviadas al modelo para prediccion.

spark-submit \
  --class es.arjon.CreditRiskAnalysis \
  --master 'spark://master:7077' \
  target/scala-2.11/credit-risk-analysis-assembly-0.1.jar \
  /dataset/credit-risk/germancredit-user-input.csv \
  /dataset/credit-risk.model

Acceder a http://localhost:8080 y http://localhost:4040 para ver la SPARK-UI

Desafío 🤓

Modificar el codigo para tomar la entrada de Kafka y escribir en Postgres

Más información


Gustavo Arjones © 2017-2020