Workshop de Big Data con Apache Spark [🇪🇸]

Material del Workshop de Big Data

Machine Learning Lib

Usando un dataset de Credito Alemán se entrenará un algoritmo de Clasificación Random Forest y se buscará predecir el valor Creditable que significa brindar credito.

Codigo

Analisis de risco de credito (credit-risk-analysis)

Realizar el entrenamiento

La clase CreditRiskTrain.scala hace las transformaciones de los datos de entrada para generar el modelo de Random Forest. También intentamos mejorar el modelo utilizando CrossValidator

# Compilar el proyecto
cd code/credit-risk-analysis
sbt clean assembly

# Conectarse al SparkMaster y hacer submit del proyecto de Entrenamiento
docker exec -it master bash
cd /app/credit-risk-analysis
spark-submit \
  --class es.arjon.CreditRiskTrain \
  --master 'spark://master:7077' \
  target/scala-2.11/credit-risk-analysis-assembly-0.1.jar \
  /dataset/credit-risk/germancredit.csv \
  /dataset/credit-risk.model

# va tomar 4+ minutos para concluir el entrenamiento

Acceder a http://localhost:8080 y http://localhost:4040 para ver la SPARK-UI

Chequeá el modelo entrenado

ls -la /dataset/credit-risk.model

Realizando predicciones

El archivo /dataset/credit-risk/germancredit-user-input.csv simula entrada de usuarios con sus respectivas que son enviadas al modelo para prediccion.

spark-submit \
  --class es.arjon.CreditRiskAnalysis \
  --master 'spark://master:7077' \
  target/scala-2.11/credit-risk-analysis-assembly-0.1.jar \
  /dataset/credit-risk/germancredit-user-input.csv \
  /dataset/credit-risk.model

Acceder a http://localhost:8080 y http://localhost:4040 para ver la SPARK-UI

Desafío 🤓

Modificar el codigo para tomar la entrada de Kafka y escribir en Postgres

Más información

Predicting Loan Credit Risk using Apache Spark Machine Learning Random Forests
Original: Analysis of German Credit Data

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README-ml.md

README-ml.md

Workshop de Big Data con Apache Spark [🇪🇸]

Machine Learning Lib

Codigo

Realizar el entrenamiento

Chequeá el modelo entrenado

Realizando predicciones

Desafío 🤓

Más información

Files

README-ml.md

Latest commit

History

README-ml.md

File metadata and controls

Workshop de Big Data con Apache Spark [🇪🇸]

Machine Learning Lib

Codigo

Realizar el entrenamiento

Chequeá el modelo entrenado

Realizando predicciones

Desafío 🤓

Más información