# CREAR UNA BASE DE DATOS EN HIVE METAESTORE USANDO PYSPARK

## 1.	CREAR UNA SPARKSESION

In [None]:
from pyspark.sql import SparkSession
# Crear SparkSession con soporte para Hive
spark = SparkSession.builder \
    .appName("Ejemplo Hive Metastore") \
    .enableHiveSupport() \
    .getOrCreate()

## 2.	CREAR LA BASE DE DATOS

In [None]:
spark.sql("CREATE DATABASE IF NOT EXISTS pyspark_hive")
spark.sql("SHOW DATABASES").show()


## 3.	CREAR LA TABLA EN LA BASE DE DATOS

In [None]:
spark.sql("""
    CREATE TABLE IF NOT EXISTS pyspark_hive.empleado (
        ID INT,
        NOMBRE STRING,
        TELEFONO STRING,
        CORREO STRING,
        FECHA_INGRESO DATE,
        EDAD INT,
        SALARIO DOUBLE,
        ID_EMPRESA INT
    )
    STORED AS PARQUET
""")

Mostrando tablas en la base de datos

In [None]:
spark.sql("""SHOW TABLES IN pyspark_hive;""")

## 4.	CARGA DE DATOS - FLUJO CORRECTO
1.	Subir el CSV de LOCAL → HDFS
2.	Leer desde HDFS con PySpark
3.	Limpiar / convertir tipos
4.	Insertar en tabla Hive


Crear carpeta dataset en Ubuntu (WSL)

Subir el archivo empleado.csv a la carpeta dataset en Ubuntu

In [None]:
dataset/
    empleado.csv

### 4.1. Subir el archivo de LOCAL a HDFS
Ejecuta en la terminal (NO en PySpark):

Crear el directorio data/pyspark en HDFS

In [None]:
hdfs dfs -mkdir -p /data/pyspark

Subir el archivo empleado.csv de Ubuntu hacia el HDFS data/pyspark

In [None]:
hdfs dfs -put -f /home/hadoop/dataset/empleado.csv /data/pyspark/

Verifica el archivo subido en HDFS data/pyspark:

In [None]:
hdfs dfs -ls /data/pyspark

Debe aparecer: empleado.csv

Editar la primera linea empleado.csv con sus datos

In [None]:
9999,Jaime Ll*** B****,+51 *56****,jllanos*@**.**.pe,2008-03-30,36,3000.49,77

Volver actualizar

In [None]:
hdfs dfs -put -f /home/hadoop/dataset/empleado.csv /data/pyspark/

Mostrar los primeros 10 datos

In [None]:
hdfs dfs -head /data/pyspark/empleado.csv

### 4.2 Leer el CSV desde HDFS en PySpark

In [None]:
from pyspark.sql.types import *
from pyspark.sql.functions import *

ruta_hdfs = "hdfs:///data/pyspark/empleado.csv"

schema_raw = StructType([
    StructField("ID", StringType(), True),
    StructField("NOMBRE", StringType(), True),
    StructField("TELEFONO", StringType(), True),
    StructField("CORREO", StringType(), True),
    StructField("FECHA_INGRESO", StringType(), True),
    StructField("EDAD", StringType(), True),
    StructField("SALARIO", StringType(), True),
    StructField("ID_EMPRESA", StringType(), True)
])

df = spark.read \
    .option("header", "true") \
    .option("delimiter", ",") \
    .schema(schema_raw) \
    .csv(ruta_hdfs)

### 4.3 Limpiar y convertir datos (CLAVE)

In [None]:
df_limpio = df \
    .withColumn("ID", col("ID").cast("int")) \
    .withColumn("EDAD", col("EDAD").cast("int")) \
    .withColumn("SALARIO", col("SALARIO").cast("double")) \
    .withColumn("ID_EMPRESA", col("ID_EMPRESA").cast("int")) \
    .withColumn(
        "FECHA_INGRESO",
        coalesce(
            to_date(col("FECHA_INGRESO"), "yyyy-MM-dd"),
            to_date(col("FECHA_INGRESO"), "dd/MM/yyyy")
        )
    ) \
    .withColumn(
        "CORREO",
        when(trim(col("CORREO")).isin("", "NA", "N/A"), None)
        .otherwise(col("CORREO"))
    )

# Opcional (recomendado):

df_limpio = df_limpio.filter(col("ID").isNotNull())


### 4.4 Verifica esquema antes de insertar

In [None]:
df_limpio.printSchema()
df_limpio.show(5, truncate=False)

### 4.5 Insertar en la tabla Hive pyspark_hive.empleado
✅ Opción A (recomendada): insertar directo desde DataFrame

Asegúrate de que la tabla ya existe en Hive:

DESCRIBE pyspark_hive.empleado;

Luego en PySpark:

In [None]:
df_limpio.write \
    .mode("append") \
    .insertInto("pyspark_hive.empleado")

⚠️ IMPORTANTE:

El orden de columnas debe coincidir
Tipos deben ser compatibles

### 3.6 Validar carga

In [None]:
# Pyspark
df = spark.sql("SELECT * FROM pyspark_hive.empleado")
df.show()

- En Hive

SELECT COUNT(*) FROM pyspark_hive.empleado;

SELECT * FROM pyspark_hive.empleado LIMIT 10;