# Introducción a Hive

En este laboratorio explorarás Apache Hive, un sistema de almacén de datos distribuido y tolerante a fallos que permite análisis a gran escala. Crearás una tabla y ejecutarás comandos SQL en ella.

## Objetivos de Aprendizaje

Al final de este laboratorio, serás capaz de:

- Crear una tabla en Hive
- Agregar datos a la tabla utilizando un archivo
- Agregar datos a la tabla utilizando `insert`
- Consultar los datos en la tabla utilizando comandos SQL

## Requisitos Previos

- Debes sentirte cómodo trabajando con la terminal de Linux
- Tener conocimientos previos de SQL será útil

> Aunque todos los comandos de terminal se pueden copiar y pegar para ejecutarlos, se recomienda encarecidamente que escribas los comandos para un mejor aprendizaje.

# Paso 1: Obtén una copia del archivo CSV

1. Ejecutarás los comandos en la terminal. Si no tienes una terminal abierta, abre una nueva terminal haciendo clic en `Terminal` y eligiendo `Nueva Terminal` en el submenú.

    ![Menú de Terminal con Nueva Terminal resaltada.](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/images/New%20Terminal.png)

2. Crea un directorio llamado `data` en `/home/project` ejecutando el siguiente comando.

```
mkdir /home/project/data
```

3. Cambia al directorio `/home/project/data`.

```
cd /home/project/data
```

4. Ejecuta el siguiente comando para obtener el `emp.csv`, un archivo de datos con información de empleados, en un archivo separado por comas que utilizarás más adelante para inyectar datos en la tabla que crearás.

```
wget https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/data/emp.csv
```

5. Abre el archivo en el editor y visualiza el archivo.

    ![Panel del explorador con la carpeta de datos y Emp csv resaltada y abierta.](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/images/view_empcsv.png)

# Paso 2: Configurar Hive y Bee

1. Utilizarás el hive del docker hub para este laboratorio. Descarga la imagen de hive en tu sistema ejecutando el siguiente comando.

```
docker pull apache/hive:4.0.0-alpha-1
```

> Esto tomará unos segundos, dependiendo de la velocidad de tu conexión a Internet.

2. Ahora, ejecutarás el servidor hive en el puerto `10002`. Nombrarás la instancia del servidor `myhiveserver`. Montaremos la carpeta local `data` en el servidor hive como `hive_custom_data`. Esto significaría que toda la carpeta `data` que creaste localmente, junto con cualquier cosa que agregues en la carpeta de datos, se copia en el contenedor bajo el directorio `hive_custom_data`.

```
docker run -d -p 10000:10000 -p 10002:10002 --env SERVICE_NAME=hiveserver2 -v /home/project/data:/hive_custom_data --name myhiveserver apache/hive:4.0.0-alpha-1
```

3. Puedes abrir y echar un vistazo al servidor Hive con la GUI. Haz clic en el botón para abrir la GUI de HiveServer2.

 <span class="plugin-text" style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px 0px 0px 2px; margin: 0px; box-sizing: border-box; display: inline;">HiveServer2 GUI</span>

4. Ahora ejecuta el siguiente comando, que te permite acceder a `beeline`. Este es un CLI SQL donde puedes crear, modificar, eliminar tablas y acceder a los datos en la tabla.

```
docker exec -it myhiveserver beeline -u 'jdbc:hive2://localhost:10000/'
```

# Paso 3: Crear tabla, agregar y ver datos

1. Para crear una nueva tabla `Employee` con tres columnas como en el csv que descargaste - em\_id, emp\_name y salary, ejecuta el siguiente comando.

```
create table Employee(emp_id string, emp_name string, salary  int)  row format delimited fields terminated by ',' ;
```

> Puede notar que hay una mención explícita para los campos delimitados por `,` así como en el archivo csv.

2. Ejecute el siguiente comando para verificar si la tabla ha sido creada.

```
show tables;
```

Esto debería listar la tabla de Empleados que acabas de crear.

3. Ahora carga los datos en la tabla desde el archivo csv ejecutando el siguiente comando.

```
LOAD DATA INPATH '/hive_custom_data/emp.csv' INTO TABLE Employee;
```

3. Ejecuta el siguiente comando para listar todas las filas de la tabla y verificar si los datos se han cargado desde el CSV.

```
SELECT * FROM employee;
```

4. Puedes ver los detalles de los comandos y el resultado en la interfaz gráfica de HiveServer2.

 <span class="plugin-text" style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px 0px 0px 2px; margin: 0px; box-sizing: border-box; display: inline;">HiveServer2 GUI</span>

5. Para salir del prompt de beehive en la terminal, presiona `ctrl+D`.

Hive utiliza internamente MapReduce para procesar y analizar datos. Cuando ejecutas una consulta de Hive, genera trabajos de MapReduce que se ejecutan en el clúster de Hadoop.

# Conclusión

En este laboratorio creaste una tabla en hive, añadiste datos a la tabla desde un csv y listaste los datos contenidos en la tabla.