# Esquema Definido por el Usuario (UDS) para DSL y SQL
**Tiempo estimado necesario:** 10 minutos
**¿Cómo definir y aplicar un esquema definido por el usuario en PySpark?**
En esta lectura, aprenderás cómo definir y aplicar un esquema definido por el usuario en PySpark.
Spark proporciona un marco de procesamiento de datos estructurados que puede definir y aplicar esquemas para diversas fuentes de datos, incluidos los archivos CSV. Veamos los pasos para definir y usar un esquema definido por el usuario para un archivo CSV en PySpark:
**Paso 1:**
Importar las bibliotecas requeridas.

```python
from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField
```

**Paso 2:**
Define el esquema.
Entender los datos antes de definir un esquema es un paso importante.
Veamos el enfoque paso a paso para entender los datos y definir un esquema apropiado para un archivo de entrada dado:
1. **Explorar los datos:** Comprender los diferentes tipos de datos presentes en cada columna.
    
2. **Tipos de datos de las columnas:** Determinar los tipos de datos apropiados para cada columna según los valores observados.
    
3. **Definir el esquema:** Utiliza la clase 'StructType' en Spark y crea un 'StructField' para cada columna, mencionando el nombre de la columna, el tipo de dato y otras propiedades.
    
**Ejemplo:**

```python
schema = StructType([
    StructField("Emp_Id", StringType(), False),
    StructField("Emp_Name", StringType(), False),
    StructField("Department", StringType(), False),
    StructField("Salary", IntegerType(), False),
    StructField("Phone", IntegerType(), True),
])
```
‘False’ indica que los valores nulos **NO** están permitidos para la columna.
El esquema definido arriba se puede utilizar para los datos del archivo CSV a continuación:

**Nombre del archivo: employee.csv**

```python
emp_id,emp_name,dept,salary,phone
A101,jhon,computer science,1000,+1 (701) 846 958
A102,Peter,Electronics,2000,
A103,Micheal,IT,2500,
```

**Paso 3:** Lee el archivo de entrada con un esquema definido por el usuario.

```python
#create a dataframe on top a csv file
df = (spark.read
  .format("csv")
  .schema(schema)
  .option("header", "true")
  .load("employee.csv")
)
# display the dataframe content
df.show()
```

**Paso 4:** Usa el `printSchema()` método en Spark para mostrar el esquema de un DataFrame y asegurar que el esquema se aplique correctamente a los datos.

```python
df.printSchema()
```

A través de los cuatro pasos anteriores, has adquirido la capacidad de establecer un esquema para un archivo CSV. Además, has utilizado este esquema definido por el usuario (UDF) para leer el archivo CSV, exhibir su contenido y mostrar el esquema en sí.


In [None]:
# Installing required packages
!pip install pyspark
!pip install findspark
!pip install pandas

In [1]:
import pandas as pd
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession

In [2]:
# Crear la sesión de Spark
spark = SparkSession.builder \
    .appName("EmployeeCSV") \
    .getOrCreate()

your 131072x1 screen size is bogus. expect trouble


25/12/02 18:22:02 WARN Utils: Your hostname, DiegoSrz resolves to a loopback address: 127.0.1.1; using 10.255.255.254 instead (on interface lo)
25/12/02 18:22:02 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address


Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


25/12/02 18:22:03 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/12/02 18:22:04 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


In [3]:
from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField

schema = StructType([
    StructField("Emp_Id",StringType(), False),
    StructField("Emp_name",StringType(), False),
    StructField("Department",StringType(), False),
    StructField("Salary",IntegerType(),False),
    StructField("Phone",IntegerType(), True),
])

In [4]:
df = (
    spark.read.format("csv")
    .schema(schema)
    .option("header", "true")
    .load("employee.csv")
)

In [5]:
df.show()

25/12/02 18:24:13 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: emp_id, emp_name, dept, salary, phone
 Schema: Emp_Id, Emp_name, Department, Salary, Phone
Expected: Department but found: dept
CSV file: file:///mnt/c/Users/dg_su/Documents/Cursos/DATA_ENGINEER/Introduction_to_big_data_with_Spark_and_Hadoop/ApacheSpark/employee.csv
+------+--------+----------------+------+-----+
|Emp_Id|Emp_name|      Department|Salary|Phone|
+------+--------+----------------+------+-----+
|  A101|    jhon|computer science|  1000| null|
|  A102|   Peter|     Electronics|  2000| null|
|  A103| Micheal|              IT|  2500| null|
+------+--------+----------------+------+-----+



                                                                                

In [6]:
df.printSchema()

root
 |-- Emp_Id: string (nullable = true)
 |-- Emp_name: string (nullable = true)
 |-- Department: string (nullable = true)
 |-- Salary: integer (nullable = true)
 |-- Phone: integer (nullable = true)

