<a href="https://colab.research.google.com/github/jbastian9/SeminarioBigData/blob/main/Copia_de_Lab3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
!pip install pyspark



El archivo CSV presenta errores de formato al intentar separar los datos utilizando el delimitador ",". Por esta razón, decidimos utilizar un RDD con un split por coma para cada elemento del CSV.

Cargar el archivo como un Resilient Distributed Dataset (RDD) nos permite manipular el contenido del archivo a un nivel más bajo que utilizando un DataFrame. Esto puede ser útil cuando el archivo tiene problemas de formato, como es nuestro caso actual.

Es importante tener en cuenta que al convertir el archivo CSV en un TXT y usar un split por ",", este método podría no ser útil si la información incluye campos como "observaciones" u otros tipos de contenido que puedan contener comas.

In [24]:
from pyspark.sql import SparkSession
from pyspark.sql import Row

# Iniciar una sesión de Spark
spark = SparkSession.builder.appName("LimpiezaDeDatos").getOrCreate()

# Ruta del archivo CSV
ruta_archivo = "/content/drive/MyDrive/Colab Notebooks/data/Copia de housing_fincaraiz.csv"

# Cargar el archivo como un RDD
rdd = spark.sparkContext.textFile(ruta_archivo)

# Separar el encabezado del resto de los datos
encabezado = rdd.first()
datos = rdd.filter(lambda x: x != encabezado)

# Dividir el encabezado y las filas por comas
columnas = encabezado.split(',')

# Asegurarse de que la longitud de los nombres de las columnas coincide con la cantidad de datos en cada fila
def parsear_fila(fila):
    elementos = fila.split(',')
    if len(elementos) == len(columnas):
        return Row(*elementos)
    else:
        return None

# Parsear las filas y filtrar las que no se pueden parsear correctamente
filas_parsedas = datos.map(parsear_fila).filter(lambda x: x is not None)

# Crear el DataFrame a partir del RDD
df = spark.createDataFrame(filas_parsedas, schema=columnas)

# Nuevos nombres de columnas
nuevos_nombres_columnas = [
    "habitaciones", "baños", "parqueaderos", "area_construida", "area_privada", "estrato",
    "estado", "antiguedad", "administracion", "precio_m2", "ascensor", "circuito_cerrado_de_TV",
    "parqueadero_visitantes", "porteria_recepcion", "zonas_verdes", "salon_comunal", "balcon",
    "barra_estilo_americano", "calentador", "chimenea", "citofono", "cocina_integral", "terraza",
    "vigilancia", "parques_cercanos", "estudio", "patio", "deposito_bodega", "nombre", "ubicacion", "precio"
]

# Validación de la cantidad de columnas
if len(columnas) != len(nuevos_nombres_columnas):
    print("The number of columns does not match. Adjust the new_column_names list.")
    print(f"Original Columns ({len(columnas)}): {columnas}")
    print(f"New Column Names ({len(nuevos_nombres_columnas)}): {nuevos_nombres_columnas}")
else:
    # Renombrar las columnas del DataFrame
    df = df.toDF(*nuevos_nombres_columnas)
    # Mostrar todos los datos en forma de tabla
    df.show(truncate=False)


+------------+-----+------------+---------------+------------+-------+-----------+--------------+---------------+--------------+--------+----------------------+----------------------+------------------+------------+-------------+------+----------------------+----------+--------+--------+---------------+-------+----------+----------------+-------+-----+---------------+-----------+--------------------+----------+
|habitaciones|baños|parqueaderos|area_construida|area_privada|estrato|estado     |antiguedad    |administracion |precio_m2     |ascensor|circuito_cerrado_de_TV|parqueadero_visitantes|porteria_recepcion|zonas_verdes|salon_comunal|balcon|barra_estilo_americano|calentador|chimenea|citofono|cocina_integral|terraza|vigilancia|parques_cercanos|estudio|patio|deposito_bodega|nombre     |ubicacion           |precio    |
+------------+-----+------------+---------------+------------+-------+-----------+--------------+---------------+--------------+--------+----------------------+----------