### Importamos los modulos

In [1]:
from num2words import num2words # Importar el módulo num2words

In [2]:
separador="="*120

In [3]:
import findspark # Este módulo proporciona una función para localizar la instalación de Spark en el sistema.
findspark.init() # Inicializa el entorno de Spark.
findspark.find() # Devuelve la ruta al directorio de Spark. 

'C:\\Users\\guti_\\anaconda3\\envs\\pyspark-env\\Lib\\site-packages\\pyspark'

In [4]:
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc=SparkContext.getOrCreate()
spark=SparkSession(sc)

In [5]:
sc

### Lectura csv

In [6]:
location="smartphones - smartphones.csv"

In [7]:
# CSV options
file_type = "csv" # Tipo de archivo
infer_schema = "true" # Esta opción indica si se debe intentar inferir automáticamente el esquema de los datos.
first_row_is_header = "true" # Indica si la primera fila del archivo CSV contiene encabezados.
delimiter = "," # Especifica el delimitador utilizado en el archivo CSV.

In [8]:
from pyspark.sql.functions import col

# Leer datos de un archivo CSV a un DataFrame
# Las opciones aplicadas son para archivos CSV. Para otros tipos de archivos, estos serán ignorados.
data_df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(location)

### Creamos funciones para optimizar el trabajo

#### descripcion_df

In [9]:
def descripcion_df(df):
    print(separador)
    registros=num2words(df.count(),lang='es')
    columnas=num2words(len(df.columns),lang='es')
    print(f"Cantidad de registros: {df.count()} ({registros})")
    print(f"Cantidad de columnas: {len(df.columns)} ({columnas})")
    print(separador)
    print("Tipos de datos\n")
    df.printSchema()
    print(separador)
    print("Recuento de nulos\n")  # Muestra el número de valores nulos en cada columna del DataFrame y su porcentaje
    verificar_nulos(df)  # Análisis de nulos
    print(separador)  # Imprime una línea separadora
    # Cuenta las filas duplicadas basadas en todas las columnas
    cantidad_duplicados = df.groupBy(df.columns).count().where(col("count") > 1).count()
    print(f"Cantidad de filas duplicadas en el DataFrame: {cantidad_duplicados}.")
    print(separador)

#### renombrar_columnas

In [10]:
def renombrar_columnas(df, diccionario):
    # Iterar sobre el diccionario y renombrar las columnas
    for antiguo_nombre, nuevo_nombre in diccionario.items():
        df = df.withColumnRenamed(antiguo_nombre, nuevo_nombre)
    return df

#### verificar_nulos

In [11]:
def verificar_nulos(df):
    from pyspark.sql.functions import col, sum
    # Muestra la cantidad de valores nulos por cada columna en el DataFrame
    print("Cantidad de valores nulos por columna: ")
    df_nulos = df.select(*(sum(col(c).isNull().cast("int")).alias(c) for c in df.columns)) # Crea un DataFrame con los valores nulos por columna
    df_nulos.show(vertical=True) # Imprime el DataFrame en forma vertical

#### reemplazar_nulos

In [12]:
from pyspark.sql.functions import col

def reemplazar_nulos(df, nombre_columna, valor_reemplazo):
    # Reemplazar valores nulos en la columna especificada con el valor de reemplazo
    df_ = df.fillna({nombre_columna: valor_reemplazo})
    return df_

#### eliminar_nulos

In [13]:
def eliminar_nulos(df):
    # Eliminar filas con valores nulos
    df_sin_nulos = df.dropna()
    return df_sin_nulos

#### eliminar_nulos_columnas

In [14]:
def eliminar_nulos_columnas(df, columnas):
    # Eliminar filas con valores nulos solo en las columnas especificadas
    df_sin_nulos = df.dropna(subset=columnas)
    return df_sin_nulos

#### eliminar_columna

In [15]:
def eliminar_columna(df,columna):
    df_=df.drop(columna)
    return df_

#### eliminar_columnas

In [16]:
def eliminar_columnas(df,columnas):
    df_= df.drop(*columnas)
    return df_

#### eliminar_valores_con_condicion

In [17]:
from pyspark.sql.functions import col

def eliminar_valores_con_condicion(df, nombre_columna,condicion):
    # Filtrar y eliminar filas que contengan la condicion en la columna especificada
    df_ = df.filter(~col(nombre_columna).contains(condicion))
    return df_

#### valores_columna

In [18]:
from pyspark.sql.functions import col

def valores_columna(df,nombre_columna):
    serie=df.select(nombre_columna)
    # Obtener el número de valores distintos
    num_distinct_values = serie.distinct().count()
    print(separador)
    print("Número de valores distintos:", num_distinct_values)
    print(separador)
    # Obtener los valores distintos
    distinct_values = serie.distinct().collect()
    print("Valores distintos:", [row[0] for row in distinct_values])
    print(separador)

#### reemplazar_caracteres

In [19]:
from pyspark.sql.functions import regexp_replace, col
from pyspark.sql.types import IntegerType

def reemplazar_caracteres(df,columna,valor_inicial,valor_final):
    df_ = df.withColumn(columna, regexp_replace(col(columna), valor_inicial, valor_final))
    return df_

#### reemplazar_si_contiene

In [20]:
from pyspark.sql.functions import when, col

def reemplazar_si_contiene(df, nombre_columna, palabra, reemplazo):
    # Reemplazar el contenido de la columna si contiene la palabra específica
    df_ = df.withColumn(nombre_columna, 
                                   when(col(nombre_columna).contains(palabra), 
                                        reemplazo).otherwise(col(nombre_columna)))
    return df_

#### reemplazar_caracteres_df

In [21]:
from pyspark.sql.functions import regexp_replace

def reemplazar_caracteres_df(df,valor_original,valor_final):
    for col_name in df.columns:
        df_ = df.withColumn(col_name, regexp_replace(col(col_name), f"r{valor_original}", valor_final))
    return df_

#### reemplazar_si_no_contiene

In [22]:
from pyspark.sql.functions import when, col

def reemplazar_si_no_contiene(df, nombre_columna,palabra):
    # Reemplazar el contenido de la columna si no contiene la palabra
    df_ = df.withColumn(nombre_columna, 
                                   when(col(nombre_columna).contains(palabra), 
                                        col(nombre_columna)).otherwise("-"))
    return df_

#### reemplazar_si_no_contiene_lista

In [23]:
from pyspark.sql.functions import when, col

def reemplazar_si_no_contiene_lista(df, nombre_columna, palabras):
    # Construir la expresión regular a partir de las palabras proporcionadas
    regex_palabras = "|".join(palabras)
    
    # Reemplazar el contenido de la columna si no contiene ninguna de las palabras
    df_ = df.withColumn(nombre_columna, 
                        when(col(nombre_columna).rlike(regex_palabras), 
                             col(nombre_columna)).otherwise("-"))
    return df_


#### extraer_numeros

In [24]:
from pyspark.sql.functions import regexp_extract

def extraer_numeros(df,columna,nueva_columna,pos=1):
    # Utilizamos regexp_extract para extraer los números de la columna
    df_ = df.withColumn(nueva_columna, regexp_extract(df[columna], r'(\d+)', pos))
    return df_

#### conteo_valores

In [25]:
from pyspark.sql.functions import count

def conteo_valores(df,columna):
# Realiza un conteo de valores únicos en la columna especificada
    conteo_valores = df.groupBy(columna).agg(count("*").alias("count"))

    # Muestra el DataFrame resultante
    conteo_valores.show()

#### transformar_entero

In [26]:
from pyspark.sql.functions import col
from pyspark.sql.types import IntegerType

def transformar_entero(df,columna):
    df_ = df.withColumn(columna, col(columna).cast(IntegerType()))
    return df_

#### transformar_float

In [27]:
from pyspark.sql.types import FloatType

def transformar_float(df,columna):
    df_ = df.withColumn(columna, col(columna).cast(FloatType()))
    return df_

#### transformar_str

In [28]:
from pyspark.sql.types import FloatType

def transformar_str(df,columna):
    df_ = df.withColumn(columna, col(columna).cast(StringType()))
    return df_

#### transformar_fecha

In [29]:
from pyspark.sql.functions import to_date
from pyspark.sql.types import DateType

def transformar_fecha(df,columna,formato="yyyy-MM-dd"):
    df_ = df.withColumn(columna, to_date(col(columna), formato).cast(DateType()))
    return df_

#### multiplicar_por_1000_si_menor

In [30]:
from pyspark.sql.functions import when

def multiplicar_por_1000_si_menor(df, nombre_columna):
    # Multiplicar por 1000 el valor de la columna si es menor a 9
    df_ = df.withColumn(nombre_columna, when(df[nombre_columna] < 9, df[nombre_columna] * 1000).otherwise(df[nombre_columna]))
    return df_

#### split_columna

In [31]:
from pyspark.sql.functions import split

def split_columna(df, columna):
    # Dividir la columna en una lista de valores
    df = df.withColumn(columna + "_split", split(df[columna], ","))

    # Obtener el número de columnas necesarias
    num_columnas = df.selectExpr("size(" + columna + "_split)").first()[0]

    # Seleccionar cada elemento de la lista en columnas separadas
    for i in range(num_columnas):
        df = df.withColumn(columna + "_" + str(i+1), df[columna + "_split"][i])

    # Eliminar la columna de la lista
    df = df.drop(columna + "_split")
    
    return df

### Damos un primer vistazo al df

In [32]:
data_df.show(5)

+--------------------+-------+------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+-----------+
|               model|  price|rating|                 sim|           processor|                 ram|             battery|             display|              camera|                card|         os|
+--------------------+-------+------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+-----------+
|       OnePlus 11 5G|₹54,999|    89|Dual Sim, 3G, 4G,...|Snapdragon 8 Gen2...|12 GB RAM, 256 GB...|5000 mAh Battery ...|6.7 inches, 1440 ...|50 MP + 48 MP + 3...|Memory Card Not S...|Android v13|
|OnePlus Nord CE 2...|₹19,989|    81|Dual Sim, 3G, 4G,...|Snapdragon 695, O...|6 GB RAM, 128 GB ...|5000 mAh Battery ...|6.59 inches, 1080...|64 MP + 2 MP + 2 ...|Memory Card (Hybr...|Android v12|
|Samsung Galaxy

In [33]:
descripcion_df(data_df)

Cantidad de registros: 1020 (mil veinte)
Cantidad de columnas: 11 (once)
Tipos de datos

root
 |-- model: string (nullable = true)
 |-- price: string (nullable = true)
 |-- rating: integer (nullable = true)
 |-- sim: string (nullable = true)
 |-- processor: string (nullable = true)
 |-- ram: string (nullable = true)
 |-- battery: string (nullable = true)
 |-- display: string (nullable = true)
 |-- camera: string (nullable = true)
 |-- card: string (nullable = true)
 |-- os: string (nullable = true)

Recuento de nulos

Cantidad de valores nulos por columna: 
-RECORD 0--------
 model     | 0   
 price     | 0   
 rating    | 141 
 sim       | 0   
 processor | 0   
 ram       | 0   
 battery   | 0   
 display   | 0   
 camera    | 1   
 card      | 7   
 os        | 17  

Cantidad de filas duplicadas en el DataFrame: 0.


### Trabajamos con las columnas

#### Eliminamos columnas inncesarias

In [34]:
columnas_a_eliminar=["display","camera"]
data_df=eliminar_columnas(data_df,columnas_a_eliminar)

#### Eliminamos las filas con valores nulos

In [35]:
data_df=eliminar_nulos(data_df)

#### Columna 'price'

In [36]:
valores_columna(data_df,"price")

Número de valores distintos: 331
Valores distintos: ['₹24,990', '₹8,799', '₹58,999', '₹40,990', '₹13,799', '₹11,000', '₹8,399', '₹1,79,900', '₹19,650', '₹27,999', '₹25,969', '₹16,940', '₹35,389', '₹11,399', '₹14,799', '₹1,04,999', '₹24,820', '₹19,499', '₹18,990', '₹15,988', '₹6,490', '₹64,800', '₹9,022', '₹1,30,990', '₹82,199', '₹33,499', '₹89,999', '₹57,999', '₹6,499', '₹16,900', '₹36,994', '₹1,09,999', '₹1,72,999', '₹32,990', '₹21,490', '₹8,990', '₹23,890', '₹10,999', '₹12,944', '₹12,990', '₹14,499', '₹10,630', '₹1,49,999', '₹36,760', '₹14,489', '₹65,999', '₹88,999', '₹4,80,000', '₹11,725', '₹43,999', '₹21,990', '₹16,990', '₹28,498', '₹6,699', '₹16,999', '₹14,990', '₹71,999', '₹15,000', '₹17,499', '₹19,989', '₹13,999', '₹1,29,900', '₹50,999', '₹54,999', '₹15,998', '₹13,279', '₹12,999', '₹32,999', '₹7,299', '₹78,990', '₹7,990', '₹28,990', '₹1,69,900', '₹10,490', '₹9,490', '₹53,100', '₹26,749', '₹42,999', '₹1,39,900', '₹8,968', '₹53,990', '₹28,499', '₹2,39,999', '₹34,949', '₹39,999', '

In [37]:
data_df=reemplazar_caracteres(data_df,"price","₹","")
data_df=reemplazar_caracteres(data_df,"price",",","")

from pyspark.sql.functions import col, round

# Convertimos el tipo de moneda a USD
data_df = data_df.withColumn("price", round(col("price") * 0.0119564, 2))

#### Columna 'rating'

In [38]:
valores_columna(data_df,"rating")

Número de valores distintos: 30
Valores distintos: [85, 65, 78, 81, 76, 86, 64, 61, 88, 72, 84, 87, 69, 63, 77, 82, 80, 73, 70, 62, 60, 75, 83, 68, 71, 79, 66, 67, 74, 89]


#### Columna 'sim'

In [39]:
valores_columna(data_df,"sim")

Número de valores distintos: 19
Valores distintos: ['Single Sim, 3G, 4G, VoLTE, Wi-Fi, NFC', 'Dual Sim, 3G, 4G, VoLTE, Wi-Fi', 'Dual Sim, 3G, 4G, 5G, VoLTE, Wi-Fi', 'Single Sim, 3G, 4G, VoLTE, Wi-Fi', 'Dual Sim, 3G, 4G, 5G, VoLTE, Vo5G, Wi-Fi, NFC', 'Dual Sim, 3G, 4G, VoLTE, Wi-Fi, NFC', 'Dual Sim, 3G, 4G, 5G, VoLTE, Vo5G, Wi-Fi', 'Dual Sim, 3G, 4G, 5G, VoLTE, Vo5G, Wi-Fi, NFC, IR Blaster', 'Dual Sim, 3G, 4G, VoLTE, Wi-Fi, IR Blaster', 'Dual Sim, 3G, 4G, 5G, VoLTE, Vo5G, Wi-Fi, IR Blaster', 'Dual Sim, 3G, 4G, 5G, VoLTE, Wi-Fi, IR Blaster', 'Dual Sim, 3G, 4G, 5G, VoLTE, Wi-Fi, NFC, IR Blaster', 'Single Sim, 3G, 4G, 5G, VoLTE, Wi-Fi', 'Single Sim, 3G, 4G, 5G, VoLTE, Wi-Fi, NFC', 'Dual Sim, 3G, 4G, 5G, VoLTE, Wi-Fi, NFC', 'Dual Sim, 3G, 4G, Wi-Fi', 'Single Sim, 3G, 4G, Wi-Fi, NFC', 'Dual Sim, 3G, 4G, VoLTE, Wi-Fi, NFC, IR Blaster', 'Dual Sim, 3G, 4G, Wi-Fi, NFC']


In [40]:
from pyspark.sql.functions import when, col

# Crear la nueva columna "5G" basada en si la columna "sim" contiene la palabra "5G"
data_df = data_df.withColumn("5G", when(col("sim").rlike("5G"), True).otherwise(False))

# Crear la nueva columna "NFC" basada en si la columna "sim" contiene la palabra "NFC"
data_df = data_df.withColumn("NFC", when(col("sim").rlike("NFC"), True).otherwise(False))


In [41]:
valores_columna(data_df,"NFC")

Número de valores distintos: 2
Valores distintos: [True, False]


In [42]:
from pyspark.sql.functions import split

# Aplicamos la función split para dividir la columna 'sim' por la coma y extraer el primer segmento
data_df = data_df.withColumn("sim", split(data_df["sim"], ",").getItem(0))

In [43]:
valores_columna(data_df,"sim")

Número de valores distintos: 2
Valores distintos: ['Dual Sim', 'Single Sim']


#### Columna 'processor'

In [44]:
valores_columna(data_df,"processor")

Número de valores distintos: 245
Valores distintos: ['Snapdragon 662, Octa Core, 2\u2009GHz Processor', 'Quad Core, 1.6\u2009GHz Processor', 'Apple  A13', 'Unisoc T606, Octa Core, 1.6\u2009GHz Processor', 'Tiger T610, Octa Core, 1.82\u2009GHz Processor', 'Dimensity 1200, Octa Core, 3\u2009GHz Processor', 'Unisoc T610, Octa Core, 1.8\u2009GHz Processor', 'Exynos 9810, Octa Core, 2.8\u2009GHz Processor', 'Tiger T606, Octa Core, 2\u2009GHz Processor', 'Snapdragon  8+ Gen1, Octa Core, 3.2\u2009GHz Processor', 'Snapdragon 6 Gen 1, Octa Core, 2.2\u2009GHz Processor', 'Snapdragon 870 , Octa Core, 3.2\u2009GHz Processor', 'Helio  G88, Octa Core, 2\u2009GHz Processor', 'Snapdragon  662 , Octa Core, 2\u2009GHz Processor', 'Snapdragon 690, Octa Core, 2\u2009GHz Processor', 'Tiger T610, Octa Core, 1.8\u2009GHz Processor', 'Helio G85, Octa Core, 2\u2009GHz Processor', 'Dimensity  9200, Octa Core Processor', 'Snapdragon  6 Gen 1, Octa Core, 2.2\u2009GHz Processor', 'Google  Tensor, Octa Core, 2.8\u2

from pyspark.sql.functions import regexp_replace

for col_name in data_df.columns:
    data_df = data_df.withColumn(col_name, regexp_replace(col(col_name), r'\u2009', ' '))


In [45]:
# Reemplazamos el caracter '\u2009' en las columnas del dataframe
data_df=reemplazar_caracteres(data_df,"processor","\u2009"," ")


In [46]:
from pyspark.sql.functions import split

# Aplicamos la función split para dividir la columna 'processor' por la coma y extraer el primer segmento
data_df = data_df.withColumn("processor", split(data_df["processor"], ",").getItem(0))

#### Columna 'battery'

In [47]:
valores_columna(data_df,"battery")

Número de valores distintos: 210
Valores distintos: ['4500\u2009mAh Battery with 180W Fast Charging', '4700\u2009mAh Battery with 120W Fast Charging', '4323\u2009mAh Battery with Fast Charging', '4300\u2009mAh Battery with 30W Fast Charging', '4500\u2009mAh Battery with 20W Fast Charging', '6000\u2009mAh Battery with Fast Charging', '4700\u2009mAh Battery with 67W Fast Charging', '4080\u2009mAh Battery with 18W Fast Charging', '5000\u2009mAh Battery with 120W Fast Charging', '2800\u2009mAh Battery with Fast Charging', '5500\u2009mAh Battery with 67W Fast Charging', '4200\u2009mAh Battery with 33W Fast Charging', '3095\u2009mAh Battery with Fast Charging', '5000\u2009mAh Battery with 40W Fast Charging', '3520\u2009mAh Battery with Fast Charging', '4100\u2009mAh Battery', '5000\u2009mAh Battery with 135W Fast Charging', '5000\u2009mAh Battery with 66W Fast Charging', '6000\u2009mAh Battery with 44W Fast Charging', '6000\u2009mAh Battery', '5000\u2009mAh Battery with 65W Fast Charging', '

In [48]:
# Reemplazamos el caracter '\u2009' en las columnas del dataframe
data_df=reemplazar_caracteres(data_df,"battery","\u2009"," ")

In [49]:
from pyspark.sql.functions import when, col
from pyspark.sql.functions import split

# Crear la nueva columna "carga_rapida" basada en si la columna "battery" contiene la palabra "Fast Charging"
data_df = data_df.withColumn("carga_rapida", when(col("battery").rlike("Fast Charging"), True).otherwise(False))

# Aplicamos la función split para dividir la columna 'battery' por un espacio y extraer el primer segmento
data_df = data_df.withColumn("battery", split(data_df["battery"], " ").getItem(0))

# Filtramos las columnas con '.'
data_df = eliminar_valores_con_condicion(data_df, "battery",".")

# Transformamos la columna a tipo entero
data_df=transformar_entero(data_df,"battery")

#### Columna 'card'

In [50]:
valores_columna(data_df,"card")

Número de valores distintos: 32
Valores distintos: ['12\u2009MP + 12\u2009MP Dual Rear & 10\u2009MP Front Camera', 'Memory Card Supported, upto 128\u2009GB', 'Memory Card (Hybrid), upto 512\u2009GB', '64\u2009MP + 16\u2009MP + 8\u2009MP Triple Rear & 32\u2009MP Front Camera', 'HarmonyOS v2.0', 'Memory Card Not Supported', 'Memory Card Supported, upto 1\u2009TB', '64\u2009MP + 20\u2009MP + 2\u2009MP Triple Rear & Main Front Camera', 'iOS v13', 'Android v11', 'Memory Card (Hybrid), upto 2\u2009TB', 'Android v9.0 (Pie)', 'Android v12', 'Android v10.0', '64\u2009MP + 16\u2009MP + 12\u2009MP Triple Rear & 16\u2009MP Front Camera', 'Android v10', '50\u2009MP + 13\u2009MP + 8\u2009MP Triple Rear & 10.7\u2009MP Front Camera', 'Memory Card (Hybrid), upto 64\u2009GB', '64\u2009MP + 13\u2009MP + 12\u2009MP Triple Rear & 32\u2009MP Front Camera', 'Memory Card Supported, upto 256\u2009GB', '12\u2009MP + 12\u2009MP + 12\u2009MP Triple Rear & 10\u2009MP + 4\u2009MP Dual Front Camera', 'Memory Card Su

In [51]:
data_df=reemplazar_caracteres(data_df,"card","\u2009"," ")

In [52]:
data_df=reemplazar_si_no_contiene(data_df,"card","Memory Card")

In [53]:
# Extraemos la cantidad de almacenamiento de la columna 'card'
data_df=extraer_numeros(data_df,"card","almacenamiento")

# Transformamos la columna a tipo entero
data_df=transformar_entero(data_df,"almacenamiento")

# Ree,plazamos los valores nulos de la columna
data_df=reemplazar_nulos(data_df,"almacenamiento","0")

In [54]:
valores_columna(data_df,"almacenamiento")

Número de valores distintos: 8
Valores distintos: [128, 512, 1, 64, 1000, 256, 2, 0]


In [55]:
data_df=multiplicar_por_1000_si_menor(data_df,"almacenamiento")
conteo_valores(data_df,"almacenamiento")

+--------------+-----+
|almacenamiento|count|
+--------------+-----+
|           128|    5|
|           512|  111|
|            64|    2|
|          1000|  250|
|           256|   91|
|          2000|    6|
|             0|  404|
+--------------+-----+



In [56]:
# Creamos una columna nueva que indique si el valor de la columna 'card' contiene alguno de los patrones especificados
data_df = data_df.withColumn("Memory Card", col("card").rlike("Memory Card"))

In [57]:
valores_columna(data_df,"Memory Card")
conteo_valores(data_df,"Memory Card")

Número de valores distintos: 2
Valores distintos: [True, False]
+-----------+-----+
|Memory Card|count|
+-----------+-----+
|       true|  678|
|      false|  191|
+-----------+-----+



In [58]:
not_supported="Not Supported"
supported="Memory Card Supported"
supported_="Supported"
hybrid="Hybrid"
data_df=reemplazar_si_contiene(data_df,"card",not_supported,not_supported)
data_df=reemplazar_si_contiene(data_df,"card",supported,supported_)
data_df=reemplazar_si_contiene(data_df,"card",hybrid,hybrid)

In [59]:
valores_columna(data_df,"card")
conteo_valores(data_df,"card")

Número de valores distintos: 4
Valores distintos: ['Supported', 'Hybrid', '-', 'Not Supported']
+-------------+-----+
|         card|count|
+-------------+-----+
|    Supported|  433|
|       Hybrid|  138|
|            -|  191|
|Not Supported|  107|
+-------------+-----+



In [60]:
data_df.show()

+--------------------+------+------+--------+--------------------+--------------------+-------+-------------+-----------+-----+-----+------------+--------------+-----------+
|               model| price|rating|     sim|           processor|                 ram|battery|         card|         os|   5G|  NFC|carga_rapida|almacenamiento|Memory Card|
+--------------------+------+------+--------+--------------------+--------------------+-------+-------------+-----------+-----+-----+------------+--------------+-----------+
|       OnePlus 11 5G|657.59|    89|Dual Sim|   Snapdragon 8 Gen2|12 GB RAM, 256 GB...|   5000|Not Supported|Android v13| true| true|        true|             0|       true|
|OnePlus Nord CE 2...| 239.0|    81|Dual Sim|      Snapdragon 695|6 GB RAM, 128 GB ...|   5000|       Hybrid|Android v12| true|false|        true|          1000|       true|
|Samsung Galaxy A1...|197.27|    75|Dual Sim|         Exynos 1330|4 GB RAM, 64 GB i...|   5000|    Supported|Android v13| true|fal

#### Columna 'ram'

In [61]:
valores_columna(data_df,"ram")

Número de valores distintos: 25
Valores distintos: ['18\u2009GB RAM, 256\u2009GB inbuilt', '6\u2009GB RAM, 128\u2009GB inbuilt', '4\u2009GB RAM, 64\u2009GB inbuilt', '4\u2009GB RAM, 32\u2009GB inbuilt', '2\u2009GB RAM, 64\u2009GB inbuilt', '4\u2009GB RAM, 128\u2009GB inbuilt', '12\u2009GB RAM, 128\u2009GB inbuilt', '18\u2009GB RAM, 512\u2009GB inbuilt', '3\u2009GB RAM, 32\u2009GB inbuilt', '8\u2009GB RAM, 128\u2009GB inbuilt', '16\u2009GB RAM, 256\u2009GB inbuilt', '4\u2009GB RAM, 512\u2009GB inbuilt', '8\u2009GB RAM, 256\u2009GB inbuilt', '6\u2009GB RAM, 512\u2009GB inbuilt', '12\u2009GB RAM, 512\u2009GB inbuilt', '6\u2009GB RAM, 256\u2009GB inbuilt', '8\u2009GB RAM, 512\u2009GB inbuilt', '2\u2009GB RAM, 32\u2009GB inbuilt', '4\u2009GB RAM, 256\u2009GB inbuilt', '3\u2009GB RAM, 64\u2009GB inbuilt', '12\u2009GB RAM, 256\u2009GB inbuilt', '512\u2009GB inbuilt', '6\u2009GB RAM, 1\u2009TB inbuilt', '6\u2009GB RAM, 64\u2009GB inbuilt', '16\u2009GB RAM, 512\u2009GB inbuilt']


In [62]:
data_df=reemplazar_caracteres(data_df,"ram","\u2009"," ")

In [63]:
data_df = split_columna(data_df, "ram")
data_df=extraer_numeros(data_df,"ram_1","ram_1")
data_df=extraer_numeros(data_df,"ram_2","ram_2")
# Mostrar el DataFrame resultante
data_df.select(["ram","ram_1","ram_2"]).show()

+--------------------+-----+-----+
|                 ram|ram_1|ram_2|
+--------------------+-----+-----+
|12 GB RAM, 256 GB...|   12|  256|
|6 GB RAM, 128 GB ...|    6|  128|
|4 GB RAM, 64 GB i...|    4|   64|
|6 GB RAM, 128 GB ...|    6|  128|
|6 GB RAM, 128 GB ...|    6|  128|
|6 GB RAM, 128 GB ...|    6|  128|
|6 GB RAM, 128 GB ...|    6|  128|
|8 GB RAM, 256 GB ...|    8|  256|
|8 GB RAM, 128 GB ...|    8|  128|
|8 GB RAM, 128 GB ...|    8|  128|
|6 GB RAM, 128 GB ...|    6|  128|
|8 GB RAM, 128 GB ...|    8|  128|
|6 GB RAM, 128 GB ...|    6|  128|
|6 GB RAM, 128 GB ...|    6|  128|
|4 GB RAM, 128 GB ...|    4|  128|
|3 GB RAM, 32 GB i...|    3|   32|
|16 GB RAM, 256 GB...|   16|  256|
|8 GB RAM, 128 GB ...|    8|  128|
|4 GB RAM, 64 GB i...|    4|   64|
|8 GB RAM, 128 GB ...|    8|  128|
+--------------------+-----+-----+
only showing top 20 rows



In [64]:
data_df=eliminar_columna(data_df,"ram")
# Mostrar el DataFrame resultante
descripcion_df(data_df)

Cantidad de registros: 869 (ochocientos sesenta y nueve)
Cantidad de columnas: 15 (quince)
Tipos de datos

root
 |-- model: string (nullable = true)
 |-- price: double (nullable = true)
 |-- rating: integer (nullable = true)
 |-- sim: string (nullable = true)
 |-- processor: string (nullable = true)
 |-- battery: integer (nullable = true)
 |-- card: string (nullable = true)
 |-- os: string (nullable = true)
 |-- 5G: boolean (nullable = false)
 |-- NFC: boolean (nullable = false)
 |-- carga_rapida: boolean (nullable = false)
 |-- almacenamiento: integer (nullable = true)
 |-- Memory Card: boolean (nullable = true)
 |-- ram_1: string (nullable = true)
 |-- ram_2: string (nullable = true)

Recuento de nulos

Cantidad de valores nulos por columna: 
-RECORD 0-------------
 model          | 0   
 price          | 0   
 rating         | 0   
 sim            | 0   
 processor      | 0   
 battery        | 0   
 card           | 0   
 os             | 0   
 5G             | 0   
 NFC           

In [65]:
# Cambiar el nombre de la columna
data_df = data_df.withColumnRenamed("ram_1", "ram")
data_df = data_df.withColumnRenamed("ram_2", "rom")
# Mostrar el DataFrame resultante
descripcion_df(data_df)       

Cantidad de registros: 869 (ochocientos sesenta y nueve)
Cantidad de columnas: 15 (quince)
Tipos de datos

root
 |-- model: string (nullable = true)
 |-- price: double (nullable = true)
 |-- rating: integer (nullable = true)
 |-- sim: string (nullable = true)
 |-- processor: string (nullable = true)
 |-- battery: integer (nullable = true)
 |-- card: string (nullable = true)
 |-- os: string (nullable = true)
 |-- 5G: boolean (nullable = false)
 |-- NFC: boolean (nullable = false)
 |-- carga_rapida: boolean (nullable = false)
 |-- almacenamiento: integer (nullable = true)
 |-- Memory Card: boolean (nullable = true)
 |-- ram: string (nullable = true)
 |-- rom: string (nullable = true)

Recuento de nulos

Cantidad de valores nulos por columna: 
-RECORD 0-------------
 model          | 0   
 price          | 0   
 rating         | 0   
 sim            | 0   
 processor      | 0   
 battery        | 0   
 card           | 0   
 os             | 0   
 5G             | 0   
 NFC            | 0

#### Columna 'os'

In [66]:
valores_columna(data_df,"os")

Número de valores distintos: 32
Valores distintos: ['iOS v15.0', 'iOS v15', 'iOS v12.3', 'Android v6.0 (Marshmallow)', 'No FM Radio', 'Android v4.4.2 (KitKat)', 'Hongmeng OS v3.0', 'Memory Card Not Supported', 'Android v11.0', 'iOS v13', 'Android v8.1 (Oreo)', 'Android v11', 'Memory Card (Hybrid), upto 2\u2009TB', 'Android v9.0 (Pie)', 'Android v12', 'Android v10.0', 'Android v10', 'Bluetooth', 'iOS v16', 'Memory Card Supported, upto 256\u2009GB', 'Android v5.1.1 (Lollipop)', 'Harmony v2.0', 'Hongmeng OS v4.0', 'iOS v13.0', 'Android v8.0 (Oreo)', 'EMUI v12', 'Android', 'Android v7.1 (Nougat)', 'Memory Card (Hybrid)', 'Android v13', 'Memory Card (Hybrid), upto 256\u2009GB', 'iOS v17']


In [67]:
data_df=reemplazar_caracteres(data_df,"os","\u2009"," ")

In [68]:
data_df = reemplazar_si_no_contiene_lista(data_df, "os", ["Android", "OS","EMUI","Harmony"])

In [69]:
valores_columna(data_df,"os")
conteo_valores(data_df,"os")

Número de valores distintos: 26
Valores distintos: ['iOS v15.0', 'iOS v15', 'iOS v12.3', 'Android v6.0 (Marshmallow)', 'Android v4.4.2 (KitKat)', 'Hongmeng OS v3.0', 'Android v11.0', 'iOS v13', 'Android v8.1 (Oreo)', 'Android v11', 'Android v9.0 (Pie)', 'Android v12', '-', 'Android v10.0', 'Android v10', 'iOS v16', 'Android v5.1.1 (Lollipop)', 'Harmony v2.0', 'Hongmeng OS v4.0', 'iOS v13.0', 'Android v8.0 (Oreo)', 'EMUI v12', 'Android', 'Android v7.1 (Nougat)', 'Android v13', 'iOS v17']
+--------------------+-----+
|                  os|count|
+--------------------+-----+
|           iOS v15.0|    3|
|             iOS v15|   10|
|           iOS v12.3|    1|
|Android v6.0 (Mar...|    1|
|Android v4.4.2 (K...|    1|
|    Hongmeng OS v3.0|    1|
|       Android v11.0|    3|
|             iOS v13|    3|
| Android v8.1 (Oreo)|    6|
|         Android v11|  224|
|  Android v9.0 (Pie)|   25|
|         Android v12|  264|
|                   -|  189|
|       Android v10.0|   20|
|         Andro

In [70]:
data_df.show()

+--------------------+------+------+--------+--------------------+-------+-------------+-----------+-----+-----+------------+--------------+-----------+---+---+
|               model| price|rating|     sim|           processor|battery|         card|         os|   5G|  NFC|carga_rapida|almacenamiento|Memory Card|ram|rom|
+--------------------+------+------+--------+--------------------+-------+-------------+-----------+-----+-----+------------+--------------+-----------+---+---+
|       OnePlus 11 5G|657.59|    89|Dual Sim|   Snapdragon 8 Gen2|   5000|Not Supported|Android v13| true| true|        true|             0|       true| 12|256|
|OnePlus Nord CE 2...| 239.0|    81|Dual Sim|      Snapdragon 695|   5000|       Hybrid|Android v12| true|false|        true|          1000|       true|  6|128|
|Samsung Galaxy A1...|197.27|    75|Dual Sim|         Exynos 1330|   5000|    Supported|Android v13| true|false|        true|          1000|       true|  4| 64|
|Motorola Moto G62 5G|179.33|    8

In [74]:
nombres={"model":"modelo","price":"precio","processor":"procesador","battery":"bateria","card":"memoria"}
dr=renombrar_columnas(data_df,nombres)

In [75]:
dr.show()

+--------------------+------+------+--------+--------------------+-------+-------------+-----------+-----+-----+------------+--------------+-----------+---+---+
|              modelo|precio|rating|     sim|          procesador|bateria|      memoria|         os|   5G|  NFC|carga_rapida|almacenamiento|Memory Card|ram|rom|
+--------------------+------+------+--------+--------------------+-------+-------------+-----------+-----+-----+------------+--------------+-----------+---+---+
|       OnePlus 11 5G|657.59|    89|Dual Sim|   Snapdragon 8 Gen2|   5000|Not Supported|Android v13| true| true|        true|             0|       true| 12|256|
|OnePlus Nord CE 2...| 239.0|    81|Dual Sim|      Snapdragon 695|   5000|       Hybrid|Android v12| true|false|        true|          1000|       true|  6|128|
|Samsung Galaxy A1...|197.27|    75|Dual Sim|         Exynos 1330|   5000|    Supported|Android v13| true|false|        true|          1000|       true|  4| 64|
|Motorola Moto G62 5G|179.33|    8

### Exportamos el csv limpio

In [78]:
# Definimos la ruta y el nombre del archivo CSV de salida
ruta = r"G:\Mi unidad\00-LICENCIATURA DE DATOS\TERCER AÑO\PROG PARA CIENCIA DE DATOS\TPs\TP3_LUNA_Gustavo\nuevo.csv"  

# Guardamos el DataFrame en un archivo CSV
dr.write.csv(ruta, header=True, mode="overwrite")



In [79]:
# Cerramos la sesion de Spark
sc.stop()