1Ô∏è‚É£ Instalaci√≥n de Librer√≠as
Antes de ejecutar el c√≥digo, es necesario instalar las librer√≠as requeridas. Se usa pip install para instalar pandas, numpy, scikit-learn y nltk, que se utilizan para manipulaci√≥n de datos, c√°lculos matem√°ticos y procesamiento de texto.

In [None]:
# üìå Instalaci√≥n de librer√≠as necesarias
!pip install pandas numpy scikit-learn nltk

2Ô∏è‚É£ Importaci√≥n de Librer√≠as
Se importan las librer√≠as necesarias para el an√°lisis y transformaci√≥n de datos:

pandas: Para manipular DataFrames.
numpy: Para operaciones num√©ricas.
sklearn.feature_extraction.text: Para transformar texto en vectores num√©ricos (TF-IDF).
sklearn.metrics.pairwise: Para calcular similitudes entre vectores.
nltk: Para procesamiento de lenguaje natural.

In [None]:
# üìå Importar Librer√≠as Necesarias
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import nltk

3Ô∏è‚É£ Carga de Datos
Los datos provienen de m√∫ltiples archivos CSV almacenados en la carpeta "CSV/Por Marcas". Se obtiene la lista de archivos CSV, se leen y combinan en un solo DataFrame (df_celulares) utilizando pandas.concat(). Esto permite tener una √∫nica tabla con toda la informaci√≥n.

In [None]:
# üìå Cargar los Datos desde archivos CSV
import os
ruta_archivos = 'CSV/Por Marcas'  # Ruta donde est√°n almacenados los archivos CSV

# Obtener la lista de archivos en la carpeta especificada
archivos = [archivo for archivo in os.listdir(ruta_archivos) if archivo.endswith('.csv')]

# Leer y unir todos los CSV en un solo DataFrame
df_lista = []
for archivo in archivos:
    df = pd.read_csv(os.path.join(ruta_archivos, archivo))  # Leer cada archivo CSV
    df_lista.append(df)

df_celulares = pd.concat(df_lista, ignore_index=True)  # Unir todos los DataFrames en uno solo

4Ô∏è‚É£ Eliminaci√≥n de Columnas Innecesarias
Para simplificar el an√°lisis, se eliminan las columnas de precios en diferentes pa√≠ses (Pakistan, India, China, Dubai) y se conserva solo el precio en EE.UU. (Launched Price (USA)).

In [None]:
# üìå Eliminar Columnas de Precios No Deseadas
columnas_a_eliminar = ['Launched Price (Pakistan)', 'Launched Price (India)', 'Launched Price (China)', 'Launched Price (Dubai)']
df_celulares.drop(columns=[col for col in columnas_a_eliminar if col in df_celulares.columns], inplace=True)  # Eliminar solo si existen

5Ô∏è‚É£ Renombrado de Columnas
Se renombran las columnas con nombres m√°s claros y estandarizados, como "Mobile Weight (g)", "RAM (GB)", "Battery Capacity (mAh)", etc., facilitando su manipulaci√≥n.

In [None]:
# üìå Renombrar Columnas para un mejor entendimiento
df_celulares.columns = ['Company Name', 'Model Name', 'Mobile Weight (g)', 'RAM (GB)', 'Front Camera (MP)',
                        'Back Camera (MP)', 'Processor', 'Battery Capacity (mAh)', 'Screen Size (inches)', 'Launched Price (USA)', 'Launched Year']

6Ô∏è‚É£ Limpieza de Datos
Se eliminan las filas con valores nulos (dropna()).
Se convierten a min√∫sculas los valores de "Model Name" y "Processor" para estandarizar.
Se eliminan las letras innecesarias en "Mobile Weight (g)" y se convierte a float.

In [None]:
# üìå Limpieza y Conversi√≥n de Datos

df_celulares.dropna(inplace=True)  # Eliminar filas con valores nulos

# Convertir nombres de modelos y procesadores a min√∫sculas para estandarizar
df_celulares['Model Name'] = df_celulares['Model Name'].str.lower()
df_celulares['Processor'] = df_celulares['Processor'].str.lower()

# Convertir pesos de m√≥viles a valores num√©ricos
df_celulares['Mobile Weight (g)'] = df_celulares['Mobile Weight (g)'].str.replace('g', '', regex=True).astype(float)

7Ô∏è‚É£ Expansi√≥n de Variantes de RAM
Algunos celulares tienen m√∫ltiples opciones de RAM (4GB/6GB/8GB). Se separan estos valores y se crean filas individuales para cada variante de RAM.

In [None]:
# üìå Expandir Variantes de RAM en diferentes filas

def expandir_variantes_ram(df):
    """
    Funci√≥n que separa valores de RAM expresados en m√∫ltiplas variantes (ej. "4GB/6GB/8GB")
    y los convierte en filas individuales.
    """
    nuevas_filas = []
    for _, fila in df.iterrows():
        valores_ram = [float(x) for x in str(fila['RAM (GB)']).replace('GB', '').split('/') if x.strip().isdigit()]
        for ram in valores_ram:
            nueva_fila = fila.copy()
            nueva_fila['RAM (GB)'] = ram
            nuevas_filas.append(nueva_fila)
    return pd.DataFrame(nuevas_filas)

df_celulares = expandir_variantes_ram(df_celulares)

8Ô∏è‚É£ Extracci√≥n de Megap√≠xeles de las C√°maras
Las columnas "Front Camera (MP)" y "Back Camera (MP)" pueden contener m√∫ltiples valores (12MP/16MP). Se extrae el primer valor encontrado y se convierte en float.

In [None]:
# üìå Extraer megap√≠xeles de las c√°maras

def extraer_megapixeles(valor):
    """
    Funci√≥n que extrae el valor num√©rico de megap√≠xeles de una cadena de texto (ej. "12MP/16MP").
    Devuelve el primer valor encontrado.
    """
    valores = [float(x) for x in valor.replace('MP', '').split('/') if x.strip().replace('.', '').isdigit()]
    return valores[0] if valores else np.nan

df_celulares['Front Camera (MP)'] = df_celulares['Front Camera (MP)'].astype(str).apply(extraer_megapixeles)
df_celulares['Back Camera (MP)'] = df_celulares['Back Camera (MP)'].astype(str).apply(extraer_megapixeles)

9Ô∏è‚É£ Conversi√≥n de Capacidad de Bater√≠a
La columna "Battery Capacity (mAh)" puede contener comas (4,500mAh). Se eliminan y se convierte el valor en n√∫mero flotante.

In [None]:
# üìå Limpieza y conversi√≥n de la capacidad de bater√≠a
df_celulares['Battery Capacity (mAh)'] = (
    df_celulares['Battery Capacity (mAh)']
    .str.replace(',', '', regex=True)  # Eliminar comas para valores num√©ricos en miles
    .str.replace('mAh', '', regex=True)  # Eliminar la unidad de medida
    .astype(float)  # Convertir a n√∫mero flotante
)

üîü Extracci√≥n del Tama√±o de Pantalla
Algunos valores en "Screen Size (inches)" incluyen anotaciones adicionales (6.7 (unfolded)). Se extrae solo el n√∫mero.

In [None]:
# üìå Extraer el tama√±o de pantalla
def extraer_tamano_pantalla(valor):
    """
    Funci√≥n que extrae el tama√±o num√©rico de la pantalla desde una cadena de texto,
    ignorando posibles anotaciones adicionales como "(unfolded)".
    """
    import re
    match = re.search(r'\d+(\.\d+)?', valor)
    return float(match.group()) if match else np.nan

df_celulares['Screen Size (inches)'] = df_celulares['Screen Size (inches)'].astype(str).apply(extraer_tamano_pantalla)

1Ô∏è‚É£1Ô∏è‚É£ Limpieza y Conversi√≥n del Precio
Se eliminan comas (2,000 ‚Üí 2000).
Se elimina el prefijo "USD " para dejar solo los valores num√©ricos.
Se convierte el precio a float.

In [None]:
# üìå Limpieza y conversi√≥n del precio de lanzamiento
df_celulares['Launched Price (USA)'] = (
    df_celulares['Launched Price (USA)']
    .str.replace(',', '', regex=True)  # Eliminar comas para valores en miles
    .str.replace('USD ', '', regex=True)  # Eliminar prefijo "USD"
    .astype(float)  # Convertir a n√∫mero flotante
)

1Ô∏è‚É£2Ô∏è‚É£ Visualizaci√≥n de Datos Limpios
Se imprime un resumen de los datos procesados utilizando display(df_celulares.head()).

In [None]:
# üìå Mostrar los datos despu√©s de la limpieza
print("Datos despu√©s de la limpieza y conversi√≥n:")
display(df_celulares.head())