In [1]:
# Importaciones
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import LabelEncoder
from surprise import SVD, Dataset, Reader
from surprise.model_selection import train_test_split, accuracy
# Descargar stopwords y el lematizador de NLTK si no están disponibles
# nltk.download('stopwords')
# nltk.download('wordnet')

# Cargar datos
data = pd.read_csv('../transaction-data/sample_dataset.csv')

# Eliminar duplicados
data.drop_duplicates(inplace=True)

# Llenamos los géneros con "Unknown" y rellenamos valores nulos en 'Transaction Amount' con la mediana
data['Gender'] = data['Gender'].fillna('Unknown')
data['Transaction Amount'] = data['Transaction Amount'].fillna(data['Transaction Amount'].median())

# Rellenar valores nulos restantes en otras columnas con un valor genérico
data.fillna('N/A', inplace=True)

# Confirmar que no quedan valores nulos
data.isnull().sum()

# Análisis exploratorio: Estadísticas descriptivas de datos numéricos
data.describe()

# Visualizaciones
# Distribución de la cantidad de transacciones por categoría de producto
plt.figure(figsize=(10, 6))
sns.countplot(data=data, x='Category', order=data['Category'].value_counts().index)
plt.title("Distribución de Transacciones por Categoría")
plt.xticks(rotation=45)
plt.show()

# Análisis de distribución de 'Transaction Amount'
plt.figure(figsize=(10, 6))
sns.histplot(data['Transaction Amount'], bins=20, kde=True)
plt.title("Distribución del Monto de Transacciones")
plt.show()

# Relación entre 'Transaction Amount' y 'Gender'
plt.figure(figsize=(8, 6))
sns.boxplot(data=data, x='Gender', y='Transaction Amount')
plt.title("Distribución del Monto de Transacciones por Género")
plt.show()

# Codificación de 'Gender' y 'Category'
data['Gender'] = LabelEncoder().fit_transform(data['Gender'])
data = pd.get_dummies(data, columns=['Category'], drop_first=True)

# Paso 1: Preprocesamiento de texto para la columna 'Merchant Name'
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words("english"))

def preprocess_text(text):
    # Convertir a minúsculas
    text = text.lower()
    # Eliminar caracteres especiales y números
    text = re.sub(r'[^a-z\s]', '', text)
    # Tokenización y eliminación de palabras vacías
    words = text.split()
    words = [word for word in words if word not in stop_words]
    # Lematización
    words = [lemmatizer.lemmatize(word) for word in words]
    # Unir palabras procesadas en un solo string
    return " ".join(words)

# Aplicar la función de preprocesamiento a la columna 'Merchant Name'
data['Merchant Name'] = data['Merchant Name'].apply(preprocess_text)

# Paso 2: Transformación con TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_features=100)  # Ajusta el número de características según sea necesario
tfidf_matrix = tfidf_vectorizer.fit_transform(data['Merchant Name'])

# Convertir la matriz TF-IDF a un DataFrame de Pandas y unirla al conjunto de datos original
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf_vectorizer.get_feature_names_out())
data = pd.concat([data, tfidf_df], axis=1)

# Verificar el DataFrame final
data.head()

reader = Reader(rating_scale=(data['Transaction Amount'].min(), data['Transaction Amount'].max()))
dataset = Dataset.load_from_df(data[['User ID', 'Product ID', 'Transaction Amount']], reader)

# Dividir en datos de entrenamiento y prueba
trainset, testset = train_test_split(dataset, test_size=0.2)

# Entrenar el modelo SVD
model = SVD()
model.fit(trainset)

# Evaluar el modelo
predictions = model.test(testset)
rmse = accuracy.rmse(predictions)
print(f"RMSE del modelo SVD: {rmse}")

TypeError: 

In [None]:
pip install pandas numpy matplotlib seaborn regex nltk scikit-learn scikit-surprise
