In [59]:
import pandas as pd
from faker import Faker
import random
import re
from nltk.tokenize import word_tokenize
import os
import matplotlib.pyplot as plt
from collections import Counter
import nltk
from nltk.corpus import stopwords
from sklearn.ensemble import RandomForestRegressor

In [None]:
# Configuración de Faker
fake = Faker()

# Lista de mensajes
mensajes = []

# Generar mensajes aleatorios
for i in range(3000):
    if random.choice([True, False]):
        # Publicidad legítima
        mensaje = fake.sentence(nb_words=10)
        mensajes.append((True, mensaje))
    else:
        # Publicidad engañosa y estafa
        mensaje = fake.text(max_nb_chars=100)
        mensajes.append((False, mensaje))

# Crear DataFrame
df = pd.DataFrame(mensajes, columns=['clase', 'mensaje'])

In [None]:
print(df)

In [None]:
# Directorio donde se guardará el archivo CSV
path = r"C:\Users\isabe\Desktop\todo\python\Proyectos personales\prediccion_de_estafas_online"

# Verificar si el directorio existe, si no, crearlo
if not os.path.exists(path):
    os.makedirs(path)

# Nombre del archivo CSV
filename = "dataframe.csv"

# Guardar DataFrame como archivo CSV
df.to_csv(os.path.join(path, filename), index=False)

In [None]:
def limpiar_tokenizar_texto(texto):
    # Eliminar signos de puntuación
    texto = re.sub(r'[^\w\s]', '', texto)
    # Eliminar espacios duplicados
    texto = re.sub(r'\s+', ' ', texto)
    # Tokenizar texto en palabras
    tokens = word_tokenize(texto)
    return tokens


In [None]:
nltk.download('punkt')

In [None]:
df['tokens'] = df['mensaje'].apply(limpiar_tokenizar_texto)

In [None]:
print(df)

In [None]:
# Descargar stopwords en inglés si aún no se han descargado
nltk.download('stopwords')

# Obtener lista de stopwords en inglés
stopwords_english = stopwords.words('english')

# Eliminar stopwords de la columna "tokens"
df['tokens'] = df['tokens'].apply(lambda x: [word for word in x if word.lower() not in stopwords_english])


In [None]:
df

In [None]:
# Obtener lista plana de todos los tokens
tokens_list = [word for tokens in df['tokens'] for word in tokens]

# Contar frecuencia de cada token
frecuencias = Counter(tokens_list)

# Crear gráfica de líneas con tamaño personalizado
fig, ax = plt.subplots(figsize=(12, 4))
ax.plot(list(frecuencias.keys()), list(frecuencias.values()))

# Configurar etiquetas de los ejes y título de la gráfica
ax.set_xlabel('Tokens')
ax.set_ylabel('Frecuencia')
ax.set_title('Frecuencia de Tokens en el DataFrame')

# Mostrar la gráfica
plt.show()


In [46]:
# Obtener lista plana de todos los tokens
tokens_list = [word for tokens in df['tokens'] for word in tokens]

# Contar frecuencia de cada token
frecuencias = Counter(tokens_list)

# Obtener las 30 palabras más comunes
top_1900 = frecuencias.most_common(1900)

# Inicializar listas vacías para el porcentaje de aparición en mensajes verdaderos y falsos
porcentaje_verdadero = []
porcentaje_falso = []

# Calcular el porcentaje de aparición en mensajes verdaderos y falsos para cada palabra
for palabra, frecuencia in top_1900:
    verdadero = df.loc[df['clase'] == True, 'tokens'].apply(lambda tokens: palabra in tokens).sum() / df.loc[df['clase'] == True, 'tokens'].apply(len).sum() * 100
    falso = df.loc[df['clase'] == False, 'tokens'].apply(lambda tokens: palabra in tokens).sum() / df.loc[df['clase'] == False, 'tokens'].apply(len).sum() * 100
    porcentaje_verdadero.append(verdadero)
    porcentaje_falso.append(falso)

# Crear el DataFrame con las tres columnas requeridas
data = {'porcentaje_verdadero': porcentaje_verdadero, 'palabra': [palabra for palabra, frecuencia in top_1900], 'porcentaje_falso': porcentaje_falso}
df_resultado = pd.DataFrame(data)

# Mostrar el DataFrame resultante
print(df_resultado)


      porcentaje_verdadero       palabra  porcentaje_falso
0                 0.124991           run          0.169450
1                 0.111103          main          0.169450
2                 0.138879         voice          0.139191
3                 0.138879      Congress          0.139191
4                 0.159711          seat          0.114984
...                    ...           ...               ...
1895              0.000000     Different          0.006052
1896              0.000000  Particularly          0.006052
1897              0.006944          Best          0.000000
1898              0.000000          Unit          0.006052
1899              0.000000    Commercial          0.006052

[1900 rows x 3 columns]


In [48]:
# Cambiar la notación científica y mover la coma dos espacios dentro de las columnas
df_resultado['porcentaje_verdadero'] = df_resultado['porcentaje_verdadero'].apply(lambda x: '{:.10f}'.format(x).replace('.', ',')[2:])
df_resultado['porcentaje_falso'] = df_resultado['porcentaje_falso'].apply(lambda x: '{:.10f}'.format(x).replace('.', ',')[2:])

# Mostrar el DataFrame resultante
print(df_resultado)

     porcentaje_verdadero       palabra porcentaje_falso
0              1249913200           run       1694504962
1              1111033956          main       1694504962
2              1388792445         voice       1391914791
3              1388792445      Congress       1391914791
4              1597111312          seat       1149842653
...                   ...           ...              ...
1895           0000000000     Different       0060518034
1896           0000000000  Particularly       0060518034
1897           0069439622          Best       0000000000
1898           0000000000          Unit       0060518034
1899           0000000000    Commercial       0060518034

[1900 rows x 3 columns]


In [50]:
# Eliminar los últimos 5 números de las columnas de porcentaje
df_resultado['porcentaje_verdadero'] = df_resultado['porcentaje_verdadero'].astype(str).apply(lambda x: x[:-5])
df_resultado['porcentaje_falso'] = df_resultado['porcentaje_falso'].astype(str).apply(lambda x: x[:-5])

# Mostrar el DataFrame resultante
print(df_resultado)


     porcentaje_verdadero       palabra porcentaje_falso
0                   12499           run            16945
1                   11110          main            16945
2                   13887         voice            13919
3                   13887      Congress            13919
4                   15971          seat            11498
...                   ...           ...              ...
1895                00000     Different            00605
1896                00000  Particularly            00605
1897                00694          Best            00000
1898                00000          Unit            00605
1899                00000    Commercial            00605

[1900 rows x 3 columns]


In [56]:
df_resultado.columns

Index(['porcentaje_verdadero', 'palabra', 'porcentaje_falso'], dtype='object')

In [60]:
# Obtener las columnas de palabras y porcentajes
palabra_column = 'palabra'
falso_column = 'porcentaje_falso'
verdadero_column = 'porcentaje_verdadero'

# Crear una matriz de características con los porcentajes
X = df_resultado[[falso_column, verdadero_column]].values

# Crear una variable objetivo con la puntuación de veracidad
y = df_resultado[verdadero_column].values

# Crear y entrenar el modelo de Bosques Aleatorios
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X, y)

# Pedir al usuario que ingrese un texto
texto = input('Ingrese el texto a evaluar: ')

# Obtener las palabras del texto
palabras_texto = texto.split()

# Calcular la puntuación de veracidad del texto
puntuacion = 0
for palabra in palabras_texto:
    if palabra in df_resultado[palabra_column].values:
        porcentaje_falso = df_resultado[df_resultado[palabra_column] == palabra][falso_column].values[0]
        porcentaje_verdadero = df_resultado[df_resultado[palabra_column] == palabra][verdadero_column].values[0]
        prediccion = rf_model.predict([[porcentaje_falso, porcentaje_verdadero]])[0]
        puntuacion += prediccion

# Ajustar la puntuación a una escala del 0 al 15
puntuacion = max(0, min(puntuacion, 15))

# Imprimir la puntuación de veracidad del texto
print('La puntuación de veracidad del texto es:', puntuacion)

Ingrese el texto a evaluar:  Finance is a professional specialization. It’s not uniquely difficult (or fun), but you shouldn’t expect to be a finance whiz any more than you should expect a random person off the street to be an expert at your job.  Companies employ entire departments to create budgets, manage risk, raise capital, make long-term investments, maintain compliance, and handle reporting. Strong financial planning and operations help companies minimize risk and maximize upside.  Tech people have a similar job to be done. You need to forecast liquidity, pay taxes, source financing/refinancing, and protect your savings. Even the most financially skilled among us cannot run our own fully optimized personal finance departments.  Both legacy financial institutions and mass-market robo-advisors miss the mark.  The largest banks in the world can’t figure out how to make your portfolio seamlessly accessible on your phone. Traditional RIAs treat you exactly like they would treat a den

La puntuación de veracidad del texto es: 15


In [None]:
# Pedir al usuario que ingrese un texto
texto = input('Ingrese el texto a evaluar: ')

# Obtener las palabras del texto
palabras_texto = texto.split()

# Calcular la puntuación de veracidad del texto
puntuacion = 0
for palabra in palabras_texto:
    if palabra in df_resultado[palabra_column].values:
        porcentaje_falso = df_resultado[df_resultado[palabra_column] == palabra][falso_column].values[0]
        porcentaje_verdadero = df_resultado[df_resultado[palabra_column] == palabra][verdadero_column].values[0]
        prediccion = rf_model.predict([[porcentaje_falso, porcentaje_verdadero]])[0]
        puntuacion += prediccion

# Ajustar la puntuación a una escala del 0 al 15
puntuacion = max(0, min(puntuacion, 15))

# Imprimir la puntuación de veracidad del texto
print('La puntuación de veracidad del texto es:', puntuacion)