# Análisis de Datos del Conjunto de Correos Electrónicos

En este notebook, exploraremos el conjunto de datos de correos electrónicos para identificar patrones y obtener información relacionada con correos spam y legítimos. Realizaremos análisis estadísticos y visualizaciones para comprender mejor las características de los correos spam.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar el estilo de las visualizaciones
sns.set(style='whitegrid')

In [None]:
# Importar las librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Asignar un estilo a las visualizaciones
sns.set(style='whitegrid')

In [None]:
# Cargar el conjunto de datos
data_path = '../data/emails.csv'
emails_df = pd.read_csv(data_path)

# Mostrar las primeras filas del conjunto de datos
emails_df.head()

In [None]:
# checar la distribución de la variable objetivo 'es_spam'
plt.figure(figsize=(8, 5))
sns.countplot(x='es_spam', data=emails_df)
plt.title('Distribution of Spam and Legitimate Emails')
plt.xlabel('Is Spam (1 = Yes, 0 = No)')
plt.ylabel('Count')
plt.xticks(ticks=[0, 1], labels=['Legitimate', 'Spam'])
plt.show()

In [None]:
# análisis de la longitud del correo electrónico
from wordcloud import WordCloud

spam_emails = emails_df[emails_df['es_spam'] == 1]
spam_text = ' '.join(spam_emails['contenido'])

wordcloud = WordCloud(width=800, height=400, background_color='white').generate(spam_text)

plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Word Cloud of Spam Emails')
plt.show()

In [None]:
# análisis de las líneas de asunto más comunes
plt.figure(figsize=(12, 6))
sns.countplot(y='asunto', hue='es_spam', data=emails_df, order=emails_df['asunto'].value_counts().index[:10])
plt.title('Top 10 Subject Lines by Spam Classification')
plt.xlabel('Count')
plt.ylabel('Subject Line')
plt.legend(title='Is Spam', loc='upper right', labels=['Legitimate', 'Spam'])
plt.show()

In [None]:
# guardar el conjunto de datos limpio
emails_df.to_csv('../data/cleaned_emails.csv', index=False)
print('Cleaned dataset saved as cleaned_emails.csv')