# Tweet Data Analysis

## Overview
This notebook is dedicated to extracting and analyzing various elements from a dataset of tweets. It leverages regular expressions to identify hashtags, user mentions, dates, times, and emojis from the tweet text.

## Functionality
- **Extraction of Elements:** Using regular expressions to parse out specific components such as hashtags, user mentions, emojis, dates, and times.
- **Data Analysis:** Count the occurrences of each extracted element and display the results.
- **Data Reporting:** Data is compiled into an Excel spreadsheet, making it easy to view and analyze the frequency of each element.

## Key Components
- **Hashtags:** Identifies and counts the use of hashtags.
- **User Mentions:** Extracts and counts user mentions starting with '@'.
- **Dates and Times:** Captures and counts occurrences of dates and times.
- **Emojis:** Recognizes and counts the emojis used in the tweets.

## Output
- An Excel file named `tabla.xlsx` that summarizes the frequencies of hashtags, user mentions, emojis, dates, and times.

## Author
- **Name:** Jesus Mendez

This tool is particularly useful for social media analysts and marketers who need to understand engagement patterns and content types within tweeted content.

In [1]:
import re
import openpyxl

In [2]:
f = open('tweets.txt','rb')
lista_tweets = f.read().decode('utf-8')

<h2>Encuentra hashtags</h2>

In [3]:
reglaHashtag = "#[A-z]+"

hashtag=re.findall(reglaHashtag, lista_tweets)
numHashtags = len(hashtag)

print(hashtag)
print(numHashtags)


['#Rayito', '#Rabia', '#tristeza', '#PerdonaNuestrosPecados', '#triste', '#Rayito', '#miedo', '#iron', '#triste', '#iron', '#Iron', '#iron', '#susto', '#gracias', '#Feliz', '#FelizLunes', '#LunesDeGanarSeguidores', '#SIGUEMEYTESIGO', '#SiguemeYTeSigoDeVuelta', '#Rt', '#tristeza', '#morri', '#sentimientosencontrados', '#confusion', '#JuevesIntratable', '#corrupci', '#insomnio', '#depresi', '#sismo', '#decepcionada', '#triste', '#enojada', '#Iron', '#HumorTesticular', '#terror', '#Sencillo', '#Fel', '#HayQueReir', '#ParaNoLLorar', '#rayito', '#Iron', '#CaniggiaLibre', '#TripTank', '#WTF', '#Sarcasmo', '#lunes', '#Septiembre', '#Alegria', '#Esperanza', '#Iron', '#Rayito', '#ElSalvador', '#ElSalvador', '#ElSalvador', '#SiTePreguntanSoloD', '#Iron', '#felizlunes', '#quetengasunbuendia', '#iron', '#TeenChoice', '#ChoiceBreakoutTvStar', '#StrangerThings', '#SabadoJaqueMate', '#miedo', '#SiTePreguntanSoloD', '#pe', '#Fox', '#sarcasmo', '#mexico', '#CAPRICORNIO', '#JustFriends', '#MaitePlatican

<h2>Encuentra usuarios</h2>

In [4]:
reglaUsuario = "\s@[A-z]+"

Usuario=re.findall(reglaUsuario, lista_tweets)
numUsuarios = len(Usuario)

print(Usuario)
print(numUsuarios)


['\t@aliciaenp', '\t@AwadaNai', '\t@audiomano', '\t@DalasReview', '\t@tctelevision', ' @calle', '\t@LastiriAriel', '\t@NANCYPAZOS', '\t@wichouya', '\t@DebRyanShow', '\t@fiooresilva', '\t@RocioBattagini', '\t@a_tupper', '\t@SonyMusicLatin', ' @PrinceRoyce', ' @FarrukoOfficial', '\t@KarlaSc', '\t@Miguel_layun', ' @JorgeGonzalezGo', '\t@omarfdosk', ' @CaracolTV', ' @DesafioCaracol', '\t@quimicefa', '\t@letyduranhdez', '\t@feernandatj', '\t@AlvaritoMorales', '\t@lesxlex', '\t@SoyPabloMiguel', '\t@OscarAlessandr', ' @GolDNakama', '\t@medicendaysi', '\t@solm_ferzm', '\t@luciashan_poo', '\t@Corakoraa', ' @TribunalCJ', '\t@juancatab', '\t@DebRyanShow', '\t@AzulRosito', ' @piCkOL', '\t@germxnthief', '\t@haashoficial', '\t@francellabrenes', '\t@darlyssolanof', ' @VictorBolivarM', ' @AnaMarcelaPint', '\t@KloudZNiper', '\t@Jonathan_Hdez', '\t@AfroParadise', '\t@CatalinaSpring', '\t@hum', ' @EPN', '\t@europapress', '\t@Jhosy', '\t@babynlf', '\t@nunurob', '\t@mnjhqvd', ' @halasyriagmail', ' @mqgs', 

In [5]:
reglaFecha = "\d{1,2}/\d{1,2}"

Fecha=re.findall(reglaFecha, lista_tweets)
numFechas = len(Fecha)

print(Fecha)
print(numFechas)


['2/2', '2/2', '20/7', '20/7', '20/7', '1/2', '24/7', '6/6', '24/7', '6/7', '27/8', '27/8', '1/2']
13


In [6]:
reglaHora = "\d{1,2}:\d{1,2}\s?(?:AM|am|pm|PM)?"

Hora=re.findall(reglaHora, lista_tweets)
numHoras = len(Hora)

print(Hora)
print(numHoras)


['22:3\t', '10:19 am', '6:00 am', '6:30am', '6:59 am', '3:20 AM', '22:00', '12:44 am', '12:30 ', '1:21', '1:21', '1:24', '16:16 ', '11:42 ', '11:14 ', '08:22', '5:30 ', '0:01 ', '6:30', '03:48 ', '7:13', '4:23 ', '26:3 ', '6:45 ', '9:30', '8:30 ', '23:04', '23:04', '11:45 ', '12:40 am', '8:20 ', '8:30', '12:00 ', '00:45 ', '12:00 am']
35


In [7]:
reglaEmoji = "[\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F1E0-\U0001F1FF]"

Emoji=re.findall(reglaEmoji, lista_tweets)
numEmojis = len(Emoji)

print(Emoji)
print(numEmojis)


['🙃', '😍', '😆', '🏻', '🚨', '😉', '😅', '😟', '😱', '🎉', '🎉', '🙌', '🙌', '😍', '🙆', '💕', '🎤', '💔', '😥', '😂', '😂', '💋', '🙈', '😀', '😭', '😭', '😄', '😃', '👫', '😍', '💗', '💗', '😂', '😐', '😢', '💔', '😿', '😷', '😭', '😝', '😕', '😂', '🎤', '😡', '😡', '💛', '😂', '😂', '😂', '😂', '😶', '😩', '😂', '😭', '🙄', '😑', '😑', '😑', '😑', '💕', '😴', '😢', '😊', '😥', '💕', '💕', '💕', '💕', '😣', '👌', '😝', '🏾', '🏾', '💃', '🏽', '💁', '🙈', '🙈', '😁', '😔', '😂', '😂', '😂', '🙄', '😟', '😢', '😂', '😂', '😂', '😄', '😭', '🙃', '😂', '😂', '😂', '💕', '🙁', '😂', '😭', '👌', '😜', '💪', '😂', '😂', '😂', '😚', '🍃', '😢', '💔', '😃', '👋', '😟', '😡', '😡', '😡', '😡', '😡', '😡', '😅', '💟', '💜', '😭', '😒', '😥', '😄', '😤', '💚', '💛', '😂', '😅', '💙', '💙', '😊', '👉', '👈', '😅', '😅', '😅', '😊', '😧', '🙂', '🙂', '😭', '😂', '💔', '😀', '🙄', '🙄', '😂', '😊', '🙈', '🙉', '😊', '😡', '🙄', '😠', '😅', '😬', '😢', '😣', '😒', '😒', '😅', '😎', '😭', '😝', '😁', '😅', '😢', '😂', '😂', '😂', '😂', '😒', '💚', '👋', '😮', '😮', '😮', '😊', '😢', '😊', '😊', '😂', '😣', '😀', '😣', '😄', '😘', '😘', '😩', '😳', '😳', '💔', '🔥', '👀', '🙈', '😞', '😂', '🙄',

In [8]:
filas = [("Hashtag", numHashtags), ("Usuarios", numUsuarios), ("Hora", numHoras), ("Fecha", numFechas), ("Emojis", numEmojis)]

# Creamos un libro nuevo
libro = openpyxl.Workbook()

# Seleccionamos la hoja activa
hoja_activa = libro.active

# Agregamos las cabeceras a la primera fila
hoja_activa.cell(row=1, column=1, value="Cadena")
hoja_activa.cell(row=1, column=2, value="Frecuencia")

# Agregamos las filas
for i, fila in enumerate(filas):
    hoja_activa.cell(row=i+2, column=1, value=fila[0])
    hoja_activa.cell(row=i+2, column=2, value=fila[1])

# Guardamos el archivo
libro.save("tabla.xlsx")
