### Librerías a utilizar

In [1]:
import json #permite trabajar y serializar archivos con formato .json
import pandas as pd # trabajos con series y dataframes, análisis de datos
import re #expresiones regulares
from datetime import datetime #manupulación de fecha
from dateutil.parser import parse #manipulación de fechas

#listado de ficheros
files = ["data-twitter-1000.dat","data-twitter-1001.dat","data-twitter-1002.dat",
           "data-twitter-1003.dat","data-twitter-1004.dat","data-twitter-1005.dat"]

### Ejercicio 1

##### Transforme la fecha de todos los tweets a formato AAAAMMDD MM:SS y envíe los resultados en formato CSV con los campos: id, fecha (modificada).

In [174]:
transformated_list = []

# carga archivo desde array declarado al inicio (listado de ficheros).
for file in files:
    with open(file, 'r') as fh:
        
        # apertura del archivo y lectura línea por línea para consumir json.
        for line in fh:
            tweet = json.loads(line)
            
            # transformación de fechas
            transformated_list_tmp = [tweet['id'],parse(tweet['created_at']).strftime("%Y%m%d %M:%S")]

            transformated_list.append(transformated_list_tmp)

transformated_df = pd.DataFrame(transformated_list,columns=["id","fecha"])

# generación de archivo de salida csv
transformated_df.to_csv('output_1.csv',index = False)
  

### Ejercicio 2

##### Identifique, mediante expresiones regulares, las URLs contenidas en el cuerpo de los tweets y presente un ranking de las 15 URLs más mencionadas.

In [176]:
text_list = []

# carga archivo desde array declarado al inicio (listado de ficheros).
for file in files:
    
    # apertura del archivo y lectura línea por línea para consumir json.
    with open(file, 'r') as fh:
        for line in fh:
            tweet = json.loads(line)
            
            # Separa cada palabra como una nueva línea.
            for word in tweet["text"].split():
                
                # Busqueda de urls por regular expressions
                find = re.search("(http://.*)",word)
               
                if find != None:
                    text_list.append(find.group(1))
             
df = pd.DataFrame(text_list,columns=["url"])

# Agrupación de urls y conteo por grupos
group_url = df.groupby("url")["url"].count().reset_index(name='conteo')

# ordena urls de forma descendente
url_ordered = group_url.sort_values(by='conteo',ascending=False)

# top 15 de urls mas mencionadas en los tweets
ranking = url_ordered.head(15)

# generación de archivo de salida csv
ranking.to_csv('output_2.csv', encoding='utf-8', index=False)


### Ejercicio 3

##### Presente un listado de hashtags ordenados de mayor a menor por cantidad de apariciones.

In [177]:
hashtags_list = []

# carga archivo desde array declarado al inicio (listado de ficheros).
for file in files:
    # apertura del archivo y lectura línea por línea para consumir json.
    with open(file,'r') as fh:
        for line in fh:
            tweet = json.loads(line)
            
            # si el largo de la lista es mayor a cero,guarda el registro en una lista
            if len(tweet["entities"]["hashtags"])>0:               
                muestra = tweet["entities"]["hashtags"][0]["text"]
                hashtags_list.append(muestra)

# creación de dataframe con datos provenientes de una lista.
hashtags_df = pd.DataFrame(hashtags_list,columns=["hashtag"])  

# agrupación de hashtags y conteo sobre los grupos.
hashtags_appearances = hashtags_df.groupby("hashtag")["hashtag"].count().reset_index(name="total_apariciones")

# ordenar hashtags con número total de apariciones.
hashtags_ordered = hashtags_appearances.sort_values(by='total_apariciones',ascending=False) 

# generación de archivo de salida csv.
hashtags_ordered.to_csv('output_3.csv',encoding='utf-8',index=False) 


### Ejercicio 4

##### Transforme la data de usuario (user) de todo el dataset a formato estructurado y preséntelo en un solo archivo CSV con codificación UTF-8.

In [178]:
users_list = []
for file in files:
    with open(file, 'r') as fh:

        for line in fh:
            
            tweet = json.loads(line)
            
            # creacion de estructura de datos de Usuario.
            users_list2 = [  
            tweet["user"]["id"],
            tweet["user"]["id_str"],
            tweet["user"]["name"],
            tweet["user"]["screen_name"],
            tweet["user"]["location"],
            tweet["user"]["url"],
            tweet["user"]["description"],
            tweet["user"]["verified"],
            tweet["user"]["followers_count"],
            tweet["user"]["friends_count"],
            tweet["user"]["listed_count"],
            tweet["user"]["favourites_count"],
            tweet["user"]["statuses_count"],
            tweet["user"]["created_at"],
            tweet["user"]["utc_offset"],
            tweet["user"]["time_zone"],
            tweet["user"]["geo_enabled"],
            tweet["user"]["lang"],
            tweet["user"]["profile_image_url_https"]
            ]
            users_list.append(users_list2)

users_df = pd.DataFrame(users_list,columns=["id","id_str","name","screen_name","location","url",
"description","verified","followers_count","friends_count","listed_count","favourites_count",
"statuses_count","created_at","utc_offset","time_zone","geo_enabled","lang","profile_image_url_https"])

# generación de archivo de salida csv
users_df.to_csv('output_4.csv',encoding='utf-8', index = False)

### Ejercicio 5

##### Presente el contenido de los tweets más retweeteados en orden descendente, en archivo CSV.

In [179]:
retweet_list = []
for file in files:
    with open(file, 'r') as fh:

        for line in fh:
            tweet = json.loads(line)
            retweet_list2 = [
               tweet["text"],
               tweet["retweet_count"] #retweet_count
            ]
            
            retweet_list.append(retweet_list2)

retweet_df = pd.DataFrame(retweet_list,columns=["tweet_text","retweet_count"])

# ordenar conteo de tweets deforma descendente.
retweet_df.sort_values(by=["retweet_count"],ascending=False)

# generación de archivo de salida csv
retweet_df.to_csv('output_5.csv',encoding='utf-8', index = False)