## ***Proyecto Final - Técnicas de Recogida de Datos***

*Realizado por*: Rodrigo de la Nuez Moraleda, Marcos Castro Cacho

Nuestro primer objetivo en este proyecto ha sido la obtención de los datos recopilados desde un smartwatch de marca *Samsung*. 

Sin embargo, se han explorado otras fuentes de datos para llevar a cabo un trabajo más completo en lo que se refiere a posibilidades exploradas.

### **Smartwatch**

En primer lugar, deseamos encontrar una API que nos permita directamente conectarnos a nuestro dispositivo. *Samsung* ofrece un SDK (Software Developer Kit) oficial para Android con el que se puede compartir datos de salud entre la aplicación de *Samsung Health* y otras aplicaciones. Sin embargo, para poder llevar a cabo este proceso haría falta ser un *Samsung Health Partner*, lo cual es verdaderamente complicado de conseguir (más teniendo en cuenta que nuestra condición no es de desarrolladores profesionales sino de estudiantes en formación) y podría llevar bastante tiempo el recibir una respuesta en caso de solicitarse dicha posibilidad.

Existen otras opciones, que nos llevan a caminos similares: 

* ***Tizen Wearable SDK***. Los smartwatches de *Samsung* funcionan con *Tizen*, un sistema operativo open-source. El SDK de Tizen para dispositivos proporciona herramientas para desarrollar aplicaciones con las que se podrían recuperar datos de un smartwatch, como del que disponemos. Sin embargo, este SDK se enfoca principalmente en la creación de aplicaciones usando los lenguajes de programación C/C++ y JavaScript, para el desarrollo de aplicaciones utilizando Tizen Studio (IDE de Samsung para Tizen).

* ***Samsung Accessory Protocol (SAP)***. SAP permite que los dispositivos y aplicaciones de accessorios Samsung se comuniquen entre sí a través de Bluetooth o Wi-Fi. Los desarrolladores pueden utilizar SAP para crear aplicaciones que intercambien datos entre un smarwatch Samsung y un dispositivo móvil. No obstante, como ya hemos comentado para el caso anterior, estas aplicaciones tendrían que ser creadas utilizando Tizen Studio y usando lenguajes como C/C++ o JavaScript.

Debido a estas problemáticas, finalmente hemos optado por la recuperación directa de estos datos a través de la aplicación *Samsung Health*, que suele venir preinstalada en los dispositivos Samsung. Dentro de los ajustes de esta aplicación, suponiendo que se ha conectado correctamente con nuestro smartwatch, podremos solicitar la exportación de nuestros datos en un archivo .zip, que deberá ser descomprimido para poder tratar con los ficheros que contienen toda la información descargada.

A continuación, mostramos una captura de pantalla con algunos de los ficheros CSV de los que disponemos:

![csvs](images/csvs.JPG)

Además, contamos con varias carpetas que almacenan ficheros JSON con información relativa a nuestra actividad diaria:

![json](images/json.JPG)

Con esta información podemos seleccionar uno de los CSVs de los que disponemos para transformarlo a un dataframe de pandas. Cabe destacar que se han borrado bastantes ficheros por estar vacíos o por razones de privacidad, por ejemplo: *Ambient Temperature*, *Body fat*, *Body muscle*, *Body temperature*, *Caffeine intake*, *Cycle sexual activity*, *Electrocardiogram*, *Friends*, *Nutrition*, *Blood Pressure*, *Blood Glucose*, entre muchos otros ficheros que no mencionaremos aquí.

In [1]:
import pandas as pd
import glob
import os

# Observamos que los CSVs contienen un error de formato donde las filas de contenido acaban en coma y por tanto se considera que existe una columna más
#  de las que realmente existen. Para arreglar este problema, hemos añadido una nueva columna de nombre "NaN" que será eliminada al cargar el CSV.

""" Esta parte del código está comentada para nuevas ejecuciones, pues una vez ejecutado no es necesario repetir el proceso 
# texto_a_añadir = ',NaN' 
"""

# Guardamos todos los dataframes en un diccionario con el que podemos acceder después a todos los dataframes creados
dataframes_dict = {}
csv_files = glob.glob('data\*.csv')  # Obtenemos todos los ficheros CSV en el directorio

for file in csv_files:
    filename = os.path.splitext(os.path.basename(file))[0]  # Extraemos el nombre del fichero sin la extensión para usarlo como clave en el diccionario

    """ 
        Esta parte del código está comentada para nuevas ejecuciones, pues una vez ejecutado no es necesario repetir el proceso
    
    # Añadimos la columna 'NaN' a nuestros ficheros CSV para posteriormente eliminarla
    # with open(file, 'r', encoding='utf-8') as f:
    #     lines = f.readlines()
    #     if len(lines) >= 2:
    #         lines[1] = lines[1].strip('\n') + texto_a_añadir + '\n'

    # with open(file, 'w', encoding='utf-8') as f:
    #     f.writelines(lines) 
    """

    # Guardamos el dataframe de pandas en el diccionario
    df = pd.read_csv(file, skiprows=1).drop(columns='NaN')
    dataframes_dict[filename] = df

In [2]:
df = dataframes_dict['com.samsung.health.device_profile.20240128184090']
df.head()

Unnamed: 0,manufacturer,providing_step_goal,create_sh_ver,step_source_group,device_type,backsync_step_goal,capability,modify_sh_ver,device_group,update_time,create_time,name,model,connectivity_type,deviceuuid,pkg_name,fixed_name,datauuid
0,vivo,,,,,,,,360001,2024-01-21 18:21:54.010,2024-01-21 18:21:54.010,My Device,V2050,,6pthw4IIt0,com.sec.android.app.shealth,,de0ffdcb-63d4-5961-5549-840cae88eb6f
1,Combined,,,,,,,,0,2024-01-21 18:22:04.941,2024-01-21 18:22:04.941,Combined,Combined,,VfS0qUERdZ,com.sec.android.app.shealth,,7af9722c-cd99-07b7-853a-43ce58e819c5
2,all_target,,,,,,,,0,2024-01-21 18:22:05.207,2024-01-21 18:22:05.207,all_target,all_target,,Mk66SbFqK1,com.sec.android.app.shealth,,471ca32b-a665-1e9e-7c27-7ac69485dc05
3,OnePlus,,,,,,,,360001,2022-08-03 13:10:33.034,2022-08-03 13:10:33.034,My Device,BE2013,,6u8fR/gm0L,com.sec.android.app.shealth,OnePlus Nord N100,af23ff0c-fa4a-53b3-7dae-87b0ea82e5eb
4,Samsung Electronics,1.0,,104.0,10055.0,1.0,cb670885-577c-46cd-84d9-90ca7b4248ec.capabilit...,,360003,2023-07-04 13:45:16.752,2023-02-14 15:00:17.298,Galaxy Watch5,SM-R910,,ep8div8pVu,com.sec.android.app.shealth,OnePlus Nord N100,cb670885-577c-46cd-84d9-90ca7b4248ec


In [3]:
df = dataframes_dict['com.samsung.health.sleep_stage.20240128184090']
df.head()

Unnamed: 0,create_sh_ver,start_time,sleep_id,custom,modify_sh_ver,update_time,create_time,stage,time_offset,deviceuuid,pkg_name,end_time,datauuid
0,,2023-05-03 03:37:00.000,2f15507b-7f1d-4605-bd6f-fcf942267811,,,2023-05-03 04:55:04.355,2023-05-03 04:55:04.355,40002,UTC+0200,6u8fR/gm0L,com.sec.android.app.shealth,2023-05-03 03:39:00.000,000f1f74-37c2-47de-9b45-6f9eaa787e86
1,,2023-03-11 09:23:00.000,592455ef-bb83-4328-b198-692b02a471cf,,,2023-03-11 11:29:15.777,2023-03-11 11:29:15.777,40002,UTC+0100,6u8fR/gm0L,com.sec.android.app.shealth,2023-03-11 09:28:00.000,001c69e5-e144-4ec3-8441-d16671e2f3c1
2,,2023-04-24 03:28:00.000,ccc5923f-348a-4150-8b37-6f9af883f23b,,,2023-04-24 05:49:18.815,2023-04-24 05:49:18.815,40002,UTC+0200,6u8fR/gm0L,com.sec.android.app.shealth,2023-04-24 03:41:00.000,003058eb-5755-496b-96c0-26ef9f41915e
3,,2023-04-02 04:48:00.000,833a584c-eb53-4255-8475-1610e8e8e9d4,,,2023-04-02 10:23:51.375,2023-04-02 10:23:51.375,40004,UTC+0200,6u8fR/gm0L,com.sec.android.app.shealth,2023-04-02 04:56:00.000,00347015-c6d7-4532-921e-8b2155988d1d
4,,2023-03-16 06:16:00.000,91d6c05c-d72b-4e61-94df-1b929eeb5566,,,2023-03-16 06:39:21.471,2023-03-16 06:39:21.471,40002,UTC+0100,6u8fR/gm0L,com.sec.android.app.shealth,2023-03-16 06:22:00.000,0035021e-2f84-49a1-9062-00e6366a1b94


Para transformar alguno de los ficheros JSON a un pandas dataframe, considerando que ya tengan fomato tabular podemos proceder como en el caso siguiente:

In [4]:
df = pd.read_json('jsons/com.samsung.shealth.tracker.oxygen_saturation/0/0af3cb39-5c18-4f66-b0ca-a32a6e907b4c.com.samsung.health.oxygen_saturation.binning.json')
df.head()

Unnamed: 0,spo2,spo2_max,spo2_min,start_time,end_time
0,0,96,95,2022-08-09 23:31:36.535,2022-08-09 23:32:35.535
1,0,96,95,2022-08-09 23:32:36.535,2022-08-09 23:33:35.535
2,0,97,96,2022-08-09 23:33:36.535,2022-08-09 23:34:35.535
3,0,97,95,2022-08-09 23:34:36.535,2022-08-09 23:35:35.535
4,0,97,96,2022-08-09 23:35:36.535,2022-08-09 23:36:35.535


En el caso de que no tenga formato tabular, podemos proceder de la siguiente manera:

In [5]:
import json

archivo_json = 'jsons/com.samsung.shealth.exercise.recovery_heart_rate/5/571249e7-a81a-400b-af9b-27174db5358e.heart_rate.json'
with open(archivo_json, 'r', encoding='utf-8') as f:
    data = json.load(f)

df = pd.json_normalize(data)  # Ahora que `data` es un diccionario o una lista de diccionarios, podemos normalizarlo
df.head()

Unnamed: 0,chart_data,is_valid,sampling_rate
0,"[{'elapsed_time': 181, 'heart_rate': 196.0, 's...",True,1000


Dado que en este caso, el verdadero contenido del fichero JSON se encuentra en la columna *'chart_data'*, extraemos esta información en un nuevo dataframe:

In [6]:
new_dataframe = pd.json_normalize(data['chart_data'])
new_dataframe.head()

Unnamed: 0,elapsed_time,heart_rate,start_time
0,181,196.0,1686253051590
1,1745,196.0,1686253053154
2,2747,196.0,1686253054156
3,3749,195.0,1686253055158
4,4775,194.0,1686253056184


### **Facebook**

Para extraer información de *Facebook* se ha utilizado la herramienta *Graph API Explorer* de *Meta*, la cual requiere de la creación de una cuenta para desarrolladores. Una vez contamos con esta cuenta, debemos crear una aplicación y otorgarle los distintos permisos para obtener los campos que buscamos recuperar. Para poder conseguir acceso a datos de otras cuentas, tendríamos que configurar el inicio de nuestra aplicación para requerir que los usuarios que deseen acceder a nuestra app, deban darnos los permisos correspondientes como requisito para el logging a la aplicación.

![facebook](images/facebook.JPG)


Tras haber creado la aplicación podemos generar un token de acceso a la misma (siempre que nuestra cuenta tenga más de 1 hora desde su creación) y, como se observa en la imagen anterior, se pueden realizar distintas consultas y obtener de regreso la información solicitada en formato JSON. En caso de que alguno de los campos no contenga información, la consulta simplemente no devolverá datos para dicho campo.

In [7]:
# Transformamos los datos anteriores a un dataframe de pandas. Al igual que en el caso del smartwatch podríamos decidir convertir
#  también campos como posts.data o posts.paging a un dataframe de pandas, al contener a su vez múltiples campos.

facebook_json = {
  "id": "122100709598208586",
  "name": "Rodrigo De La Nuez Moraleda",
  "email": "rodrigo.delanu@gmail.com",
  "link": "https://www.facebook.com/app_scoped_user_id/YXNpZADpBWEc3bEF3Wkw1cm1NdHI3dEZALMU0zelQtYXl6NnBudHd6Y1dub3lWTWdtdXZA4ZAkFuLUJVRmVVZAE94bXpYanpTV2FQZADVrNFZAmZA3dkUzI2ZAVdLdTlvbFJvQXVCbWduV1k1R0NhMG9qSWxRTjFDNUkZD/",
  "posts": {
    "data": [
      {
        "created_time": "2001-08-22T07:00:00+0000",
        "id": "122100709598208586_122100641696208586"
      }
    ],
    "paging": {
      "previous": "https://graph.facebook.com/v19.0/122100709598208586/posts?access_token=EAAFjZAiffqksBO1kfZANly3tNZAmyxZCLDj7CvQKZBnehQZBRWeNKnWkVpQp4kW4PhrDx8jTiXjY7QFpUq9AwzWsE3Iq5jo5hC5Sv0wiF3kTqL8xP1dE0WbVv6u0qVZA632hJ8nrFY6iPs18RJhui2LUuStuND6P8ARLIfyXAq8Em8cZAf07cuctlmOcK17VTcBckTzxWxdEx1UZBtCTZB6MVKEhKZCa1aBhZCAMA2sT4GZBcqMNTwqbQ3U0q52UaEjQldwZDZD&pretty=0&__previous=1&since=998463600&until&__paging_token=enc_AdBJEvhpyiqRBwwOnFfGnZB5pVBNgokFRUxVMaZCqZAAIQ1bC2vAcjqZB9n8cTlRhemCiyaZBtIK7oCwC1HoJrJHZAHdt3dwcX3No7NfudjYg5ZAD7eNgZDZD",
      "next": "https://graph.facebook.com/v19.0/122100709598208586/posts?access_token=EAAFjZAiffqksBO1kfZANly3tNZAmyxZCLDj7CvQKZBnehQZBRWeNKnWkVpQp4kW4PhrDx8jTiXjY7QFpUq9AwzWsE3Iq5jo5hC5Sv0wiF3kTqL8xP1dE0WbVv6u0qVZA632hJ8nrFY6iPs18RJhui2LUuStuND6P8ARLIfyXAq8Em8cZAf07cuctlmOcK17VTcBckTzxWxdEx1UZBtCTZB6MVKEhKZCa1aBhZCAMA2sT4GZBcqMNTwqbQ3U0q52UaEjQldwZDZD&pretty=0&until=998463600&since&__paging_token=enc_AdBJEvhpyiqRBwwOnFfGnZB5pVBNgokFRUxVMaZCqZAAIQ1bC2vAcjqZB9n8cTlRhemCiyaZBtIK7oCwC1HoJrJHZAHdt3dwcX3No7NfudjYg5ZAD7eNgZDZD&__previous"
    }
  },
  "gender": "male",
  "friends": {
    "data": [
    ],
    "summary": {
      "total_count": 0
    }
  },
  "age_range": {
    "min": 21
  }
}

In [8]:
facebook_df = pd.json_normalize(facebook_json)
facebook_df.head()

Unnamed: 0,id,name,email,link,gender,posts.data,posts.paging.previous,posts.paging.next,friends.data,friends.summary.total_count,age_range.min
0,122100709598208586,Rodrigo De La Nuez Moraleda,rodrigo.delanu@gmail.com,https://www.facebook.com/app_scoped_user_id/YX...,male,"[{'created_time': '2001-08-22T07:00:00+0000', ...",https://graph.facebook.com/v19.0/1221007095982...,https://graph.facebook.com/v19.0/1221007095982...,[],0,21


Estas consultas podrían realizarse también a través del SDK para Android, el SDK para iOS, el SDK para JavaScript o cURL. 

La propia herramienta nos ofrece ayuda para transformar las consultas directamente a estas distintas modalidades:

![sdk](images/sdk.JPG)

### **Twitter**

Al igual que en el caso anterior, necesitamos configurar nuestra cuenta de Twitter como una cuenta para desarrolladores y, a través del Developer Portal, crear una aplicación que nos permita acceder a distinta información. Con la aplicación creada necesitamos generar las siguientes claves: *API_KEY*, *API_SECRET_KEY*, *ACCESS_TOKEN* y *ACCESS_TOKEN_SECRET* (que están asociadas a la propia aplicación). Adicionalmente, podríamos generar un *BEARER_TOKEN*. Haciendo uso de estas claves y la librería *tweepy* podemos comenzar a trabajar aun con las limitaciones que presenta la API.

![twitter](images/twitter.JPG)

In [9]:
import tweepy

API_KEY = '4KMbdSZ49plBJKdF0l3gtZn6k'
API_SECRET_KEY = 'HJJHuwSAV3yXEINZCYM5bjfIfT2aK267iKwx4WpOTeqCpgfQaT'
ACCESS_TOKEN = '1565098916646948870-ev0stjekZbxT7DZEDRsq8Go7FZcNtn'
ACCESS_TOKEN_SECRET = 'lX93EleMuNC9L9uqQjuvcGIZqqoGr83KAYLehNiGF8Q7H'

# Autentificación de Twitter
auth = tweepy.OAuthHandler(API_KEY, API_SECRET_KEY)
auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)

# Creamos un objeto API
api = tweepy.API(auth)

try:
    # Obtenemos la información básica del usuario
    user = api.verify_credentials()
    
    # Comprobamos si la autentificación ha sido exitosa
    if user:
        print(f"Name: {user.name}")
        print(f"Twitter Handle: @{user.screen_name}")
    else:
        print("Authentication failed. Please check your API credentials.")

except Exception as e:
    print(f"Error: {e}")

Name: a
Twitter Handle: @a127478382848


In [10]:
# Transformarmos la información del usuario en un dataframe de pandas
user_data = user._json
df = pd.json_normalize(user_data)
df.head()

Unnamed: 0,id,id_str,name,screen_name,location,description,url,protected,followers_count,friends_count,...,default_profile,default_profile_image,following,follow_request_sent,notifications,translator_type,withheld_in_countries,suspended,needs_phone_verification,entities.description.urls
0,1565098916646948870,1565098916646948870,a,a127478382848,,,,False,1,15,...,True,False,False,False,False,none,[],False,False,[]


Para poder poner un tweet a través de la API, primero debemos cambiar los ajustes de autentificación del usuario para poder tener permisos de escritura. Adicionalmente, debemos seleccionar el tipo de aplicación, un Callback URL / Redirect URL y una Website URL. Dado que necesitamos una aplicación que maneje las peticiones de los usuarios no nos es posible completar esta configuración correctamente. En caso de contar dichas URLs, el código correspondiente a postear un tweet usando *tweepy* sería como el siguiente:

In [11]:
client = tweepy.Client(consumer_key = 'UGtQNnJ5MHRsR012VW1Gajh1Q3U6MTpjaQ',
                       consumer_secret  = 'BUM9oW5UDTXf4m7MTraY2dJjj1aJuZg0KqeO1gG1bbb24R4_RZ',
                       access_token = '1565098916646948870-ev0stjekZbxT7DZEDRsq8Go7FZcNtn',
                       access_token_secret = 'lX93EleMuNC9L9uqQjuvcGIZqqoGr83KAYLehNiGF8Q7H')

response = client.create_tweet(text = "¡Hola Twitter! Este es un post que se ha subido utilizando Python y Tweepy. Fdo: Rodrigo de la Nuez")

Unauthorized: 401 Unauthorized
Unauthorized

También hemos tratado de postear el tweet utilizando el código proporcionado en la página de *Medium*, sin embargo obtenemos el siguiente mensaje:

In [12]:
tweet = "¡Hola Twitter! Este es un post que se ha subido utilizando Python y Tweepy. Fdo: Rodrigo de la Nuez"

try:
    api.update_status("Hello, world! This is my first tweet using Tweepy.")
    print("Tweet successfully posted!")
except Exception as e:
    print("Error during tweeting: ", e)

Error during tweeting:  403 Forbidden
453 - You currently have access to a subset of Twitter API v2 endpoints and limited v1.1 endpoints (e.g. media post, oauth) only. If you need access to this endpoint, you may need a different access level. You can learn more here: https://developer.twitter.com/en/portal/product


### **TikTok**

Para recoger datos de TikTok, lo primero que debemos hacer es crear una cuenta para desarrollador (https://developers.tiktok.com/signup), con esta cuenta podremos crear una aplicación para recuperar información de la plataforma. Como paso opcional, podríamos crear o unirnos a una organización que represente el grupo de la app. TikTok nos recomienda llevar a cabo este paso pero no es un requerimiento, por lo que no lo llevaremos a cabo para nuestro caso de uso.

Desde nuestra cuenta contamos con la opción *Manage Apps*, desde la cual podremos crear nuestra aplicación y especificar un nombre para la misma. Una vez creada podremos ver los detalles de la aplicación: *App ID*, *Client key*, *Client secret* y el *Status* de la misma; detalles de la configuración de nuestra app (icono, descripción, términos del servicio, plataformas en las que estará disponible, etc.), un historial de las acciones realizadas sobre la aplicación,  y productos que podemos añadir para contar con distintas funcionalidades.

![tiktok1](images/tiktok1.JPG) <br>
*1. Configuración de la aplicación creada* <br>

![tiktok2](images/tiktok2.JPG) <br>
*2. Productos que podemos añadir a nuestra aplicación*

El problema de la extracción de datos con este enfoque es que tendríamos que crear una aplicación y alojarla en una página web para poder utilizarla después.


![tiktok3](images/tiktok3.JPG)

Debido a ello, para extraer datos de TikTok vamos a utilizar una librería de python llamada `TikTokApi` que nos permite recuperar información de la plataforma. Para ello debemos ejecutar los comandos: `pip install TikTokApi` y `python -m playwright install`. No obstante, se han tenido que llevar a cabo distintas iteraciones sobre el código para poder conseguir que funcionara. En primer lugar, necesitamos el valor de las cookies `msToken` o `tt_csrf_token` para poder crear una sesión de nuestro navegador y recuperar los contenidos deseados. Sin embargo, estos tokens deben extraerse manualmente al inspeccionar los atributos de la propia página, pues al tratar de automatizar la tarea con *selenium*  usando `driver.get_cookies()` se abre un navegador distinto con credenciales distintas, y pueden expirar en cualquier momento.

Haciendo una búsqueda del error que aparece cuando no se recibe una respuesta de la API:

    - TikTokApi.exceptions.EmptyResponseException: None -> TikTok returned an empty response

observamos que se puede resolver este problema y evitar la necesidad de introducir uno de los tokens de las cookies, mencionados anteriormente, configurando las opciones de inicialización del navegador. En el programa `tkapi.py` tenemos un fichero que extrae información sobre los vídeos en tendencias, muestra el head al transformar la información a un dataframe de pandas y guarda su contenido en un fichero *.csv* de nombre `trending_videos.csv`. 

In [None]:
"""

# Contenido del fichero tkapi.py

from TikTokApi import TikTokApi
import asyncio
import os
import pandas as pd

ms_token = os.environ.get("ms_token", None)
context_options = {
    'viewport': {'width': 1280, 'height': 1024},
    'user_agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
}

# Función principal que guarda información relativa a los vídeos en tendencias de TikTok
async def trending_videos():
    videos_data = []  # Inicializamos una lista vacía para almacenar los diccionarios con la información de los respectivos vídeos
    async with TikTokApi() as api:
        await api.create_sessions(ms_tokens=[ms_token], num_sessions=1, sleep_after=3, context_options=context_options)
        async for video in api.trending.videos(count=30):
            videos_data.append(video.as_dict)  # Añadimos el diccionario con la información del vídeo a una lista

    # Convertimos la lista de diccionarios a un dataframe de pandas
    df_videos = pd.DataFrame(videos_data)
    
    # Imprimimos por pantalla el head de nuestro dataframe de pandas
    print(df_videos.head())

    # Exportamos el dataframe a un fichero CSV
    df_videos.to_csv('trending_videos.csv', index=False)

if __name__ == "__main__":
    asyncio.run(trending_videos())

"""

Este programa debe estar en un fichero aparte ya que `TikTokApi` necesita a su vez de la librería `asyncio` para funcionar y usar un conjunto de páginas asíncronas de *playwright* (librería que permite automatizar la interacción con páginas web) que hagan que sea más difícil de detectar y, por tanto, más fácil de mantener a lo largo del tiempo.

In [14]:
# Cargamos los datos del fichero csv y transformamos los contenidos a un dataframe de pandas
import pandas as pd
df = pd.read_csv('trending_videos.csv')
df.head()

Unnamed: 0,BAInfo,adAuthorization,adLabelVersion,aigcLabelType,author,authorStats,collected,contents,createTime,desc,...,stitchDisplay,stitchEnabled,video,vl1,challenges,textExtra,stickersOnItem,anchors,poi,effectStickers
0,,False,0,0,{'avatarLarger': 'https://p16-sign-sg.tiktokcd...,"{'diggCount': 235, 'followerCount': 1300000, '...",False,[{'desc': ''}],1707710232,,...,0,True,"{'bitrate': 1179228, 'bitrateInfo': [{'Bitrate...",False,,,,,,
1,,False,0,0,{'avatarLarger': 'https://p16-sign-va.tiktokcd...,"{'diggCount': 578, 'followerCount': 170700, 'f...",False,[{'desc': 'la estoy mirando desde su entrada #...,1701491836,la estoy mirando desde su entrada #foryou #for...,...,0,True,"{'bitrate': 80676, 'bitrateInfo': [{'Bitrate':...",False,"[{'coverLarger': '', 'coverMedium': '', 'cover...","[{'awemeId': '', 'end': 41, 'hashtagId': '4216...",,,,
2,,False,0,0,{'avatarLarger': 'https://p16-sign-useast2a.ti...,"{'diggCount': 116800, 'followerCount': 2400000...",False,[{'desc': ''}],1707673026,,...,0,True,"{'bitrate': 491626, 'bitrateInfo': [{'Bitrate'...",False,,,"[{'stickerText': ['Tell me you love me', 'Come...",,,
3,,False,0,0,{'avatarLarger': 'https://p16-sign-useast2a.ti...,"{'diggCount': 81, 'followerCount': 3761, 'foll...",False,[{'desc': ''}],1706745846,,...,0,True,"{'bitrate': 1300427, 'bitrateInfo': [{'Bitrate...",False,,,,,,
4,,False,0,0,{'avatarLarger': 'https://p16-sign-sg.tiktokcd...,"{'diggCount': 1, 'followerCount': 23300000, 'f...",False,[{'desc': '#현진 의 #락챌린지 #LALALALA_Challenge 🤘 w...,1705482058,#현진 의 #락챌린지 #LALALALA_Challenge 🤘 w/ #ITZY #YE...,...,0,True,"{'bitrate': 2151959, 'bitrateInfo': [{'Bitrate...",False,"[{'coverLarger': '', 'coverMedium': '', 'cover...","[{'awemeId': '', 'end': 3, 'hashtagId': '50268...",,"[{'description': 'CapCut · Video Editor', 'ext...",,


In [15]:
print(type(df.loc[0, 'author']))

<class 'str'>


In [16]:
import ast

# Transformarmos los datos del campo 'author' de string a diccionario para poder crear a su vez un dataframe de pandas
df['author'] = df['author'].apply(ast.literal_eval)
datos_dict_expandidos = pd.json_normalize(df['author'])
datos_dict_expandidos.head()

Unnamed: 0,avatarLarger,avatarMedium,avatarThumb,commentSetting,downloadSetting,duetSetting,ftc,id,isADVirtual,isEmbedBanned,...,openFavorite,privateAccount,relation,secUid,secret,signature,stitchSetting,ttSeller,uniqueId,verified
0,https://p16-sign-sg.tiktokcdn.com/aweme/1080x1...,https://p16-sign-sg.tiktokcdn.com/aweme/720x72...,https://p16-sign-sg.tiktokcdn.com/aweme/100x10...,0,0,0,False,7173625674321216514,False,False,...,False,False,0,MS4wLjABAAAAoIZbUcqrzph0fqwTzWFNUWLF88MZ8rlJnP...,False,KENTAU\n\nsubscribe⤵️,0,False,0xuetnevstat,False
1,https://p16-sign-va.tiktokcdn.com/tos-maliva-a...,https://p16-sign-va.tiktokcdn.com/tos-maliva-a...,https://p16-sign-va.tiktokcdn.com/tos-maliva-a...,0,0,0,False,7284444161502430214,False,False,...,False,False,0,MS4wLjABAAAAOWGIv78a7WGYGlZISwejaU7QPE23AayCWk...,False,,0,False,spotify.msic6,False
2,https://p16-sign-useast2a.tiktokcdn.com/tos-us...,https://p16-sign-useast2a.tiktokcdn.com/tos-us...,https://p16-sign-useast2a.tiktokcdn.com/tos-us...,0,0,0,False,7058159905982809115,False,False,...,False,False,0,MS4wLjABAAAAMd3sMNEhE6RWlAKZRVEwuKdDZdv5VIGWT8...,False,for business Inquiries📩\nmgmt@ohcreators.com,0,False,zxylov,False
3,https://p16-sign-useast2a.tiktokcdn.com/tos-us...,https://p16-sign-useast2a.tiktokcdn.com/tos-us...,https://p16-sign-useast2a.tiktokcdn.com/tos-us...,1,3,1,False,7307781399456728097,False,False,...,False,False,0,MS4wLjABAAAAhlm_aRqyBrNaGU2_8nw-_a7OKMTR-sLkvx...,False,MI PERFIL PUBLICO Y EL VUESTRO QUE ES ENTE JA JA,3,False,sabeondaponesitiogentuza,False
4,https://p16-sign-sg.tiktokcdn.com/aweme/1080x1...,https://p16-sign-sg.tiktokcdn.com/aweme/720x72...,https://p16-sign-sg.tiktokcdn.com/aweme/100x10...,0,0,0,False,6662859609184976902,False,False,...,False,False,0,MS4wLjABAAAAXRvJ11_5HY66C9PfcwPusdkZiVFP6DgXdI...,False,"Stray Kids(스트레이 키즈) ""樂-STAR (ROCK-STAR)""\n2023...",0,False,jypestraykids,True


### **NCBI (National Center for Biotechnology Information)**

Para concluir, en el Trabajo de Fin de Máster titulado *"Diseño de un sistema inteligente de predicción de interacciones genómicas in silico"*, se ha investigado la extracción de secuencias genéticas utilizando los datos disponibles en el NCBI. Este proceso se ha llevado a cabo mediante la API *E-Utilities*, empleando la librería *biopython*. 

A continuación, procederemos a utilizar esta API con el fin de extraer información específica de diversos genes (distinta de la secuencia genética que se extrae en el proyecto mencionado), la cual será posteriormente almacenada en un dataframe de *pandas*.

In [17]:
from Bio import Entrez

# Función para obtener datos dado una lista con identificarores de genes, estos identificadores son cadenas de números
def get_gene_information(gene_ids):
    Entrez.email = "rdelanuezmo@alumni.unav.es"
    handle = Entrez.efetch(db="gene", id=gene_ids, rettype="fasta", retmode="text")
    sequence_data = handle.read()
    sequence_list = [seq.split('\n') for seq in sequence_data.strip().split('\n\n')]
    handle.close()
    return sequence_list

In [18]:
gene_information = get_gene_information(['1','2','3'])
gene_information

[['1. A1BG',
  'Official Symbol: A1BG and Name: alpha-1-B glycoprotein [Homo sapiens (human)]',
  'Other Aliases: A1B, ABG, GAB, HYST2477',
  'Other Designations: alpha-1B-glycoprotein; HEL-S-163pA; epididymis secretory sperm binding protein Li 163pA',
  'Chromosome: 19; Location: 19q13.43',
  'Annotation: Chromosome 19 NC_000019.10 (58345183..58353492, complement)',
  'MIM: 138670',
  'ID: 1'],
 ['2. A2M',
  'Official Symbol: A2M and Name: alpha-2-macroglobulin [Homo sapiens (human)]',
  'Other Aliases: A2MD, CPAMD5, FWP007, S863-7',
  'Other Designations: alpha-2-macroglobulin; C3 and PZP-like alpha-2-macroglobulin domain-containing protein 5; alpha-2-M',
  'Chromosome: 12; Location: 12p13.31',
  'Annotation: Chromosome 12 NC_000012.12 (9067708..9116229, complement)',
  'MIM: 103950',
  'ID: 2'],
 ['3. A2MP1',
  'Official Symbol: A2MP1 and Name: alpha-2-macroglobulin pseudogene 1 [Homo sapiens (human)]',
  'Other Aliases: A2MP',
  'Other Designations: pregnancy-zone protein pseudogen

In [19]:
# Función para añadir campos a un diccionario dada una cadena que contiene tanto la clave como el valor del elemento a añadir
def añadir_a_diccionario(cadena, dict, delimitador):
    indice_delimitador = cadena.find(delimitador)  # Buscamos el índice del primer delimitador para separar clave y valor
    if indice_delimitador != -1:  # Nos aseguramos de que el delimitador se encontró en la cadena
        clave = cadena[:indice_delimitador]  
        valor = cadena[indice_delimitador + 2:]  # Todo después del delimitador es el valor
        dict[clave] = valor

In [20]:
# Función para guardar la información de un gen en un diccionario
def parse_gene_info(gene_info):

    # Nos aseguramos de que no haya elementos vacíos en nuestra lista pues no siempre se llega al mismo formato (e.g.: ID == 61)
    gene_info = [element for element in gene_info if element != '']

    # Creamos un diccionario para guardar los valores de los distintos campos
    info_dict = {}
    cadena = gene_info[0]
    indice_delimitador = cadena.find('. ')
    if indice_delimitador != -1:  # Nos aseguramos de que ". " se encontró en la cadena
        valor = cadena[indice_delimitador + 2:]  # Todo después de ". " es el valor
        info_dict['Gene'] = valor  # Creamos este condicional en vez de utilizar la función 'añadir_a_diccionario' pues de esa manera se crearían muchos campos distintos

    # Para el segundo elmento guardamos únicamente el nombre pues el 'Official Symbol' (de tomar un valor) coincide con el primer campo que ya hemos guardado
    element_to_split = gene_info[1]
    if ' and Name:' in element_to_split:
        split_parts = element_to_split.split(' and Name:')
    else:
        split_parts = [element_to_split, '']
    new_element = ['Extended Name:' + split_parts[1]] 
    gene_info = gene_info[:1] + new_element + gene_info[2:]

    # Añadimos los campos restantes al diccionario
    for line in gene_info[1:]:
        añadir_a_diccionario(line, info_dict, ': ')
    
    return info_dict

In [21]:
# Lista para almacenar la información parseada
parsed_data = []
gene_ids = [str(i) for i in range(1,1000)]
genes_info = get_gene_information(gene_ids)

for gene in genes_info:
    parsed_info = parse_gene_info(gene)
    parsed_data.append(parsed_info)

# Creamos el dataframe de pandas
df = pd.DataFrame(parsed_data)
df.head()

Unnamed: 0,Gene,Extended Name,Other Aliases,Other Designations,Chromosome,Annotation,MIM,ID,This record was replaced with GeneID
0,A1BG,alpha-1-B glycoprotein [Homo sapiens (human)],"A1B, ABG, GAB, HYST2477",alpha-1B-glycoprotein; HEL-S-163pA; epididymis...,19; Location: 19q13.43,Chromosome 19 NC_000019.10 (58345183..58353492...,138670.0,1,
1,A2M,alpha-2-macroglobulin [Homo sapiens (human)],"A2MD, CPAMD5, FWP007, S863-7",alpha-2-macroglobulin; C3 and PZP-like alpha-2...,12; Location: 12p13.31,"Chromosome 12 NC_000012.12 (9067708..9116229, ...",103950.0,2,
2,A2MP1,alpha-2-macroglobulin pseudogene 1 [Homo sapie...,A2MP,pregnancy-zone protein pseudogene,12; Location: 12p13.31,"Chromosome 12 NC_000012.12 (9228533..9234207, ...",,3,
3,A12M1,,,Adenovirus-12 chromosome modification site-1q1,1; Location: 1q42-q43,,,4,
4,A12M2,,,Adenovirus-12 chromosome modification site-1p,1; Location: 1p36,,,5,
