![title](./logo_nao_digital.png)

# MySQL-SQL Server en la Gestión de Bases de Datos Relacionales

## Evidencias Ciclo 1

*Instrucciones:*


Atiende las siguientes indicaciones para completar las evidencias de este primer ciclo de investigación y desarrollo de esta experiencia de aprendizaje.

1. Lee detenidamente el reto MySQL/SQL Server en la gestión de bases de datos relacionales

2. Desarrolla las evidencias solicitadas para este ciclo ID:
* Utiliza código Python en GitHub para:
    * Extraer tweets
    * Verificar tipos de datos.

3. Sube las evidencias a tu espacio en Notion.

## Etapa 1: instalar e importar librerías de trabajo

In [104]:
%pip install pandas
import pandas as pd
import json
import re

from datetime import datetime
from collections import Counter




## Etapa 2: Extraer tweets

In [83]:
# Leer el archivo JSON
with open('tweets_extraction.json', 'r', encoding = 'utf-8') as file:
    tweets_extraction = json.load(file)

In [68]:
tweets_extraction

[{'id': '12116719578733158',
  'texto': '#BrechaAnuario2019 | Con cañón y coronel El voto a Cabildo Abierto en la periferia de Montevideo. por Venancio Acosta https://brecha.com.uy/con-canon-y-coronel-2/… #RelecturasDeUnAñoPerturbador',
  'usuario': 'SemanarioBrecha',
  'hashtags': ['BrechaAnuario2019', 'RelecturasDeUnAñoPerturbador'],
  'fecha': '2021-12-30T15:34:41.000Z',
  'retweets': 3.0,
  'favoritos': 2.0},
 {'id': '12116547084876964',
  'texto': '#BrechaAnuario2019 | Las PASO en Argentina "Empezamos a ver, después de unos años catastróficos para la izquierda sudamericana, que es posible montar defensas, contraataques, replanteos estratégicos, nuevas alianzas, actores y lenguajes." por @dedelacoste  https://brecha.com.uy/vamos-a-volver-2/…',
  'usuario': 'SemanarioBrecha',
  'hashtags': ['BrechaAnuario2019'],
  'fecha': '2021-12-30T14:26:08.000Z',
  'retweets': 2.0,
  'favoritos': 1.0},
 {'id': '12116529643744993',
  'texto': '#BrechaAnuario2019 | Bolsonaro contra la selva amazón

## Etapa 3: Identificar tipos de datos

In [77]:
# Validación de Datos
# Asumiendo que cada tweet tiene los campos id, texto, usuario, hashtags, fecha, retweets, favoritos
for tweet in tweets_extraction:
    assert all(key in tweet for key in ['id', 'texto', 'usuario', 'hashtags', 'fecha', 'retweets', 'favoritos'])

Esta parte del código asegura que cada tweet en la lista data tenga todos los campos esenciales necesarios.

In [70]:
# Obtener un elemento representativo para análisis
primer_elemento = tweets_extraction[0] if isinstance(tweets_extraction, list) and tweets_extraction else tweets_extraction

# Función para explorar tipos de datos
def explore_data(tweets_extraction, path=''):
    if type(tweets_extraction) == dict:
        for key, value in tweets_extraction.items():
            explore_data(value, path + f'/{key}')
    elif type(tweets_extraction) == list:
        for i, item in enumerate(tweets_extraction):
            explore_data(item, path + f'[{i}]')
    else:
        print(f"{path}: {type(tweets_extraction)}")

# Llama a la función para explorar los tipos de datos usando el primer elemento
explore_data(primer_elemento)

/id: <class 'str'>
/texto: <class 'str'>
/usuario: <class 'str'>
/hashtags[0]: <class 'str'>
/hashtags[1]: <class 'str'>
/fecha: <class 'str'>
/retweets: <class 'float'>
/favoritos: <class 'float'>


In [76]:
# Convertir tipos de datos
for tweet in tweets_extraction:
    # Convertir la fecha de string a formato YYYY-MM-DD
    tweet['fecha'] = datetime.strptime(tweet['fecha'], '%Y-%m-%dT%H:%M:%S.%fZ')

    # Convertir retweets y favoritos de float a int
    tweet['retweets'] = int(tweet['retweets'])
    tweet['favoritos'] = int(tweet['favoritos'])

TypeError: strptime() argument 1 must be str, not datetime.datetime

In [72]:
# Obtener un elemento representativo para análisis
primer_elemento = tweets_extraction[0] if isinstance(tweets_extraction, list) and tweets_extraction else tweets_extraction

# Función para explorar tipos de datos
def explore_data(tweets_extraction, path=''):
    if type(tweets_extraction) == dict:
        for key, value in tweets_extraction.items():
            explore_data(value, path + f'/{key}')
    elif type(tweets_extraction) == list:
        for i, item in enumerate(tweets_extraction):
            explore_data(item, path + f'[{i}]')
    else:
        print(f"{path}: {type(tweets_extraction)}")

# Llama a la función para explorar los tipos de datos usando el primer elemento
explore_data(primer_elemento)

/id: <class 'str'>
/texto: <class 'str'>
/usuario: <class 'str'>
/hashtags[0]: <class 'str'>
/hashtags[1]: <class 'str'>
/fecha: <class 'datetime.datetime'>
/retweets: <class 'int'>
/favoritos: <class 'int'>


## Etapa 4: Tratamiento de tweets y limpieza de datos

In [78]:
# Crear DataFrame
df = pd.DataFrame(tweets_extraction)
df

Unnamed: 0,id,texto,usuario,hashtags,fecha,retweets,favoritos
0,12116719578733158,#BrechaAnuario2019 | Con cañón y coronel El vo...,SemanarioBrecha,"[BrechaAnuario2019, RelecturasDeUnAñoPerturbador]",2021-12-30 15:34:41,3,2
1,12116547084876964,"#BrechaAnuario2019 | Las PASO en Argentina ""Em...",SemanarioBrecha,[BrechaAnuario2019],2021-12-30 14:26:08,2,1
2,12116529643744993,#BrechaAnuario2019 | Bolsonaro contra la selva...,SemanarioBrecha,[BrechaAnuario2019],2021-12-30 14:19:12,3,2
3,12110290516301292,"#BrechaAnuario2019 | Aquí, los temas que apare...",SemanarioBrecha,"[BrechaAnuario2019, RelecturasDeUnAñoPerturbador]",2021-12-28 21:00:00,2,5
4,12107119614801142,#BrechaAnuario2019 | El mejor dibujante de his...,SemanarioBrecha,[BrechaAnuario2019],2021-12-28 00:00:00,0,4
...,...,...,...,...,...,...,...
290601,1080102594054406,Felicidades en este 1 dia del 2019. A todos l...,larepublica_uy,[],2021-01-01 14:05:00,11,32
290602,10800857075935356,Apareció flotando en una laguna el cuerpo del ...,larepublica_uy,[],2021-01-01 12:57:54,1,1
290603,1080077600553427,Recluso de Santiago Vázquez no retornó de una ...,larepublica_uy,[],2021-01-01 12:25:41,1,1
290604,1079905091438682,Volcán de Indonesia que desató el tsunami perd...,larepublica_uy,[],2021-01-01 01:00:12,0,0


In [75]:
# Revisar los tipos de datos en el DataFrame
print(df.dtypes)

id                   object
texto                object
usuario              object
hashtags             object
fecha        datetime64[ns]
retweets              int64
favoritos             int64
dtype: object


In [91]:
# Crear nuevo DataFrame

# Calcular la cantidad de hashtags por tweet
df['cantidad_hastags'] = df['texto'].apply(lambda x: len(re.findall(r'#\w+', x)))

# Imprimir la cantidad máxima de hashtags
max_cantidad_hashtags = df['hashtags'].apply(lambda x: len(x)).max()
print(f"La cantidad máxima de hashtags en un tweet es: {max_cantidad_hashtags}")

# Mostrar el DataFrame con la nueva columna 'cantidad_hastags'
df

La cantidad máxima de hashtags en un tweet es: 11


Unnamed: 0,id,texto,usuario,hashtags,fecha,retweets,favoritos,cantidad_hastags
0,12116719578733158,#BrechaAnuario2019 | Con cañón y coronel El vo...,SemanarioBrecha,"[BrechaAnuario2019, RelecturasDeUnAñoPerturbador]",2021-12-30 15:34:41,3,2,2
1,12116547084876964,"#BrechaAnuario2019 | Las PASO en Argentina ""Em...",SemanarioBrecha,[BrechaAnuario2019],2021-12-30 14:26:08,2,1,1
2,12116529643744993,#BrechaAnuario2019 | Bolsonaro contra la selva...,SemanarioBrecha,[BrechaAnuario2019],2021-12-30 14:19:12,3,2,1
3,12110290516301292,"#BrechaAnuario2019 | Aquí, los temas que apare...",SemanarioBrecha,"[BrechaAnuario2019, RelecturasDeUnAñoPerturbador]",2021-12-28 21:00:00,2,5,2
4,12107119614801142,#BrechaAnuario2019 | El mejor dibujante de his...,SemanarioBrecha,[BrechaAnuario2019],2021-12-28 00:00:00,0,4,1
...,...,...,...,...,...,...,...,...
290601,1080102594054406,Felicidades en este 1 dia del 2019. A todos l...,larepublica_uy,[],2021-01-01 14:05:00,11,32,0
290602,10800857075935356,Apareció flotando en una laguna el cuerpo del ...,larepublica_uy,[],2021-01-01 12:57:54,1,1,0
290603,1080077600553427,Recluso de Santiago Vázquez no retornó de una ...,larepublica_uy,[],2021-01-01 12:25:41,1,1,0
290604,1079905091438682,Volcán de Indonesia que desató el tsunami perd...,larepublica_uy,[],2021-01-01 01:00:12,0,0,0


In [89]:
# Revisar los tipos de datos en el DataFrame
print(df.dtypes)

id                          object
texto                       object
usuario                     object
hashtags                    object
fecha               datetime64[ns]
retweets                     int64
favoritos                    int64
cantidad_hastags             int64
dtype: object


## Etapa 5: Verificar estructuras de los datos

In [94]:
df

Unnamed: 0,id,texto,usuario,hashtags,fecha,retweets,favoritos,cantidad_hastags
0,12116719578733158,#BrechaAnuario2019 | Con cañón y coronel El vo...,SemanarioBrecha,"[BrechaAnuario2019, RelecturasDeUnAñoPerturbador]",2021-12-30 15:34:41,3,2,2
1,12116547084876964,"#BrechaAnuario2019 | Las PASO en Argentina ""Em...",SemanarioBrecha,[BrechaAnuario2019],2021-12-30 14:26:08,2,1,1
2,12116529643744993,#BrechaAnuario2019 | Bolsonaro contra la selva...,SemanarioBrecha,[BrechaAnuario2019],2021-12-30 14:19:12,3,2,1
3,12110290516301292,"#BrechaAnuario2019 | Aquí, los temas que apare...",SemanarioBrecha,"[BrechaAnuario2019, RelecturasDeUnAñoPerturbador]",2021-12-28 21:00:00,2,5,2
4,12107119614801142,#BrechaAnuario2019 | El mejor dibujante de his...,SemanarioBrecha,[BrechaAnuario2019],2021-12-28 00:00:00,0,4,1
...,...,...,...,...,...,...,...,...
290601,1080102594054406,Felicidades en este 1 dia del 2019. A todos l...,larepublica_uy,[],2021-01-01 14:05:00,11,32,0
290602,10800857075935356,Apareció flotando en una laguna el cuerpo del ...,larepublica_uy,[],2021-01-01 12:57:54,1,1,0
290603,1080077600553427,Recluso de Santiago Vázquez no retornó de una ...,larepublica_uy,[],2021-01-01 12:25:41,1,1,0
290604,1079905091438682,Volcán de Indonesia que desató el tsunami perd...,larepublica_uy,[],2021-01-01 01:00:12,0,0,0


In [96]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 290606 entries, 0 to 290605
Data columns (total 8 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   id                290606 non-null  object        
 1   texto             290606 non-null  object        
 2   usuario           290606 non-null  object        
 3   hashtags          290606 non-null  object        
 4   fecha             290606 non-null  datetime64[ns]
 5   retweets          290606 non-null  int64         
 6   favoritos         290606 non-null  int64         
 7   cantidad_hastags  290606 non-null  int64         
dtypes: datetime64[ns](1), int64(3), object(4)
memory usage: 17.7+ MB


In [100]:
df.describe()


Unnamed: 0,fecha,retweets,favoritos,cantidad_hastags
count,290606,290606.0,290606.0,290606.0
mean,2022-04-10 20:03:50.898724864,5.228137,13.255759,0.176012
min,2021-01-01 00:00:01,0.0,0.0,0.0
25%,2021-09-07 11:06:15,0.0,2.0,0.0
50%,2022-04-30 23:26:53,2.0,4.0,0.0
75%,2022-11-13 12:14:07.500000,4.0,9.0,0.0
max,2023-05-24 07:55:03,2600.0,7200.0,11.0
std,,21.411017,55.577193,0.46943


In [102]:
df.head()

Unnamed: 0,id,texto,usuario,hashtags,fecha,retweets,favoritos,cantidad_hastags
0,12116719578733158,#BrechaAnuario2019 | Con cañón y coronel El vo...,SemanarioBrecha,"[BrechaAnuario2019, RelecturasDeUnAñoPerturbador]",2021-12-30 15:34:41,3,2,2
1,12116547084876964,"#BrechaAnuario2019 | Las PASO en Argentina ""Em...",SemanarioBrecha,[BrechaAnuario2019],2021-12-30 14:26:08,2,1,1
2,12116529643744993,#BrechaAnuario2019 | Bolsonaro contra la selva...,SemanarioBrecha,[BrechaAnuario2019],2021-12-30 14:19:12,3,2,1
3,12110290516301292,"#BrechaAnuario2019 | Aquí, los temas que apare...",SemanarioBrecha,"[BrechaAnuario2019, RelecturasDeUnAñoPerturbador]",2021-12-28 21:00:00,2,5,2
4,12107119614801142,#BrechaAnuario2019 | El mejor dibujante de his...,SemanarioBrecha,[BrechaAnuario2019],2021-12-28 00:00:00,0,4,1


In [103]:
# Guardar el DataFrame como un archivo CSV
df.to_csv('tweets_data.csv', index=False)

## Etapa 6: Acerca del funcionamiento del código

**Importa librerías:**
   - `pandas` para trabajar con DataFrames.
   - `json` para manejar archivos JSON.
   - `re` para operaciones con expresiones regulares.
   - `datetime` para trabajar con fechas y horas.
   - `Counter` para contar elementos en una lista.

**Lee un archivo JSON:**
   - Utiliza `json.load(file)` para cargar un archivo JSON llamado `tweets_extraction.json` que probablemente contiene datos de tweets.

**Valida la estructura de los datos:**
   - Verifica que cada tweet tenga ciertos campos como 'id', 'texto', 'usuario', 'hashtags', 'fecha', 'retweets', 'favoritos'. Utiliza un bucle `for` con `assert` para verificar esto.

**Explora la estructura de los datos:**
   - Define una función `explore_data` para explorar la estructura de los datos. Recorre los datos anidados (diccionarios y listas) para mostrar su estructura, tipo y ubicación en la jerarquía.

**Convierte tipos de datos:**
   - Modifica los tweets en `tweets_extraction` convirtiendo la cadena de fecha en formato `'%Y-%m-%dT%H:%M:%S.%fZ'` a objetos `datetime`. También convierte los campos 'retweets' y 'favoritos' de flotantes a enteros.

**Crea un DataFrame:**
   - Genera un DataFrame de Pandas con datos de ejemplo de tweets.

**Cuenta la cantidad máxima de hashtags:**
   - Utiliza expresiones regulares para encontrar y contar los hashtags en la columna 'texto' del DataFrame. Luego, encuentra la cantidad máxima de hashtags en un solo tweet y la imprime.