# 2. Diario El Salvador - Insert values in the database

In [1]:
from datetime import date, datetime
from database_connection import database_connection

import numpy as np
import os
import pandas as pd

## Database connection

In [98]:
# database connection
database = database_connection()
cursor = database.cursor()

In [99]:
# access the datasase
cursor.execute(" USE el_salvador_database")

## Source table

- `source_id` Auto increment
- `source_name`
- `source_type`
- `link`

### Insert Diario El Salvador source in the database

In [9]:
sources = [('Diario El Salvador', 'Website', 'https://diarioelsalvador.com/')]

In [10]:
source_insert_query = 'INSERT INTO Sources(source_name, source_type, link) VALUES (%s, %s, %s)'

In [11]:
cursor.executemany(source_insert_query, sources)

### Show values in the database

In [12]:
# get source of articles
cursor.execute("SELECT * FROM Sources")

In [13]:
source_result = cursor.fetchall()
source_result

[(1, 'Diario El Salvador', 'Website', 'https://diarioelsalvador.com/')]

## Load dataframe

In [14]:
df = pd.read_csv('diario-el-salvador.csv')

## Category table

**Columns:**

- `category_id` (Auto increment)
- `name`
- `createAt`
- `updateAt` (opcional)

### Insert values in the database

In [15]:
category_df = df.category.copy()
category_df

0          dedeportes
1          dedeportes
2          dedeportes
3          dedeportes
4          dedeportes
             ...     
16281    deinnovacion
16282    deinnovacion
16283    deinnovacion
16284    deinnovacion
16285    deinnovacion
Name: category, Length: 16286, dtype: object

In [16]:
current_datetime = datetime.now()
current_date = date(current_datetime.year, current_datetime.month, current_datetime.day)
print(current_datetime)
print(current_date)

2023-11-30 21:20:55.108428
2023-11-30


In [17]:
category_df = df.category
category_df = category_df.reset_index()
category_df['create_at'] = current_date
category_df.set_index('index', inplace=True)
category_df

Unnamed: 0_level_0,category,create_at
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,dedeportes,2023-11-30
1,dedeportes,2023-11-30
2,dedeportes,2023-11-30
3,dedeportes,2023-11-30
4,dedeportes,2023-11-30
...,...,...
16281,deinnovacion,2023-11-30
16282,deinnovacion,2023-11-30
16283,deinnovacion,2023-11-30
16284,deinnovacion,2023-11-30


In [18]:
category_df.drop_duplicates(inplace=True)
category_df

Unnamed: 0_level_0,category,create_at
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,dedeportes,2023-11-30
1469,dediversion,2023-11-30
1932,deplaneta,2023-11-30
3242,dedinero,2023-11-30
3879,decomercio,2023-11-30
3944,depais,2023-11-30
7350,decultura,2023-11-30
7520,devida,2023-11-30
7747,depalabra,2023-11-30
8068,deinnovacion,2023-11-30


In [19]:
categories = category_df.values
cat_query_values = []
for category in categories:
    print(tuple(category))
    cat_query_values.append(tuple(category))

('dedeportes', datetime.date(2023, 11, 30))
('dediversion', datetime.date(2023, 11, 30))
('deplaneta', datetime.date(2023, 11, 30))
('dedinero', datetime.date(2023, 11, 30))
('decomercio', datetime.date(2023, 11, 30))
('depais', datetime.date(2023, 11, 30))
('decultura', datetime.date(2023, 11, 30))
('devida', datetime.date(2023, 11, 30))
('depalabra', datetime.date(2023, 11, 30))
('deinnovacion', datetime.date(2023, 11, 30))


In [20]:
cat_insert_query = 'INSERT INTO Categories(name, createAt) VALUES (%s, %s)'

In [21]:
cursor.executemany(cat_insert_query, cat_query_values)

In [22]:
database.commit()

### Show values in the database

In [23]:
cursor.execute("SELECT * FROM Categories")
categories_result = cursor.fetchall()

for result in categories_result:
  print(result)

(1, 'dedeportes', datetime.datetime(2023, 11, 30, 0, 0), None)
(2, 'dediversion', datetime.datetime(2023, 11, 30, 0, 0), None)
(3, 'deplaneta', datetime.datetime(2023, 11, 30, 0, 0), None)
(4, 'dedinero', datetime.datetime(2023, 11, 30, 0, 0), None)
(5, 'decomercio', datetime.datetime(2023, 11, 30, 0, 0), None)
(6, 'depais', datetime.datetime(2023, 11, 30, 0, 0), None)
(7, 'decultura', datetime.datetime(2023, 11, 30, 0, 0), None)
(8, 'devida', datetime.datetime(2023, 11, 30, 0, 0), None)
(9, 'depalabra', datetime.datetime(2023, 11, 30, 0, 0), None)
(10, 'deinnovacion', datetime.datetime(2023, 11, 30, 0, 0), None)


## Authors table

**Columns:**

- `author_id` (Auto increment)
- `handle`

### Insert values in the database

In [24]:
authors_df = df.author.copy()
authors_df

0                                          Jonathan Laguán
1                                             Raúl Recinos
2                                                      AFP
3                                        Graciela Guardado
4                                           Rafael Cárcamo
                               ...                        
16281                                      Mauricio Pineda
16282                                       Rocío Martínez
16283    René Francisco Martínez Granadino / Economista...
16284                                                  AFP
16285                                                  AFP
Name: author, Length: 16286, dtype: object

In [25]:
authors_df.drop_duplicates(inplace=True)
authors_df

0                                          Jonathan Laguán
1                                             Raúl Recinos
2                                                      AFP
3                                        Graciela Guardado
4                                           Rafael Cárcamo
                               ...                        
16085    Ricardo Sosa / Seguridad y criminología @jrica...
16091                              Agencias y Kevin Rivera
16130              Por Morena Valdez, ministra de Turismo.
16228             Ángel Rivera / Comunicador institucional
16260                                      Marcos Salguero
Name: author, Length: 805, dtype: object

In [26]:
for author in authors_df.values:
    author_query = f'INSERT INTO Authors(handle) VALUES (%s)'
    author = author,
    cursor.execute(author_query, author)

In [27]:
database.commit()

### Show values in the database

In [28]:
cursor.execute("SELECT * FROM Authors")
authors_result = cursor.fetchall()

for result in authors_result[:5]:
  print(result)

(1, 'Jonathan Laguán')
(2, 'Raúl Recinos')
(3, 'AFP')
(4, 'Graciela Guardado')
(5, 'Rafael Cárcamo')


## Articles table

**Columns:**

- `article_id` Auto increment
- `title`
- `content`
- `publication_date`
- `url`
- `updateAt` (opcional)
- `Categories_category_id`
- `Authors_author_id`
- `Sources_source_id`

In [29]:
df

Unnamed: 0,title,date,url,author,content,category
0,Así reaccionó Messi tras la victoria ante Bra...,2023-11-22,https://diarioelsalvador.com/asi-reacciono-mes...,Jonathan Laguán,Pese a que el triunfo de 0-1 de Argentina sobr...,dedeportes
1,Rebeca Duarte le da a El Salvador la segunda ...,2023-11-22,https://diarioelsalvador.com/rebeca-duarte-le-...,Raúl Recinos,La delegación salvadoreña que compite en los J...,dedeportes
2,Inter Miami de Messi y Al Nassr de Cristiano ...,2023-11-21,https://diarioelsalvador.com/inter-miami-de-me...,AFP,El Inter de Miami de Lionel Messi se enfrentar...,dedeportes
3,Scaloni prepara cambios en Argentina y advier...,2023-11-20,https://diarioelsalvador.com/scaloni-prepara-c...,Graciela Guardado,"«El equipo lo tengo decidido, pero todavía no ...",dedeportes
4,Uriel Canjura campeón del XIV Torneo Internac...,2023-11-19,https://diarioelsalvador.com/uriel-canjura-cam...,Rafael Cárcamo,"Uriel Canjura, medallista de bronce recienteme...",dedeportes
...,...,...,...,...,...,...
16281,Extracción de mareros y droga en la comunidad...,2022-12-26,https://diarioelsalvador.com/extraccion-de-mar...,Mauricio Pineda,Por tercer día consecutivo se ha mantenido la ...,deinnovacion
16282,Entregan ayuda económica a 104 familias de Sa...,2021-01-08,https://diarioelsalvador.com/entregan-ayuda-ec...,Rocío Martínez,"La mañana de este viernes 8 de enero, 104 fami...",deinnovacion
16283,No está a la venta,2021-12-11,https://diarioelsalvador.com/no-esta-a-la-vent...,René Francisco Martínez Granadino / Economista...,"En nuestro país, al referirse a la embajada se...",deinnovacion
16284,Honduras envía cientos de policías militares ...,2022-11-27,https://diarioelsalvador.com/honduras-envia-ci...,AFP,Los miembros de la Policía Militar de Orden Pú...,deinnovacion


### Replace the authors name to author_id

In [30]:
cursor.execute("SELECT * FROM Authors")
authors_result = cursor.fetchall()

for result in authors_result[:5]:
  print(result)

(1, 'Jonathan Laguán')
(2, 'Raúl Recinos')
(3, 'AFP')
(4, 'Graciela Guardado')
(5, 'Rafael Cárcamo')


In [31]:
authors_id = []
for author_name in df.author:
    for author_id, values in authors_result:
        if author_name == values:
            authors_id.append(author_id)

print(f'author_id array size: {len(authors_id)}')

author_id array size: 16286


In [32]:
df.author = authors_id
df

Unnamed: 0,title,date,url,author,content,category
0,Así reaccionó Messi tras la victoria ante Bra...,2023-11-22,https://diarioelsalvador.com/asi-reacciono-mes...,1,Pese a que el triunfo de 0-1 de Argentina sobr...,dedeportes
1,Rebeca Duarte le da a El Salvador la segunda ...,2023-11-22,https://diarioelsalvador.com/rebeca-duarte-le-...,2,La delegación salvadoreña que compite en los J...,dedeportes
2,Inter Miami de Messi y Al Nassr de Cristiano ...,2023-11-21,https://diarioelsalvador.com/inter-miami-de-me...,3,El Inter de Miami de Lionel Messi se enfrentar...,dedeportes
3,Scaloni prepara cambios en Argentina y advier...,2023-11-20,https://diarioelsalvador.com/scaloni-prepara-c...,4,"«El equipo lo tengo decidido, pero todavía no ...",dedeportes
4,Uriel Canjura campeón del XIV Torneo Internac...,2023-11-19,https://diarioelsalvador.com/uriel-canjura-cam...,5,"Uriel Canjura, medallista de bronce recienteme...",dedeportes
...,...,...,...,...,...,...
16281,Extracción de mareros y droga en la comunidad...,2022-12-26,https://diarioelsalvador.com/extraccion-de-mar...,150,Por tercer día consecutivo se ha mantenido la ...,deinnovacion
16282,Entregan ayuda económica a 104 familias de Sa...,2021-01-08,https://diarioelsalvador.com/entregan-ayuda-ec...,48,"La mañana de este viernes 8 de enero, 104 fami...",deinnovacion
16283,No está a la venta,2021-12-11,https://diarioelsalvador.com/no-esta-a-la-vent...,371,"En nuestro país, al referirse a la embajada se...",deinnovacion
16284,Honduras envía cientos de policías militares ...,2022-11-27,https://diarioelsalvador.com/honduras-envia-ci...,3,Los miembros de la Policía Militar de Orden Pú...,deinnovacion


### Replace the category name to category_id

In [33]:
cursor.execute("SELECT * FROM Categories")
categories_result = cursor.fetchall()

for result in categories_result[:5]:
  print(result)

(1, 'dedeportes', datetime.datetime(2023, 11, 30, 0, 0), None)
(2, 'dediversion', datetime.datetime(2023, 11, 30, 0, 0), None)
(3, 'deplaneta', datetime.datetime(2023, 11, 30, 0, 0), None)
(4, 'dedinero', datetime.datetime(2023, 11, 30, 0, 0), None)
(5, 'decomercio', datetime.datetime(2023, 11, 30, 0, 0), None)


In [34]:
categories_id = []
for category_name in df.category:
    for category_id, values, _, _ in categories_result:
        if category_name == values:
            categories_id.append(category_id)

print(f'categories_id array size: {len(categories_id)}')

categories_id array size: 16286


In [35]:
df.category = categories_id
df

Unnamed: 0,title,date,url,author,content,category
0,Así reaccionó Messi tras la victoria ante Bra...,2023-11-22,https://diarioelsalvador.com/asi-reacciono-mes...,1,Pese a que el triunfo de 0-1 de Argentina sobr...,1
1,Rebeca Duarte le da a El Salvador la segunda ...,2023-11-22,https://diarioelsalvador.com/rebeca-duarte-le-...,2,La delegación salvadoreña que compite en los J...,1
2,Inter Miami de Messi y Al Nassr de Cristiano ...,2023-11-21,https://diarioelsalvador.com/inter-miami-de-me...,3,El Inter de Miami de Lionel Messi se enfrentar...,1
3,Scaloni prepara cambios en Argentina y advier...,2023-11-20,https://diarioelsalvador.com/scaloni-prepara-c...,4,"«El equipo lo tengo decidido, pero todavía no ...",1
4,Uriel Canjura campeón del XIV Torneo Internac...,2023-11-19,https://diarioelsalvador.com/uriel-canjura-cam...,5,"Uriel Canjura, medallista de bronce recienteme...",1
...,...,...,...,...,...,...
16281,Extracción de mareros y droga en la comunidad...,2022-12-26,https://diarioelsalvador.com/extraccion-de-mar...,150,Por tercer día consecutivo se ha mantenido la ...,10
16282,Entregan ayuda económica a 104 familias de Sa...,2021-01-08,https://diarioelsalvador.com/entregan-ayuda-ec...,48,"La mañana de este viernes 8 de enero, 104 fami...",10
16283,No está a la venta,2021-12-11,https://diarioelsalvador.com/no-esta-a-la-vent...,371,"En nuestro país, al referirse a la embajada se...",10
16284,Honduras envía cientos de policías militares ...,2022-11-27,https://diarioelsalvador.com/honduras-envia-ci...,3,Los miembros de la Policía Militar de Orden Pú...,10


### Added source column

In [36]:
SOURCE = 'Diario El Salvador'

In [37]:
cursor.execute("SELECT * FROM Sources")
sources_result = cursor.fetchall()

for result in sources_result[:5]:
  print(result)

(1, 'Diario El Salvador', 'Website', 'https://diarioelsalvador.com/')


In [38]:
source_id = None
for id, name, _, _ in sources_result:
    if name == SOURCE:
        source_id = id
        break

if source_id is None:
    print(f'ERROR! The source_id is None.')

print(f'{SOURCE} - ID: {source_id}')

Diario El Salvador - ID: 1


In [39]:
if source_id is not None:
    df['source_id'] = source_id
else:
    print(f'ERROR! The source_id is None.')

df

Unnamed: 0,title,date,url,author,content,category,source_id
0,Así reaccionó Messi tras la victoria ante Bra...,2023-11-22,https://diarioelsalvador.com/asi-reacciono-mes...,1,Pese a que el triunfo de 0-1 de Argentina sobr...,1,1
1,Rebeca Duarte le da a El Salvador la segunda ...,2023-11-22,https://diarioelsalvador.com/rebeca-duarte-le-...,2,La delegación salvadoreña que compite en los J...,1,1
2,Inter Miami de Messi y Al Nassr de Cristiano ...,2023-11-21,https://diarioelsalvador.com/inter-miami-de-me...,3,El Inter de Miami de Lionel Messi se enfrentar...,1,1
3,Scaloni prepara cambios en Argentina y advier...,2023-11-20,https://diarioelsalvador.com/scaloni-prepara-c...,4,"«El equipo lo tengo decidido, pero todavía no ...",1,1
4,Uriel Canjura campeón del XIV Torneo Internac...,2023-11-19,https://diarioelsalvador.com/uriel-canjura-cam...,5,"Uriel Canjura, medallista de bronce recienteme...",1,1
...,...,...,...,...,...,...,...
16281,Extracción de mareros y droga en la comunidad...,2022-12-26,https://diarioelsalvador.com/extraccion-de-mar...,150,Por tercer día consecutivo se ha mantenido la ...,10,1
16282,Entregan ayuda económica a 104 familias de Sa...,2021-01-08,https://diarioelsalvador.com/entregan-ayuda-ec...,48,"La mañana de este viernes 8 de enero, 104 fami...",10,1
16283,No está a la venta,2021-12-11,https://diarioelsalvador.com/no-esta-a-la-vent...,371,"En nuestro país, al referirse a la embajada se...",10,1
16284,Honduras envía cientos de policías militares ...,2022-11-27,https://diarioelsalvador.com/honduras-envia-ci...,3,Los miembros de la Policía Militar de Orden Pú...,10,1


### Reorder of dataframe columns

In [40]:
df = df[['title', 'content', 'date', 'url', 'category', 'author', 'source_id']]
df

Unnamed: 0,title,content,date,url,category,author,source_id
0,Así reaccionó Messi tras la victoria ante Bra...,Pese a que el triunfo de 0-1 de Argentina sobr...,2023-11-22,https://diarioelsalvador.com/asi-reacciono-mes...,1,1,1
1,Rebeca Duarte le da a El Salvador la segunda ...,La delegación salvadoreña que compite en los J...,2023-11-22,https://diarioelsalvador.com/rebeca-duarte-le-...,1,2,1
2,Inter Miami de Messi y Al Nassr de Cristiano ...,El Inter de Miami de Lionel Messi se enfrentar...,2023-11-21,https://diarioelsalvador.com/inter-miami-de-me...,1,3,1
3,Scaloni prepara cambios en Argentina y advier...,"«El equipo lo tengo decidido, pero todavía no ...",2023-11-20,https://diarioelsalvador.com/scaloni-prepara-c...,1,4,1
4,Uriel Canjura campeón del XIV Torneo Internac...,"Uriel Canjura, medallista de bronce recienteme...",2023-11-19,https://diarioelsalvador.com/uriel-canjura-cam...,1,5,1
...,...,...,...,...,...,...,...
16281,Extracción de mareros y droga en la comunidad...,Por tercer día consecutivo se ha mantenido la ...,2022-12-26,https://diarioelsalvador.com/extraccion-de-mar...,10,150,1
16282,Entregan ayuda económica a 104 familias de Sa...,"La mañana de este viernes 8 de enero, 104 fami...",2021-01-08,https://diarioelsalvador.com/entregan-ayuda-ec...,10,48,1
16283,No está a la venta,"En nuestro país, al referirse a la embajada se...",2021-12-11,https://diarioelsalvador.com/no-esta-a-la-vent...,10,371,1
16284,Honduras envía cientos de policías militares ...,Los miembros de la Policía Militar de Orden Pú...,2022-11-27,https://diarioelsalvador.com/honduras-envia-ci...,10,3,1


### Insert values in the database

In [41]:
articles = []
for article in df.values:
    articles.append(tuple(article))

print(f'Numer of articles: {len(articles)}')

Numer of articles: 16286


In [42]:
article_insert_query = 'INSERT INTO Articles(title, content, publication_date, url, Categories_category_id, Authors_author_id, Sources_source_id) VALUES (%s, %s, %s, %s, %s, %s, %s)'

In [43]:
cursor.executemany(article_insert_query, articles)

In [44]:
database.commit()

### Show values in the database

In [45]:
cursor.execute("SELECT * FROM Articles")
articles_result = cursor.fetchall()

for result in articles_result[:5]:
  print(result)

(1, ' Así reaccionó Messi tras la victoria ante Brasil «marcada por la represión a los argentinos»', 'Pese a que el triunfo de 0-1 de Argentina sobre Brasil en el Estadio Maracaná, en Río de Janeiro, fue histórico, no todo ha sido fiesta en el mundo del fútbol debido a los hechos violentos registrados momentos antes de iniciar el encuentro disputado ayer martes. El inicio del partido se retrasó varios minutos debido a un altercado entre la policía brasileña y aficionados argentinos. Las imágenes de varias cadenas televisivas internacionales mostraron la represión de la que fueron objetos los hinchas de la albiceleste por parte de las autoridades brasileñas. A post shared by Leo Messi (@leomessi) Ante esto, Lionel Messi, capitán y máxima figura de Argentina, externó su condena a estos hechos y celebró con mesura la victoria, no dejando de remarcar que este tipo de incidentes no tienen cabida en la fiesta que debería ser cada partido de fútbol en el mundo. «Este equipo sigue haciendo his

In [46]:
database.close()

## Sources_has_Authors table

- `Sources_source_id`
- `Authors_author_id`

### Insert values in the database

In [80]:
source_author_df = df.author.copy()
source_author_df

0          1
1          2
2          3
3          4
4          5
        ... 
16281    150
16282     48
16283    371
16284      3
16285      3
Name: author, Length: 16286, dtype: int64

In [81]:
source_author_df.drop_duplicates(inplace=True)
source_author_df

0          1
1          2
2          3
3          4
4          5
        ... 
16085    801
16091    802
16130    803
16228    804
16260    805
Name: author, Length: 805, dtype: int64

In [82]:
source_author_df = source_author_df.reset_index()
if source_id is not None:
    source_author_df['source_id'] =  source_id
else:
    print(f'ERROR! The source_id is None.')

source_author_df.set_index('index', inplace=True)
source_author_df

Unnamed: 0_level_0,author,source_id
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1,1
1,2,1
2,3,1
3,4,1
4,5,1
...,...,...
16085,801,1
16091,802,1
16130,803,1
16228,804,1


In [83]:
source_author_df = source_author_df[['source_id', 'author']]
source_author_df

Unnamed: 0_level_0,source_id,author
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1,1
1,1,2
2,1,3
3,1,4
4,1,5
...,...,...
16085,1,801
16091,1,802
16130,1,803
16228,1,804


In [100]:
source_authors = []
for source_author in source_author_df.values:
    value1, value2 = source_author
    value1, value2 = int(value1), int(value2)
    
    source_authors.append((value1, value2))

print(f'source_author array size: {len(source_authors)}')

source_author array size: 805


In [101]:
source_authors_insert_query = 'INSERT INTO Sources_has_Authors(Sources_source_id, Authors_author_id) VALUES (%s, %s)'

In [102]:
cursor.executemany(source_authors_insert_query, source_authors)

In [103]:
database.commit()

In [104]:
database.close()