<a href="https://colab.research.google.com/github/sanar085/Proyectos/blob/main/bases_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Digitalización, estandarización y estructuración de datos lingüísticos



## Bases de datos

En esta práctica vamos a utilizar [SQLite](https://https://www.sqlite.org/).

Se trata de un gestor de base de datos que se define como rápido, ligero, autónomo, sin servidor y sin configuración. Es de dominio público y de uso gratuíto. Tiene una fácil integración con el lenguaje de programación Python. En este momento la versión más reciente es la 3.

En esta práctica vamos a crear 3 tablas para alojar
el corpus Spanish en su versión Base de datos. La base de datos se almacena en un único archivo de disco.

\Los siguientes comandos cargan las librarías necesarias.

In [None]:
import pandas as pd
import sqlite3

Consultamos que versión de SQLite se ha instalado.

In [None]:
sqlite3.sqlite_version

'3.37.2'

### 1. Crear la base de datos spanish.db

En este primer apartado vamos a crear una base de datos llamada spanish. En ella almacenaremos los datos del corpus.

El siguiente comando establece una conexión a una base de datos (en este caso a spanish.db), si no existe la crea primero.

In [None]:
con = sqlite3.connect('spanish.db')


En la variable '**con**' hemos guardado la conexión a la base de datos spanish.db. Lo utilizaremos cuando queramos hacer cualquier operación en la base de datos.

### 2. Lectura de los ficheros que contienen el corpus.

El siguente comando descarga la base de datos.
Se trata de tres ficheros con formato tsv (separados por tabuladores) en cofidificación UTF-8, llamados sources.txt, span-samples-lexicon.txt y database.txt.

In [None]:
!wget 'https://www.dropbox.com/scl/fo/o9j41po6kom8ord39pevh/h?rlkey=ldf65qk5d0m918la7qq78sjhj&dl=1' -O spanish.zip
!unzip spanish.zip


--2023-10-12 08:01:14--  https://www.dropbox.com/scl/fo/o9j41po6kom8ord39pevh/h?rlkey=ldf65qk5d0m918la7qq78sjhj&dl=1
Resolving www.dropbox.com (www.dropbox.com)... 162.125.5.18, 2620:100:601f:18::a27d:912
Connecting to www.dropbox.com (www.dropbox.com)|162.125.5.18|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://uc7b1ae89b7159c674755571aa0d.dl.dropboxusercontent.com/zip_download_get/Bo1W0c6hR2RueYdd3SfFbz5w2CJibMV56AFasXL1Kpo7ZcLEMYIDJqfLTYwPTVe7luM6PMcYFmMRA3stHH3PLYDBFA76LRzD1EWdBvOJkim4fw# [following]
--2023-10-12 08:01:16--  https://uc7b1ae89b7159c674755571aa0d.dl.dropboxusercontent.com/zip_download_get/Bo1W0c6hR2RueYdd3SfFbz5w2CJibMV56AFasXL1Kpo7ZcLEMYIDJqfLTYwPTVe7luM6PMcYFmMRA3stHH3PLYDBFA76LRzD1EWdBvOJkim4fw
Resolving uc7b1ae89b7159c674755571aa0d.dl.dropboxusercontent.com (uc7b1ae89b7159c674755571aa0d.dl.dropboxusercontent.com)... 162.125.5.15, 2620:100:601f:15::a27d:90f
Connecting to uc7b1ae89b7159c674755571aa0d.dl.dropboxusercontent.com 

Leemos a continuación los tres ficheros.

In [None]:
sources_data = pd.read_csv("sources.txt", index_col=0, sep='\t', encoding='UTF-8') # La cabecera en la primera fila, separados por tabuladores, cofificación UTF-8
lexicon_data = pd.read_csv("span-samples-lexicon.txt", index_col=0, sep='\t', encoding='UTF-8')
database_data = pd.read_csv("database.txt", index_col=0, sep='\t', encoding='UTF-8')

Vamos a ver qué aspecto tienen los datos cargados

In [None]:
sources_data

Unnamed: 0_level_0,#words,genre,country,website,url,title
textID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
124,268.0,b,AR,03442.com.ar,http://03442.com.ar/2013/07/gran-convocatoria-...,Gran convocatoria para el concurso docente que...
1124,679.0,b,AR,adnrionegro.com.ar,http://adnrionegro.com.ar/2012/06/weretilneck-...,Weretilneck anunció que se reforzará la seguri...
2124,1100.0,b,AR,agmer.org.ar,http://agmer.org.ar/index/4494-peccin-no-hay-u...,Peccín: “No hay un solo paso atrás” - Agmer
4124,3445.0,b,AR,bibliotecaignoria.blogspot.com,http://bibliotecaignoria.blogspot.com/2012/06/...,Mario Vargas Llosa: La desaparición del erotis...
5124,403.0,b,AR,argentina-actual.com.ar,http://argentina-actual.com.ar/noticias/el-cof...,El CoFeCA solicita a la Corte que se expida so...
...,...,...,...,...,...,...
2521124,809.0,g,NI,pinolerosports.com,http://www.pinolerosports.com/home.html,Pinolerosports.com
2522124,401.0,g,NI,radioabcstereo997.com,http://www.radioabcstereo997.com/beta2/noticia...,"“Volvimos solo por Justin”, dicen exintegrante..."
2523124,2151.0,g,NI,saladeprensamormona.org.ni,http://www.saladeprensamormona.org.ni/art%C3%A...,mormones - Sala de Prensa
2524124,883.0,g,NI,undp.org.ni,http://www.undp.org.ni/noticias/444,Evaluación revela resultados satisfactorios pa...


In [None]:
lexicon_data

Unnamed: 0_level_0,word,lemma,PoS
wID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,",","$,",y
2,de,de,e
3,.,$.,y
4,la,la,ld-fs
5,y,y,cc
...,...,...,...
11919160,@@975124,,
11921115,@@983124,,
11922840,@@989124,,
11924052,@@993124,,


In [None]:
database_data

Unnamed: 0_level_0,ID(seq),wID
textID,Unnamed: 1_level_1,Unnamed: 2_level_1
124,2511368388,11707993
124,2511368389,7634
124,2511368390,4419
124,2511368391,23
124,2511368392,7
...,...,...
2525124,771529315,23
2525124,771529316,37
2525124,771529317,568
2525124,771529318,3623


### 3. Creamos tablas para alojar los datos de los tres ficheros

Creamos a continuación una tabla para cada uno de los tres ficheros.

In [None]:
con.execute('''
CREATE TABLE sources(
             textID text,
             '#words' integer,
              genre text,
              country text,
              website text,
              url text,
              title text,
              PRIMARY KEY (textID));''')


print("Table created successfully");

Table created successfully


In [None]:
con.execute('''
CREATE TABLE lexicon(
             wID integer,
             word text,
             lemma text,
             PoS text,
             PRIMARY KEY (wID));''')


print("Table created successfully");

Table created successfully


In [None]:
con.execute('''
CREATE TABLE database(
                      textID text,
                      'ID(seq)' integer,
                       wID text,
                       PRIMARY KEY (textID,'ID(seq)'),
                       FOREIGN KEY (textID) REFERENCES sources (textID),
                       FOREIGN KEY (wID) REFERENCES lexicon (wID));''')


print("Table created successfully");


Table created successfully


In [None]:
#Por si fuese necesario borrar y volver a recrear las tablas
#con.execute('''DROP TABLE sources;''')
#con.execute('''DROP TABLE 'lexicon';''')
#con.execute('''DROP TABLE database;''')

¿Qué campos se han elegidos como clave principal en cada tabla?¿Qué campos se han elegido como claves extranjeras?


sources:

*   clave principal: textID

*   clave extranjera: no hay

lexicon:

*   clave principal: wID

*   clave extranjera: no hay

database:

*   clave principal: wID, ID(seq)

*   clave extranjera: textID, wID

### 4. Introducimos los datos de los ficheros en las tablas

Finalmente, añadimos los datos a las tablas recién creadas y los consultamos

Para la tabla sources:

In [None]:
sources_data.to_sql('sources', con, if_exists='append') #Añade los datos a la tabla, si esta existe

2103

In [None]:
pd.read_sql_query("SELECT * FROM 'sources'", con) # Las consultas SQL se ejecutan dentro del comando pd.read_sql_query( ), indicando la conexión a la base de datos (en este caso 'con').


Unnamed: 0,textID,#words,genre,country,website,url,title
0,124,268.0,b,AR,03442.com.ar,http://03442.com.ar/2013/07/gran-convocatoria-...,Gran convocatoria para el concurso docente que...
1,1124,679.0,b,AR,adnrionegro.com.ar,http://adnrionegro.com.ar/2012/06/weretilneck-...,Weretilneck anunció que se reforzará la seguri...
2,2124,1100.0,b,AR,agmer.org.ar,http://agmer.org.ar/index/4494-peccin-no-hay-u...,Peccín: “No hay un solo paso atrás” - Agmer
3,4124,3445.0,b,AR,bibliotecaignoria.blogspot.com,http://bibliotecaignoria.blogspot.com/2012/06/...,Mario Vargas Llosa: La desaparición del erotis...
4,5124,403.0,b,AR,argentina-actual.com.ar,http://argentina-actual.com.ar/noticias/el-cof...,El CoFeCA solicita a la Corte que se expida so...
...,...,...,...,...,...,...,...
2098,2521124,809.0,g,NI,pinolerosports.com,http://www.pinolerosports.com/home.html,Pinolerosports.com
2099,2522124,401.0,g,NI,radioabcstereo997.com,http://www.radioabcstereo997.com/beta2/noticia...,"“Volvimos solo por Justin”, dicen exintegrante..."
2100,2523124,2151.0,g,NI,saladeprensamormona.org.ni,http://www.saladeprensamormona.org.ni/art%C3%A...,mormones - Sala de Prensa
2101,2524124,883.0,g,NI,undp.org.ni,http://www.undp.org.ni/noticias/444,Evaluación revela resultados satisfactorios pa...


Para la tabla lexicon:

In [None]:
lexicon_data.to_sql('lexicon', con, if_exists='append')

141088

In [None]:
pd.read_sql_query("SELECT * FROM 'lexicon'", con)


Unnamed: 0,wID,word,lemma,PoS
0,1,",","$,",y
1,2,de,de,e
2,3,.,$.,y
3,4,la,la,ld-fs
4,5,y,y,cc
...,...,...,...,...
141083,11919160,@@975124,,
141084,11921115,@@983124,,
141085,11922840,@@989124,,
141086,11924052,@@993124,,


Para la tabla database:

In [None]:
database_data.to_sql('database', con, if_exists='append')

2344452

In [None]:
pd.read_sql_query("SELECT * FROM database", con)


Unnamed: 0,textID,ID(seq),wID
0,124,2511368388,11707993
1,124,2511368389,7634
2,124,2511368390,4419
3,124,2511368391,23
4,124,2511368392,7
...,...,...,...
2344447,2525124,771529315,23
2344448,2525124,771529316,37
2344449,2525124,771529317,568
2344450,2525124,771529318,3623


### 5. Consultas sobre la base de datos

A continuación se indica un ejemplo de consulta y se propone realizar otras consultas como ejercicio.

**Ejemplo:** Seleccionar en la tabla Lexicon todas las apariciones del lema ‘ser’ y mostrar el wID, word, lemma y PoS.

In [None]:
pd.read_sql_query("""SELECT wID, word, lemma, PoS
FROM lexicon
WHERE (((lemma)= 'ser'));""", con)


Unnamed: 0,wID,word,lemma,PoS
0,17,es,ser,vip-3s
1,52,son,ser,vip-3p
2,61,ser,ser,vr
3,96,Es,ser,vip-3s
4,98,era,ser,vii-1/3s
...,...,...,...,...
166,278615,fueseis,ser,vsj-2p
167,282182,ser,ser,o
168,312223,erase,ser,v
169,364965,FUISTE,ser,vis-2s


Fijarse que ponemos triple comillas (""") ya que la consulta ocupa más de una línea.

**Ejercicio**: Escribe una consulta SQL para seleccionar de la tabla lexicon el word, lemma y PoS de lentradas con lemas “ser” o “tener”.

In [None]:
# Escribe aquí tu respuesta
pd.read_sql_query("""SELECT wID, word, lemma, PoS
FROM lexicon
WHERE (((lemma)= 'ser' OR 'tener'));""", con)



Unnamed: 0,wID,word,lemma,PoS
0,17,es,ser,vip-3s
1,52,son,ser,vip-3p
2,61,ser,ser,vr
3,96,Es,ser,vip-3s
4,98,era,ser,vii-1/3s
...,...,...,...,...
166,278615,fueseis,ser,vsj-2p
167,282182,ser,ser,o
168,312223,erase,ser,v
169,364965,FUISTE,ser,vis-2s


**Ejercicio**: Escribe una consulta SQL sobre la tabla lexicon para seleccionar word, lemma y PoS de las palabras (word) que comiencen por la primera letra de tu nombre (es decir, si te llamas “César” será que comiencen por la letra “c” o si te llamas “Helena”, será que comiencen por la letra “h”) y sean verbos (es decir, su PoS comience por “v”).

In [None]:
# Escribe aquí tu respuesta
pd.read_sql_query("""SELECT word, lemma, PoS
FROM lexicon
WHERE (((lemma) like 's%') AND ((PoS) like 'v%'));""", con)



Unnamed: 0,word,lemma,PoS
0,es,ser,vip-3s
1,son,ser,vip-3p
2,ser,ser,vr
3,Es,ser,vip-3s
4,era,ser,vii-1/3s
...,...,...,...
2042,serví,servir,vis-1s
2043,Sirgo,sirgar,vip-1s
2044,supervalorado,supervalorar,vps-ms
2045,Suscitaría,suscitar,vc-1/3s


**Ejercicio**: Escribe una consulta SQL que muestre el código de país (codificado en el campo country de la tabla Sources) y el número de textos de ese país incluidos en la tabla Sources. Ayuda: En este caso es una consulta de agrupación (debe incluir la cláusula GROUP BY) y la función de agrupación COUNT en el SELECT.

In [None]:
# Escribe aquí tu respuesta
pd.read_sql_query("""SELECT country AS 'codigo_pais', COUNT(country) AS 'num_textos'
FROM sources
GROUP BY country ;""", con)



Unnamed: 0,codigo_pais,num_textos
0,AR,181
1,BO,44
2,CL,73
3,CO,184
4,CR,35
5,CU,49
6,DO,48
7,EC,66
8,ES,420
9,GT,61


**Ejercicio**: Escribe una consulta SQL que muestre los word y lemma (de la tabla lexicon) que aparecen en la web “butacaalcentro.blogspot.com”. Ayuda: Fijarse que las webs están en el campo wbbsite de la tabla sources. Para poder resolver la consutla necesitamos hacer un join que conecta la tabla lexicon con la tabla database y otro que conecte la tabla database con sources.

In [None]:
# Escribe aquí tu respuesta
pd.read_sql_query("""SELECT l.word, l.lemma
FROM lexicon AS l
JOIN database AS d ON l.wID=d.wID
JOIN sources AS s ON d.textID=s.textID
WHERE (website)= 'butacaalcentro.blogspot.com';""", con)


Unnamed: 0,word,lemma
0,@@6124,
1,Cuando,cuándo
2,estábamos,estar
3,en,en
4,el,el
...,...,...
1208,y,y
1209,deje,dejar
1210,este,este
1211,sabor,sabor


**Ejercicio**: Escribe una consulta SQL que muestre las websites que contengan el lema “paz”.

In [None]:
# Escribe aquí tu respuesta
pd.read_sql_query("""SELECT website
FROM sources AS s
JOIN database AS d ON d.textID=s.textID
JOIN lexicon AS l ON l.wID=d.wID
WHERE (lemma)='paz';""", con)



Unnamed: 0,website
0,daniel.kupervaser.com
1,daniel.kupervaser.com
2,serconcientes.blogspot.com
3,serconcientes.blogspot.com
4,serconcientes.blogspot.com
...,...
317,lapatria.com
318,lapatria.com
319,elnuevoempresario.com
320,manfut.org


**Ejercicio**: Escribe una consulta SQL que muestre el número de veces que aparece cada lemma, ordenado de mayor a menor número de apariciones, en los textos de los países de Argentina (country = “AR”) o México (country = “MX”). Ayuda: Debes agrupar por lema y contar, por ejemplo, los lexicon. Ordena por la cuenta de los lexicon de forma descendente.

In [None]:
# Escribe aquí tu respuesta
pd.read_sql_query("""SELECT l.lemma, COUNT(l.lemma) AS apariciones
FROM lexicon AS l
JOIN database AS d ON d.wID=l.wID
JOIN sources AS s ON s.textID=d.textID
WHERE ((s.country)='AR') OR ((s.country)='MX')
GROUP BY l.lemma
ORDER BY (apariciones) DESC;""", con)


Unnamed: 0,lemma,apariciones
0,de,28402
1,"$,",23016
2,el,22749
3,@,22031
4,la,19752
...,...,...
22463,.al,1
22464,&lt,1
22465,&gt,1
22466,%«,1
