# Welcome to Wrangling Linguistic Data with Python 
This workshop will introduce you to the programming language Python and walk you through a typical workflow for converting raw text into an annotated linguistic dataset.  We will cover various computational tasks, including reading in raw text files, segmenting text into sentences and tokens, and annotating tokens for various levels of metadata. We will explore the types of linguistic annotation available in the NLP package SpaCy, such as part-of-speech, lemma, and syntactic function. After annotating texts, we will cover techniques for searching and filtering data and use regular expressions to look for word patterns. This workshop is designed to be accessible to both those who are new to programming as well as those who have experience programming.  

Let's start off with a quick survey to see what everyone's programming background is. https://forms.gle/DvzQnyWsPcuE4jQC6

## 0. Practicing with Objects and Functions
We will look at three types of objects here: 
* string - sequence of characters, marked by single (`'`) or double (`"`) quotes
* integer - interger 
* list - group of several objects together, marked by square brackets `[]`

In order to reference these objects within our code, we assign them to a variable, using equals sign (=) and then start using it. In order to manipulate and utlizes these objects, we apply functions and methods to them. In essence functions and methods transform something into something else. 

In [108]:
a = "This is a string" # let's assign this string to a variable called "a"
b = 4 # let's assign this integer to a variable called "b"
c = [a, b] # let's assign this list of objects to a variable called "c"

In [106]:
print(a) # use the print function to see what variable "a" is
print(b) # use the print function to see what variable "b" is
print(c) # use the print function to see what variable "c" is

This is a string
4
['This is a string', 4]


In [109]:
type(c) # use the type function to see what type of variable "a" is 

list

####  <font color=red>Your turn!</font> 
<font color=red> Create new variables of different types, print them, and verify their types using the `print` and `type` functions. Create a list. Play around with numbers with decimals. What is that variable type called?</font> 

<font color=dark red> **Advanced:** Play around with the function `len()` on lists and strings. What does this function do? Try adding integers together and strings together with `+`. What happens? Can you at integers and strings together? </font> 

2

## 1. Reading in Data
We first need to read our file so we can access our data. The type of file your data is in determines what function you should use to read in your data. We will read in several sample files from the Davies Corpus that are readily accessible at https://www.corpusdata.org/formats.asp

#### Basic Reading in Data
First we create an object for the file with the `open` function and then we read it into a variable with the `read` function. 

In [110]:
f = open("Data/sp_short_text.txt")
data = f.read()

####  <font color=red>Your turn!</font> 
<font color=red> What type of variable is `data`? Do you notice anything strange about the text?</font>  

<font color=red> Practice reading in another file from the data folder. Be sure to name it something other than `data` so it does not overwrite the previous file.</font> 

<font color=dark red> **Advanced:** Practice reading in another file using the `.readlines()` function. What does this do?</font> 
 

## 2. Cleaning Data

After reading in a data file, it is important look at the data read in to see if there are any encoding issues or other textual isses that need to be addressed. The Spanish Sample text above contains random insertions of the symbol "@". This is something we need to remove before we process the data. 
We will use a new function, `replace` from the `re` package to sustitute the symbols we wish to remove with nothing. First we will import this package using the `import` function. 

In [111]:
data_clean = data.replace("@", "")
data_clean

'textID\ttext\n----\t----\n\n124 Gran convocatoria para el concurso docente que se realiza en la Escuela Normal Con una inmensa convocatoria de docentes , convocada desde la 7.30 de este lunes en el salón de actos de la Escuela Normal Mariano Moreno , se realizó la primera jornada de el concurso para titularización de los cargos . El día comenzó con las palabras de bienvenidas de las autoridades , quienes hablaron de cientos de docentes que presentaron sus documentos que deben ser analizados por las autoridades . Los cargos fueron 138 , pero esa suma se incrementó debido a que muchos realizaron cambio de escuelas , abriendo otras oportunidades . Las jornadas continuaran este martes debido , precisamente , a el enorme número de docentes presentes . Estuvieron , la presidenta de el CGE , Graciela Bar , el profesor Héctor de la Fuente , vocal de presidencia , el secretario general de Agmer Fabián Peccín y la directora Departamental de Escuela , María del Carmen Tourfini de Córdoba . Más a

####  <font color=red>Your turn!</font> 
<font color=red> Did this solve the problem completely? If not, how might you fix it? What other elements might you want to remove? </font>  

####  <font color=dark red>Advanced</font> 
<font color= dark red> What is we also wanted to remove the numbers that follow @@? We can use a new function, `re.sub` from the `re` package to use [regular expressions](https://www.w3schools.com/python/python_regex.asp). First we need to import the package using the `import` function. 
    
What regular expression is needed to identify the sequences @@124 @@1124, etc.? </font>  

In [None]:
import re
data_clean = re.sub("@ ", "", data) #remove all @

## 3. Annotating Data
We will use the Spacy package to create annotated linguistic data. If you have not used this package before, you will first need to install it via the console. You can send a command to the console by prefixing it with "!" or alternatively opening up your console and typing the command there. You only need to do this once on a given computer. 

In [None]:
#! conda install -c conda-forge spacy
! python -m spacy download en_core_web_sm
! python -m spacy download pt_core_news_sm
! python -m spacy download es_core_news_sm

Import the Spacy module and create an object for each language you will use, Spanish, English, etc. 

In [None]:
import spacy
nlp_en = spacy.load("en_core_web_sm")
nlp_sp = spacy.load("es_core_news_sm")

Use the `nlp_sp` function to create a Spacy Object from the data. Which variable should we use? `data` or `data_clean`

In [None]:
#data_spacy = nlp_sp(data)
data_spacy = nlp_sp(data_clean)
type(data_spacy)
print(data_spacy)

### Tokenization
Let's look at how the data_spacy object divides a text into sentences and tokens. But first we need to learn about loops

#### Loops
If we want to look at every element of a list and perform a repeated task, we use a loop.  

The general structure is:
```
for <element> in <list>:
    <do something>
    ...
```
This `for`-loop tells Python to take each element from a `list`, call it `element`, and then do the things that follow to it. Note that the words **`for`** and **`in`** are reserved words, meaning that you should not use them as a variable name. The colon at the end of the line is important part of the syntax and the following indent. It tells Python that everything that comes afterwards is what you want to do with each element.

In [116]:
fruits = ["apples", "bananas", "pears"]

for item in fruits:
    print(item)

In [None]:
cap_fruits = []
for item in fruits:
    cap_item = item.capitalize()
    cap_fruits.append(cap_item)

####  <font color=red>Your turn!</font> 
<font color=red> Create a loop that takes each element, deletes the 's' and prints the result. Bonus try the `.upper()` and `.swapcase()` functions to see what they do. </font>  

Let's go back to tokenization. The data_spacy object is like a list in that you can loop over it to access each token.

In [98]:
# at the word level

for token in data_spacy: 
    print(token.text)

for index, token in enumerate(data_spacy):
    print(index, token.text)

@@124
Gran
convocatoria
para
el
concurso
docente
que
se
realiza
en
la
Escuela
Normal
Con
una
inmensa
convocatoria
de
docentes
,
convocada
desde
la
7.30
de
este
lunes
en
el
salón
de
actos
de
la
Escuela
Normal
Mariano
Moreno
,
se
realizó
la
primera
jornada
de
el
concurso
para
titularización
de
los
cargos
.
El
día
comenzó
con
las
palabras
de
bienvenidas
de
las
autoridades
,
quienes
hablaron
de
cientos
de
docentes
que
presentaron
sus
documentos
que
deben
ser
analizados
por
las
autoridades
.
Los
cargos
fueron
138
,
pero
esa
suma
se
incrementó
debido
a
que
muchos
realizaron
cambio
de
escuelas
,
abriendo
otras
oportunidades
.
Las
jornadas
continuaran
este
martes
debido
,
precisamente
,
a
el
enorme
número
de
docentes
presentes
.
Estuvieron
,
la
presidenta
de
el
CGE
,
Graciela
Bar
,
el
profesor
Héctor
de
la
Fuente
,
vocal
de
presidencia
,
el
secretario
general
de
Agmer
Fabián
Peccín
y
la
directora
Departamental
de
Escuela
,
María
del
Carmen
Tourfini
de
Córdoba
.
Más
allá
de
esta
actividad
,
des

de
manera
irrestricta
de
la
Ley
8732
de
jubilaciones
y
Pensiones
.
Le
decimos
NO
a
la
armonización
con
el
Estado
nacional
.
-
Repudiamos
la
decisión
política
de
el
descuento
de
los
días
de
huelga
,
entendiendo
que
coartan
el
legítimo
derecho
a
la
huelga
y
a
todo
el
andamiaje
normativo
de
el
CGE
montado
para
penalizar
la
decisión
de
lucha
de
los
docentes
.
-
Defendemos
el
derecho
histórico
conseguido
por
la
lucha
sindical
de
el
Decreto
1318
/
96
y
exigimos
la
plena
vigencia
de
el
mismo
.
-
Solicitamos
la
implementación
de
la
propuesta
de
reforma
tributaria
de
la
CTA
Entre
Ríos
que
plantea
profundizar
los
impuestos
más
progresivos
,
desactivar
aquellos
que
son
regresivos
,
recaudar
entre
los
que
más
ganan
y
por
ende
los
que
más
tienen
.
-
Exigimos
un
mayor
incremento
de
el
presupuesto
educativo
que
sostenga
las
políticas
públicas
que
deben
garantizar
el
derecho
social
a
la
educación
de
todas
y
todos
extractivas
que
afectan
el
medio
ambiente
como
el
frackin
y
a
el
modelo
de
explotación
ag

,
también
un
límite
violado
el
cual
se
vuelve
sufrimiento
y
muerte
.
Yo
descubrí
que
el
erotismo
estaba
inseparablemente
unido
a
la
libertad
humana
,
pero
también
a
la
violencia
,
leyendo
a
los
grandes
maestros
de
la
literatura
erótica
que
reunió
Guillaume
Apollinaire
en
la
colección
que
dirigió
(
prologando
y
traduciendo
algunos
de
sus
volúmenes
)
con
el
título
Les
maîtres
de
l'amour
.
Ocurrió
en
Lima
,
hacia
1955
.
Acababa
de
casar
me
por
primera
vez
y
debí
acumular
varios
trabajos
a
fin
de
ganar
me
la
vida
.
Llegué
a
tener
ocho
,
al
mismo
tiempo
que
continuaba
mis
estudios
universitarios
.
El
más
pintoresco
de
el
os
era
fichar
los
muertos
de
los
cuarteles
coloniales
de
el
cementerio
Presbítero
Maestro
,
de
Lima
,
cuyos
nombres
habían
desaparecido
de
los
archivos
de
la
Beneficencia
.
Lo
hacía
domingos
y
días
feriados
,
yéndo
me
a
el
cementerio
equipado
con
una
escalerita
,
fichas
y
lápices
.
Después
de
con
los
nombres
y
fechas
,
y
la
Beneficencia
Pública
de
Lima
me
pagaba
por
muerto


181 de
182 próximas
183 actividades
184 :
185 Miércoles
186 31
187 de
188 Julio
189 entrega
190 de
191 material
192 .
193 Miércoles
194 31
195 de
196 Julio
197 :
198 Asamblea
199 de
200 dos
201 horas
202 por
203 turno
204 para
205 las
206 escuelas
207 nocturnas
208 .
209 Jueves
210 1
211 de
212 Agosto
213 :
214 Asamblea
215 de
216 dos
217 horas
218 por
219 turno
220 en
221 las
222 Escuelas
223 de
224 los
225 Turnos
226 Mañana
227 y
228 Tarde
229 .
230 Jueves
231 1
232 de
233 Agosto
234 a
235 las
236 18:00
237 :
238 Asamblea
239 Resolutiva
240 en
241 la
242 Seccional
243 .
244 Viernes
245 2
246 de
247 Agosto
248 a
249 las
250 09:00
251 :
252 Congreso
253 Provincial
254 en
255 Colón
256 ,
257 donde
258 se
259 tratará
260 la
261 contra
262 propuesta
263 realizada
264 por
265 el
266 Gobierno
267 de
268 la
269 Provincia
270 ,
271 que
272 llevó
273 a
274 la
275 suspensión
276 de
277 el
278 para
279 programado
280 para
281 el
282 reinicio
283 de
284 clases
285 ,
286 tras
287 las
288 vacacione

1181 de
1182 la
1183 organización
1184 colectiva
1185 ,
1186 basada
1187 en
1188 la
1189 unidad
1190 y
1191 en
1192 la
1193 toma
1194 de
1195 decisiones
1196 participativa
1197 y
1198 democrática
1199 ,
1200 que
1201 es
1202 el
1203 acumulado
1204 desde
1205 este
1206 lugar
1207 ,
1208 esta
1209 conducción
1210 viene
1211 a
1212 plantear
1213 a
1214 el
1215 Gobierno
1216 provincial
1217 que
1218 no
1219 hay
1220 un
1221 solo
1222 paso
1223 atrás
1224 ,
1225 que
1226 no
1227 estamos
1228 dispuestos
1229 a
1230 retroceder
1231 un
1232 milímetro
1233 en
1234 las
1235 conquistas
1236 que
1237 hemos
1238 conseguido
1239 y
1240 que
1241 vamos
1242 a
1243 defender
1244 este
1245 proceso
1246 histórico
1247 en
1248 marcha
1249 que
1250 fuimos
1251 capaces
1252 de
1253 construir
1254 los
1255 trabajadores
1256 y
1257 el
1258 pueblo
1259 argentino
1260 .
1261 Venimos
1262 a
1263 decir
1264 que
1265 somos
1266 los
1267 trabajadores
1268 los
1269 que
1270 bancamos
1271 y
1272 demandamos
1273 las
1

2180 intelectual
2181 ,
2182 ha
2183 sucedido
2184 también
2185 con
2186 el
2187 sexo
2188 .
2189 La
2190 civilización
2191 de
2192 el
2193 espectáculo
2194 no
2195 sólo
2196 ha
2197 dado
2198 el
2199 puntillazo
2200 a
2201 la
2202 vieja
2203 cultura
2204 ;
2205 asimismo
2206 está
2207 destruyendo
2208 una
2209 de
2210 sus
2211 manifestaciones
2212 y
2213 logros
2214 más
2215 excelsos
2216 :
2217 el
2218 erotismo
2219 .
2220 Un
2221 ejemplo
2222 ,
2223 entre
2224 mil
2225 .
2226 A
2227 finales
2228 de
2229 2009
2230 hubo
2231 un
2232 pequeño
2233 alboroto
2234 mediático
2235 en
2236 España
2237 a
2238 el
2239 descubrir
2240 se
2241 que
2242 la
2243 Junta
2244 de
2245 Extremadura
2246 ,
2247 en
2248 manos
2249 de
2250 los
2251 socialistas
2252 ,
2253 había
2254 organizado
2255 ,
2256 dentro
2257 de
2258 su
2259 plan
2260 de
2261 educación
2262 sexual
2263 de
2264 los
2265 escolares
2266 ,
2267 unos
2268 tal
2269 eres
2270 de
2271 masturbación
2272 para
2273 niños
2274 y
2275 niñas
2276 

3180 un
3181 nuevo
3182 eslabón
3183 en
3184 el
3185 movimiento
3186 que
3187 ,
3188 para
3189 poner
3190 le
3191 una
3192 fecha
3193 de
3194 nacimiento
3195 (
3196 aunque
3197 en
3198 verdad
3199 es
3200 anterior
3201 )
3202 ,
3203 comenzó
3204 en
3205 París
3206 en
3207 Mayo
3208 de
3209 1968
3210 y
3211 pretende
3212 poner
3213 fin
3214 a
3215 los
3216 obstáculos
3217 y
3218 prevenciones
3219 de
3220 carácter
3221 religioso
3222 e
3223 ideológico
3224 que
3225 ,
3226 desde
3227 tiempos
3228 inveterados
3229 ,
3230 han
3231 reprimido
3232 la
3233 vida
3234 sexual
3235 provocando
3236 innumerables
3237 sufrimientos
3238 ,
3239 sobre
3240 todo
3241 a
3242 las
3243 mujeres
3244 y
3245 a
3246 las
3247 minorías
3248 sexuales
3249 ,
3250 así
3251 como
3252 frustración
3253 ,
3254 neurosis
3255 y
3256 otros
3257 desequilibrios
3258 psíquicos
3259 en
3260 quienes
3261 ,
3262 debido
3263 a
3264 la
3265 rigidez
3266 de
3267 la
3268 moral
3269 reinante
3270 ,
3271 se
3272 han
3273 visto
3274 di

4421 el
4422 cementerio
4423 Presbítero
4424 Maestro
4425 ,
4426 de
4427 Lima
4428 ,
4429 cuyos
4430 nombres
4431 habían
4432 desaparecido
4433 de
4434 los
4435 archivos
4436 de
4437 la
4438 Beneficencia
4439 .
4440 Lo
4441 hacía
4442 domingos
4443 y
4444 días
4445 feriados
4446 ,
4447 yéndo
4448 me
4449 a
4450 el
4451 cementerio
4452 equipado
4453 con
4454 una
4455 escalerita
4456 ,
4457 fichas
4458 y
4459 lápices
4460 .
4461 Después
4462 de
4463 con
4464 los
4465 nombres
4466 y
4467 fechas
4468 ,
4469 y
4470 la
4471 Beneficencia
4472 Pública
4473 de
4474 Lima
4475 me
4476 pagaba
4477 por
4478 muerto
4479 .
4480 Pero
4481 el
4482 más
4483 grato
4484 de
4485 mis
4486 ocho
4487 trabajos
4488 alimenticios
4489 no
4490 fue
4491 éste
4492 sino
4493 el
4494 de
4495 ayudante
4496 de
4497 bibliotecario
4498 de
4499 el
4500 Club
4501 Nacional
4502 .
4503 El
4504 bibliotecario
4505 era
4506 mi
4507 maestro
4508 ,
4509 el
4510 historiador
4511 Raúl
4512 Porras
4513 Barrenechea
4514 .
4515 Mis
45

5330 teatral
5331 que
5332 inflama
5333 su
5334 placer
5335 con
5336 un
5337 aderezo
5338 de
5339 desafío
5340 y
5341 libertad
5342 ,
5343 a
5344 la
5345 vez
5346 que
5347 preserva
5348 a
5349 el
5350 sexo
5351 el
5352 estatuto
5353 de
5354 quehacer
5355 velado
5356 ,
5357 confidencial
5358 y
5359 secreto
5360 .
5361 Sin
5362 el
5363 cuidado
5364 de
5365 las
5366 formas
5367 ,
5368 de
5369 ese
5370 ritual
5371 que
5372 ,
5373 a
5374 la
5375 vez
5376 que
5377 enriquece
5378 ,
5379 prolonga
5380 y
5381 sublima
5382 el
5383 placer
5384 ,
5385 el
5386 acto
5387 sexual
5388 retorna
5389 a
5390 ser
5391 un
5392 ejercicio
5393 puramente
5394 físico
5395 -
5396 -
5397 una
5398 pulsión
5399 de
5400 la
5401 naturaleza
5402 en
5403 el
5404 organismo
5405 humano
5406 de
5407 la
5408 que
5409 el
5410 hombre
5411 y
5412 la
5413 mujer
5414 son
5415 meros
5416 instrumentos
5417 pasivos
5418 -
5419 el
5420 o
5421 nos
5422 ilustra
5423 ,
5424 sin
5425 pretender
5426 lo
5427 ni
5428 saber
5429 lo
5430 ,


In [97]:
# at the sentence level

for index, sent in enumerate(data_spacy.sents): # Loops
    print(index, sent.text)
    
#[sent.text for sent in data_spacy.sents] # List Comprehension - ADVANCED

len(data_spacy) # number of tokens in the text

0 @@124 Gran convocatoria para el concurso docente que se realiza en la Escuela Normal Con una inmensa convocatoria de docentes , convocada desde la 7.30 de este lunes en el salón de actos de la Escuela Normal Mariano Moreno , se realizó la primera jornada de el concurso para titularización de los cargos .
1 El día comenzó con las palabras de bienvenidas de las autoridades , quienes hablaron de cientos de docentes que presentaron sus documentos que deben ser analizados por las autoridades .
2 Los cargos fueron 138 , pero esa suma se incrementó debido a que muchos realizaron cambio de escuelas , abriendo otras oportunidades .
3 Las jornadas continuaran este martes debido , precisamente , a el enorme número de docentes presentes .
4 Estuvieron , la presidenta de el CGE , Graciela Bar , el profesor Héctor de la Fuente , vocal de presidencia , el secretario general de Agmer Fabián Peccín y la directora Departamental de Escuela , María del Carmen Tourfini de Córdoba .
5 Más allá de esta act

6251

### POS Tags
Spacy has two types of POS tags.
* POS: The simple [UPOS](https://universaldependencies.org/docs/u/pos/) part-of-speech tag.
* Tag: The detailed part-of-speech tag.

In [None]:
for index, token in enumerate(data_spacy): # Loop
    print(index, token.text, token.pos_, token.tag_)

In [None]:
# Advanced, find all verbs
for token in data_spacy:
    if token.pos_ == "VERB":
        print(token.text)
print("Verbs:", [token.lemma_ for token in data_spacy if token.pos_ == "VERB"]) # Advanced

### Named Entities

In [None]:
for token in data_spacy: # Loop
    print(token.text, token.ent_iob_)


In [None]:
for ent in data_spacy.ents:
    print(ent.text, ent.label_)

### Other Annotations

In [None]:
[(token, token.is_stop) for token in data_spacy] # Stop words
[(token, token.lemma_) for token in data_spacy] # Lemmas
[(token, token.dep_) for token in data_spacy] # dependencies

In [None]:
# Analyze syntax
print("Noun phrases:", [chunk.text for chunk in data_spacy.noun_chunks])

In [None]:
from spacy import displacy
doc = nlp_en("This is a sentence.")
displacy.serve(doc, style="dep")

### Your turn

Read in a new documents. 


Explore these documents. How many words are in each? What is the distribution of POS tags? How accurate is the tokenization and the pos tagging for the CS_interview and CS_novel?

## 4. Creating a dataframe
After exploring the annotation levels available in Spacy, we can create a dataframe that contains the information we are interested in. We will use the `pandas` package to create a dataframe and then output of dataframe into a csv file that can be read into R for statistical analysis.First we will import the `pandas` package using the `import` function.

In [92]:
import pandas as pd

df = pd.DataFrame()
df['Token'] = [token.text for token in data_spacy]
df['POS'] = [token.pos_ for token in data_spacy]
df['NE'] = [token.ent_iob_ for token in data_spacy]
df['Lemma'] = [token.lemma_ for token in data_spacy]
df['Tag'] = [token.tag_ for token in data_spacy]

df


Unnamed: 0,Token,POS,NE,Lemma,Tag
0,@@124,PUNCT,B,@@124,PUNCT__PunctType=Comm
1,Gran,ADJ,I,Gran,ADJ
2,convocatoria,NOUN,O,convocatorio,NOUN__Gender=Fem|Number=Sing
3,para,ADP,O,parir,ADP__AdpType=Prep
4,el,DET,O,el,DET__Definite=Def|Gender=Masc|Number=Sing|Pron...
...,...,...,...,...,...
6246,trackback,NOUN,O,trackback,NOUN__Gender=Masc|Number=Sing
6247,desde,ADP,O,desde,ADP__AdpType=Prep
6248,su,DET,O,su,DET__Number=Sing|Person=3|Poss=Yes|PronType=Prs
6249,sitio,NOUN,O,sitiar,NOUN__Gender=Masc|Number=Sing


#### <font color=red>Your turn!</font> 

<font color=red>Create a dataframe with a column for POS, NE, and Lemma</font>  

<font color=dark red> **Advanced** 
    
Create a dataframe only of the nouns appearing in the text. Have a column for lemma, NE and _is_stop annotations. Can you also create a column containing the sentence each noun comes from?</font>  
 

## 5. Outputing data

In [96]:
df.to_csv(r'Data/SpacyDF.csv', index=None, header=True)