# **Análisis Computacional de Datos Lingüísticos**
### Javier Vera Zúñiga, javier.vera@pucv.cl
## **Clase 4**
### Manejo de archivos: **texto + tablas!**

## Parte A. **(diccionarios desde) pandas!**
### [link Glottolog](https://glottolog.org/)
### [link pandas](https://pandas.pydata.org/)

In [6]:
## usemos pandas!
## recomendación: trate siempre de usar pandas para datos tabulados!!! (al menos para leer datos)

import pandas as pd

In [7]:
## https://glottolog.org/meta/downloads
## noten que "langs" queda como un objeto del tipo "data frame"

langs = pd.read_csv('languages_and_dialects_geo.csv',sep=',')

In [8]:
langs

Unnamed: 0,glottocode,name,isocodes,level,macroarea,latitude,longitude
0,3adt1234,3Ad-Tekles,,dialect,Africa,,
1,aala1237,Aalawa,,dialect,Papunesia,,
2,aant1238,Aantantara,,dialect,Papunesia,,
3,aari1239,Aari,aiw,language,Africa,5.95034,36.5721
4,aari1240,Aariya,aay,language,Eurasia,,
...,...,...,...,...,...,...,...
21324,zuwa1238,Zuwadza,,dialect,Papunesia,,
21325,zwal1238,Zwall,,dialect,Africa,,
21326,zyph1238,Zyphe,zyp,language,Eurasia,22.52400,93.2640
21327,zyud1238,Zyuzdin,,dialect,Eurasia,,


In [9]:
## miremos las columnas

langs.columns

Index(['glottocode', 'name', 'isocodes', 'level', 'macroarea', 'latitude',
       'longitude'],
      dtype='object')

In [10]:
## nos quedamos con un dataframe con dos columnas: iso vs glottocode
## elmiminamos los NaN

iso_glotto = langs[['isocodes','glottocode']]
iso_glotto = iso_glotto.dropna()

In [11]:
iso_glotto

Unnamed: 0,isocodes,glottocode
3,aiw,aari1239
4,aay,aari1240
5,aas,aasa1238
11,kbt,abad1241
13,abg,abag1245
...,...,...
21311,zuy,zuma1239
21313,jmb,zumb1240
21318,zun,zuni1245
21319,zzj,zuoj1238


In [12]:
## ¿Cómo hacemos un diccionario?

## diccionario iso:glottocode

## manera sofisticada

iso_glotto1 = dict(zip(iso_glotto['isocodes'], iso_glotto['glottocode']))

## manera menos sofisticada (no hay una mejor que otra). En general, se prefiere que los códigos sean más
## cortos. Sin embargo, también se vuelven más crípticos. Hay que encontrar un balance :)

iso = list(iso_glotto['isocodes'])
glotto = list(iso_glotto['glottocode'])

iso_glotto_pairs = []

for i in range(len(iso)):
    iso_glotto_pairs += [[iso[i],glotto[i]]]

iso_glotto2 = {item[0]:item[1] for item in iso_glotto_pairs}

In [13]:
iso_glotto1['arn']

'mapu1245'

In [14]:
iso_glotto2['arn']

'mapu1245'

In [15]:
## ¿Cómo podemos filtrar solo las lenguas de América?

## filtramos por lenguas de las Américas

macroarea = langs[['isocodes','macroarea']]
macroarea = macroarea.dropna()

In [16]:
## a la manera sofisticada
## ejercicio: hacerlo de la forma no sofisticada!!!

macroarea = dict(zip(macroarea['isocodes'], macroarea['macroarea']))

In [17]:
areas_list = list(macroarea.values())

In [18]:
## extraigamos los values de macroarea

## forma sofisticada

areas = set(macroarea.values())

In [19]:
areas

{'Africa',
 'Australia',
 'Eurasia',
 'North America',
 'Papunesia',
 'South America'}

In [20]:
## forma no sofisticada

areas = []

for value in macroarea.values():
    if value not in areas:
        areas = areas + [value]

In [21]:
areas

['Africa',
 'Eurasia',
 'Papunesia',
 'South America',
 'North America',
 'Australia']

In [22]:
## ¿Cómo podemos filtrar iso_glotto2 solo con lenguas que tengan macroarea 'North America' y 'South America'?

## nos quedamos con los keys que estén en el diccionario macroarea
iso_glotto2 = {iso:iso_glotto2[iso] for iso in iso_glotto2.keys() if iso in macroarea.keys()}

In [23]:
## nos quedamos con los keys que tengan macroarea[key] in ['North America','South America']
iso_glotto2 = {iso:iso_glotto2[iso] for iso in iso_glotto2.keys() if macroarea[iso] in ['North America','South America']}

In [24]:
len(iso_glotto2)

1260

In [25]:
## y si queremos guardar iso_glotto2? usamos pickle!!!

import pickle

pickle.dump(iso_glotto2,open('iso_glotto.p','wb'))

In [26]:
## ¿Cómo leemos datos pickle?

iso_glotto = pickle.load(open('iso_glotto.p','rb'))

##### otra información de Glottolog :)

In [29]:
## Objetivo: mirar languoids!
## https://glottolog.org/meta/downloads

languoids = pd.read_csv('languoid.csv',sep=',')

In [30]:
languoids

Unnamed: 0,id,family_id,parent_id,name,bookkeeping,level,latitude,longitude,iso639P3code,description,markup_description,child_family_count,child_language_count,child_dialect_count,country_ids
0,3adt1234,afro1255,nort3292,3Ad-Tekles,False,dialect,,,,,,0,0,0,
1,aala1237,aust1307,ramo1244,Aalawa,False,dialect,,,,,,0,0,0,
2,aant1238,nucl1709,nort2920,Aantantara,False,dialect,,,,,,0,0,0,
3,aari1238,sout2845,ahkk1235,Aari-Gayil,False,family,,,aiz,,,0,2,0,
4,aari1239,sout2845,aari1238,Aari,False,language,5.95034,36.5721,aiw,,,0,0,0,ET
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25434,zuti1239,tupi1275,guaj1255,Guajajára of Zutiua,False,dialect,,,,,,0,0,0,
25435,zuwa1238,koia1260,omie1241,Zuwadza,False,dialect,,,,,,0,0,0,
25436,zwal1238,atla1278,shal1242,Zwall,False,dialect,,,,,,0,0,0,
25437,zyph1238,sino1245,nucl1757,Zyphe,False,language,22.52400,93.2640,zyp,,,0,0,2,IN MM


In [31]:
## filtremos languoids según los keys de iso_glotto :)

languoids = languoids[languoids['iso639P3code'].isin(iso_glotto.keys())]

In [32]:
languoids

Unnamed: 0,id,family_id,parent_id,name,bookkeeping,level,latitude,longitude,iso639P3code,description,markup_description,child_family_count,child_language_count,child_dialect_count,country_ids
49,abip1241,guai1249,guai1250,Abipon,False,language,-29.000000,-61.000000,axb,,,0,0,0,AR
50,abis1238,,,Aewa,False,language,-1.284096,-75.084405,ash,,,0,0,0,PE
84,acat1239,otom1299,west2948,Acatepec Me'phaa,False,language,17.103400,-99.060200,tpx,,,0,0,3,MX
88,acha1250,araw1281,piap1247,Achagua,False,language,4.386490,-72.200500,aca,,,0,0,0,CO
92,ache1246,tupi1275,tupi1277,Aché,False,language,-25.586500,-56.469700,guq,,,0,0,0,PY
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25287,zapa1253,zapa1251,zapa1252,Záparo,False,language,-1.998710,-76.364000,zro,,,0,0,0,EC PE
25331,zenz1235,otom1299,core1263,Zenzontepec Chatino,False,language,16.527990,-97.455460,czn,,,0,0,0,MX
25389,zoee1240,tupi1275,zoee1241,Zo'é,False,language,-1.772080,-55.507460,pto,,,0,0,0,BR
25397,zoog1238,otom1299,cajo1239,Zoogocho Zapotec,False,language,17.201600,-96.343300,zpq,,,0,0,3,MX US


## Parte 2. Análisis de los datos de Lenguas Andinas

### C. Datos de Lenguas Andinas
#### actualizados al domingo 16 de agosto :)

#### Leamos los datos. Es bueno pensar (siempre) si los datos pueden leerse con pandas (es bien cómodo)

In [24]:
## usamos pandas para leer .csv

import pandas as pd 

In [25]:
## leemos los datos de rasgos 

datos_lenguas = pd.read_csv('TablaDominios.csv',sep=';')

In [26]:
datos_lenguas

## miren columnas y filas (una matriz!!!) ¿Qué ideas nos da la forma que tienen los datos? Pensemos en las estructura que
## ya conocemos!!! diccionarios, listas, if, for, ...

Unnamed: 0,Correlativo,Dominio,Lengua,TipoRasgo,ValorRasgo
0,1,2,1,1,6
1,2,2,2,1,6
2,3,2,4,1,6
3,4,2,5,1,6
4,5,2,7,1,6
...,...,...,...,...,...
407,460,4,45,3,1
408,461,4,45,4,2
409,458,4,45,1,6
410,141,4,46,2,1


In [27]:
## leemos las lenguas

lenguas_areas = pd.read_csv('LenguasAndinas.csv',sep='\t')

In [28]:
lenguas_areas

Unnamed: 0,Correlativo,Nombre Lengua,Región Lengua,País,Coordenadas Geográficas
0,1,Mapudungun,Andes Sur,Chile,-
1,2,Quechua Ancash,Quechua I,Varios,-
2,3,Quechua de Cajamarca,Quechua IIA,Perú,-
3,4,Quechua Ecuatoriano,Quechua IIB,Ecuador,-
4,5,Quechua Ayacuchano,Quechua IIC,Perú,-
...,...,...,...,...,...
68,69,Xavante karaja,Amazonía,Brasil,-
69,70,Bora,Amazonía,Perú y Colombia,-
70,71,Sabané,Amazonía,Brasil,-
71,72,aguarana wampis,Amazonía,Perú,-


#### Ordenamos los datos: en esto, hay muchas muchas opciones. Una podría ser usar "pandas". Sin embargo, para saber usar pandas es necesario (idealmente) saber usar algunas cosas básicas de Python. Es un círculo en que (según mi impresión) es mejor aprender un poco de **Python** primero. 

In [29]:
## primero, miremos los nombres de las lenguas

lenguas_areas = lenguas_areas[['Correlativo','Nombre Lengua','Región Lengua']]

In [30]:
lenguas_areas

Unnamed: 0,Correlativo,Nombre Lengua,Región Lengua
0,1,Mapudungun,Andes Sur
1,2,Quechua Ancash,Quechua I
2,3,Quechua de Cajamarca,Quechua IIA
3,4,Quechua Ecuatoriano,Quechua IIB
4,5,Quechua Ayacuchano,Quechua IIC
...,...,...,...
68,69,Xavante karaja,Amazonía
69,70,Bora,Amazonía
70,71,Sabané,Amazonía
71,72,aguarana wampis,Amazonía


In [31]:
## construyamos un diccionario numero:nombre lengua

numero = [num for num in lenguas_areas['Correlativo']]
nombre = [area for area in lenguas_areas['Nombre Lengua']]

In [32]:
## juntemos las dos listas

numero_nombre = [[numero[i],nombre[i]] for i in range(len(numero))]

In [33]:
## transformemos esto en diccionario

numero_nombre = {item[0]:item[1] for item in numero_nombre}

In [34]:
numero_nombre[1]

'Mapudungun'

In [35]:
## miremos ahora los dominios de los datos

dominios = []

## extraemos la columna
columna_dom = [dom for dom in datos_lenguas['Dominio']]

## recorremos la columna y agregamos solo los datos que no tenemos
for dom in columna_dom:
    if dom not in dominios:
        dominios = dominios + [dom]

In [36]:
dominios

[2, 3, 4]

#### Miremos el dominio "estructura argumental"

In [37]:
## filtramos por dominio 4 (estructura argumental)

dominio_negacion = datos_lenguas[datos_lenguas['Dominio']==4]

dominio_negacion = datos_lenguas[['Lengua','TipoRasgo','ValorRasgo']]

In [38]:
dominio_negacion

Unnamed: 0,Lengua,TipoRasgo,ValorRasgo
0,1,1,6
1,2,1,6
2,4,1,6
3,5,1,6
4,7,1,6
...,...,...,...
407,45,3,1
408,45,4,2
409,45,1,6
410,46,2,1


In [39]:
## lenguas que tienen información de EA

datos_lenguas_neg = [lengua for lengua in dominio_negacion['Lengua']]

In [40]:
lenguas = []

for lengua in datos_lenguas_neg:
    if lengua not in lenguas:
        lenguas = lenguas + [lengua]

In [41]:
## diccionario donde guardamos los datos

D_negacion = {lengua:{} for lengua in lenguas}

##### usemos loc en pandas :) 
[link útil](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) 
[otro link útil](https://www.w3resource.com/pandas/dataframe/dataframe-loc.php)

In [42]:
## miremos una mini base de datos en pandas

df = pd.DataFrame([[2, 3], [5, 6], [8, 9]],
     index=[1, 2, 3],
     columns=['altura', 'peso'])

In [43]:
df

Unnamed: 0,altura,peso
1,2,3
2,5,6
3,8,9


In [44]:
## algunos simples ejercicios
## altura del primer individuo

df.loc[1,'altura']

2

In [45]:
## individuos que tengan altura mayor a 4

df.loc[df['altura']>4]

Unnamed: 0,altura,peso
2,5,6
3,8,9


In [46]:
## en este ciclo for recorremos los datos con el índice "i". Fíjense que D_negación fue definido como
## un diccionario de lenguas, donde cada value es otro diccionario que guarda los tipos de rasgos
## y sus valores. 


for i in dominio_negacion.index:
    D_negacion[dominio_negacion.loc[i,'Lengua']][dominio_negacion.loc[i,'TipoRasgo']]=dominio_negacion.loc[i,'ValorRasgo']

In [47]:
D_negacion

{1: {1: 2, 2: 4, 3: 1, 4: 2, 5: 1, 7: 1, 8: 1, 9: 1, 10: 1, 11: 1},
 2: {1: 2, 2: 4, 3: 1, 4: 2, 7: 1, 8: 1, 9: 3, 11: 4},
 4: {1: 6, 3: 1, 7: 1, 9: 3, 10: 2},
 5: {1: 6, 2: 8, 3: 1, 5: 1, 7: 1, 8: 1, 9: 3, 4: 2},
 7: {1: 6, 3: 2, 4: 1, 5: 1, 8: 1, 9: 3, 11: 4, 2: 8},
 8: {1: 6, 3: 2, 4: 2, 5: 1, 8: 1, 9: 1, 11: 4, 2: 8},
 9: {1: 1, 3: 1, 4: 1, 8: 1, 9: 4, 2: 1},
 10: {1: 1, 3: 1, 7: 1, 8: 1, 9: 4, 10: 1, 11: 2, 2: 1, 4: 0},
 11: {1: 2, 3: 1, 4: 4, 8: 2, 9: 2, 10: 1, 11: 2, 2: 4},
 12: {1: 1, 3: 2, 4: 3, 7: 1, 8: 5, 9: 4, 10: 1, 11: 4, 2: 1},
 17: {1: 1, 3: 1, 4: 1, 7: 2, 8: 2, 10: 1, 11: 3},
 19: {1: 2},
 20: {1: 2},
 21: {1: 2, 3: 1, 4: 2, 7: 2, 8: 2, 9: 2, 10: 1, 11: 2, 2: 3},
 22: {1: 4},
 23: {1: 3, 3: 1, 4: 2, 7: 2, 8: 2, 9: 4, 10: 1, 11: 5},
 25: {1: 1, 3: 1, 7: 2, 8: 2, 9: 4, 10: 1, 11: 3, 2: 1},
 26: {1: 2, 5: 1, 7: 2, 8: 2, 9: 4, 10: 1, 11: 2, 2: 4},
 27: {1: 1, 3: 3, 7: 1, 8: 3, 9: 4, 10: 1, 11: 5, 2: 2},
 28: {1: 4, 7: 2, 8: 2, 9: 2, 10: 3, 11: 2},
 29: {1: 3, 3: 1, 7: 1, 8