# Descripción estadística del corpus





# Instalación de librerías

Se usarán las siguientes librerías de la sesión pasada:

* **PANDAS**: Análisis de datos.

* **NUMPY**: Creación de vectores y matrices. Procesamiento matemático.

* **SEABORN**: Librería para visualización de datos.

* **MATPLOTLIB** Librería para visualización de datos.

In [None]:
!pip install pandas
!pip install numpy
!pip install seaborn
!pip install matplotlib

# Importar librerías

Comando de la sesión anterior.

*  **import** LIBRARY.

Recordar que, si no es necesaria toda la librería, se puede importar solo una función de ella. Esto hace que el coste computacional y temporal sean más eficientes. La forma de hacerlo es la siguiente:

* **from** LIBRARY **import** PACKAGE.
* **from** OFFICE **import** WORD

In [None]:
import pandas as pd #es común que se usen abreviaturas para hacer más ligero el código. En este caso, se especifica con **as** ABREVIATURA
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os

# Cargar e instanciar corpus


In [None]:
corpus = pd.read_csv('CBspectral-measures.csv',  encoding='utf-8')
#corpus = pd.read_csv('Cuestionario.csv',  encoding='utf-8')

# Exploración y visualización del corpus

Se usarán los comandos de la sesión anterior para tener información sobre el corpus.

Recordar que la mayoría de estos comandos son funciones que se activan al crear variables y que ello hace que se activen herramientas específicas que leen la información de las variables, por ejemplo, .head, .info, .CABECERA.value_counts, etc.

In [None]:
corpus #primeras y últimas líneas del corpus

In [None]:
from matplotlib import pyplot as plt
import seaborn as sns
import pandas as pd
plt.subplots(figsize=(8, 8))
df_2dhist = pd.DataFrame({
    x_label: grp['asp'].value_counts()
    for x_label, grp in corpus.groupby('coda')
})
sns.heatmap(df_2dhist, cmap='viridis')
plt.xlabel('coda')
_ = plt.ylabel('asp')

In [None]:
from matplotlib import pyplot as plt
corpus['sF0'].plot(kind='hist', bins=20, title='sF0')
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
corpus.info()

In [None]:
corpus.Energy.value_counts()

In [None]:
corpus.voicing.unique()

In [None]:
corpus.voicing.value_counts()

In [None]:
corpus

In [None]:
corpus.rmul(2)    #método para multiplicar valores

## Otras funciones para visualizar los datos: histogramas

In [None]:
corpus.hist() #genera histogramas a partir de los datos del corpus

In [None]:
corpus.hist('duration') #para hacer el histograma de una columna específica
plt.savefig('duration.png') #guardar el histograma en FILE.png

In [None]:
corpus.hist('duration', 'window') #comparación de datos
plt.savefig('comparisson.pdf')

In [None]:
#ejemplo para guardar una muestra aleatoria del corpus
corpus_150 = corpus.sample(150) #guarda 150 líneas en la variable

#si se quiere guardar los datos que están en la variable, se puede usar el siguiente código
file1 = open ('corpus_150.txt', 'w')
file1.write(str((corpus_150)))
file1.close()

In [None]:
corpus_150

## Estadística general con la función .describe()

In [None]:
corpus.shape #columnas por filas

In [None]:
corpus.describe()


In [None]:
file2 = open ('corpus_describe.txt', 'w')
file2.write(str((corpus.describe())))
file2.close()

# Estadística descriptiva

Métricas descriptivas sobre los datos:


*   Media
*   Mediana
*   Moda
*   Desviación estándar
*   Varianza





In [None]:
corpus.sF0.mean()

In [None]:
corpus.sF0.median()

In [None]:
corpus.sF0.mode()

In [None]:
corpus.sF0.std()

In [None]:
corpus.sF0.var()

In [None]:
corpus.sF0.min()

In [None]:
 corpus.sF0.max()

In [None]:
corpus.sF0.quantile()

In [None]:
corpus.sF0.describe()

In [None]:
corpus.groupby('duration').agg({'Energy': ['mean', 'std', 'var']}).reset_index()

In [None]:
corpus.groupby('duration').agg({'sF0': ['mean']}).reset_index()

In [None]:
distN_Energy = sns.distplot(corpus.Energy)

In [None]:
distN_tone = sns.distplot(corpus.tone)

In [None]:
corpus.manner.value_counts()

# Anotación POS
En esta sección veremos cómo se puede anotar el corpus con etiquetas de categoría gramatical de forma automática e iterativa. Para ello, usaremos el software [TreeTagger](https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/).

In [None]:
lexicon = corpus['manner'].astype(str)
file2 = open ('lexicon.txt', 'w')
file2.write(str((lexicon)))
file2.close()

In [None]:
!sh install-tagger.sh

In [None]:
!echo 'this is a test' | cmd/tree-tagger-english-bnc

In [None]:
!cat lexicon.txt | cmd/tree-tagger-english-bnc > lexicon_annotated.txt

# Refuerzo

Replica los mismos procesos pero con los datos de un nuevo dataset.
Usa el archivo *experiencia.xlsx* para probar con la lectura de archivos de Excel.

In [None]:
datos = pd.read_excel('experiencia.xlsx')

In [None]:
datos

In [None]:
datos.describe()

In [None]:
datos.dtypes

In [None]:
vocabulario = datos['Preferencia']
file3 = open ('vocabulario.txt', 'w')
file3.write(str((vocabulario)))
file2.close()

In [None]:
!sh install-tagger.sh

In [None]:
!echo 'esta es la prueba de instalación' | cmd/tree-tagger-spanish

In [None]:
!cat vocabulario.txt | cmd/tree-tagger-spanish > vocabulario_annotated.txt