<a href="https://colab.research.google.com/gist/marcusRB/f9a5e2b8f06d681280fb74e443306230/caso03-paragraph.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyParagraph

En este desafío, puedes desempeñar el papel de lingüista jefe en una academia de aprendizaje local. Como lingüista jefe, usted es responsable de evaluar la complejidad de varios pasajes de la escritura, que van desde la novela de Crepúsculo de segundo año hasta el artículo de investigación asquerosamente altruista. Después de haber leído tantos pasajes, desde entonces se le ocurrió un conjunto bastante simple de métricas para evaluar la complejidad.

Su tarea es crear una secuencia de comandos de Python para automatizar el análisis de cualquier pasaje de este tipo utilizando estas métricas. Su secuencia de comandos deberá hacer lo siguiente:

- Importe un archivo de texto con un párrafo de su elección.

- Evalúe el pasaje para cada uno de los siguientes:

  * Recuento aproximado de palabras

  * Recuento aproximado de oraciones

  * Recuento aproximado de letras (por palabra)

  * Longitud promedio de las oraciones (en palabras)

- Como ejemplo, este pasaje:
> “Adam Wayne, el conquistador, con el rostro echado hacia atrás y la melena como la de un león, estaba de pie con su gran espada apuntando hacia arriba, la ropa roja de su oficina aleteando a su alrededor como las alas rojas de un arcángel. Y el Rey vio, no supo cómo, algo nuevo y sobrecogedor. Los grandes árboles verdes y las grandes túnicas rojas se mecían juntas en el viento. La absurda mascarada, nacida de su propia burla, se elevaba sobre él y abrazaba al mundo. Esto era lo normal, esto era cordura, esto era naturaleza, y él mismo, con su racionalidad, y su desprendimiento y su levita negra, era la excepción y el accidente una mancha negra sobre un mundo de carmesí y oro. ”

... daría estos resultados:

```
Análisis de párrafo
-----------------
Recuento aproximado de palabras: 122
Recuento aproximado de oraciones: 5
Conteo promedio de letras: 4.6
Longitud promedio de la oración: 24.0
```

Dataset: 
- paragraph_1.txt, 
- paragraph_2.txt,
- test.txt

In [46]:
text = "Adam Wayne, the conqueror, with his face flung back and his mane like a lion's, stood with his great sword point upwards, the red raiment of his office flapping around him like the red wings of an archangel. And the King saw, he knew not how, something new and overwhelming. The great green trees and the great red robes swung together in the wind. The preposterous masquerade, born of his own mockery, towered over him and embraced the world. This was the normal, this was sanity, this was nature, and he himself, with his rationality, and his detachment and his black frock-coat, he was the exception and the accident a blot of black upon a world of crimson and gold."
print(text)

Adam Wayne, the conqueror, with his face flung back and his mane like a lion's, stood with his great sword point upwards, the red raiment of his office flapping around him like the red wings of an archangel. And the King saw, he knew not how, something new and overwhelming. The great green trees and the great red robes swung together in the wind. The preposterous masquerade, born of his own mockery, towered over him and embraced the world. This was the normal, this was sanity, this was nature, and he himself, with his rationality, and his detachment and his black frock-coat, he was the exception and the accident a blot of black upon a world of crimson and gold.


In [13]:
# Creo un set con todos los caracteres que no son letras del alfabeto
noAlpha = {char for char in text if char.isalpha() == False and char != ' '}
print(noAlpha)

{"'", ',', '.', '-'}


In [28]:
# Cuento las palabras
palabras = text
for char in noAlpha: palabras = palabras.replace(char, ' ')
print(palabras)
palabras = palabras.split()
# print(palabras)
numPalabras = len(palabras)
print(numPalabras)

Adam Wayne  the conqueror  with his face flung back and his mane like a lion s  stood with his great sword point upwards  the red raiment of his office flapping around him like the red wings of an archangel  And the King saw  he knew not how  something new and overwhelming  The great green trees and the great red robes swung together in the wind  The preposterous masquerade  born of his own mockery  towered over him and embraced the world  This was the normal  this was sanity  this was nature  and he himself  with his rationality  and his detachment and his black frock coat  he was the exception and the accident a blot of black upon a world of crimson and gold 
122


In [26]:
# Cuento las oraciones
oraciones = text.split('.')
for o in oraciones:
    if o == '': oraciones.remove(o)
numOraciones = len(oraciones)
print(numOraciones)

5


In [49]:
# Promedio de letras
# Creo que el resultado del ejemplo no es correcton(4.6)
numLetras = len(''.join(palabras))
promedio = round(numLetras / numPalabras, 1)
print(promedio)

4.3


In [39]:
# Longitud promedio de la oración: 24.0
promedioOracion = round(numPalabras / numOraciones, 0)
print(promedioOracion)

24.0


In [76]:
# Versión completa
from os import path

def textCounter(text, file):
    oraciones = text.split('.')
    for o in oraciones:
        if len(o) <= 1: oraciones.remove(o)
    numOraciones = len(oraciones)
    noAlpha = {char for char in text if char.isalpha() == False and char != ' '}
    for char in noAlpha: text = text.replace(char, ' ')
    palabras = text.split()
    numPalabras = len(palabras)
    numLetras = len(''.join(palabras))
    promedio = round(numLetras / numPalabras, 1)
    promedioOracion = round(numPalabras / numOraciones, 0)
    print(f'Análisis del archivo "{file}"')
    print(f'Recuento aproximado de palabras: {numPalabras}')
    print(f'Recuento aproximado de oraciones: {numOraciones}')
    print(f'Conteo promedio de letras: {promedio}')
    print(f'Longitud promedio de la oración: {promedioOracion}')
    print()

files = ('paragraph_1.txt', 
        'paragraph_2.txt',
        'test.txt')
for file in files:        
    filename = path.join('../dataset/', file)
    with open(filename, 'r', encoding='utf-8') as text:
        textCounter(text.read(), file)

Análisis del archivo "paragraph_1.txt"
Recuento aproximado de palabras: 132
Recuento aproximado de oraciones: 5
Conteo promedio de letras: 6.2
Longitud promedio de la oración: 26.0

Análisis del archivo "paragraph_2.txt"
Recuento aproximado de palabras: 289
Recuento aproximado de oraciones: 11
Conteo promedio de letras: 4.9
Longitud promedio de la oración: 26.0

Análisis del archivo "test.txt"
Recuento aproximado de palabras: 122
Recuento aproximado de oraciones: 5
Conteo promedio de letras: 4.3
Longitud promedio de la oración: 24.0

