# Introducción al análisis de texto con Python

Introducción al Análisis de Texto con Python aprenderemos los conceptos básicos del análisis de texto:

- texto de análisis
- analizar el texto

Primero usaremos nuestra propia herramienta de análisis hecha en casa, luego usaremos una biblioteca de python llamada `TextBlob` para usar algunas herramientas de análisis integradas.


## ¡Scrabble!

<img src="https://upload.wikimedia.org/wikipedia/commons/5/5d/Scrabble_game_in_progress.jpg" ancho =500x>

Scrabble es un juego popular en el que los jugadores intentan sumar puntos deletreando palabras y colocándolas en el tablero de juego. Usaremos Scrabble para calificar nuestro primer intento de análisis de texto. Esto demostrará los conceptos básicos de cómo funciona el análisis de texto.

La siguiente función te da la puntuación de Scrabble de cualquier palabra que le des.

In [11]:
# Esta función devolverá la puntuación de Scrabble de una palabra

def scrabble_score(texto):
    
   #Diccionario de nuestras puntuaciones de scrabble
    puntuacion = {
        "a": 1,
        "b": 3,
        "c": 3,
        "d": 2,
        "e": 1,
        "f": 4,
        "g": 2,
        "h": 4,
        "i": 1,
        "j": 8,
        "k": 5,
        "l": 1,
        "m": 3,
        "n": 1,
        "o": 1,
        "p": 3,
        "q": 10,
        "r": 1,
        "s": 1,
        "t": 1,
        "u": 1,
        "v": 4,
        "w": 4,
        "x": 8,
        "y": 4,
        "z": 10,
        "\n": 0, #en caso de que un nuevo carácter de línea salte aquí
        " ":0 #normalmente las palabras sueltas no tienen espacios pero pondremos esto aquí por si acaso        
    }
    
    total_score = 0
    
    #Buscamos cada letra en el diccionario de puntuación y la sumamos a un total acumulado
    #para acortar nuestro diccionario, solo estamos usando letras minúsculas, por lo que debemos
    #cambiar toda nuestra entrada a minúsculas con .lower()
    for letra in texto:
        total_score = total_score + puntuacion[letra.lower()]
    
    return total_score

El análisis de texto es un proceso que consta de tres pasos básicos:
1. Identificar el texto  que le gustaría analizar
1. Aplica el análisis a tu texto preparado
1. Revisa los resultados

En nuestro ejemplo muy básico de Scrabble, solo estamos interesados ​​en encontrar los puntos que obtendríamos por deletrear una palabra específica.

En un ejemplo más complejo con un texto más grande, puede realizar cualquiera de los siguientes tipos de análisis:
- determinar el sentimiento (tono positivo/negativo) del texto
- cuantificar la complejidad de una pieza de escritura en función del vocabulario que utiliza
- determinar qué temas están en su corpus
- clasifique su texto en diferentes categorías en función de lo que trata

Por supuesto, hay muchos otros resultados diferentes que puede obtener al realizar un análisis de texto.

## Q1

Puntúe su nombre creando la variable de texto `name` en la línea 1.

¿Cuántos puntos obtienes por tu nombre? Complete la siguiente expresión para averiguar el puntaje de scrabble de su nombre

In [22]:
name = "Eduardo"
print("La puntuación de mi nombre es:", scrabble_score(name))

La puntuación de mi nombre es: 9


Califique el nombre de su mascota (o personaje favorito de una historia) creando la variable de texto `nombre_mascota` en la línea 1.
¿Tu nombre o el nombre de tu mascota tiene una puntuación más alta en Scrabble?

In [23]:
nombre_mascota = "Lila"
print("La puntuación del nombre de mi mascota es:",scrabble_score(nombre_mascota))

#¡Compara para ver cuál obtiene más puntos!
if scrabble_score(nombre_mascota) > scrabble_score(name):
    print("¡El nombre de mi mascota gana más puntos!")
else:
    print("Mi nombre obtiene más o igual cantidad de puntos que el nombre de mi mascota")

La puntuación del nombre de mi mascota es: 4
Mi nombre obtiene más o igual cantidad de puntos que el nombre de mi mascota


# Mas allá de lo básico

Acabamos de completar un análisis de texto muy básico en el que analizamos dos fragmentos de texto diferentes para ver cuál obtiene una puntuación más alta en Scrabble. Expandamos esta idea a un ejemplo más complejo usando la biblioteca de Python [TextBlob](https://textblob.readthedocs.io/en/dev/). Hay otras bibliotecas más complejas que puede usar para el análisis de texto, estamos usando soluciones más simples para que podamos pasar más tiempo mirando los resultados en comparación con la configuración del código.

# Instalación y carga de las bibliotecas

La siguiente celda instalará y cargará las bibliotecas requeridas que realizarán el análisis de texto.
Documentacion [NLTK](https://www.nltk.org/data.html)  es una plataforma líder para crear programas de Python para trabajar con datos de lenguaje humano.

In [27]:

%pip install textblob


from textblob import TextBlob

import pandas as pd
import nltk
from nltk.corpus import stopwords
import requests
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup

nltk.download('stopwords')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('brown')


#Let's make sure our previews show more information
pd.set_option('display.max_colwidth', 999)

#Classifier for laster 
from textblob.classifiers import NaiveBayesClassifier
from textblob import Word

Note: you may need to restart the kernel to use updated packages.


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Propietario\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Propietario\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Propietario\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\Propietario\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!


# Texto

![winnie_splash](https://raw.githubusercontent.com/BrockDSL/Text_Analysis_with_Python/master/winnie_splash.png)

Corpus es una forma elegante de decir el texto que vamos a ver. Limpiar un corpus y prepararlo para el análisis es una gran parte del proceso, una vez hecho esto, el resto es fácil. Para nuestro ejemplo, vamos a ver algunas entradas del [diario] de 1900 (https://dr.library.brocku.ca/handle/10464/7282) de Winnie Beam. La siguiente celda cargará este corpus en un marco de datos de Pandas y nos mostrará algunos enteros.

In [28]:
winnie_corpus = pd.read_csv('https://raw.githubusercontent.com/BrockDSL/Text_Analysis_with_Python/master/winnie_corpus.txt', header = None, delimiter="\t")
winnie_corpus.columns = ["page","date","entry"]
winnie_corpus['date'] = pd.to_datetime(winnie_corpus['date'])
winnie_corpus['entry'] = winnie_corpus.entry.astype(str)

#preview our top entries
winnie_corpus.head()

Unnamed: 0,page,date,entry
0,7,1900-01-01,"New Year. First day of 1900 Charlie Merritt died at Grand Forks British Columbia yesterday of typhoid fever. To-day is election day and pap went up about 3 o'clock and did not get back until nearly 10. He brought us some candy chocolate drops. We had a very fat goose for dinner, not a very young one. Had to have good teeth."
1,7,1900-01-02,"Went uptown in afternoon. Was up to Eckardt's but Miss Macfarlane was not there so I did not get what I wanted. Called at office and Nettie came home with me for tea. Mr Carman came over and borrowed my Mildred books. Then Leta came & borrowed my German Grammar as she forgot hers & left it at school before holiday. Papa, mamma, Nettie & I played crokinole. Mamma & I beat. The 2nd Contingent left for Toronto today to go to South Africa. Dr King's som went."
2,8,1900-01-03,"Mrs Trusty was here washing School started to-day, but I was not going this week. Mamma went to the church and then to Mrs Chatfields Took her the church books. The queen Street Baptist church had a service of praise this evening. Mrs Chapman is organist & Mrs Read-Muir sang Mrs George Armstrong has a daughter was born on New Year's day."
3,8,1900-01-04,"Went over to Carman's to have Ella go with me to Dunn's greenhouse. We went about half past three. I brought a primrose Miss Chaplin was in there. Mamma went to Mrs Klotz at home Beatrice helped. Papa & I went to Sunday School entertainment at night. Had a very long programme. There was a dialogue called ""Aunt Ketty's shopping which was good, and a shaving scene. Mr perry gave a tableful of prizes away. Beatrice came home with us. They had a drill of girls & they sang ""Soldiers of the Queen"""
4,9,1900-01-05,"Sweep day. I read ""At the Camerons"" in the ""Harper's Young People"" when mamma was sweeping. We had a beggar in afternoon asking for a few cents as he had a long way to go. Rats! Went over to Lee's in afternoon after eggs. Took a ""Young Ladies Journal"" Mrs Pay lent me. Her kitty has a sore tail. Mrs Malcolmson came after eggs when I was there. She got large sum of 2. Had some candy at night."
