# Análisis de Contenido con Python

El análisis de contenido es una técnica de investigación utilizada para descifrar información cualitativa en forma de texto. A través de técnicas específicas, podemos convertir texto en datos cuantitativos para su análisis. Python, con sus bibliotecas como NLTK y TextBlob, facilita este proceso.

## 1. Tokenización con NLTK

La tokenización es el proceso de dividir el texto en palabras individuales o tokens. Es el primer paso esencial para cualquier análisis de texto.

In [None]:
# Instalación y configuración inicial
!pip install nltk
import nltk
nltk.download('punkt')



[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.tokenize import word_tokenize

texto = "¡Hola, mundo del análisis de datos!"
tokens = word_tokenize(texto, language='spanish')
print(tokens)

['¡Hola', ',', 'mundo', 'del', 'análisis', 'de', 'datos', '!']


## 2. Eliminación de Stop Words

Las stop words son palabras comunes que generalmente no aportan significado al análisis, como "y", "la", "el" en español. Eliminarlas ayuda a concentrarse en las palabras importantes.

In [None]:
from nltk.corpus import stopwords
nltk.download('stopwords')

palabras_filtradas = [word for word in tokens if word.lower() not in stopwords.words('spanish')]
print(palabras_filtradas)

['¡Hola', ',', 'mundo', 'análisis', 'datos', '!']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## 3. Análisis de Frecuencia

El análisis de frecuencia nos permite identificar las palabras más comunes en un conjunto de datos, lo que puede ofrecer insights sobre el tema principal del contenido.

In [None]:
from nltk import FreqDist

frecuencia = FreqDist(palabras_filtradas)
print(frecuencia.most_common(5))

[('¡Hola', 1), (',', 1), ('mundo', 1), ('análisis', 1), ('datos', 1)]


## 4. Análisis de Sentimientos con TextBlob

El análisis de sentimientos se refiere a la identificación y extracción de opiniones dentro de un texto. Puede ayudarnos a determinar el tono general del contenido.

In [None]:
!pip install textblob
from textblob import TextBlob

blob = TextBlob("Este análisis es increíble!")
sentimiento = blob.sentiment.polarity
print("Positivo" if sentimiento > 0 else "Negativo" if sentimiento < 0 else "Neutral")

Neutral


## Ejemplo: Análisis de Sentimientos en Reseñas de Películas

Las reseñas de películas son una buena fuente de opiniones y sentimientos. Al analizar estas reseñas, podemos identificar tendencias en la percepción del público sobre ciertas películas o géneros. Este mismo análisis lo puedes aplicar a reseñas de tu e-commerce, comentarios de tus seguidores, etc.



In [None]:
# Instalación y configuración inicial
!pip install nltk

import nltk
nltk.download('movie_reviews')
from nltk.corpus import movie_reviews

# Obteniendo reseñas de películas
documentos = [(list(movie_reviews.words(fileid)), category)
              for category in movie_reviews.categories()
              for fileid in movie_reviews.fileids(category)]

# Tomamos solo las primeras 100 reseñas positivas y 100 negativas para el análisis
documentos_positivos = documentos[:100]
documentos_negativos = documentos[1000:1100]

# Procesamiento: Tokenización, eliminación de stop words y análisis de frecuencia
tokens_positivos = [word for doc in documentos_positivos for word in doc[0] if word.lower() not in stopwords.words('english')]
tokens_negativos = [word for doc in documentos_negativos for word in doc[0] if word.lower() not in stopwords.words('english')]

frecuencia_positivos = FreqDist(tokens_positivos)
frecuencia_negativos = FreqDist(tokens_negativos)

print("Palabras más comunes en reseñas positivas:", frecuencia_positivos.most_common(5))
print("Palabras más comunes en reseñas negativas:", frecuencia_negativos.most_common(5))




[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.


Palabras más comunes en reseñas positivas: [(',', 3485), ('.', 3139), ("'", 1602), ('"', 884), ('-', 735)]
Palabras más comunes en reseñas negativas: [(',', 4041), ('.', 3220), ("'", 1425), ('"', 791), ('-', 742)]


Este ejemplo procesa reseñas de películas del corpus movie_reviews de NLTK, identificando las palabras más comunes en reseñas positivas y negativas. Es una forma sencilla de entender qué palabras o temas son recurrentes en opiniones positivas o negativas.

Nota:

Los términos "corpus" y "dataset" en algunos contextos se utilizan de manera intercambiable. Sin embargo, hay matices sutiles en su significado:

+ **Corpus**: Se refiere específicamente a una colección de textos. Estos textos pueden ser de cualquier tipo: libros, artículos, transcripciones, etc. Un corpus es a menudo utilizado en lingüística y procesamiento del lenguaje natural (NLP) para estudiar patrones en el lenguaje.

+ **Dataset**: Es un término más general que se refiere a cualquier conjunto de datos, ya sea que contenga texto, números, imágenes, etc. Un dataset puede ser utilizado en cualquier campo que requiera análisis de datos, desde la ciencia de datos hasta la investigación académica y más allá.

Todo corpus es un dataset, pero no todo dataset es un corpus.

## Conclusión
¡Gracias por acompañarme en este recorrido por el análisis de contenido con Python! Espero que estos ejemplos y técnicas te sean útiles en tus futuros proyectos. El mundo del procesamiento del lenguaje natural y el análisis de datos es muy diverso y siempre hay algo nuevo que aprender.


Material desarrollado con base en la presentación: Data Analysis for Content Creators: Boost Your Audience & Improve Content

Por: Fernanda Ochoa.

Redes:
* GitHub: [FernandaOchoa](https://github.com/FernandaOchoa)
* Twitter: [@imonsh](https://twitter.com/imonsh)
* Instagram: [fherz8a](https://www.instagram.com/fherz8a/)
