# Cuaderno Anexo: Conceptos Clave para Text Mining con Python

## Conceptos Clave para Análisis de Textos con Python

## Objetivos de Aprendizaje

Al finalizar este cuaderno podrás:

1. Manipular estructuras de datos clave en Python
2. Aplicar operaciones básicas con Pandas
3. Interpretar visualizaciones de análisis textual
4. Relacionar estos conceptos con el proyecto de Casciari

## ¿Cómo Usar Este Cuaderno?

1. **Ejecuta** las celdas en orden
2. **Experimenta** modificando los ejemplos
3. **Conecta** los conceptos con el proyecto principal
4. **Resuelve** los ejercicios prácticos

In [None]:
# Creación
palabras = ["libro", "padre", "fútbol", "escritura"]
print("Lista original:", palabras)

# Operaciones básicas
palabras.append("familia")  # Añadir elemento
print("Después de append:", palabras)

# Acceso por índice
print("\nPrimera palabra:", palabras[0])
print("Última palabra:", palabras[-1])

Ejercicio 1: Modificación de Listas

Instrucciones: Agrega tres palabras más a la lista y muéstralas.

### Diccionarios: Pares clave-valor

In [None]:
# Creación
autor = {
    "nombre": "Hernán Casciari",
    "año_nacimiento": 1971,
    "obras": ["Más respeto que soy tu madre", "El amor es más fuerte"]
}

# Acceso
print("\nDiccionario del autor:")
print("Nombre:", autor["nombre"])
print("Primera obra:", autor["obras"][0])

# Modificación
autor["ciudad"] = "Buenos Aires"  # Añadir nueva clave
print("\nDiccionario actualizado:", autor)

Ejercicio 2: Modificación de Diccionarios

Instrucciones: Añade un par clave-valor para el autor que indique "nacionalidad" y luego imprímilo.

## Introducción a Pandas DataFrames

### Qué es un DataFrame y cómo funciona Pandas

Un DataFrame es como una tabla de Excel dentro de Python - es la estructura principal que usamos en Pandas para trabajar con datos organizados en filas y columnas.

In [None]:
# Ejemplo visual de un DataFrame simple
import pandas as pd

# Cargamos datos reales (ejemplo simplificado)
casciari_data = {
    'Año': [2004, 2005, 2006],
    'Palabra_clave': ['padre', 'fútbol', 'escritura'],
    'Frecuencia': [45, 32, 28]
}

df_casciari = pd.DataFrame(casciari_data)

In [None]:
# Por columna
print(df_casciari['Palabra_clave'])

In [None]:
# Por fila
print(df_casciari.iloc[0])  # Primera fila

In [None]:
# Por condición
print(df_casciari[df_casciari['Frecuencia'] > 28])

Características clave:

    * Cada columna tiene un nombre (como 'Nombre', 'Edad')

    * Cada fila representa un registro o observación

    * Podemos acceder a los datos de diferentes maneras:

Analogía útil:
Imagina que el DataFrame es una tabla SQL o una hoja de cálculo donde:

    * Las columnas son variables (como nombre, edad)

    * Las filas son observaciones o registros individuales

Ejercicio 3: Manipulación de DataFrames

Instrucciones: Añadí una columna "Género" al DataFrame con valores "Ficción" para todos los registros.

###Visualización de Datos

Ejemplo: Usando Matplotlib para Visualización

In [None]:
import matplotlib.pyplot as plt

# Visualización simple de las frecuencias
plt.bar(df_casciari['Palabra_clave'], df_casciari['Frecuencia'])
plt.title('Frecuencia de Palabras Clave')
plt.xlabel('Palabras Clave')
plt.ylabel('Frecuencia')
plt.show()

Ejercicio 4: Crear Gráficas

Instrucciones: Crea una gráfica que muestre la relación entre el "Año" y la "Frecuencia".

### Lambda functions y apply()

Una lambda function es una función pequeña y anónima (sin nombre) que podemos crear "al vuelo".

In [None]:
# Función normal
def sumar_cinco(x):
    return x + 5

In [None]:
# Equivalente con lambda
lambda x: x + 5

¿Por qué usamos lambda con apply()?

apply() nos permite aplicar una función a cada elemento de una columna o fila del DataFrame. Las lambdas son perfectas para esto porque son sencillas.

In [None]:
# Ejemplo práctico con nuestro DataFrame anterior
df_casciari['Frecuencia_relativa'] = df_casciari['Frecuencia'].apply(lambda x: x/max(df_casciari['Frecuencia']))

In [None]:
print("\nDatos de Casciari procesados:")
print(df_casciari)

Desglose paso a paso:

    * df['Edad'] selecciona la columna Edad

    * .apply() aplicará una función a cada valor

    * lambda x: x + 5 es la función que suma 5 a cada valor

Ejemplo más complejo del notebook:

In [None]:
round1 = lambda x: clean_text_round1(x)

Esto equivale a:

In [None]:
def round1(x):
    return clean_text_round1(x)

Ejercicio 5: Uso de apply()

Instrucciones: Usa apply() para añadir una nueva columna "Frecuencia_cuadrado" que contenga el cuadrado de las frecuencias.

### Estructuras de datos clave: Diccionarios y Listas

Listas

Son colecciones ordenadas y modificables de elementos.

In [None]:
# Creación
frutas = ['manzana', 'banana', 'naranja']

In [None]:
# Acceso
print(frutas[0])  # 'manzana' (índices comienzan en 0)

In [None]:
# Modificación
frutas.append('pera')  # Añade al final
frutas[1] = 'kiwi'     # Modifica un elemento

Diccionarios

Almacenan pares clave-valor (como un mapa o objeto).

In [None]:
# Creación
persona = {
    'nombre': 'Carlos',
    'edad': 30,
    'ciudad': 'Buenos Aires'
}

In [None]:
# Acceso
print(persona['nombre'])  # 'Carlos'

In [None]:
# Modificación
persona['edad'] = 31      # Actualiza valor
persona['ocupacion'] = 'Data Scientist'  # Añade nuevo par

### Ejemplo practico integrado

In [None]:
# 1. Creemos una lista de diccionarios
estudiantes = [
    {'nombre': 'Ana', 'nota': 85},
    {'nombre': 'Juan', 'nota': 72},
    {'nombre': 'María', 'nota': 91}
]

In [None]:
# 2. Convertimos a DataFrame
import pandas as pd
df_estudiantes = pd.DataFrame(estudiantes)

In [None]:
# 3. Usamos apply() con lambda para añadir columna
df_estudiantes['estado'] = df_estudiantes['nota'].apply(
    lambda x: 'Aprobado' if x >= 75 else 'Reprobado'
)

print(df_estudiantes)

### Acerca de Pickle

Pickle es un módulo en Python que permite serializar y deserializar objetos de Python. En otras palabras, convierte objetos de Python en un formato que puede ser guardado en un archivo y luego se puede cargar de nuevo en su forma original.

A continuación se explican sus dos principales funciones:

In [None]:
import pickle

# 1. Serialización: Convertir un objeto de Python en un flujo de bytes que puede ser guardado en un archivo.
# Ejemplo:
data = {"a": [1, 2, 3], "b": "Python"}
with open("data.pkl", "wb") as f: #'wb' se utiliza para abrir un archivo en modo de escritura binaria. Es necesario al trabajar con `pickle` para asegurarse de que los datos se guarden correctamente en un formato que no se corrompa al ser guardado.
    pickle.dump(data, f)  # 'data' es serializado y guardado en 'data.pkl'

In [None]:
# 2. Deserialización: Convertir un flujo de bytes que representa un objeto de Python de vuelta a su forma original.
# Ejemplo:
with open("data.pkl", "rb") as f:
    loaded_data = pickle.load(f)  # 'data.pkl' es deserializado de vuelta en 'loaded_data'

In [None]:
# loaded_data ahora es igual a data
print(loaded_data)

Ejercicio 6: Ampliar el Análisis

Instrucciones: Añadí una nueva columna "Comentario" que proporcione un breve comentario basado en la nota (por ejemplo, "Excelente", "Necesita mejorar").

## Guia para interpretar visualizaciones

#### Interpretando Word Clouds

Preguntas guía para analizar las nubes de palabras:

1. **Palabras dominantes**:
   - ¿Qué palabras aparecen más grandes en cada año?
   - Ejemplo: Si "padre" es grande en 2015, ¿qué podría significar?

2. **Cambios temporales**:
   - Compara 2004 vs 2015:
   - ¿Aparecen nuevas palabras temáticas?
   - ¿Desaparecen algunas?

3. **Contexto literario**:
   - ¿Cómo se relacionan las palabras prominentes con la biografía del autor?
   - Ejemplo: Casciari menciona que su hija nació en 2004 - ¿aparece "hija" después?

Ejercicio práctico:

1. Selecciona dos años con word clouds diferentes
2. Anota 3 palabras clave de cada uno
3. Propone una hipótesis sobre el cambio de enfoque