In [None]:
# %% [markdown]
## Introducción a los datos no estructurados




### 1. Cargar un archivo de texto y contar la cantidad de palabras.




#### a. Importar la librería os y utilizarla para obtener la ruta del archivo:




In [None]:
import os

ruta = os.path.join('ruta', 'del', 'archivo', 'texto.txt')




#### b. Abrir el archivo y leer su contenido:




In [None]:
with open(ruta, 'r', encoding='utf-8') as f:
    contenido = f.read()




#### c. Tokenizar el contenido del archivo en palabras:




In [None]:
import nltk

palabras = nltk.word_tokenize(contenido)




#### d. Contar la cantidad de palabras:




In [None]:
len(palabras)





### 2. Cargar una imagen y mostrar su contenido.




#### a. Importar la librería Pillow y utilizarla para cargar la imagen:




In [None]:
from PIL import Image

ruta = os.path.join('ruta', 'del', 'archivo', 'imagen.jpg')

imagen = Image.open(ruta)




#### b. Mostrar la imagen en una ventana emergente:




In [None]:
imagen.show()






### 1. Leer y visualizar una imagen utilizando Python.




#### a. Importar las bibliotecas necesarias:




In [None]:
import matplotlib.pyplot as plt
import cv2




#### b. Leer la imagen utilizando la función imread de OpenCV:




In [None]:
img = cv2.imread('ruta_de_la_imagen.jpg')




#### c. Visualizar la imagen utilizando la función imshow de Matplotlib:




In [None]:
plt.imshow(img)




### 2. Leer y procesar un archivo de texto utilizando Python.




#### a. Leer el archivo de texto utilizando la función open de Python:




In [None]:
with open('ruta_del_archivo_de_texto.txt', 'r') as f:
    data = f.read()




#### b. Tokenizar el texto utilizando la función split de Python:




In [None]:
tokens = data.split()




#### c. Calcular la frecuencia de cada token utilizando un diccionario de Python:




In [None]:
freq = {}
for token in tokens:
    if token in freq:
        freq[token] += 1
    else:
        freq[token] = 1




#### d. Ordenar los tokens según su frecuencia en orden descendente:




In [None]:
sorted_freq = {k: v for k, v in sorted(freq.items(), key=lambda item: item[1], reverse=True)}
print(sorted_freq)






### 2. Utilizar la librería spaCy para procesar un texto y obtener información relevante.




#### a. Importar spaCy y cargar el modelo de lenguaje en español:




In [None]:
import spacy

nlp = spacy.load('es_core_news_sm')




#### b. Procesar un texto y obtener información relevante, como entidades nombradas y sus tipos:




In [None]:
text = "El presidente Alberto Fernández anunció un paquete de medidas económicas para impulsar el crecimiento del país."

doc = nlp(text)

# Print named entities and their labels
for ent in doc.ents:
    print(ent.text, ent.label_)




### 3. Tokenizar un texto utilizando la librería NLTK.




In [None]:
import nltk

# Tokenize text
text = "Este es un ejemplo de texto para tokenizar."
tokens = nltk.word_tokenize(text)

print(tokens)


Ejercicios sobre Introducción a los datos no estructurados
Ejercicio 1: Descarga de imágenes de la web
a. Utilizar la librería requests de Python para descargar una imagen de la web y guardarla en su computadora.

python

import requests

url = 'https://www.example.com/image.jpg'
response = requests.get(url)

with open('image.jpg', 'wb') as f:
    f.write(response.content)

b. Utilizar la librería Pillow para abrir la imagen y visualizarla en su computadora.

python

from PIL import Image

image = Image.open('image.jpg')
image.show()

Ejercicio 2: Descarga de datos de texto
a. Utilizar la librería requests de Python para descargar un archivo de texto de la web y guardarlo en su computadora.

python

import requests

url = 'https://www.example.com/data.txt'
response = requests.get(url)

with open('data.txt', 'w') as f:
    f.write(response.text)

b. Leer el archivo de texto y realizar alguna operación de procesamiento de texto, como contar la frecuencia de las palabras o eliminar las palabras comunes.

python

with open('data.txt', 'r') as f:
    text = f.read()

# contar la frecuencia de las palabras
word_counts = {}
for word in text.split():
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1
print(word_counts)

# eliminar las palabras comunes
common_words = ['el', 'la', 'los', 'las', 'de', 'en', 'a', 'y', 'o']
words = [word for word in text.split() if word not in common_words]
print(' '.join(words))





## Procesamiento de datos de texto




### 1. Tokenización de texto con NLTK




#### a. Instalar la librería NLTK (Natural Language Toolkit)




In [None]:
!pip install nltk




#### b. Importar NLTK y descargar los recursos necesarios




In [None]:
import nltk
nltk.download('punkt')




#### c. Tokenizar una oración utilizando la función word_tokenize de NLTK




In [None]:
from nltk.tokenize import word_tokenize

text = "El gato está en la alfombra."
tokens = word_tokenize(text)
print(tokens)




### 2. Análisis de sentimientos con TextBlob




#### a. Instalar la librería TextBlob




In [None]:
!pip install textblob




#### b. Importar TextBlob y analizar el sentimiento de una oración




In [None]:
from textblob import TextBlob

text = "Este libro es excelente."
blob = TextBlob(text)
sentiment = blob.sentiment.polarity
print(sentiment)




## Procesamiento de datos de imágenes




### 1. Extracción de características con OpenCV




#### a. Instalar la librería OpenCV




In [None]:
!pip install opencv-python




#### b. Importar OpenCV y cargar una imagen




In [None]:
import cv2
import matplotlib.pyplot as plt

img = cv2.imread('ruta_de_la_imagen.jpg')




#### c. Convertir la imagen a escala de grises y mostrarla




In [None]:
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
plt.imshow(gray_img, cmap='gray')




### 2. Redes neuronales convolucionales con TensorFlow




#### a. Instalar TensorFlow




In [None]:
!pip install tensorflow




#### b. Importar TensorFlow y cargar un modelo pre-entrenado




In [None]:
import tensorflow as tf

model = tf.keras.applications.MobileNetV2()




#### c. Cargar una imagen y pasarla por el modelo




In [None]:
from tensorflow.keras.preprocessing import image
import numpy as np

img_path = 'ruta_de_la_imagen.jpg'
img = image.load_img(img_path, target_size=(224, 224))
img_array = image.img_to_array(img)
img_array = np.expand_dims(img_array, axis=0)
img_array = tf.keras.applications.mobilenet_v2.preprocess_input(img_array)
predictions = model.predict(img_array)




#### d. Obtener las clases y las probabilidades de las predicciones




In [None]:
from tensorflow.keras.applications import imagenet_utils

results = imagenet_utils.decode_predictions(predictions)
for result in results[0]:
    print(result)





## Introducción a los datos no estructurados




### 1. Tokenización de texto




#### a. Importar NLTK y descargar los datos necesarios:




In [None]:
import nltk
nltk.download('punkt')




#### b. Tokenizar una oración en palabras individuales:




In [None]:
from nltk.tokenize import word_tokenize

sentence = "Hola a todos, ¿cómo están?"
tokens = word_tokenize(sentence)
print(tokens)




### 2. Análisis de sentimientos




#### a. Importar TextBlob y analizar el sentimiento de una oración:




In [None]:
from textblob import TextBlob

sentence = "Amo este hermoso día"
blob = TextBlob(sentence)
sentiment = blob.sentiment.polarity
print(sentiment)




#### b. Analizar el sentimiento de un conjunto de comentarios en una lista:




In [None]:
comments = ['Estoy muy feliz hoy', 'Odio estar enfermo', 'Este restaurante es increíble']
sentiment_scores = []
for comment in comments:
    blob = TextBlob(comment)
    sentiment = blob.sentiment.polarity
    sentiment_scores.append(sentiment)
print(sentiment_scores)




### 3. Extracción de características de imágenes




#### a. Importar OpenCV y cargar una imagen:




In [None]:
import cv2

image = cv2.imread('ruta_de_la_imagen.jpg')




#### b. Convertir la imagen a escala de grises y mostrarla:




In [None]:
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
cv2.imshow('Imagen en escala de grises', gray_image)
cv2.waitKey(0)
cv2.destroyAllWindows()




### 4. Redes neuronales convolucionales para clasificación de imágenes




#### a. Importar TensorFlow y Keras y cargar el conjunto de datos MNIST:




In [None]:
import tensorflow as tf
from tensorflow import keras

mnist = keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()




#### b. Preprocesar los datos y construir el modelo de red neuronal convolucional:




In [None]:
x_train = x_train.reshape(x_train.shape[0], 28, 28, 1)
x_test = x_test.reshape(x_test.shape[0], 28, 28, 1)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255

model = keras.Sequential([
    keras.layers.Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=(28, 28, 1)),
    keras.layers.MaxPooling2D(pool_size=(2, 2)),
    keras.layers.Flatten(),
    keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])




#### c. Entrenar y evaluar el modelo:




In [None]:
model.fit(x_train, y_train, epochs=5)
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=1)
print('Accuracy:', test_acc)


