#Analisis de texto (EPI)

In [20]:
!python --version

Python 3.10.12


In [21]:
import pandas as pd
pd.__version__

'1.5.3'

In [22]:
!pip install PyPDF2



In [5]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [23]:
import glob, os
# glob: Se utiliza para realizar búsquedas de archivos usando patrones de nombres de archivo.
#       Permite encontrar todos los archivos que coinciden con un patrón específico en un directorio.

# os: Proporciona una interfaz para interactuar con el sistema operativo.
#     Contiene funciones que permiten realizar operaciones comunes relacionadas con el sistema operativo,
#     como manipulación de archivos y directorios, obtención de información del sistema, etc.

import PyPDF2
from prettytable import PrettyTable #Facilita la creación de tablas con columnas alineadas

In [24]:
# Extension de los archivos
ext = "*.pdf"
PATH = "/content/drive/MyDrive/Tesis Hugo y Juan Jose - Análisis texto - TD/Conjunto de Datos"

# Lista de archivos
files = []

# Recorre todos los directorios y subdirectorios a partir de la ruta proporcionada
for dirpath, dirnames, filenames in os.walk(PATH):
    # Utiliza glob para obtener los archivos con la extensión especificada en cada directorio
    files += glob.glob(os.path.join(dirpath, ext))

In [25]:
# Inicializa un diccionario para llevar un conteo de archivos por directorio
file_count_per_directory = {}

# Itera sobre la lista de archivos para incrementar el contador por directorio
for file in files:
    directory = os.path.dirname(file) # Obtiene el directorio de cada archivo
    file_count_per_directory[directory] = file_count_per_directory.get(directory, 0) + 1 #  Incrementa el contador por directorio en el diccionario

# Crea una tabla para mostrar la cantidad de archivos por directorio
table = PrettyTable()
table.field_names = ["Directorio", "Archivos"]

# Agrega las filas a la tabla
for directory, count in file_count_per_directory.items():
    table.add_row([directory, count])


print(table)

total_files = sum(file_count_per_directory.values())
print(f"\nTotal de archivos: {total_files}")

+--------------------------------------------------------------------------------------------------------------+----------+
|                                                  Directorio                                                  | Archivos |
+--------------------------------------------------------------------------------------------------------------+----------+
|          /content/drive/MyDrive/Tesis Hugo y Juan Jose - Análisis texto - TD/Conjunto de Datos/Sage          |    59    |
|         /content/drive/MyDrive/Tesis Hugo y Juan Jose - Análisis texto - TD/Conjunto de Datos/Scopus         |   120    |
|      /content/drive/MyDrive/Tesis Hugo y Juan Jose - Análisis texto - TD/Conjunto de Datos/Scopus/RUSO       |    7     |
|        /content/drive/MyDrive/Tesis Hugo y Juan Jose - Análisis texto - TD/Conjunto de Datos/Redalyc         |    30    |
| /content/drive/MyDrive/Tesis Hugo y Juan Jose - Análisis texto - TD/Conjunto de Datos/Taylor _ Francis Group |    50    |
|     /c

In [26]:
#Probar con la metadata de un archivo especifico

archivo_a_analizar = "/content/drive/MyDrive/Tesis Hugo y Juan Jose - Análisis texto - TD/Conjunto de Datos/Redalyc/A mapping analysis of maintenance in Industry 4,0.pdf"


# Verifica si el archivo existe
if os.path.exists(archivo_a_analizar):
    # Obtiene información del archivo
    nombre_archivo = os.path.basename(archivo_a_analizar)
    directorio_archivo = os.path.dirname(archivo_a_analizar)
    tamaño_archivo = os.path.getsize(archivo_a_analizar)  # en bytes


    # Obtiene el número de páginas del archivo PDF
    with open(archivo_a_analizar, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfReader(pdf_file)
        numero_de_paginas = len(pdf_reader.pages)

    # Muestra la información del archivo
    print("Información del archivo:")
    print(f"Nombre: {nombre_archivo}")
    print(f"Ruta completa: {archivo_a_analizar}")
    print(f"Directorio: {directorio_archivo}")
    print(f"Tamaño: {tamaño_archivo/1024} Megabytes")
    print(f"Número de páginas: {numero_de_paginas}")
else:
    print(f"El archivo {archivo_a_analizar} no existe.")

Información del archivo:
Nombre: A mapping analysis of maintenance in Industry 4,0.pdf
Ruta completa: /content/drive/MyDrive/Tesis Hugo y Juan Jose - Análisis texto - TD/Conjunto de Datos/Redalyc/A mapping analysis of maintenance in Industry 4,0.pdf
Directorio: /content/drive/MyDrive/Tesis Hugo y Juan Jose - Análisis texto - TD/Conjunto de Datos/Redalyc
Tamaño: 785.833984375 Megabytes
Número de páginas: 24
