## Objetivo del proyecto: 
El propósito de este proyecto es poder elaborar un analisis exploratorio de
los libros empleando diversos algoritmos que estudiamos durante el curso. Analisis estadísticos,
algoritmos no supervisados y elementos de visualización serán sus principales herramientas para
este analisis. Adicionalmente cualquier algoritmo o herramienta que no hayamos visto durante el
curso es válida, sin embargo, es importante que conozcan el funcionamiento y puedan explicar lo
que se está realizando con claridad.

## Resultados del proyecto:
Los elementos mínimos que su analisis debe cumplir son los siguientes:

1. Contestar los siguientes cuestionamientos<br>
    a. ¿Cuántos y cuales son los idiomas que identificaron en los libros?<br>
    b. ¿Cuántos libros tenemos por cada idioma?<br>
    c. ¿Cuántos géneros tenemos?<br>
        i. ¿Qué proceso utilizaron para identificar el (los) géneros del libro<br>
    d. ¿Encontraron algún otro patrón o elemento que consideren importante mencionar
en su analisis?<br>

In [9]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [23]:
# Para poder analizar los datos preprocesamos los textos a un .csv con los campos "campo: valor" antes de *** START OF THE PROJECT GUTENBERG EBOOK <<TITLE>> **
import glob
import re

def create_csv(csv_name: str):
    # Dataframe para los libros
    df = pd.DataFrame(columns = ["Filename", "Title", "Author", "Language", "Release Date"])

    libros = glob.glob('./Gutenberg/*.txt')

    # Iteramos por cada .txt
    for i, filename in enumerate(libros):
        row = [filename]
        features = {"Title": None, "Author": None, "Language": None, "Release Date": None}

        with open(filename, 'r', encoding='utf-8', errors='ignore') as f:
            # Itera sobre cada linea de texto
            for line in f:
                # Itera sobre las features excepto "Release Date"
                for feat in set(features) - {"Release Date"}:

                    match = re.search(fr"(?<={feat}:\s).*(?=$)", line)
                    if match:
                        features[feat] = match.group(0)

                # Matchea Release Date
                match = re.search(r"(?<=Release Date:\s).*(?=\s\[.*\]$)", line)
                if match:
                    features["Release Date"] = match.group(0)

                # Si ya tenemos todos los features, dejar de iterar por lineas de texto
                if None not in features.values():
                    break
                

        row.extend(features.values())
        if None not in row:
            df.loc[len(df)] = row

    df.set_index("Filename")
    df.to_csv(csv_name, index=False)
    return df

In [25]:
import os.path

fname = 'gutenberg.csv'

# importar de csv si ya existe
if os.path.isfile(fname):
    df = pd.read_csv(fname)
else:
    df = create_csv(fname)
    
df

Unnamed: 0,Filename,Title,Author,Language,Release Date
0,./Gutenberg\24747-0.txt,Samlede værker,Jeppe Aakjær,Danish,"March 3, 2008"
1,./Gutenberg\27566-0.txt,La Force,Paul Adam,French,"December 19, 2008"
2,./Gutenberg\33378-0.txt,Au soleil de juillet (1829-1830),Paul Adam,French,"August 8, 2010"
3,./Gutenberg\36460-0.txt,Cœur-de-panthère,Gustave Aimard,French,"June 18, 2011"
4,./Gutenberg\39331-0.txt,Histoire des salons de Paris (Tome 1/6),"Laure Junot, duchesse d'Abrantès",French,"April 1, 2012"
...,...,...,...,...,...
193,./Gutenberg\pg70639.txt,"The Life and Adventures of Alexander Selkirk, ...",John Howell,English,"April 24, 2023"
194,./Gutenberg\pg70640.txt,Third Base Thatcher,Everett (Deacon) Scott,English,"April 24, 2023"
195,./Gutenberg\pg70642.txt,"Historical Vignettes, 1st Series",Bernard Capes,English,"April 25, 2023"
196,./Gutenberg\pg70643.txt,Coca and Cocaine,William Martindale,English,"April 26, 2023"


In [29]:
# Separamos libros por idioma
languages = df['Language'].unique()

# Diccionario con los dataframes por idioma
df_langs = {}
for lang in languages:
    df_langs[lang] = df[df['Language'] == lang]

Unnamed: 0,Filename,Title,Author,Language,Release Date
0,./Gutenberg\24747-0.txt,Samlede værker,Jeppe Aakjær,Danish,"March 3, 2008"
29,./Gutenberg\63722-0.txt,Flyvefisken »Prometheus«,Vilhelm Bergsøe,Danish,"November 12, 2020"
103,./Gutenberg\pg40291.txt,Absalons Brond,Sophus Bauditz,Danish,"July 21, 2012"


Unnamed: 0,Filename,Title,Author,Language,Release Date
1,./Gutenberg\27566-0.txt,La Force,Paul Adam,French,"December 19, 2008"
2,./Gutenberg\33378-0.txt,Au soleil de juillet (1829-1830),Paul Adam,French,"August 8, 2010"
3,./Gutenberg\36460-0.txt,Cœur-de-panthère,Gustave Aimard,French,"June 18, 2011"
4,./Gutenberg\39331-0.txt,Histoire des salons de Paris (Tome 1/6),"Laure Junot, duchesse d'Abrantès",French,"April 1, 2012"
6,./Gutenberg\43923-0.txt,Le lion du désert,Gustave Aimard,French,"October 10, 2013"
7,./Gutenberg\44715-0.txt,Le Guaranis,Gustave Aimard,French,"January 20, 2014"
8,./Gutenberg\47903-0.txt,L'éclaireur,Gustave Aimard,French,"January 7, 2015"
10,./Gutenberg\49619-0.txt,Les nuits mexicaines,Gustave Aimard,French,"August 5, 2015"
14,./Gutenberg\51144-0.txt,Le Montonéro,Gustave Aimard,French,"February 8, 2016"
16,./Gutenberg\51709-0.txt,Le nez d'un notaire,Edmond About,French,"April 9, 2016"


Unnamed: 0,Filename,Title,Author,Language,Release Date
5,./Gutenberg\40420-0.txt,La voz de España contra todos sus enemigos,José María Avilés,Spanish,"August 5, 2012"
9,./Gutenberg\48903-0.txt,El libro de las mil noches y una noche; t 3,Anonymous,Spanish,"May 9, 2015"
11,./Gutenberg\50430-0.txt,Historia natural y moral de las Indias (vol 2 ...,"P. Joseph, de Acosta",Spanish,"November 11, 2015"
12,./Gutenberg\51019-0.txt,"La Biblia en España, Tomo I (de 3)",George Borrow,Spanish,"January 24, 2016"
13,./Gutenberg\51020-0.txt,"La Biblia en España, Tomo II (de 3)",George Borrow,Spanish,"January 24, 2016"
...,...,...,...,...,...
159,./Gutenberg\pg67895.txt,Es mi hombre,Carlos Arniches,Spanish,"April 21, 2022"
161,./Gutenberg\pg68443.txt,"Comedias, tomo 1 de 3",Aristófanes,Spanish,"July 2, 2022"
166,./Gutenberg\pg69799.txt,"Comedias, tomo 2 de 3",Aristófanes,Spanish,"January 14, 2023"
167,./Gutenberg\pg70219.txt,"Historia natural y moral de las Indias, v. 1","P. Joseph, de Acosta",Spanish,"March 6, 2023"


Unnamed: 0,Filename,Title,Author,Language,Release Date
28,./Gutenberg\63061-0.txt,"Sir Francis Drake His Voyage, 1595",Thomas Maynarde,English,"August 27, 2020"
36,./Gutenberg\89741.txt,"Sir Francis Drake His Voyage, 1595",Thomas Maynarde,English,"August 27, 2020"
37,./Gutenberg\pg02761.txt,The Cossacks,Leo Tolstoy,English,"March 13, 2002"
43,./Gutenberg\pg12133.txt,The Lady of the Barge,W. W. Jacobs,English,"October 30, 2006"
45,./Gutenberg\pg1254.txt,Cyrano de Bergerac,Edmond Rostand,English,"March, 1998"
53,./Gutenberg\pg1602.txt,Dawn O’Hara,Edna Ferber,English,"January, 1999"
57,./Gutenberg\pg16206.txt,Analytical Studies,Honoré de Balzac,English,"July 4, 2005"
73,./Gutenberg\pg22421.txt,The Hesperides & Noble Numbers: Vol. 1 and 2,Robert Herrick,English,"August 28, 2007"
78,./Gutenberg\pg25541.txt,"American Eloquence, an Index of the Four Volumes",Various,English,"May 20, 2008"
79,./Gutenberg\pg25584.txt,The Purcell Papers,Joseph Sheridan Le Fanu,English,"May 24, 2008"


Unnamed: 0,Filename,Title,Author,Language,Release Date
42,./Gutenberg\pg11081.txt,A Vocabulary or Phrase Book of the Mutsun Lang...,Father Felipe Arroyo de la Cuesta,English and Spanish,"February 14, 2004"
51,./Gutenberg\pg15532.txt,Novelas Cortas,Pedro Antonio de Alarcón,English and Spanish,"April 4, 2005"


Unnamed: 0,Filename,Title,Author,Language,Release Date
56,./Gutenberg\pg16149.txt,Máximas Morales en Ilocano y Castellano,Anonymous,"Iloko, Spanish","June 29, 2005"
76,./Gutenberg\pg23471.txt,Máximas Morales en Ilocano y Castellano,Anonymous,"Iloko, Spanish","June 29, 2005"


In [12]:
# Hacemos análisis de texto por idioma con textstat
# Basado en parte en https://www.kaggle.com/code/michaelrussell4/gutenberg-book-genre-feature-engineering



2. Elemento de visualización<br>
    a. ¿Cuáles son las palabras con mayor frecuencia en cada idioma?<br>
    b. ¿Es posible agrupar los libros mediante cluster de tal forma que se ilustren los
    grupos por idioma?<br>
        i. De ser así genera una gráfica que ilustre esto<br>
        ii. Caso contario explica el motivo<br>
    c. Genera una grafica que ilustre la identificación de géneros en los libros