## Coding Exercise #0611

In [None]:
import numpy as np
import re
import nltk
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
from nltk.corpus import stopwords
from sklearn.datasets import load_files
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
warnings.filterwarnings('ignore')               # Desactivar las advertencias.
# nltk.download('stopwords')

### 1. Análisis de clasificación de PNL:

#### 1.1. Leer datos:
Datos de reseñas de películas del departamento de CS de Cornell. <br>
- Los datos se pueden encontrar [aquí](https://www.cs.cornell.edu/people/pabo/movie-review-data). <br>
- Descarga y descomprimir el "conjunto de datos polarity". <br>
- Bajo la carpeta "txt_sentoken", hay subcarpetas "pos" y "neg". <br>

In [None]:
# Especifique la carpeta y lea las subcarpetas.
reviews = load_files('txt_sentoken/')
my_docs, y = reviews.data, reviews.target

In [None]:
len(my_docs)

In [None]:
np.unique(y, return_counts=True)

In [None]:
# Visualizar la variable de respuesta.
sns.countplot(y).set_title("Frequency Table")
plt.show()

#### 1.2. Preprocesamiento de datos:

In [None]:
corpus = []
for i in range(0, len(my_docs)):
    review = re.sub(r'\W', ' ', str(my_docs[i]))
    review = review.lower()
    review = re.sub(r'^br$', ' ', review)
    review = re.sub(r'\s+br\s+',' ',review)
    review = re.sub(r'\s+[a-z]\s+', ' ',review)
    review = re.sub(r'^b\s+', '', review)
    review = re.sub(r'\s+', ' ', review)               # Eliminar los espacios en blanco sobrantes incluidos en los pasos anteriores.
    corpus.append(review)  

In [None]:
# Mostrar el documento.
corpus[0]

#### 1.3. Crear la representación TF IDF:

In [None]:
TFIDF = TfidfVectorizer(max_features = 1000, min_df = 2, max_df = 0.6, stop_words = stopwords.words('english'))
TFIDF.fit(corpus)                                          # Crear el modelo TF IDF. 
X = TFIDF.transform(corpus).toarray()
X.shape

#### 1.4. Entrenamiento y pruebas con regresión logística:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1234)

In [None]:
# Entrenamiento.
LR = LogisticRegression()
LR.fit(X_train, y_train)

In [None]:
# Pruebas.
y_pred = LR.predict(X_test)
conf_mat = confusion_matrix(y_test, y_pred)
acc = accuracy_score(y_test, y_pred)

In [None]:
# Matrz de confusion.
print(conf_mat)

In [None]:
# Exactitud.
print(np.round(acc,3))