# Tutorial 2:  Exploración de datos y Gráficos

Primero que nada y antes que todo, importamos las librerías

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

## Explorar datos

In [None]:
#Reading data as dataframe from .csv
#By default the delimiter or separator is comma. When data has another delimiter, you must define it (for example: sep='\t')

mtcars_df = pd.read_csv("https://raw.githubusercontent.com/giturra/tutorial2/main/mtcars.csv")

Ejecutando `help(pd.read_csv)` pueden ver la documentación del objeto.

Una vez cargados los datos, es momento de revisar nuestro dataframe.
Ejecutar el nombre del dataframe le proporciona la tabla completa, pero también puede obtener información específica usando comandos como los siguientes.

In [None]:
# Displays the first 5 rows. You can define the first 'n' rows to show, for example: df.head(n)
mtcars_df.head()

In [None]:
# Similar to head, but displays the last rows
mtcars_df.tail()

In [None]:
# The dimensions of the dataframe as a (rows, cols) tuple
mtcars_df.shape

In [None]:
# The number of rows. Equal to df.shape[0]
len(mtcars_df)

In [None]:
# An object with the column names
mtcars_df.columns

In [None]:
# You can rename (specific) columns using its names (for example: "model" or mtcars_df.columns[0])
# Also can be renamed by its index

mtcars_df = mtcars_df.rename(columns={
    'model': 'Model', 'mpg':'MPG', 'cyl':'CYL',
    'disp': 'DISP', 'hp': 'HP', 'drat': 'DRAT',
    'wt': 'WT', 'qsec': 'QSEC', 'vs': 'VS',
    'am': 'AM','gear': 'GEAR', 'carb': 'CARB'})


#Also you can do it modifying the data frame, but is necessary write all cols names (in order)
mtcars_df.columns = ['Model', 'MPG', 'CYL', 'DISP', 'HP', 'DRAT', 'WT', 'QSEC', 'VS', 'AM','GEAR', 'CARB']

mtcars_df.head(2)

In [None]:
# Unique values from a column
mtcars_df.Model.drop_duplicates()

In [None]:
# Columns and their types
mtcars_df.dtypes

In [None]:
# Prints information about index dtype and column dtypes, non-null values and memory usage.
mtcars_df.info()

In [None]:
# Displays descriptive stats for all columns
mtcars_df.describe()

In [None]:
#Allows you to count nan values by columns
mtcars_df.isna().sum()

In [None]:
# would allow you to view unique values and counts for a series (like a column or a few columns).
mtcars_df['AM'].value_counts(dropna=False)

También es posible obtener estadísticas sobre todo el dataframe o una serie (una columna, etc.):

*   *df.mean()* Returns the mean of all columns
*   *df.corr()* Returns the correlation between columns in a data frame
*   *df.count()* Returns the number of non-null values in each data frame column
*   *df.max()* Returns the highest value in each column
*   *df.min()* Returns the lowest value in each column
*   *df.median()* Returns the median of each column
*   *df.std()* Returns the standard deviation of each column

In [None]:
# Converts the frame to a two-dimensional table
# we use [0:5] for printing only the first 5 examples
mtcars_df.values[0:5]

## Gráficar

Usaremos los datos de accidentes de tránsito en Chile en los años 2010 y 2011.

Puedes descargar los datos al computador de las siguientes direcciones:

<https://users.dcc.uchile.cl/~hsarmien/mineria/datasets/accidentes_2010_2011.txt>
<https://users.dcc.uchile.cl/~hsarmien/mineria/datasets/afectados_2010_2011.txt>

Cargamos los datos remotamente:

In [None]:
# Lee el archivo 'accidentes_2010_2011.txt' en un DataFrame llamado 'tipos'
tipos = pd.read_table("https://users.dcc.uchile.cl/~hsarmien/mineria/datasets/accidentes_2010_2011.txt", sep = ' ')

# Lee el archivo 'afectados_2010_2011.txt' en un DataFrame llamado 'afectados'
afectados = pd.read_table("https://users.dcc.uchile.cl/~hsarmien/mineria/datasets/afectados_2010_2011.txt", sep=' ')

### Gráficos

Los gráficos son clave para mostrar tendencias o la distribución de los datos. En Python existen varios tipos de gráficos y distintas librerías para hacerlos, como por ejemplo Matplotlib y PLotly. Esta última nos permite hacer gráficos interactivos. Veremos ejemplos de cada uno de ellos.

In [None]:
# Crear los datos para el gráfico (exponencial de los números del 1 al 10)
x = np.arange(1, 11)
y = np.exp(x)

# Graficar los datos
plt.plot(x, y)

# Mostrar el gráfico
plt.show()


In [None]:

# Graficar los datos
plt.plot(x, y,'*')

# Mostrar el gráfico
plt.show()


In [None]:
# Graficar los datos con título, etiquetas de ejes y tipo de línea
plt.plot(x, y, linestyle='-', marker='', color='b')  # Tipo de línea 'l' es una línea continua
plt.title("Mi primer gráfico")
plt.xlabel("eje x")
plt.ylabel("eje y")

# Mostrar el gráfico
plt.show()


In [None]:
import plotly.express as px

fig = px.line(x=x,y=y,title="Mi primer gráfico")
fig.show()

#### Boxplot

Los Boxplotsirven para ver la distribución de los datos. Por ejemplo, para ver la distribución de los datos basado en muestra Regional y del año 2011:

In [None]:
import plotly.express as px

# Filtrar los datos donde Muestra es igual a "Regional" y Anio es igual a 2011
tipos2011 = tipos[(tipos['Muestra'] == 'Regional') & (tipos['Anio'] == 2011)]
fig = px.box(tipos2011, x="Cantidad", y="TipoAccidente")
fig.show()

Si se dan cuenta, hay dos outlier que no nos permiten ver bien los gráficos. Por ello, podemos ajustar el límite del eje yhaciendo zoom en el gráfico

### Barplot

Otra opción es un gráfico de barras mostrando la cantidad de afectados. Primero hacemos el filtro, por ejemplo: muestra regional de muertos del 2011. Luego hacemos un gráfico de barras mostrando la cantidad por región (en este caso por la columna Descripción).

Con matplotlib:

In [None]:


# Filtrar los datos donde Muestra es igual a "Regional", Anio es igual a 2011 y Estado es igual a "Muertos"
afect2011 = afectados[(afectados['Muestra'] == 'Regional') &
                      (afectados['Anio'] == 2011) &
                      (afectados['Estado'] == 'Muertos')]

# Crear un gráfico de barras
plt.bar(afect2011['Descripcion'], afect2011['Cantidad'])

# Establecer etiquetas de los ejes
plt.xlabel('Descripción')
plt.ylabel('Cantidad')

# Establecer título
plt.title('Cantidad de Muertos en Accidentes Regionales en 2011')

# Rotar etiquetas del eje x para mejor visualización
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.show()


Con plotly:

In [None]:
import plotly.graph_objs as go
import plotly.offline as pyo

# Filtrar los datos donde Muestra es igual a "Regional", Anio es igual a 2011 y Estado es igual a "Muertos"
afect2011 = afectados[(afectados['Muestra'] == 'Regional') &
                      (afectados['Anio'] == 2011) &
                      (afectados['Estado'] == 'Muertos')]

# Crear la figura de barras
fig = go.Figure(go.Bar(
    x=afect2011['Descripcion'],
    y=afect2011['Cantidad']
))

# Actualizar el diseño del gráfico
fig.update_layout(
    title='Cantidad de Muertos en Accidentes Regionales en 2011',
    xaxis=dict(title='Descripción'),
    yaxis=dict(title='Cantidad')
)

fig.show()


#### Histograma

Los histogramas sirven para agrupar los datos en clases. Luego se cuenta la cantidad de observaciones (o frecuencia) que hay en cada una de ellas. Por ejemplo:

In [None]:



# Crear un histograma de la cantidad de muertos en accidentes regionales en 2011
plt.hist(afect2011['Cantidad'], bins=10)  # Puedes ajustar el número de bins según tus preferencias

# Establecer etiquetas de los ejes y título
plt.xlabel('Cantidad')
plt.ylabel('Frecuencia')
plt.title('Histograma de Cantidad de Muertos en Accidentes Regionales en 2011')

# Mostrar el histograma
plt.show()


In [None]:
# Crear el histograma
fig = go.Figure(data=[go.Histogram(x=afect2011['Cantidad'])])

# Actualizar el diseño del gráfico
fig.update_layout(
    title='Histograma de Cantidad de Muertos en Accidentes Regionales en 2011',
    xaxis=dict(title='Cantidad'),
    yaxis=dict(title='Frecuencia')
)

# Mostrar el gráfico
fig.show()


#### Densidad

Una forma alternativa a los histogramas es hacer un gráfico de densidad de los datos. A veces la visualización de una gráfico de densidad es mejor que un histograma.

In [None]:
import seaborn as sns

# Crear la gráfica de densidad
sns.kdeplot(afect2011['Cantidad'], shade=True)

# Establecer etiquetas de los ejes y título
plt.xlabel('Cantidad')
plt.ylabel('Densidad')
plt.title('Gráfica de Densidad de la Cantidad de Muertos en Accidentes Regionales en 2011')

# Mostrar la gráfica
plt.show()

## Lectura adicional (opcional): Manipulación de texto

Si bien, para los humanos es fácil entender y representar el lenguaje (palabras, oraciones, etc), para un computador no es trivial. Para ello, debemos realizar ciertas operaciones para que estas sean comprendidas para el análisis. Para ello, usaremos una colección de mensajes de redes sociales.

In [None]:
msj = pd.read_csv("http://users.dcc.uchile.cl/~hsarmien/mineria/datasets/messages.csv",sep = ";")

In [None]:
msj.head()

Crearemos una tercera columna en nuestro dataset el cual tendrá el texto (mensaje) sin tildes. Para ello usaremos un diccionario que convertirá un patrón en otro.

In [None]:

# Definir el diccionario de reemplazo
replacement_dict = {'á': 'a', 'é': 'e', 'í': 'i', 'ó': 'o', 'ú': 'u', 'Á': 'A', 'É': 'E', 'Í': 'I', 'Ó': 'O', 'Ú': 'U'}

# Aplicar el reemplazo de caracteres en la columna 'tweet_text' de tu marco de datos
msj['tweet_text_nacc'] = msj['tweet_text'].str.translate(str.maketrans(replacement_dict))

# Visualizar el marco de datos con la nueva columna
msj.head()


En un comienzo, el contenido de cada documento en nuestra colección contendrá mucha información que podría no ser relevante para nosotros. Por ejemplo, puntuaciones, números, palabras no relevantes, urls etc. Por ello, es necesario efectuar el pre-procesamiento y limpieza de los datos.

In [None]:
import re

# Definir una función para eliminar la puntuación de un documento
def remove_punctuation(text):
    return re.sub(r'[^\w\s]', '', text)

#remover caracteres especiales
def remove_special_chars(text):
    return re.sub(r'[^ñÑa-zA-Z0-9 ]', '', text)

#remover urls
def remove_urls(text):
    return re.sub(r'http\S+', '', text)

#remover numeros
def remove_numbers(text):
    return re.sub(r'\d+', '', text)

#convertir a minusculas
def to_lower(text):
    return text.lower()

#remover espacios en blanco
def strip_whitespace(text):
    return ' '.join(text.split())

msj['tweet_text_nacc'] = msj['tweet_text_nacc'].apply(remove_urls)
msj['tweet_text_nacc'] = msj['tweet_text_nacc'].apply(remove_special_chars)
msj['tweet_text_nacc'] = msj['tweet_text_nacc'].apply(remove_punctuation)
msj['tweet_text_nacc'] = msj['tweet_text_nacc'].apply(remove_numbers)
msj['tweet_text_nacc'] = msj['tweet_text_nacc'].apply(to_lower)
msj['tweet_text_nacc'] = msj['tweet_text_nacc'].apply(strip_whitespace)


Dado que necesitamos representar los datos de alguna manera, una forma tradicional de hacerlo es mediante una matriz. La idea principal es considerar cada documento como una fila, la cual a su vez tiene tantas columnas como términos existan en el corpus completo de documento (no por documento). De esta forma, podríamos conocer cuáles términos se repiten entre documentos (por ejemplo).

Para esto, usaremos la función CountVectorizer, que utilizará nuestra colección completa de documentos.

In [None]:
# creat bag of words from msj
from sklearn.feature_extraction.text import CountVectorizer

# Crear el objeto CountVectorizer
vectorizer = CountVectorizer()

# Crear la matriz de términos del documento
X = vectorizer.fit_transform(msj['tweet_text_nacc'])

# Crear el DataFrame de la matriz de términos del documento
df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())

# Mostrar el DataFrame
df.head()



Esta matriz, tendrá en cada celda (i,j) la frecuencia de un término j dentro del documento i.

Además, algo interesante a ver acá, es el valor de Sparsity. Se tienen 400 documentos y 1887 términos, esto genera 400 * 1887 = 754800 celdas.
Para ver el tamaño de la matriz, utilizaremos el siguiente comando:

In [None]:
df.shape

Podemos buscar los términos más frecuentes

In [None]:

word_freq = df.sum(axis=0).sort_values(ascending=False)


In [None]:
top_word_freq = word_freq.head(20)

# Crear el gráfico de barras horizontal con Plotly
fig = px.bar( x=top_word_freq.index, y=top_word_freq.values, title='Top-20 palabras de la colección',
             labels={'freq': 'Frecuencia', 'word': 'Palabra'})

# Mostrar el gráfico
fig.show()

Como es posible apreciar, la mayor de estas palabras son aquellas que no entregan mayor significado a los documentos. Por ejemplo, artículos o preposiciones en su mayoría. Para solucionar este problema, podemos considerar una bolsa de palabras comunes llamada stopwords. Por lo tanto, eliminaremos palabras comunes para luego calcular la matriz nuevamente.

Primero, podemos ver cuáles son las stopwords que considera la librería nltk para el español:

In [None]:
import nltk

from nltk.corpus import stopwords

nltk.download ('stopwords')
#Algunas características de NLTK
nltk_sw_list = stopwords.words ('spanish')

In [None]:
nltk_sw_list

In [None]:
from nltk.tokenize import word_tokenize

def remove_stopwords(text):
    tokens = word_tokenize(text)  # Tokenizar el texto
    filtered_tokens = [word for word in tokens if word not in nltk_sw_list]  # Filtrar las stopwords
    return ' '.join(filtered_tokens)

In [None]:
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
msj['tweet_text_nacc'] = msj['tweet_text_nacc'].apply(remove_stopwords)

In [None]:
vectorizer = CountVectorizer()

# Crear la matriz de términos del documento
X = vectorizer.fit_transform(msj['tweet_text_nacc'])

# Crear el DataFrame de la matriz de términos del documento
df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())

word_freq = df.sum(axis=0).sort_values(ascending=False)


top_word_freq = word_freq.head(20)

# Crear el gráfico de barras horizontal con Plotly
fig = px.bar( x=top_word_freq.index, y=top_word_freq.values, title='Top-20 palabras de la colección',
             labels={'freq': 'Frecuencia', 'word': 'Palabra'})

# Mostrar el gráfico
fig.show()

También podemos hacer un "word cloud" para ver las palabras más comunes:

In [None]:
from wordcloud import WordCloud

wordcloud = WordCloud(width=800, height=400, background_color='white').generate(msj['tweet_text_nacc'].to_string())

# Mostrar la nube de palabras
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # Desactivar los ejes
plt.show()