### Tutorial Python 1 - Manipulación de datos e introducción a la estadística

Un diagrama de puntos de Cleveland contiene una variable numérica en el eje $x$ y una variable categórica en el eje $y$. Estos diagramas son útiles para comparar tratamientos. El módulo `plotly.express` contiene la funcionalidad `px.scatter` que genera diagramas de puntos generales y categóricos.


Para este notebook es necesario instalar desde Anaconda Prompt los siguientes módulos:

1. Plotly, instálese mediante `pip install plotly`
2. Kaleido, instálese mediante `pip install -U kaleido`

In [None]:
# Gráficos
import plotly.express as px

# Manipulación de datos
import pandas as pd

### Ingrese su archivo aquí
Usted puede preparar un archivo .CSV con dos columnas, donde cada columna representa un tratamiento y cada entrada representa el resultado obtenido con el tratamiento en la observación específica. Usted debe tener el mismo número de observaciones para cada tratamiento

In [None]:
# Importamos el archivo .CSV con los datos
df = pd.read_csv("chocolate.csv")

# Exploramos los datos con la función df.head()
df.head(10)

Si bien esta tabla es visualmente atractiva, se vuelve impráctica para el análisis porque los tratamientos o variables categóricas aparecen como columnas. La función `pandas.melt(df, value_vars)` permite convertir las columnas categóricas de un mismo valor observado en el DataFrame `df` a una nueva variable categórica. El parámetro `value_vars` es una lista que contiene los nombres de las columnas que contienen los valores numéricos.

In [None]:
df = pd.melt(df, value_vars = df.columns)
df.sample(6)

En verdad, la cantidad "value" es la resistencia de la unión a la tracción, que llamaremos `resistencia` para facilitar la manipulación de datos. Además, la cantidad "variable" representa la variable categórica que es el tipo de mortero. A esta otra columna le llamaremos `tipo_mortero`. En general, es buena práctica no utilizar espacios en los nombres de las variables en un `DataFrame`. 

In [None]:
df.rename(columns = {"variable":"tipo_chocolate", "value":"nota"}, inplace = True)
df.sample(6)

Calculamos los promedios de cada tipo de observación

In [None]:
# Genera un DataFrame con las medias de los valores de la última columna agrupando por las categorías en la primera columna
medias = df.groupby(df.columns[0]).mean()

# Extrae las medias como variables numéricas "float" para su posterior visualización
mu_1 =  medias.loc[df[df.columns[0]].unique()[0]].values[0]
mu_2 =  medias.loc[df[df.columns[0]].unique()[1]].values[0]

Una vez que los datos están preparados y en el formato adecuado, se procede a graficarlos

In [None]:
#df = px.data.medals_long()

#fig = px.scatter(df, y="nation", x="count", color="medal", symbol="medal")
fig = px.scatter(df, y = df.columns[0], x = df.columns[1], facet_row_spacing = 1, width = 900, height = 200)

fig.update_traces(marker_size=10)

# Removemos el título del eje y por defecto ya que las categorías aparecen explícitamente
fig.update_yaxes(title_text = '')

# Agregamos las medias al gráfico

# Media concreto modificado
fig.add_annotation(x =mu_1, y=-0.5, yref='paper', 
                   text='$\mu_{mod} = %.1f$'%mu_1, showarrow=False, font=dict(color="Indigo"))
# Línea vertical
fig.add_shape(type="line", x0=mu_1, x1=mu_1, y0=0, y1=1, yref='paper', line=dict(color="Indigo"))

# Media concreto no modificado
fig.add_annotation(x =mu_2, y=-0.5, yref='paper', 
                   text="$\mu_{no,mod} = %.1f$"%mu_2, showarrow=False, font=dict(color="Brown"))

# Línea vertical
fig.add_shape(type="line", x0=mu_2, x1=mu_2, y0=0, y1=1, yref='paper', line=dict(color="Brown"))

# Visualización del gráfico resultante
fig.show()

fig.write_image('dotchoc.svg', 'svg')