# LIBRERIAS

In [6]:
import pandas as pd
gym_df = pd.read_csv('../datasets/gym_ex.csv', sep=";")
gym_df.head()

Unnamed: 0,Age,Gender,Weight (kg),Height (m),Max_BPM,Avg_BPM,Resting_BPM,Session_Duration (hours),Calories_Burned,Workout_Type,Fat_Percentage,Water_Intake (liters),Workout_Frequency (days/week),Experience_Level,BMI
0,56,Male,88.3,1.71,180,157,60,1.69,1313.0,Yoga,12.6,3.5,4,3,30.2
1,46,Female,74.9,1.53,179,151,66,1.3,883.0,HIIT,33.9,2.1,4,2,32.0
2,32,Female,68.1,1.66,167,122,54,1.11,677.0,Cardio,33.4,2.3,4,2,24.71
3,25,Male,53.2,1.7,190,164,56,0.59,532.0,Strength,28.8,2.1,3,1,18.41
4,38,Male,46.1,1.79,188,158,68,0.64,556.0,Strength,29.2,2.8,3,1,14.39


# 3.1.1 Gráficos de dispersión

`Plotly Express` es una interfaz de alto nivel y fácil de usar para Plotly, que trabaja con distintos tipos de datos y permite crear figuras personalizables de manera sencilla.

Con `px.scatter`, cada punto de datos se representa como un marcador cuya ubicación está determinada por las columnas `x` e `y`.


In [None]:
import plotly.express as px
from plotly.graph_objects import Figure


fig: Figure = px.scatter(x = [0, 1, 2, 3, 4], 
                        y = [0, 1, 4, 9, 16],
                        width = 400, 
                        height = 400)  
fig.show()


# 3.1.2 Configuración del tamaño y color mediante nombres de columna

Los gráficos de dispersión con marcadores circulares de tamaño variable suelen llamarse gráficos de burbujas. Ten en cuenta que la información de color y tamaño se agrega al pasar el cursor sobre el gráfico. 

Puedes añadir otras columnas a los datos mostrados en el hover utilizando el argumento `hover_data` de `px.scatter`.



Para el siguiente código nótese que se pasa el `DataFrame` y los argumentos que indican cuales van a ser el `x`, `y`... Los indicamos como los nombres del `DataFrame`.

In [11]:
import plotly.express as px
from plotly.graph_objects import Figure
from pandas import DataFrame

df: DataFrame = px.data.iris()

fig: Figure = px.scatter(data_frame = gym_df, 
                        x = "Weight (kg)", 
                        y = "Height (m)", 
                        color = "Gender",
                        size = 'Experience_Level', 
                        hover_data = ['Fat_Percentage'], # Cuando pasemos el por encima de un punto también estará esta info. extra.
                        width = 600, 
                        height = 600)
fig.show()

En el ejemplo anterior definimos los colores en base a una columna con un finito número de elementos. Podemos además indicar como color una columna de valores continuos, dejando así un gradiente de colores que nos darán un valor en función de esta columna.

In [14]:
import plotly.express as px
from plotly.graph_objects import Figure

fig: Figure = px.scatter(data_frame = gym_df, 
                        x = "Weight (kg)", 
                        y = "Height (m)", 
                        color = "BMI",
                        width = 600, 
                        height = 600)
fig.show()

Al igual que antes, no solo podemos jugar con los colores, sino que también con las formas.

In [25]:
import plotly.express as px
from plotly.graph_objects import Figure
from pandas import DataFrame

fig: Figure = px.scatter(data_frame = gym_df, 
                        x = "Weight (kg)", 
                        y = "Height (m)", 
                        symbol="Experience_Level")

fig.show()

# 3.1.3 Barras de Error

Los gráficos de dispersión admiten barras de error. 

Las barras de error son líneas visuales que se agregan a los gráficos para representar la incertidumbre o variabilidad en los datos. En un gráfico de dispersión, las barras de error indican cuánto pueden variar los valores de un punto en las direcciones del eje X, el eje Y o ambos, y se extienden hacia arriba, abajo, derecha o izquierda desde el marcador del punto de datos.


In [23]:
import plotly.express as px
from plotly.graph_objects import Figure
from pandas import DataFrame

df: DataFrame = px.data.iris()
df["e"] = df["sepal_width"]/100

fig: Figure = px.scatter(df, 
                x="sepal_width", 
                y="sepal_length", 
                color="species",
                error_x="e", 
                error_y="e")

fig.show()

# 3.1.4 Facetting

El **faceting** es una técnica en visualización de datos que permite dividir un gráfico en múltiples subgráficos, o **facetas**, cada uno de los cuales representa una categoría diferente de los datos. Esto es útil para analizar y comparar diferentes subconjuntos de un conjunto de datos en un formato organizado y visual.

Por ejemplo, en un gráfico de dispersión, se puede utilizar el faceting para crear subgráficos que muestran la relación entre dos variables mientras se agrupan por una tercera categoría, como género o grupo etario. Esto ayuda a identificar patrones y tendencias en los datos que podrían no ser evidentes en un solo gráfico.


In [29]:
import plotly.express as px
from plotly.graph_objects import Figure

fig: Figure = px.scatter(data_frame = gym_df, 
                        x = "Weight (kg)", 
                        y = "Height (m)", 
                        facet_col="Experience_Level")


fig.show()  

# 3.1.5 Regresión Lineal

La **regresión lineal** es una técnica estadística utilizada para modelar la relación entre una variable dependiente y una o más variables independientes. En un gráfico de dispersión, la regresión lineal se representa como una línea que mejor se ajusta a los puntos de datos, permitiendo visualizar la tendencia general de los datos.


In [7]:
import plotly.express as px
from plotly.graph_objects import Figure
from pandas import DataFrame

df: DataFrame = px.data.tips()

fig: Figure = px.scatter(df, 
                        x="total_bill", 
                        y="tip", 
                        trendline="ols")

fig.update_layout(width=600, height=600) 
fig.show()