## Visualización de Datos con Plotly
### Taller # 3

In [None]:
# Importar librerías
import numpy as np
import pandas as pd
import plotly.graph_objs as go
import plotly.express as px
from sklearn import datasets

In [None]:
# Adecuación de Datos del Dataset de Cancer de Seno
data_container = datasets.load_breast_cancer()
cancer_df = pd.DataFrame(data_container['data'], columns=data_container['feature_names']) # Crea el DataFrame con los datos y nombres de los features
cancer_df['breast cancer type'] = data_container['target'] # Añade la columna del tipo de cancer codificada como 0 y 1
cancer_df['breast cancer type'].replace(dict(zip([0, 1], data_container['target_names'])), inplace=True) # Decodifica los 0 y 1
cancer_df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,breast cancer type
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,malignant
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,malignant
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,malignant
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,malignant
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,malignant


Realice un gráfico de barras para el promedio de la columna **mean radius** por tipo de cancer (**breast cancer type**)

In [None]:
# Agrupar el DataFrame por tipo de cáncer y calcular el promedio de "mean radius" para cada grupo
mean_radius_by_cancer_type = cancer_df.groupby('breast cancer type')['mean radius'].mean().reset_index()

# Crear el gráfico de barras con Plotly Graph Objects
go.Figure(
    data=go.Bar(x=mean_radius_by_cancer_type['breast cancer type'], y=mean_radius_by_cancer_type['mean radius']),
    layout=go.Layout(
        title='Promedio de mean radius por tipo de cáncer',
        xaxis=dict(title='Tipo de Cáncer'),
        yaxis=dict(title='Promedio de mean radius')
    )
)

¿Que conclusiones saca de la gráfica anterior?



Realice un gráfico de cajas (*box plot*) para la columna **mean radius** por tipo de cancer (**breast cancer type**)

In [None]:
# Crear el gráfico de cajas (box plot)
px.box(cancer_df, x='breast cancer type', y='mean radius',
             title='Diagrama de Caja de mean radius por Tipo de Cáncer',
             labels={'mean radius': 'mean radius', 'breast cancer type': 'Tipo de Cáncer'})

¿Cambia en algo su perspectiva respecto a la gráfica anterior?

In [None]:
# Adecuación de Datos del Dataset Diabetes
diab_data = pd.read_table('https://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txt')
diab_data.columns = ['age', 'sex', 'bmi', 'bp', 'tc', 'ldl', 'hdl', 'tch', 'ltg', 'glu', 'prog']
diab_data.sex = 'S' + diab_data.sex.astype(str)
diab_data.head()

Unnamed: 0,age,sex,bmi,bp,tc,ldl,hdl,tch,ltg,glu,prog
0,59,S2,32.1,101.0,157,93.2,38.0,4.0,4.8598,87,151
1,48,S1,21.6,87.0,183,103.2,70.0,3.0,3.8918,69,75
2,72,S2,30.5,93.0,156,93.6,41.0,4.0,4.6728,85,141
3,24,S1,25.3,84.0,198,131.4,40.0,5.0,4.8903,89,206
4,50,S1,23.0,101.0,192,125.4,52.0,4.0,4.2905,80,135


Realice un gráfico de dispersión **scatter plot** de edad (**age**) contra índice de masa corporal **bmi**

In [None]:
# Crear el gráfico de dispersión
px.scatter(diab_data, x='age', y='bmi',
                 title='Gráfico de Dispersión: Edad vs. BMI',
                 labels={'age': 'Edad', 'bmi': 'Índice de Masa Corporal'})

Añada distinción por sexo (**sex**) en forma de color, al anterior gráfico de dispersión

In [None]:
# Crear el gráfico de dispersión con distinción por sexo
px.scatter(diab_data, x='age', y='bmi', color='sex',
                 title='Gráfico de Dispersión: Edad vs. BMI por Sexo',
                 labels={'age': 'Edad', 'bmi': 'Índice de Masa Corporal', 'sex': 'Sexo'})

La función **pd.cut()** nos permite hacer agrupaciones por rangos de edad (**age**).

In [None]:
# Agrupación por Rangos de Edad
rangos_edad = np.arange(10, 80+10, 10)
age_group_diab_data = diab_data.groupby(pd.cut(diab_data['age'], rangos_edad)).mean()


The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



Grafique en una línea de tendencia, la proresión (**prog**) de la enfermedad en función de la edad.

In [None]:
# Convertir los intervalos en etiquetas legibles
age_group_labels = [f'{int(interval.left)}-{int(interval.right)}' for interval in age_group_diab_data.index]

# Obtener el segundo número del intervalo como etiqueta
age_group_labels = [str(interval.right) for interval in age_group_diab_data.index]

# Crear un objeto de traza de línea
trace = go.Scatter(x=age_group_labels, y=age_group_diab_data['prog'], mode='lines', marker=dict(size=10),
                   text=age_group_labels)

# Crear el diseño del gráfico
layout = go.Layout(title='Progresión de la enfermedad en función de la Edad',
                   xaxis=dict(title='Edad (Máximo del Rango)'),
                   yaxis=dict(title='Progresión (prog)'),
                   showlegend=False)

# Crear la figura del gráfico
fig = go.Figure(data=[trace], layout=layout)

# Mostrar el gráfico
fig.show()