# **Módulo 3: Visualización de datos interactivos**

## **Tratamiento de datos faltantes y atípicos**

Este conjunto de datos contiene información relacionada con los **empleos de profesionales de datos**, recopilada durante varios años. Cada fila representa un empleo único y proporciona detalles sobre el puesto, nivel de experiencia, modalidad de trabajo, ubicación del empleado, y otros factores relevantes para el contexto laboral y el salario recibido. Este conjunto de datos es útil para analizar tendencias en el mercado laboral de la ciencia de datos, permitiendo comparaciones entre diferentes tipos de empleos, niveles de experiencia, y ubicaciones geográficas.

**Descripción de las columnas**

| **Columna**               | **Descripción**                                                                                   | **Tipo de dato** |
|---------------------------|---------------------------------------------------------------------------------------------------|------------------|
| **Working_Year**           | Año en que se obtuvieron los datos sobre el empleo. Esto puede ser útil para observar tendencias a lo largo del tiempo. | Float            |
| **Designation**            | Título del puesto del profesional de datos. Ejemplos comunes incluyen "Data Scientist", "Data Engineer", etc. | Cadena           |
| **Experience**             | Nivel de experiencia del empleado en el puesto, categorizado como "Medio", "Senior", etc. Esto ayuda a segmentar los trabajos según la experiencia necesaria. | Cadena           |
| **Employment_Status**      | Tipo de contrato laboral bajo el cual se emplea a la persona. Puede ser a tiempo completo ("FT"), medio tiempo ("PT"), entre otros. Es un indicador de la estabilidad y dedicación del empleo. | Cadena           |
| **Employee_Location**      | País donde se encuentra ubicado el empleado. Esto puede influir en el salario y las condiciones laborales, dada la variación entre mercados internacionales. | Cadena           |
| **Company_Size**           | Tamaño de la empresa en la que trabaja el profesional de datos. Las empresas se clasifican en "S" (Pequeña), "M" (Mediana), o "L" (Grande), y esto puede influir en las oportunidades de crecimiento, ambiente de trabajo, y remuneración. | Cadena           |
| **Remote_Working_Ratio**   | Porcentaje de tiempo que el empleado trabaja de manera remota. Un valor del 100% indicaría que el empleo es completamente remoto, mientras que un valor del 0% indicaría un empleo presencial. | Entero           |
| **Salary_USD**             | Salario anual del empleado expresado en dólares estadounidenses (USD). Este valor es útil para hacer comparaciones salariales entre empleos de diferentes ubicaciones y niveles de experiencia. | Float            |


In [None]:
import pandas as pd
import numpy as np

# Cargar el archivo CSV proporcionado
file_path = # TU CODIGO
df =  # TU CODIGO

In [None]:
# Informacion del dataset
 # TU CODIGO

In [None]:
# Copia del dataset
df_va = df.copy()

# Revisar los datos faltantes en el conjunto de datos
missing_values =  # TU CODIGO

# Calcular el porcentaje de valores faltantes
missing_percentage =  # TU CODIGO

# Crear un DataFrame con el análisis de datos faltantes
missing_data = pd.DataFrame({
    'Valores Faltantes': missing_values,
    'Porcentaje Faltante (%)': missing_percentage
})

missing_data


#### **Eliminación de datos faltantes** 

In [None]:
# Coloquemos un umbral
umbral =  # TU CODIGO

# Selecciona columnas con valores faltantes <= umbral
cols_to_drop = df_va .columns[ # TU CODIGO]

# Elimina filas con valores faltantes en las columnas seleccionadas
df_va.dropna(subset=cols_to_drop, inplace=True)

In [None]:
# informacion del dataset ajustado
 # TU CODIGO

In [None]:
# Revisar los datos faltantes en el conjunto de datos
missing_values = df_va.isnull().sum()

# Calcular el porcentaje de valores faltantes
missing_percentage = (df_va.isnull().mean() * 100).round(2)

# Crear un DataFrame con el análisis de datos faltantes
missing_data = pd.DataFrame({
    'Valores Faltantes': missing_values,
    'Porcentaje Faltante (%)': missing_percentage
})

missing_data

Otra forma para eliminar los datos faltantes es:

In [None]:
# copia del dataset
df_2 = df.copy()

# eliminar las filas con Nans
df_2_new =  # TU CODIGO

In [280]:
# Revisar los datos faltantes en el conjunto de datos
missing_values = df_2_new.isnull().sum()

# Calcular el porcentaje de valores faltantes
missing_percentage = (df_2_new.isnull().mean() * 100).round(2)

# Crear un DataFrame con el análisis de datos faltantes
missing_data = pd.DataFrame({
    'Valores Faltantes': missing_values,
    'Porcentaje Faltante (%)': missing_percentage
})

missing_data

Unnamed: 0,Valores Faltantes,Porcentaje Faltante (%)
Working_Year,0,0.0
Designation,0,0.0
Experience,0,0.0
Employment_Status,0,0.0
Employee_Location,0,0.0
Company_Size,0,0.0
Remote_Working_Ratio,0,0.0
Salary_USD,0,0.0


#### **Imputación de datos faltantes**

##### **Datos categóricos**

1. Usando la **moda**:

In [None]:
# Copia del dataset
df_3 = df.copy()

# Iterar sobre cada columna del DataFrame
for col in  # TU CODIGO:
    # Comprobar si la columna es de tipo objeto (categórica)
    if  # TU CODIGO:
        # Imputar los valores faltantes con la moda (categoría más frecuente)
        df_3[col].fillna( # TU CODIGO, inplace=True)

2. Usando **Asignación aleatoria**:

In [None]:
# Copia del dataset
df_4 = df.copy()

# Iterar sobre cada columna de df_4
for col in df_4.columns:
    # Comprobar si la columna es de tipo objeto (categórica)
    if df_4[col].dtypes == 'object':
        # Obtener las categorías no faltantes de la columna
        categorias_no_nan =  # TU CODIGO
        # Reemplazar valores faltantes con una categoría seleccionada aleatoriamente
        df_4[col] = df_4[col].apply(lambda x: np.random.choice(categorias_no_nan) if pd.isna(x) else x)


##### **Datos numéricos**

1. Usando **la media o el promedio**

In [None]:
# Copia del dataset
df_6 = df.copy()

# Imputar los valores perdidos con imputación de medias
df_6.fillna( # TU CODIGO, inplace=True)

2. Usando **la mediana**

In [None]:
# Copia del dataset
df_7 = df.copy()

# Imputar los valores perdidos con imputación de medias
df_7.fillna( # TU CODIGO, inplace=True)

Otra manera adecuada de imputar valores ausentes es mediante la clase `SimpleImputer` de `scikit-learn`


In [None]:
# Libreria
from sklearn.impute import SimpleImputer

# Copia del dataset
df_8 = df.copy()

# Crear la instancia para imputar con la media
imputer =  # TU CODIGO

# Imputar los valores faltantes
df_8[['Working_Year','Salary_USD']] = imputer.fit_transform(df_8[['Working_Year','Salary_USD']])

In [None]:
df_8.info()

### **Tratamiento de datos atípicos** 

Vamos a crear un gráfico de caja para comprobar si nuestro conjunto de datos contiene valores atípicos. Vamos a utilizar el conjunto de datos `gym.csv`, que contiene información sobre los clientes de un determinado gimnasio.

In [288]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import plotly.express as px

Guarda el archivo `gym.csv` en un DataFrame llamado `gym`, e imprime las cinco primeras filas del mismo para ver cómo son los datos

In [None]:
gym =  # TU CODIGO
gym.head()

Como puede ver, nuestros datos tienen tres columnas: `age`, `weight`, `sex`. La columna sexo consta de tres valores discretos que corresponden a tres clases discretas: `0 es hombre`, `1 es mujer` y `2 es otro`.

Cree un gráfico de caja con el eje $x$ como columna de sexo y el eje $y$ como peso:

In [290]:
# Importar plotly
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio

# Configurar el renderizador para notebook o Jupyter Book
pio.renderers.default = 'notebook'

In [None]:
fig =  # TU CODIGO
fig.show()

#### **Detección de valores atípicos**

In [None]:
# Lista para almacenar los valores atípicos detectados
outliers = []

# Función para detectar valores atípicos usando la puntuación Z (Z-score)
def detect_outliers_zscore(data):
    thres = 3  # Umbral de Z-score para considerar un valor como atípico
    mean = np.mean(data)  # Calcular la media del conjunto de datos
    std = np.std(data)  # Calcular la desviación estándar del conjunto de datos
    
    # Iterar a través de los valores del conjunto de datos
    for x in data:
        z_score =  # TU CODIGO # Calcular la puntuación Z de cada valor
        # Si el valor absoluto del Z-score es mayor que el umbral, es un valor atípico
        if np.abs(z_score) > thres:
            outliers.append(x)  # Añadir el valor atípico a la lista de outliers
    return outliers  # Retornar la lista de valores atípicos

# Aplicar la función a la columna 'weight' del DataFrame gym
sample_outliers = detect_outliers_zscore(gym.weight)

# Imprimir los valores atípicos detectados usando el método de Z-score en español
print("Valores atípicos detectados por el método de Z-score:", sample_outliers)


Valores atípicos detectados por el método de Z-score: [790]


##### **Detección de valores atípicos mediante el rango intercuantil (IQR)**

Valores fuera de 1.5 veces el rango intercuartil son atípicos.

In [None]:
# Lista para almacenar los valores atípicos detectados
outliers = []

# Función para detectar valores atípicos utilizando el rango intercuartil (IQR)
def detect_outliers_iqr(data):
    data = sorted(data)  # Ordenar los datos de menor a mayor
    q1 = np.percentile(data, 25)  # Calcular el primer cuartil (Q1)
    q3 = np.percentile(data, 75)  # Calcular el tercer cuartil (Q3)
    IQR = q3 - q1  # Calcular el rango intercuartil (IQR)
    
    # Definir los límites inferior y superior para identificar atípicos
    lwr_bound =  # TU CODIGO  # Límite inferior
    upr_bound =  # TU CODIGO  # Límite superior
    
    # Iterar a través de los datos para detectar valores fuera de los límites
    for x in data:
        if x < lwr_bound or x > upr_bound:  # Si el valor está fuera de los límites, es un valor atípico
            outliers.append(x)  # Añadir el valor atípico a la lista
    return outliers  # Retornar la lista de valores atípicos

# Aplicar la función a la columna 'weight' del DataFrame gym
sample_outliers = detect_outliers_iqr(gym.weight)

# Imprimir los valores atípicos detectados utilizando el método del rango intercuartil (IQR)
print("Valores atípicos detectados por el método del IQR:", sample_outliers)


#### **Tratamiento**

##### **Eliminación de datos atípicos**

Eliminaremos el dato que contiene el valor atípico del conjunto de datos utilizado previamente y, a continuación, visualizaremos el nuevo conjunto de datos mediante un gráfico de caja actualizado.

In [None]:
# Cargamos la data
gym = pd.read_csv('_data/dataviz/gym.csv')
gym.head()

In [None]:
gym.info()

Modificar el DataFrame del gimnasio para que solo esté formado por los casos *en los que el peso sea inferior a 104* e imprimir las cinco primeras filas:

In [None]:
gym_clean =  # TU CODIGO
gym_clean.head()

In [None]:
gym_clean.info()

Vamos a crear un boxplot para ver el aspecto de los datos

In [None]:
# Crear el diagrama de violín
fig = # TU CODIGO

# Configurar fondo blanco y rejilla gris
fig.update_layout(
    paper_bgcolor='white',  # Fondo del gráfico
    plot_bgcolor='white',   # Fondo de la parte de trazado
    # xaxis=dict(showgrid=True, gridcolor='lightgrey'),  # Rejilla gris en el eje x
    yaxis=dict(showgrid=True, gridcolor='lightgrey')   # Rejilla gris en el eje y
)

# Actualizar el color de la caja a rojo y agregar línea del promedio más gruesa
fig.update_traces(
    box=dict(line_color='red'),     # Color de la caja (rojo)
    meanline_visible=True,          # Mostrar línea del promedio
    meanline=dict(color='darkgreen', width=3)  # Línea del promedio más gruesa y en rojo
)

# Mostrar el gráfico
fig.show()


Otra forma de eliminar los datos atípicos es:

In [None]:
gym.info()

In [None]:
# Función para eliminar outliers usando el rango intercuartílico (IQR)
def remove_outliers_iqr(df):
    Q1 = # TU CODIGO
    Q3 = # TU CODIGO
    IQR = # TU CODIGO
    # Filtrar outliers
    df_filtered = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]
    return df_filtered

# Se aplica la función de filtro de outliers sin incluir la variable objetivo
gym_cleaned = remove_outliers_iqr(gym.drop(columns=['sex']))

# Se vuelve a añadir la variable objetivo
gym_cleaned['sex'] = gym['sex'].loc[gym_cleaned.index]

print("Forma de datos originales: ", gym.shape)
print("Forma de datos sin outliers: ",gym_cleaned.shape)

##### **Imputación de datos atípicos**

Veamos un diagrama de cajas y bigotes

In [None]:
# , Diagrama de cajas y bigotes del weight 
fig = # TU CODIGO

# Configurar fondo blanco y rejilla gris
fig.update_layout(
    paper_bgcolor='white',  # Fondo del gráfico
    plot_bgcolor='white',   # Fondo de la parte de trazado
    # xaxis=dict(showgrid=True, gridcolor='lightgrey'),  # Rejilla gris en el eje x
    yaxis=dict(showgrid=True, gridcolor='lightgrey')   # Rejilla gris en el eje y
)

fig.show()

Al eliminar el dato atpico pudimos ver que los datos no tienen comportamiento normal, por lo que el valor medio es sensible a valores atípicos, se aconseja sustituirlos por la mediana.

In [None]:
# Calcular la mediana de la columna 'weight'
mediana_weight = gym['weight'].median()

# Encontrar y reemplazar los valores atípicos
Q1 = # TU CODIGO
Q3 = # TU CODIGO
IQR = # TU CODIGO
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Copia de datos
gym_cleaned_2 = gym.copy()

# Reemplazar los valores atípicos con la mediana
gym_cleaned_2['weight'] = gym['weight'].apply(lambda x: mediana_weight if x < limite_inferior or x > limite_superior else x)


Veamos el diagrama de cajas y bigotes de weight según el sexo

In [None]:
fig2 = # TU CODIGO

# Configurar fondo blanco y rejilla gris
fig2.update_layout(
    paper_bgcolor='white',  # Fondo del gráfico
    plot_bgcolor='white',   # Fondo de la parte de trazado
    # xaxis=dict(showgrid=True, gridcolor='lightgrey'),  # Rejilla gris en el eje x
    yaxis=dict(showgrid=True, gridcolor='lightgrey')   # Rejilla gris en el eje y
)

fig2.show()

## **Visualización interactiva**

### **Aspecto claves de las visualizaciones interactivas**

El aspecto clave de las visualizaciones de datos interactivas es su capacidad de responder y adaptarse a las entradas del usuario en tiempo real o en intervalos muy cortos. A continuación, se exploran algunas de las principales entradas humanas, cómo se integran en las visualizaciones y el impacto que tienen en la comprensión de los datos:

### **Preparación de nuestro dataset**

Descargaremos y prepararemos nuestro conjunto de datos utilizando las bibliotecas de Python `pandas` y `numpy`. Al final de este ejercicio, tendremos un `DataFrame` listo para la creación de nuestras visualizaciones de datos interactivas. Utilizaremos dos archivos de datos: `co2.csv`, que contiene información sobre las emisiones de dióxido de carbono por persona, año y país, y `gapminder.csv`, que registra el PIB por año y país.

1. Importar las bibliotecas necesarias:

In [304]:
import pandas as pd
import numpy as np

2. Utilizaremos el path único para cargar los archivos de datos directamente en DataFrames:

In [None]:
url_co2 = 'C:/Users/cdeor/OneDrive/Documentos/MachineLearningDipSerfinanzas/jbook_ml202430/docs/_data/dataviz/co2.csv'
co2 = pd.read_csv(url_co2)
co2.head()

In [None]:
url_gm = 'C:/Users/cdeor/OneDrive/Documentos/MachineLearningDipSerfinanzas/jbook_ml202430/docs/_data/dataviz/gapminder.csv'
gm = pd.read_csv(url_gm)
gm.head()

3. Creamos un nuevo `DataFrame` `df_gm` que contenga solo las columnas *Country* y *region*, y eliminamos duplicados:

In [None]:
df_gm = # TU CODIGO
df_gm.head()

Unnamed: 0,Country,region
0,Afghanistan,South Asia
50,Albania,Europe & Central Asia
100,Algeria,Middle East & North Africa
150,Angola,Sub-Saharan Africa
200,Antigua and Barbuda,America


4. Utilice `.merge()` para combinar el DataFrame `co2` con el DataFrame `df_gm`. 

In [None]:
# Fusionamos el DataFrame 'co2' con el DataFrame 'df_gm' utilizando 'country' y 'Country' como claves
# La fusión es interna ('inner join') para mantener solo las filas comunes a ambos DataFrames
df_w_regions = pd.merge(..., ..., left_on='country', right_on='Country', how='inner')

# Eliminamos la columna duplicada 'Country' ya que 'country' contiene la misma información
df_w_regions = df_w_regions.drop('Country', axis='columns')

# Mostramos las primeras 5 filas del DataFrame resultante para verificar la fusión
df_w_regions.head()

Unnamed: 0,country,1800,1801,1802,1803,1804,1805,1806,1807,1808,...,2006,2007,2008,2009,2010,2011,2012,2013,2014,region
0,Afghanistan,,,,,,,,,,...,0.0637,0.0854,0.154,0.242,0.294,0.412,0.35,0.316,0.299,South Asia
1,Albania,,,,,,,,,,...,1.28,1.3,1.46,1.48,1.56,1.79,1.68,1.73,1.96,Europe & Central Asia
2,Algeria,,,,,,,,,,...,2.99,3.19,3.16,3.42,3.3,3.29,3.46,3.51,3.72,Middle East & North Africa
3,Angola,,,,,,,,,,...,1.1,1.2,1.18,1.23,1.24,1.25,1.33,1.25,1.29,Sub-Saharan Africa
4,Antigua and Barbuda,,,,,,,,,,...,4.91,5.14,5.19,5.45,5.54,5.36,5.42,5.36,5.38,America


5. A continuación, aplicaremos la función `.melt()` al DataFrame y almacenaremos el resultado en un nuevo DataFrame llamado `new_co2`. 

In [None]:
# Aplicamos la función pd.melt() al DataFrame 'df_w_regions'
# 'id_vars' indica las columnas que queremos mantener como identificadoras (en este caso, 'country' y 'region')
# El resto de las columnas (años) se transforman en una sola columna 'variable' con sus respectivos valores en otra columna 'value'
new_co2 = pd.melt(..., id_vars=...)

# Renombramos las columnas del DataFrame resultante para mayor claridad
# 'variable' ahora se llamará 'year' para representar los años, y 'value' se renombra a 'co2' para las emisiones de CO2
new_co2.columns = ['country', 'region', 'year', 'co2']

# muestra las 5 primeras
new_co2.tail(5)

6. Estableceremos un límite inferior de 1964 en la columna *year* del DataFrame `new_co2`, filtrando los datos para mantener únicamente los años posteriores a 1963, y convertiremos los valores de esta columna al tipo `int64` utilizando `.astype('int64')`. El resultado se almacenará en un nuevo DataFrame llamado `df_co2`, que luego se ordenará por las columnas `['country', 'year']` utilizando `.sort_values()` para garantizar que los datos estén organizados por país y año de manera coherente y lista para análisis posteriores.

In [None]:
# Filtramos el DataFrame 'new_co2' para mantener solo los registros donde el valor de 'year' es mayor a 1963
# Convertimos los valores de la columna 'year' al tipo int64 para asegurar que los años sean tratados como enteros
# Luego, ordenamos el DataFrame resultante por las columnas 'country' y 'year'
df_co2 = new_co2[new_co2['year'].astype('int64') > 1963].sort_values(by=['country', 'year'])

# Convertimos nuevamente la columna 'year' al tipo int64 para asegurarnos de que los valores tengan el formato adecuado
df_co2['year'] = # TU CODIGO

# Mostramos las primeras 5 filas del DataFrame 'df_co2' para verificar que todo se ha realizado correctamente
df_co2.head()


7. Creamos un nuevo DataFrame `df_gdp` que contenga las columnas *country*, *year* y *gdp* del DataFrame `gm`:

In [None]:
# Seleccionamos las columnas 'Country', 'Year' y 'gdp' del DataFrame 'gm'
# Estas columnas contienen la información del país, año y PIB (gdp)
df_gdp = gm[['Country', 'Year', 'gdp']]

# Renombramos las columnas para mantener consistencia en el formato
# Cambiamos 'Country' a 'country' y 'Year' a 'year' para alinearlas con el formato del DataFrame 'df_co2'
df_gdp.columns = # TU CODIGO

# Mostramos las primeras 5 filas del DataFrame 'df_gdp' para verificar que los nombres de columnas y los datos son correctos
df_gdp.head()


8. Identificamos las columnas con valores faltantes en ambos DataFrames:

In [None]:
# TU CODIGO

In [None]:
df_gdp.isna().sum()

9. Fusionamos los DataFrames `df_co2` y `df_gdp` en las columnas *country* y *year*, y eliminamos los valores faltantes:

In [None]:
# Combinamos los DataFrames 'df_co2' y 'df_gdp' utilizando un 'merge' en las columnas 'country' y 'year'
# Se utiliza 'how=left' para hacer un left join, lo que asegura que se mantengan todos los registros de 'df_co2'
# y solo se añadan los datos de 'gdp' donde haya coincidencias en país y año
data = pd.merge(df_co2, df_gdp, on=['country', 'year'], how='left')

# Eliminamos las filas que contienen valores NaN en cualquier columna utilizando 'dropna()'
# Esto es necesario para asegurarnos de que trabajamos solo con datos completos
data = # TU CODIGO

# Mostramos las primeras 5 filas del DataFrame 'data' para verificar que la combinación y la limpieza se realizaron correctamente
data.head()


10. Por último, comprobemos la correlación entre las emisiones de dióxido de carbono y el PIB para asegurarnos de que estamos analizando datos que merecen ser visualizados. Crea un array numpy con las columnas `co2` y `gdp`:

In [None]:
# Convertimos la columna 'co2' del DataFrame 'data' en un array de NumPy
# Esto facilita la manipulación y el cálculo de correlaciones entre los valores
np_co2 = np.array(data['co2'])

# Convertimos la columna 'gdp' del DataFrame 'data' en un array de NumPy
# Este paso es similar al anterior para preparar los datos para el análisis
np_gdp = np.array(data['gdp'])

# Calculamos el coeficiente de correlación entre los arrays 'np_co2' y 'np_gdp'
# Utilizamos la función 'corrcoef()' de NumPy, que devuelve una matriz de correlación
# El valor en la posición [0, 1] o [1, 0] será el coeficiente de correlación entre 'co2' y 'gdp'
# TU CODIGO


array([[1.        , 0.78219731],
       [0.78219731, 1.        ]])

El resultado muestra una correlación significativa (0.78) entre las emisiones de CO2 y el PIB, lo que indica que estos datos son adecuados para un análisis más profundo y visualización interactiva.

### **Creación del gráfico estático con visualización interactiva**

In [316]:
# Importamos la función 'curdoc' que maneja el documento gráfico actual en Bokeh
from bokeh.io import curdoc, output_notebook

# Importamos las herramientas y métodos de Bokeh para crear interactividad
from bokeh.models import HoverTool, ColumnDataSource, CategoricalColorMapper, Slider, CustomJS

# Importamos la paleta de colores 'Spectral6' que usaremos para colorear las regiones
from bokeh.palettes import Spectral6

# Importamos 'widgetbox' para agrupar herramientas, y 'row' para organizar objetos visuales en filas
from bokeh.layouts import row, column

# Importamos la clase 'Figure' para crear gráficos en Bokeh
from bokeh.plotting import figure, show, output_notebook, output_file

# Importamos 'interact' para permitir la interactividad en el Jupyter notebook
from ipywidgets import interact

3. Ejecutamos la función `output_notebook()` para cargar BokehJS, lo que permite que las visualizaciones se muestren dentro del Jupyter notebook.

In [317]:
# Carga BokehJS en el entorno del notebook
output_notebook()

4. Vamos a codificar los puntos de datos (países) por color, dependiendo de la región a la que pertenezcan. Primero, crearemos una lista única de regiones a partir del DataFrame `data`, y luego utilizaremos `CategoricalColorMapper` para asignar un color a cada región.

In [None]:
# Creamos una lista de regiones únicas a partir de la columna 'region' del DataFrame 'data'
regions_list = # TU CODIGO

# Usamos 'CategoricalColorMapper' para asignar un color de la paleta 'Spectral6' a cada región
color_mapper = CategoricalColorMapper(factors=regions_list, palette=Spectral6)

5. Utilizaremos la función `ColumnDataSource` para construir un diccionario que contendrá las variables utilizadas en la gráfica, al que llamaremos **source_init**. Además, crearemos otro diccionario llamado **source_last**, que nos permitirá actualizar la gráfica de manera dinámica a medida que se visualicen los datos por año. Este enfoque nos ayudará a gestionar eficientemente los datos y actualizar la visualización de manera interactiva.

In [319]:
source_init = ColumnDataSource(data={'x': data.gdp[data.year == min(data.year)],
                                     'y': data.co2[data.year == min(data.year)],
                                     'country': data.country[data.year == min(data.year)],
                                     'region': data.region[data.year == min(data.year)],
                                     'year': data.year[data.year == min(data.year)]})

In [320]:
source_last = ColumnDataSource(data={'x': data.gdp, 'y': data.co2, 'year': data.year})

6. Creamos una figura inicial vacía con las siguientes configuraciones:

* Establecemos el título como `Emisiones de CO2 versus PIB en 1964`.
* Definimos el rango del eje `x` desde `xmin` hasta `xmax`.
* Configuramos el rango del eje `y` desde `ymin` hasta `ymax`.
* Ajustamos el tipo de escala del eje `y` a logarítmica para reflejar mejor la distribución de los datos.

In [321]:
plot = figure(title='CO2 Emissions vs GDP in 1964', y_axis_type='log')

7. Añadimos glifos circulares a la gráfica:

In [None]:
plot.scatter(x=..., y=..., 
            fill_alpha=0.8, 
            source=source_init, 
            legend_label='region', 
            color=dict(field='region', transform=color_mapper),
            size=7)

7. Establezca la ubicación de la leyenda en la esquina inferior derecha del gráfico, y agregue títulos a los ejes

In [323]:
plot.legend.location = 'bottom_right'
plot.xaxis.axis_label = 'Income Per Person'
plot.yaxis.axis_label = 'CO2 Emissions (tons per person)'

In [None]:
show(plot)

### **Añadiendo la herramienta Hover**

In [None]:
hover = HoverTool(tooltips=# TU CODIGO)
plot.add_tools(hover)

In [None]:
show(plot)

### **Añadiendo un slicer al gráfico estático**

1. Nombramos el archivo **HTML** de salida como **co2_emissions**

In [327]:
output_file('iframe_figures/co2_emissions.html')

2. Creamos la función `callback` usando `CustomJS` de la libreria bokeh la cual permitira actualizar nuestra figura. Usamos algunas pocas ordenes en lenguaje `JavaScript`. En este caso `cb_obj.value` contiene el modelo que `activa el callback`

In [None]:
callback = CustomJS(
    args=dict(source_last=source_last, source_init=source_init), 
    code="""
    // Acceso a los datos del source inicial (el que se muestra en la gráfica)
    var data_init = source_init.data;

    // Capturar el valor del widget (ej: año seleccionado)
    var yr = cb_obj.value;

    // Obtener todos los años del source completo
    var year = source_last.data['year'];

    // Crear arrays vacíos para los nuevos valores
    var x_new = [];
    var y_new = [];

    // Recorrer todos los años del dataset completo
    for(var i = 0; i < year.length; i++) {
        // Si el año coincide con el seleccionado, guardar los datos
        if(year[i] == yr) {
            x_new.push(source_last.data['x'][i]);
            y_new.push(source_last.data['y'][i]);
        }
    }

    // Actualizar la fuente inicial con los valores filtrados
    data_init['x'] = x_new;
    data_init['y'] = y_new;

    // Notificar a Bokeh que los datos cambiaron → refrescar gráfica
    source_init.change.emit();
    """
)


Construimos el `slider` que utilizaremos para actualizar las figuras, y realizamos el llamado de la función `callback` que recibirá como input cada año que proviene del slider. La siguiente figura podrá ser visualizada desde su editor `VS Code`. Para visualizarla en su JBook deberá actualizar el html desde su navegador, para que la función `show()` pueda activarse y mostrarse en su página.

In [None]:
slider = Slider(start=min(data.year), end=max(data.year), step=1, value=min(data.year), title='Year')
# TU CODIGO
layout = column(slider, plot)

In [None]:
show(layout)

## **Visualización de datos a través de capas**

Presentaremos `Altair`, una potente biblioteca de Python diseñada específicamente para la creación de gráficos interactivos. En esta sesión, demostraremos cómo utilizar Altair para generar visualizaciones interactivas en datos estratificados según diferentes variables categóricas. Para ilustrar sus capacidades, emplearemos un conjunto de datos real y crearemos gráficos de dispersión y de barras, destacando las principales características de los datos. Además, añadiremos una amplia gama de elementos interactivos para mejorar la experiencia visual y permitir una exploración dinámica de los datos.

### **Funcionalidad Hover y Tooltip**

1. Importa el módulo `altair` como `alt`. Antes debe instalar altair usando `pip install altair vega_datasets`. 

In [331]:
import altair as alt

2. Cargar el conjunto de datos `hpi` y leer desde el conjunto de datos usando pandas:

In [None]:
import pandas as pd

filename = # TU CODIGO
hpi_df = pd.read_csv(filename, sep='\t')

In [None]:
hpi_df.head()

3. Proporcione el DataFrame seleccionado, en este caso `hpi_df`, a la función `alt.Chart` de Altair. Utilice la función `mark_circle()` para representar los puntos de datos en el gráfico de dispersión con círculos rellenos. Emplee la función `encode()` para asignar las variables correspondientes a los ejes $x$ e $y$. Aunque también utilizamos el parámetro `color` dentro de `encode()` para diferenciar los puntos de datos por la variable región mediante un código de colores, este paso es opcional.

In [None]:
alt.Chart(hpi_df).mark_circle().encode(
    x = '# TU CODIGO',  # Asigna la variable cuantitativa 'Wellbeing (0-10)' al eje x.
    y = '# TU CODIGO',  # Asigna la variable cuantitativa 'Happy Planet Index' al eje y.
    color = '# TU CODIGO',  # Colorea los puntos de datos según la variable categórica 'Region'.
    tooltip = ['Country', 'Region', 'Wellbeing (0-10)', 'Happy Planet Index', 'Life Expectancy (years)']  # Muestra información adicional al pasar el cursor sobre los puntos.
)

4. En el gráfico anterior, observará que las características especificadas en el parámetro `tooltip` de la función `encode()` se muestran cuando el cursor se coloca sobre cualquier punto de datos. Sin embargo, la funcionalidad de zoom se ha perdido. ¿Cómo recuperarla? Es muy sencillo: ¡simplemente añada la función `interactive()`!. Incorpore `interactive()` para habilitar nuevamente la función de zoom en el gráfico, como se muestra a continuación:

In [None]:
alt.Chart(hpi_df).mark_circle().encode(
    x = 'Wellbeing (0-10):Q',  # Asigna la variable cuantitativa 'Wellbeing (0-10)' al eje x.
    y = 'Happy Planet Index:Q',  # Asigna la variable cuantitativa 'Happy Planet Index' al eje y.
    color = 'Region:N',  # Colorea los puntos según la variable categórica 'Region'.
    tooltip = ['Country', 'Region', 'Wellbeing (0-10)', 'Happy Planet Index', 'Life Expectancy (years)']  # Muestra un tooltip con información adicional al pasar el cursor.
).# TU CODIGO  # Habilita la interactividad, incluyendo la capacidad de hacer zoom.


5. Añade `alt_value` como `lightgray` para que todos los puntos fuera de la selección sean grises.

In [None]:
selected_area = alt.selection_interval()
alt.Chart(hpi_df).mark_circle().encode(
    x = 'Wellbeing (0-10):Q',
    y = 'Happy Planet Index:Q',
    color = alt.condition(selected_area, 'Region:N', alt.value('lightgray'))
).# TU CODIGO

### **Selección a través de múltiples parcelas**

La función de selección se vuelve mucho más poderosa cuando se aplica a múltiples gráficos de manera conjunta. Tomemos como ejemplo dos gráficos de dispersión:

* `wellbeing` vs `happy planet index`
* `life expectancy` vs `happy planet index`

1. Gráfico de dispersión de manera vertical

In [None]:
chart = alt.Chart(hpi_df).mark_circle().encode(  
    y='Happy Planet Index',  # Asigna 'Happy Planet Index' al eje y y codifica el color por 'Region'.
    color='Region:N'  # Colorea los puntos de datos según la variable categórica 'Region'.
)
chart1 = chart.encode(x = '# TU CODIGO')  # Define el eje x como 'Wellbeing (0-10)' para el primer gráfico.
chart2 = chart.encode(x = '# TU CODIGO')  # Define el eje x como 'Life Expectancy (years)' para el segundo gráfico.
alt.vconcat(chart1, chart2)  # Combina ambos gráficos verticalmente.

2. Gráfico de dispersión de manera horizontal

In [None]:
# Selección por hover y tooltip en múltiples gráficos
selected_area = alt.selection_interval()  # Define una selección de intervalo para la interacción.
chart = alt.Chart(hpi_df).mark_circle().encode(
    y = 'Happy Planet Index',  # Asigna 'Happy Planet Index' al eje y.
    color = alt.condition(selected_area, 'Region', alt.value('lightgray'))  # Colorea los puntos según la selección; los puntos no seleccionados se muestran en gris.
).add_selection(
    selected_area  # Añade la selección al gráfico.
)
chart1 = chart.encode(x = 'Wellbeing (0-10)')  # Primer gráfico con 'Wellbeing (0-10)' en el eje x.
chart2 = chart.encode(x = 'Life Expectancy (years)')  # Segundo gráfico con 'Life Expectancy (years)' en el eje x.
chart1 | chart2  # Combina los gráficos en un diseño horizontal.

### **Selección de los valores de una variable categórica**

 Ahora, crearemos un gráfico interactivo que permitirá visualizar los puntos de datos correspondientes a una región específica. Utilizaremos la función `selection_single()` para seleccionar un conjunto determinado de puntos de datos. Al analizar el código, notará que los parámetros de esta función son bastante intuitivos. Para obtener más detalles o aclaraciones sobre su funcionamiento, puede consultar la documentación oficial en: [Altair Selection Single](https://altair-viz.github.io/user_guide/generated/api/altair.selection_single.html.
 ).

Cree una variable `input_dropdown` utilizando la función `binding_select()` y configure el parámetro `options` con la lista de regiones disponibles en nuestro conjunto de datos. A continuación, utilice la función `selection_single()` para permitir la selección de un conjunto específico de puntos de datos. Almacene la condición de selección en una variable llamada `color`, la cual determinará bajo qué condiciones se resaltarán los puntos seleccionados en el gráfico.

In [None]:
input_dropdown = # TU CODIGO  # Crea un menú desplegable con las regiones únicas del DataFrame.
selected_points = alt.selection_single(fields = ['Region'], bind = input_dropdown, name = 'Select')  # Define una selección simple vinculada al menú desplegable por la variable 'Region'.
color = alt.condition(selected_points,  # Establece la condición para el color basado en la selección.
                      alt.Color('Region:N'),  # Si está seleccionada, se usa el color de 'Region'.
                      alt.value('lightgray'))  # Si no está seleccionada, los puntos se muestran en gris.
alt.Chart(hpi_df).mark_circle().encode(
    x = 'Wellbeing (0-10):Q',  # Asigna 'Wellbeing (0-10)' al eje x.
    y = 'Happy Planet Index:Q',  # Asigna 'Happy Planet Index' al eje y.
    color = color,  # Aplica la condición de color basada en la selección.
    tooltip = 'Region:N'  # Muestra la región en el tooltip al pasar el cursor sobre un punto.
).add_selection(
    selected_points  # Añade la selección al gráfico.
)

En el siguiente código se crea un gráfico de barras interactivo utilizando Altair, donde se muestra el promedio del `Happy Planet Index` por región. Se implementa una selección interactiva que permite resaltar las barras correspondientes a cada región al seleccionar desde la leyenda. Además, se agregan barras de error que representan el intervalo de confianza (CI) para cada promedio, con las barras de error mostradas en color negro. Ambos gráficos, las barras y las barras de error, se combinan y permiten la interactividad, como hacer zoom o resaltar regiones específicas.

In [None]:
# Definir selección para interactividad
highlight = # TU CODIGO

# Gráfico de barras con el promedio del Happy Planet Index y la selección interactiva
bar_chart = alt.Chart(hpi_df).mark_bar().encode(
    x='Region:N',
    y='mean(Happy Planet Index):Q',
    color=alt.condition(highlight, 'Region:N', alt.value('lightgray'))  # Colorea las barras seleccionadas
).add_selection(
    highlight  # Añadir selección interactiva
).properties(width=400)  # Ajusta el ancho del gráfico

# Añadir barras de error con intervalo de confianza (ci) en color negro
error_bars = alt.Chart(hpi_df).mark_errorbar(extent='ci', color='black').encode(
    x='Region:N',
    y=alt.Y('mean(Happy Planet Index):Q')
).properties(width=400)  # Ajusta el ancho de las barras de error

# Combinar ambos gráficos
(bar_chart + error_bars).interactive()


### **Función de zoom en un mapa de calor estático**

A continuación, añadiremos la función de zoom al mapa de calor de las correlaciones.

In [341]:
alt.Chart(hpi_df).mark_rect().encode(
    alt.X('Happy Planet Index:Q', bin=True),  # Eje X con 'Happy Planet Index', agrupado en intervalos (binning)
    alt.Y('Wellbeing (0-10):Q', bin=True),  # Eje Y con 'Wellbeing', también agrupado en intervalos
    alt.Color('count()', scale=alt.Scale(scheme='greenblue'), legend=alt.Legend(title='Total Countries'))  # Colorea los rectángulos según el recuento de países, con un esquema de color verde-azul
).interactive()  # Habilita la interactividad (zoom y desplazamiento)

### **Dinámica de un gráfico de barras y un mapa de calor**

Vamos a vincular dinámicamente un gráfico de barras con un mapa de calor. Imagina un escenario en el que, al hacer clic en una barra del gráfico, el mapa de calor se actualiza automáticamente para mostrar los datos correspondientes a la región seleccionada. Por ejemplo, podrías hacer clic en una barra que representa una región y, a partir de eso, el mapa de calor de `Life Expectancy` frente a `Wellbeing` se ajustaría para mostrar únicamente los datos de los países de esa región específica. Esto permite una exploración más detallada y enfocada en los datos.

1. Seleccione la región mediante el método de `selection` y crea el `heatmap`

In [342]:
selected_region = alt.selection(type="single", encodings=['x'])  # Definir una selección interactiva en el eje x (región)

heatmap = alt.Chart(hpi_df).mark_rect().encode(
    alt.X('Wellbeing (0-10):Q', bin=True),  # Eje X con 'Wellbeing' agrupado en intervalos (binned)
    alt.Y('Life Expectancy (years):Q', bin=True),  # Eje Y con 'Life Expectancy' también agrupado en intervalos
    alt.Color('count()', scale=alt.Scale(scheme='greenblue'), legend=alt.Legend(title='Total Countries'))  # Colorear según el recuento de países, usando un esquema de color verde-azul
).properties(
    width=350  # Ajustar el ancho del gráfico a 350 píxeles
)

2. Colocar los círculos en un mapa de calor

In [343]:
circles = heatmap.mark_point().encode(
    alt.ColorValue('grey'),  # Los puntos (círculos) tendrán color gris
    alt.Size('count()', legend=alt.Legend(title='Records in Selection'))  # El tamaño de los puntos representa el número de registros en la selección
).transform_filter(
    selected_region  # Filtra los puntos en función de la región seleccionada en el gráfico de barras
)

3. Utilice la función `heatmap+circles | bars` para vincular dinámicamente el gráfico de barras y el mapa de calor

In [None]:
bars = alt.Chart(hpi_df).mark_bar().encode(
    x='Region:N',  # Eje X con las regiones (categórico)
    y='count()',  # Eje Y con el recuento de países por región
    color=alt.condition(selected_region, alt.ColorValue("steelblue"), alt.ColorValue("grey"))  # Colorea las barras en azul para la región seleccionada y en gris para las no seleccionadas
).properties(
    width=350  # Ajusta el ancho del gráfico de barras
).add_selection(selected_region)  # Añade la selección interactiva en las barras

# Combina el heatmap con los círculos, seguido por el gráfico de barras en un diseño horizontal
heatmap + circles | bars


## **Visualización interactiva de mapas con datos geográficos**

### **Creación de un mapa coroplético**

In [345]:
import pandas as pd
import numpy as np

# Cargar el archivo CSV proporcionado
file_path = 'C:/Users/cdeor/OneDrive/Documentos/MachineLearningDipSerfinanzas/jbook_ml202430/docs/_data/dataviz/share-of-individuals-using-the-internet.csv'
df_owd = pd.read_csv(file_path)

In [None]:
# TU CODIGO

2. Filtraremos los datos por el año 2016.


In [None]:
df_owd_2016 = # TU CODIGO
df_owd_2016.head()

3. En los siguientes pasos, utilizaremos el módulo **`express`** de **`Plotly`** (debido a su simplicidad) y la función **`choropleth`** para crear un mapa coroplético interactivo. A continuación, se describen los parámetros clave que pasaremos a esta función:

In [None]:
import plotly.express as px  # Importa Plotly Express para generar gráficos interactivos de forma sencilla
from IPython.display import IFrame, display, HTML  # Importa funciones para visualizar gráficos en Jupyter Notebooks
import chart_studio.plotly as py  # Importa Chart Studio para subir gráficos a la plataforma de Plotly (opcional)

config = {'showLink': False, 'displayModeBar': False}  # Configuración para desactivar enlaces y barra de herramientas

# Crear el mapa coroplético usando el DataFrame filtrado para 2016
fig = px.choropleth(
    ...,  # DataFrame con los datos del uso de Internet en 2016
    locations="Code",  # Columna con los códigos de país ISO 3166
    color="Individuals using the Internet (% of population)",  # Columna para colorear el mapa según el porcentaje de usuarios de Internet
    hover_name="Country",  # Columna para mostrar el nombre del país al pasar el cursor
    color_continuous_scale=px.colors.sequential.Plasma  # Esquema de color continuo 'Plasma'
)

# Actualizar el título del gráfico
fig.update_layout(title_text='Internet usage across the world (% population)')

# Mostrar el gráfico
fig.show()  # Visualiza el gráfico de forma interactiva


###  **Ajuste de un mapa coroplético mundial**

Supongamos que solo nos interesa visualizar el uso de internet en el continente de **Sudamérica**. Para lograr esto, podemos utilizar el parámetro **`geo_scope`** en la función **`update_layout()`** para hacer un *zoom* en esa región geográfica.

El siguiente código muestra cómo hacerlo de manera rápida y sencilla:

In [None]:
fig = px.choropleth(
    ...,  # DataFrame con los datos de uso de Internet en 2016
    locations="Code",  # Columna con los códigos ISO 3166 de los países
    color="Individuals using the Internet (% of population)",  # Columna para colorear el mapa según el porcentaje de usuarios de Internet
    hover_name="Country",  # Columna para mostrar el nombre del país al pasar el cursor
    color_continuous_scale=px.colors.sequential.Plasma  # Esquema de color continuo 'Plasma'
)

fig.update_layout(
    # Añadir un título para el gráfico
    title_text='Uso de Internet en todo Sur América (% de población) - 2016',
    geo_scope='....'  # Limitar el alcance del mapa a Sudamérica (opciones: north america, africa, asia, etc.)
)

# Mostrar el gráfico
fig.show()


Otro continente

In [None]:
fig = px.choropleth(df_owd_2016,
                    locations="Code",
                    color="Individuals using the Internet (% of population)", # column by which to color-code
                    hover_name="Country", # column to display in hover information 
                    color_continuous_scale=px.colors.sequential.Plasma)
fig.update_layout(
    # add a title text for the plot
    title_text = 'Internet usage across the Europe Continent (% population) - 2016',
    geo_scope = '...' # can be set to north america | south america | africa | asia | europe | usa
)
fig.show()

Para darle al mapa una proyección más realista y permitir que se vea como un globo terráqueo, podemos configurar el tipo de proyección a **`natural earth`** utilizando el parámetro **`projection_type`** en la función **`update_layout()`**. Esto nos permitirá visualizar el mapa con una proyección más natural (ver [layout-geo-projection-type](https://plotly.com/python/reference/layout/geo/#layout-geo-projection-type)), lo que hace que el gráfico pueda rotarse de manera similar a un globo real.

El siguiente código demuestra cómo establecer la proyección del mapa en **Natural Earth**:


In [None]:
fig = px.choropleth(
    ...,  # DataFrame con los datos de uso de Internet en 2016
    locations="Code",  # Columna con los códigos ISO 3166 de los países
    color="Individuals using the Internet (% of population)",  # Columna para colorear el mapa según el porcentaje de usuarios de Internet
    hover_name="Country",  # Columna para mostrar el nombre del país al pasar el cursor
    color_continuous_scale=px.colors.sequential.Plasma  # Esquema de color continuo 'Plasma'
)

fig.update_layout(
    # Añadir un título para el gráfico
    title_text='Internet usage across the world (% population)',
    # Establecer el estilo de proyección del mapa
    geo=# TU CODIGO  # Establecer proyección tipo 'natural earth' (por defecto es 'equirectangular')
)

# Mostrar el gráfico
fig.show()


### **Añadiendo animación a un mapa coroplético**

A continuación, añadiremos un componente deslizante al mapa para ver los registros en diferentes puntos temporales

In [None]:
# Ordenar las fechas
df_owd.sort_values(by=["Year"],inplace=True)

fig = px.choropleth(
    df_owd,  # DataFrame con los datos de uso de Internet
    locations="Code",  # Columna con los códigos ISO 3166 de los países
    color="Individuals using the Internet (% of population)",  # Columna que define la coloración según el porcentaje de usuarios de Internet
    hover_name="Country",  # Columna para mostrar el nombre del país al pasar el cursor
    animation_frame="# TU CODIGO",  # Columna para animar el gráfico a lo largo del tiempo (por año)
    color_continuous_scale=px.colors.sequential.Plasma  # Esquema de color continuo 'Plasma'
)
 
fig.update_layout(
    # Añadir un título al gráfico
    title_text='Internet usage across the world (% population)',
    # Establecer el estilo de proyección del mapa
    geo=dict(projection={'type':'natural earth'})  # Establecer proyección 'natural earth' (por defecto es 'equirectangular')
)

# Mostrar el gráfico animado
fig.show()



### **Mapas coropléticos con `graph_objects`**

**`graph_objects`** es una parte avanzada de la biblioteca `Plotly` que permite un mayor control y personalización sobre los gráficos. Al crear mapas coropléticos con graph_objects, puedes definir manualmente cada aspecto del gráfico, desde la estructura de los datos hasta las características visuales, como los colores, las etiquetas y la proyección del mapa.

Esto ofrece más flexibilidad que **`px.choropleth`**, lo que resulta útil cuando necesitas una personalización detallada, como ajustar propiedades específicas de los datos, personalizar interacciones o modificar configuraciones visuales avanzadas. Sin embargo, requiere más código que las opciones más sencillas de `plotly.express`. Hagamos el siguiente ejemplo:

1. Vamos a utilizar un conjunto de datos sobre la **población de los Estados Unidos** para crear un mapa coroplético que muestre la distribución de la población en los distintos estados. Primero, modificaremos el conjunto de datos para asegurarnos de que se ajuste a nuestras necesidades, y luego trazaremos un mapa coroplético que represente visualmente la población en todo el país. Finalmente, ajustaremos el diseño del mapa para resaltar de manera clara y efectiva la población de los Estados Unidos por estado.

In [None]:
# Importemos los datos
filename = 'C:/Users/cdeor/OneDrive/Documentos/MachineLearningDipSerfinanzas/jbook_ml202430/docs/_data/dataviz/us_state_population.tsv'
df_pob = pd.read_csv(filename, sep='\t')
df_pob.head()

2. Utilice la función `melt` para convertir los datos al formato deseado

In [None]:
df_pob = pd.melt(df_pob, id_vars=['State', 'Code'], var_name="Year", value_name="Population")
df_pob.head()

3.  Importar el módulo `graph_objects`

In [355]:
import plotly.graph_objects as go

Inicializaremos la figura utilizando la función `Figure` de `graph_objects`. En particular, el argumento data debe contener una instancia de la clase `Choropleth`, que nos permitirá definir los parámetros clave para generar el mapa coroplético.

Los parámetros principales son:

* `locations`: Define la columna del DataFrame que contiene los códigos o nombres de los estados que se representarán en el mapa.
* `z`: Se establece en la columna que contiene la variable numérica que queremos representar en el mapa, la cual será codificada por colores.
* `locationmode`: Este parámetro se ajusta a `USA-states` para indicar que el mapa debe mostrar los estados de EE. UU.
* `colorscale`: Se selecciona un esquema de colores predefinido, como `Blues`, `Reds` o `Greens`, para representar las variaciones en los valores de la característica numérica. Puedes consultar más opciones en la [documentación oficial de Plotly](https://plotly.com/python/builtin-colorscales/).
* `colorbar_title`: Define el título de la barra de colores que aparecerá a la derecha del gráfico, indicando cómo los colores se corresponden con los valores numéricos.

In [None]:
# Inicializar la figura
fig = go.Figure(
    data=go.Choropleth(
        locations=# TU CODIGO,  # Columna con los códigos de los estados de EE. UU.
        z=# TU CODIGO,  # Columna con los datos de población para codificar por colores
        locationmode='USA-states',  # Definir que las ubicaciones corresponden a los estados de EE. UU.
        colorscale='Blues',  # Esquema de colores para representar los valores
        colorbar_title="Población"  # Título de la barra de colores (población)
    )
)

# Actualizar el diseño
fig.update_layout(
    title_text='Población de los EE. UU. por estados',  # Título del gráfico
    geo_scope='usa'  # Limitar el mapa al territorio de los EE. UU.
)

# Mostrar la figura
fig.show()


Ahora, podemos visualizar un gráfico que represente la **cantidad de hectáreas por departamento**, para el caso de **Colombia**. Para sus proyectos de investigación es necesario que obtengan el archivo `Colombia.geo.json` con la información que se requiere.

1. Carguemos los paquetes

In [357]:
import plotly.graph_objects as go
import json

2. Carguemos el GeoJSON

In [358]:
# Cargar el archivo GeoJSON desde la ruta local
geojson_path = r'C:/Users/cdeor/OneDrive/Documentos/MachineLearningDipSerfinanzas/jbook_ml202430/docs/_data/dataviz/Colombia.geo.json'

with open(geojson_path, 'r', encoding='utf-8') as response:  # Abrir el archivo local
    counties = json.load(response)

3. Almacenemos en una lista los deptos y las hectarias

In [359]:
locs = []  # Lista para almacenar los nombres de los departamentos
z_id = []  # Lista para almacenar los valores de hectáreas

# Recorrer los features del GeoJSON
for loc in counties['features']:
    loc['id'] = loc['properties']['NOMBRE_DPT']  # Asignar el nombre del departamento como ID
    locs.append(loc['properties']['NOMBRE_DPT'])  # Agregar el nombre del departamento a locs
    z_id.append(loc['properties']['HECTARES'])  # Agregar el valor de hectáreas a z_id

4. Creamos el mapa coroplético de Colombia

In [None]:
# Crear el mapa coroplético
fig = go.Figure(go.Choroplethmapbox(
                    geojson=# TU CODIGO,
                    locations=locs,
                    z=z_id,
                    colorscale='Viridis',  # Esquema de colores Viridis
                    colorbar_title="Hectáreas"  # Título de la barra de color
                ))

# Actualizar el layout del mapa
fig.update_layout(
    mapbox_style="open-street-map",  # Usar el estilo de mapa de Open Street Map
    mapbox_zoom=3.78,  # Zoom en el mapa
    mapbox_center={"lat": 4.570868, "lon": -74.2973328}  # Centrar el mapa en Colombia
)

# Mostrar el gráfico
fig.show()


Ahora, solo Colombia

In [None]:
fig = go.Figure(go.Choroplethmapbox(
                    geojson=# TU CODIGO,  # GeoJSON con la geometría de los departamentos
                    locations=locs,  # Nombres de los departamentos
                    z=z_id,  # Valores (hectáreas) para colorear el mapa
                    colorscale='Viridis',  # Esquema de colores 'Viridis'
                    colorbar_title="Hectáreas"  # Título de la barra de color
                ))

fig.update_layout(
    mapbox_style="white-bg",  # Estilo del mapa de fondo (blanco)
    mapbox_zoom=3.78,  # Nivel de zoom del mapa
    mapbox_center={"lat": 4.570868, "lon": -74.2973328}  # Centrar el mapa en la latitud/longitud de Colombia
)

fig.show()  # Mostrar el gráfico


### **Construcción de un gráfico de gispersión en un mapa geográfico**

Vamos a trazar las ubicaciones de las tiendas **Walmart** en un mapa de los Estados Unidos, utilizando un conjunto de datos disponible públicamente sobre las aperturas de tiendas Walmart entre 1962 y 2006. Este ejemplo nos permitirá ver la ubicación exacta de las tiendas Walmart, y utilizaremos las coordenadas de latitud y longitud para representarlas en un gráfico de dispersión.

In [None]:
import plotly.graph_objects as go
import pandas as pd

# Leer los datos de ubicaciones de Walmart desde la URL
filename = "C:/Users/cdeor/OneDrive/Documentos/MachineLearningDipSerfinanzas/jbook_ml202430/docs/_data/dataviz/1962_2006_walmart_store_openings.csv"
df_walm = pd.read_csv(filename)

# Crear el gráfico de dispersión
fig = go.Figure(data=go.Scattergeo(
    lon=# TU CODIGO,  # Columna de longitudes
    lat=# TU CODIGO,  # Columna de latitudes
    text=d# TU CODIGO,  # Información que aparece al pasar el cursor (dirección de las tiendas)
    mode='markers'  # Usar marcadores para las ubicaciones
))

# Configurar el diseño del mapa
fig.update_layout(
    title='Tiendas Walmart en los EE.UU.',
    geo_scope='usa'  # Limitar el mapa a los EE.UU.
)

# Mostrar el gráfico
fig.show()


Este código genera un gráfico de dispersión que muestra las ubicaciones de las tiendas Walmart en los Estados Unidos. Las ubicaciones se representan con marcadores, y la información de la dirección aparece al pasar el cursor sobre los puntos.

### **Construcción de un gráfico de burbujas en un mapa geográfico**

Dado que hay muchas tiendas **Walmart** en el este de EE. UU., puede ser útil visualizar el número de tiendas Walmart por estado utilizando un gráfico de burbujas. En este tipo de gráfico, el tamaño de cada burbuja representa **el número de tiendas en cada estado**.

In [None]:
import plotly.express as px

# Calcular el número de tiendas por estado
walmart_stores_by_state = df_walm.groupby('STRSTATE').count()['storenum'].reset_index().rename(columns={'storenum': 'NUM_STORES'})

# Crear el gráfico de burbujas
fig = px.scatter_geo(walmart_stores_by_state,
                     locations="# TU CODIGO",  # Columna con los códigos de estado
                     size="# TU CODIGO",  # Tamaño de las burbujas según el número de tiendas
                     locationmode='USA-states',
                     hover_name="STRSTATE",  # Mostrar el código del estado al pasar el cursor
                     size_max=45)

# Configurar el diseño del mapa
fig.update_layout(
    title_text='Tiendas Walmart en los EE.UU. por estado',
    geo_scope='usa'  # Limitar el mapa a los EE.UU.
)

# Mostrar el gráfico
fig.show()


Este código genera un gráfico de burbujas donde el tamaño de cada burbuja representa el número de tiendas Walmart en cada estado de los EE.UU. Los estados con más tiendas tendrán burbujas más grandes.

Ahora, realizaremos el gráfico de burbujas para usuarios de internet a nivel mundial. Otra aplicación útil de los gráficos de burbujas es visualizar el **número de usuarios de Internet por país**. Utilizaremos un conjunto de datos sobre los usuarios de Internet en todo el mundo y generaremos un gráfico de burbujas que muestre el número de usuarios en cada país.

In [None]:
# Leer los datos de usuarios de Internet por país
filename = "C:/Users/cdeor/OneDrive/Documentos/MachineLearningDipSerfinanzas/jbook_ml202430/docs/_data/dataviz/number-of-internet-users-by-country.csv"
df_int = pd.read_csv(filename)

# Filtrar los datos para el año 2016
df_int_2016 = df_int.query("Year==2016")

# Crear el gráfico de burbujas
fig = px.scatter_geo(df_int_2016,
                     locations="Code",  # Columna con los códigos de país
                     size="Number of internet users (users)",  # Tamaño de las burbujas según el número de usuarios
                     hover_name="Country",  # Mostrar el nombre del país al pasar el cursor
                     size_max=80,  # Máximo tamaño de las burbujas
                     color_continuous_scale=px.colors.sequential.Plasma)

# Configurar el diseño del mapa
fig.update_layout(
    title_text='Usuarios de Internet en el mundo - 2016',
    geo=dict(projection={'type': 'natural earth'})  # Usar la proyección 'natural earth'
)

# Mostrar el gráfico
fig.show()


Este gráfico de burbujas muestra la cantidad de usuarios de Internet por país en 2016. Las burbujas más grandes indican una mayor cantidad de usuarios.

### **Construcción de un gráfico de burbujas con animación del crecimiento de usuarios de internet**

Podemos añadir animación para visualizar cómo ha crecido el número de usuarios de Internet en diferentes países a lo largo de los años.

In [365]:
# Crear el gráfico de burbujas animado
fig = px.scatter_geo(df_int,
                     locations="Code",  # Columna con los códigos de país
                     size="Number of internet users (users)",  # Tamaño de las burbujas según el número de usuarios
                     hover_name="Country",  # Mostrar el nombre del país al pasar el cursor
                     size_max=80,  # Máximo tamaño de las burbujas
                     animation_frame="Year",  # Añadir animación por año
                     color_continuous_scale=px.colors.sequential.Plasma)

# Configurar el diseño del mapa
fig.update_layout(
    title_text='Usuarios de Internet en el mundo a lo largo de los años',
    geo=dict(projection={'type': 'natural earth'})  # Usar la proyección 'natural earth'
)

# Mostrar el gráfico
fig.show()


Este gráfico muestra la evolución del número de usuarios de Internet en el mundo a lo largo del tiempo. Las burbujas crecen a medida que aumenta el número de usuarios en cada país.

### **Construcción de gráficos de líneas en un mapa geográfico**

En este ejemplo, generaremos un gráfico de dispersión para mostrar la ubicación de los aeropuertos de Estados Unidos y luego dibujaremos líneas que representen vuelos retrasados entre los aeropuertos de origen y destino el 1 de enero de 2015.

1. **Cargar y visualizar los aeropuertos de EE.UU.**

    Cargamos el conjunto de datos de los aeropuertos y creamos un gráfico de dispersión que muestre la ubicación de los aeropuertos en EE.UU.

In [None]:
import pandas as pd
import plotly.graph_objects as go

# Cargar los datos de los aeropuertos de EE.UU.
filename = "C:/Users/cdeor/OneDrive/Documentos/MachineLearningDipSerfinanzas/jbook_ml202430/docs/_data/dataviz/airports.csv"
df_air = pd.read_csv(filename)

# Crear un gráfico de dispersión para mostrar los aeropuertos
fig = go.Figure()
fig.add_trace(go.Scattergeo(
    locationmode='USA-states',
    lon=# TU CODIGO,  # Longitudes de los aeropuertos
    lat=# TU CODIGO,  # Latitudes de los aeropuertos
    hoverinfo='text',  # Información al pasar el cursor
    text=df_air['AIRPORT'],  # Nombre del aeropuerto
    mode='markers',  # Modo marcador
    marker=dict(size=5, color='black')  # Configurar los marcadores
))

# Actualizar el diseño del gráfico
fig.update_layout(
    title_text='Aeropuertos en EE.UU.',  # Título del gráfico
    showlegend=False,  # Ocultar leyenda
    geo=go.layout.Geo(scope='usa')  # Limitar el gráfico a EE.UU.
)

# Mostrar el gráfico
fig.show()

2. **Cargar y fusionar los datos de vuelos**

    A continuación, cargamos los datos de vuelos retrasados el 1 de enero de 2015, y combinamos estos datos con la información de los aeropuertos para obtener las latitudes y longitudes de los aeropuertos de origen y destino.

In [367]:
# Cargar los datos de vuelos retrasados del 1 de enero de 2015
filename= "C:/Users/cdeor/OneDrive/Documentos/MachineLearningDipSerfinanzas/jbook_ml202430/docs/_data/dataviz/new_year_day_2015_delayed_flights.csv"
new_year_2015_flights_df = pd.read_csv(filename)

# Fusionar los datos de vuelos con los aeropuertos de origen para obtener latitud y longitud
new_year_2015_flights_df = new_year_2015_flights_df.merge(
    df_air[['IATA_CODE', 'LATITUDE', 'LONGITUDE']],
    left_on='ORIGIN_AIRPORT',
    right_on='IATA_CODE',
    how='inner'
)

# Renombrar las columnas para reflejar que son del aeropuerto de origen
new_year_2015_flights_df.rename(
    columns={'LATITUDE': 'ORIGIN_AIRPORT_LATITUDE', 'LONGITUDE': 'ORIGIN_AIRPORT_LONGITUDE'},
    inplace=True
)

# Fusionar los datos de vuelos con los aeropuertos de destino
new_year_2015_flights_df = new_year_2015_flights_df.merge(
    df_air[['IATA_CODE', 'LATITUDE', 'LONGITUDE']],
    left_on='DESTINATION_AIRPORT',
    right_on='IATA_CODE',
    how='inner'
)

# Renombrar las columnas para reflejar que son del aeropuerto de destino
new_year_2015_flights_df.rename(
    columns={'LATITUDE': 'DESTINATION_AIRPORT_LATITUDE', 'LONGITUDE': 'DESTINATION_AIRPORT_LONGITUDE'},
    inplace=True
)


Este código fusiona los datos de vuelos con las latitudes y longitudes de los aeropuertos de origen y destino.

3. **Trazar las líneas que representan los vuelos retrasados**

    Ahora dibujaremos líneas que representen los vuelos retrasados entre los aeropuertos de origen y destino.

In [None]:
# Dibujar líneas para los vuelos retrasados entre los aeropuertos de origen y destino
for i in range(len(new_year_2015_flights_df)):
    fig.add_trace(go.Scattergeo(
        locationmode='USA-states',
        lon=[new_year_2015_flights_df['ORIGIN_AIRPORT_LONGITUDE'][i], new_year_2015_flights_df['DESTINATION_AIRPORT_LONGITUDE'][i]],  # Longitudes de origen y destino
        lat=[new_year_2015_flights_df['ORIGIN_AIRPORT_LATITUDE'][i], new_year_2015_flights_df['DESTINATION_AIRPORT_LATITUDE'][i]],  # Latitudes de origen y destino
        mode='lines',  # Dibujar líneas en lugar de marcadores
        line=dict(width=1, color='red')  # Configurar el estilo de la línea (color y ancho)
    ))

# Actualizar el diseño del gráfico
fig.update_layout(
    title_text='Vuelos retrasados el 1 de enero de 2015 en EE.UU.',  # Título del gráfico
    showlegend=False,  # Ocultar la leyenda
    geo=go.layout.Geo(scope='usa')  # Limitar el gráfico a EE.UU.
)

# Mostrar el gráfico
fig.show()
