# Práctica 7. Visualización dinámica e interactiva

## Primeros pasos con `plotly express`

[`plotly`](https://plotly.com/python/) es una biblioteca de visualización de datos de código abierto disponible para Python. [`plotly express`](https://plotly.com/python/plotly-express/) es una interfaz de alto nivel de `plotly` que nos permite trabajar con esta biblioteca de forma sencilla.

### Instalación

Si Python y [pip](https://pypi.org/project/pip/) o [conda](https://docs.continuum.io/anaconda/) están instalados en un sistema, la instalación de 'plotly' es muy sencilla:

`!pip install plotly`

O bien:

`!conda install -c plotly plotly`

### Importación

Una vez instalado `plotly`, se puede importar en tu código añadiendo la sentencia `import module`:

In [21]:
import plotly.express as px

De esta forma, `plotly express` está importado y listo para usar. Nótese que por convención la biblioteca se importa bajo el alias `px`.

## Caso de estudio 1

A continuación, usaremos el conjunto de datos [Telco Customer Churn](https://www.kaggle.com/datasets/blastchar/telco-customer-churn) que está disponible en la plataforma [kaggle](https://www.kaggle.com/).

La predicción del abandono de los clientes de una empresa es un caso de uso común en el dominio del aprendizaje automático. Es muy importante para una empresa tener una idea de por qué y cuándo es probable que los clientes se marchen. Tener un modelo de predicción de la rotación de clientes robusto y preciso podría ser de ayuda para las empresas a la hora de tomar medidas para evitar que los clientes las abandonen.

La tabla de rotación de clientes que utilizamos en esta práctica contiene 7.043 filas (clientes de una empresa de telecomunicaciones) y 21 columnas (características o *features* de los clientes). Por lo tanto, cada registro representa a un cliente y contiene información sobre sus características demográficas, ubicación, permanencia, servicios de suscripción, etc.

### Ejercicio 1

Lee el fichero que contiene el conjunto de datos y muestra los nombres de las columnas. A continuación, filtra los datos para trabajar sólo con las siguientes características: `gender`, `SeniorCitizen`, `Partner`, `Dependents`, `tenure`, `PhoneService`, `MultipleLines`, `InternetService`, `Contract`, `PaymentMethod`, `MonthlyCharges` y `Churn`. Muestra la cabecera del `DataFrame` resultante.

In [22]:
# Escribe la solución
import pandas as pd
data = pd.read_csv("ficheros/WA_Fn-UseC_-Telco-Customer-Churn.csv")

print(data.columns)

data = data[['gender', 'SeniorCitizen', 'Partner', 'Dependents', 'tenure', 'PhoneService', 'MultipleLines', 'InternetService', 
            'Contract', 'PaymentMethod', 'MonthlyCharges', 'Churn']]

data.head()

Index(['customerID', 'gender', 'SeniorCitizen', 'Partner', 'Dependents',
       'tenure', 'PhoneService', 'MultipleLines', 'InternetService',
       'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
       'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
       'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn'],
      dtype='object')


Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,Contract,PaymentMethod,MonthlyCharges,Churn
0,Female,0,Yes,No,1,No,No phone service,DSL,Month-to-month,Electronic check,29.85,No
1,Male,0,No,No,34,Yes,No,DSL,One year,Mailed check,56.95,No
2,Male,0,No,No,2,Yes,No,DSL,Month-to-month,Mailed check,53.85,Yes
3,Male,0,No,No,45,No,No phone service,DSL,One year,Bank transfer (automatic),42.3,No
4,Female,0,No,No,2,Yes,No,Fiber optic,Month-to-month,Electronic check,70.7,Yes


Resume las variables categoricas, incluyendo el numero de valores unicos, los valores posibles y la frecuencia de cada valor. Resume también las variables cuantitativas. Convierte las variables que no estén bien codificadas, en su caso. Explica los resultados.

In [23]:
# Escribe la solución
cat_vars = data.select_dtypes(include=['object', 'category']).columns
num_vars = data.select_dtypes(include=['int64', 'float64']).columns

Visualiza las variables `gender`, `SeniorCitizen`, `tenure` y `MonthlyCharges`. Explora el uso del *color* y la *textura* en los diagramas de barras a través de los parámetros `color`, `color_discrete_map`, `pattern_shape` y `pattern_shape_sequence`.

In [55]:
gender_counts = data['gender'].value_counts().reset_index()
gender_counts.columns = ['gender', 'count']

fig_gender = px.bar(
    gender_counts,
    x='gender',
    y='count',
    title='Cantidad de clientes según el género'
)
fig_gender.show()

fig_gender_color = px.bar(
    gender_counts,
    x='gender',
    y='count',
    color='gender',
    color_discrete_map={'Male': 'green', 'Female': 'orange'},
    title='Cantidad de clientes según el género codificados por color'
)
fig_gender_color.show()

SeniorCitizen_counts = data['SeniorCitizen'].value_counts().reset_index().replace({0: 'No', 1: 'Yes'})
SeniorCitizen_counts.columns = ['SeniorCitizen', 'count']

fig_SeniorCitizen = px.bar(
    SeniorCitizen_counts,
    x='count',
    y='SeniorCitizen',
    orientation='h',
    title='Cantidad de clientes senior y no senior'
)
fig_SeniorCitizen.show()

fig_SeniorCitizen_textura = px.bar(
    SeniorCitizen_counts,
    x='count',
    y='SeniorCitizen',
    orientation='h',
    title='Cantidad de clientes senior y no senior',
    pattern_shape='SeniorCitizen',
    pattern_shape_sequence=['.', '+'],
)
fig_SeniorCitizen_textura.show()

### Ejercicio 2

Vamos a empezar mostrando la distribución de los cargos mensuales (`MonthlyCharges`) en función de los tipos de contrato (`Contract`) mediante un diagrama de caja y bigotes. A continuación, asigna diferentes colores a cada tipo de contrato. Después, añade el parámetro `facet_col` para agregar la característica de servicio telefónico (`PhoneService`) al gráfico y poder comparar en función de esta variable. Escribe un comentario con una breve interpretación de los resultados.

In [None]:
# Escribe la solución



### Ejercicio 3

Los diagramas de dispersión también resultan útiles para comprender la relación entre dos variables. A continuación se muestra, mediante este tipo de gráfico, la relación existente entre el número de meses que un cliente ha estado en la empresa (`tenure`) y los gastos mensuales (`MonthlyCharges`). Observa si es posible extraer alguna conclusión.

In [None]:
# Escribe la solución



Estudia la relación entre el número de meses que un cliente ha estado en la empresa y los cargos mensuales, de manera similar a como se hizo en el Ejercicio 2, pero ahora usando un diagrama de dispersión, y utilizando el parámetro `color` para asignar diferentes colores a la característica del servicio telefónico y el parámetro `facet_col` para generar diferentes gráficos para los distintos tipos de contrato. Además, usa el parámetro `facet_col_wrap` para poner todos los gráficos en una sola columna. Escribe un comentario con una breve interpretación de los resultados.

In [None]:
# Escribe la solución



### Ejercicio 4

De manera complementaria al estudio visual realizado previamente, analiza los clientes en función del grupo al que pertenecen, clasificándolos de acuerdo tanto la duración del contrato (mensual, un año, dos años) como al servicio telefónico (no, sí), pero ahora comparando el promedio de la variable `tenure` y el recuento de clientes en cada grupo.

En primer lugar, muestra únicamente las columnas `Contract`, `PhoneService` y `tenure` del conjunto de datos. A continuación, usa la función `groupby` para agrupar por contrato y servicio telefónico, y la función `aggregate` para agregar los datos de cada grupo usando la media y el recuento. Explica los resultados obtenidos y complementa las conclusiones del análisis visual anterior.

In [None]:
# Escribe la solución



Unnamed: 0,Contract,PhoneService,tenure
0,Month-to-month,No,1
1,One year,Yes,34
2,Month-to-month,Yes,2
3,One year,No,45
4,Month-to-month,Yes,2
...,...,...,...
7038,One year,Yes,24
7039,One year,Yes,72
7040,Month-to-month,No,11
7041,Month-to-month,Yes,4


Unnamed: 0_level_0,Unnamed: 1_level_0,tenure,tenure
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count
Contract,PhoneService,Unnamed: 2_level_2,Unnamed: 3_level_2
Month-to-month,No,18.654255,376
Month-to-month,Yes,17.970277,3499
One year,No,39.675862,145
One year,Yes,42.303464,1328
Two year,No,55.142857,161
Two year,Yes,56.902216,1534


### Ejercicio 5

Estudia la tasa de abandono con respecto a los cargos mensuales, el tipo de contrato y la antigüedad como cliente usando un diagrama de dispersión. Agrega una representación visual de la distribución de los datos usando el parámetro `marginal_x`, así como transparencia a los puntos para mejorar la visibilidad con el parámetro `opacity`, y un título al gráfico con el parámetro `title`. Interpreta los resultados.

In [None]:
# Escribe la solución



## Caso de estudio 2

La propia biblioteca de `plotly` incluye muchos conjuntos de datos para poder practicar. Vamos a cargar a continuación datos relativos a países a lo largo del tiempo. Entre estos datos se encuentra el PIB per cápita, la esperanza de vida y la población, entre otros:

In [10]:
datos = px.data.gapminder()
datos.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


### Ejercicio 6

Muestra cuántos hay y qué países y años están representados en el conjunto de datos.

In [None]:
# Escribe la solución



['Afghanistan' 'Albania' 'Algeria' 'Angola' 'Argentina' 'Australia'
 'Austria' 'Bahrain' 'Bangladesh' 'Belgium' 'Benin' 'Bolivia'
 'Bosnia and Herzegovina' 'Botswana' 'Brazil' 'Bulgaria' 'Burkina Faso'
 'Burundi' 'Cambodia' 'Cameroon' 'Canada' 'Central African Republic'
 'Chad' 'Chile' 'China' 'Colombia' 'Comoros' 'Congo, Dem. Rep.'
 'Congo, Rep.' 'Costa Rica' "Cote d'Ivoire" 'Croatia' 'Cuba'
 'Czech Republic' 'Denmark' 'Djibouti' 'Dominican Republic' 'Ecuador'
 'Egypt' 'El Salvador' 'Equatorial Guinea' 'Eritrea' 'Ethiopia' 'Finland'
 'France' 'Gabon' 'Gambia' 'Germany' 'Ghana' 'Greece' 'Guatemala' 'Guinea'
 'Guinea-Bissau' 'Haiti' 'Honduras' 'Hong Kong, China' 'Hungary' 'Iceland'
 'India' 'Indonesia' 'Iran' 'Iraq' 'Ireland' 'Israel' 'Italy' 'Jamaica'
 'Japan' 'Jordan' 'Kenya' 'Korea, Dem. Rep.' 'Korea, Rep.' 'Kuwait'
 'Lebanon' 'Lesotho' 'Liberia' 'Libya' 'Madagascar' 'Malawi' 'Malaysia'
 'Mali' 'Mauritania' 'Mauritius' 'Mexico' 'Mongolia' 'Montenegro'
 'Morocco' 'Mozambique' 'Myanmar

### Ejercicio 7

Podemos filtrar los datos por año usando la función `query` para ver la relación entre PIB per cápita y esperanza de vida para un determinado año:

In [None]:
# Escribe la solución



En el gráfico anterior podemos ver información de PIB per cápita y esperanza de vida pasando el puntero sobre cada punto. Sin embargo, no se aprecia a qué país corresponde cada punto y se hace difícil ver las diferencias entre los puntos porque la escala no es adecuada.

Mejora el gráfico anterior para mostrar los puntos coloreados según el continente mediante el parámetro `color`, usa una escala logarítmica con el parámetro `log_x`, haz que se muestre el país con el parámetro `hover_name`, y añade un título al gráfico con el parámetro `title`. Transforma el gráfico en un diagrama de burbujas haciendo que el tamaño de los puntos sea proporcional a la población de los países con el parámetro `size`. Interpreta los resultados.

In [None]:
# Escribe la solución



Un aspecto muy interesante de `plotly` es que no sólo permite crear gráficos interactivos, sino que también se puede dotar de dinamismo a estos gráficos. Para ello, se usa el parámetro `animation_frame`, a través del cual seleccionamos la variable que permitirá actualizar los *frames* de la animación.

### Ejercicio 8

Convierte el diagrama de burbujas del Ejercicio 7 en un gráfico dinámico. Usa los parámetros `range_x` y `range_y` para ajustar los límites del gráfico de forma que los datos estén siempre visibles, y el parámetro `size_max` para hacer las burbujas más grandes.

In [None]:
# Escribe la solución



### Ejercicio 9

Los gráficos de barras son muy utilizados para hacer comparaciones. A continuación muestra un diagrama de barras de la población de los diferentes continentes en el año 2007:

In [None]:
# Escribe la solución



Modifica el diagrama de barras anterior de forma que se puedan distinguir los países que forman parte de cada continente.

In [None]:
# Escribe la solución



### Ejercicio 10

Genera un gráfico dinámico de tipo diagrama de barras en el que se muestre la evolución de la población de los países europeos a lo largo del tiempo.

In [None]:
# Escribe la solución

