# Dashboard interactivo con Python
En el mundo actual, las decisiones estratégicas basadas en datos son esenciales para el éxito de cualquier organización. **Python** se ha consolidado como una de las herramientas más poderosas para la ciencia de datos, debido a su versatilidad, facilidad de uso y una amplia gama de librerías especializadas. 

Un **dashboard** es una herramienta visual para observar gráficas e información precisa. Con Python podemos crear estas herramientas y agregarles una funcionalidad interactiva para facilitar el analisis de datos.

## Introducción a las tecnologías
Hoy, exploraremos tres librerías clave que son esenciales para el análisis, procesamiento y visualización de datos:

* ```Pandas```
* ```Plotly```
* ```Dash```

### Pandas
Pandas es una librería fundamental para el análisis y manipulación de datos. Nos permite trabajar con estructuras de datos como DataFrames, que facilitan el procesamiento de grandes volúmenes de información de manera eficiente. Con Pandas podemos limpiar, transformar y organizar nuestros datos, preparándolos para un análisis más profundo.

### Plotly
Plotly es una potente librería de visualización de datos interactiva. A diferencia de otras herramientas más estáticas, Plotly permite crear gráficos que los usuarios pueden manipular en tiempo real, facilitando el descubrimiento de patrones ocultos y proporcionando insights valiosos. Desde gráficos de líneas hasta diagramas más complejos, Plotly ofrece una forma flexible y visualmente atractiva de explorar los datos.

### Dash
Dash es un framework de Python desarrollado sobre Flask y Plotly, que nos permite crear aplicaciones web interactivas y dashboards con relativa facilidad. Con Dash, podemos combinar análisis de datos en tiempo real y visualizaciones dinámicas en una interfaz accesible para usuarios no técnicos, facilitando la toma de decisiones estratégicas basada en datos.

### Cufflinks
La librería Cufflinks es una extensión de Python que facilita la creación de gráficos interactivos utilizando Plotly directamente desde estructuras de datos como los DataFrames de Pandas.
Actúa como intermediario entre pandas y plotly para agregar funcionalidades interactivas.

## Conexión con Drive
Es posible cargar archivos como **CSV's** desde Drive:
- Si el Notebook fue creado directamente en Drive, no es necesario ejecutar el código.
- Si el Notebook se crea localmente (VSC), ejecutar la siguiente importación para activar el acceso a tus archivos en Drive.
- Si vas a usar **VSC** y quieres acceder a archivos en Drive, habrá que configurar la conexión a la API de Google Drive desde **GCP**.

In [1]:
#from google.colab import drive
#drive.mount('/content/drive')

## Librerías

In [None]:
# Consultamos las librerías que ya están instaladas
%pip list

In [None]:
%pip install cufflinks dash pandas plotly

## Importar librerías

In [1]:
import pandas as pd
import plotly.express as px
from dash import Dash, dcc, html

## Ejemplo 1
En este ejemplo definimos los datos a procesar, desde el código en un diccionario.

### El paso a paso:

1. Creamos un diccionario con los datos necesarios.
2. Creamos un DataFrame con los datos del diccionario.
3. Crear la app de Dash.
4. Creamos un layout (plantilla) que contendrá a los elementos gráficos en una estructura **HTML**.
5. Definimos el tipo de gráfico que necesitamos.
6. Ejecutamos la app de Dash

In [2]:
# Ejemplo de datos transformados en un DataFrame de Pandas
data = {
    'Cohorte': ['Ene 2024', 'Feb 2024', 'Mar 2024'],
    'Tasa_Finalización': [0.75, 0.80, 0.78],
    'Tiempo_Promedio_Sesión': [30, 45, 50]
}
df = pd.DataFrame(data)

# Crear la app de Dash
app = Dash(__name__)

# Crear gráficos en un div de HTML
app.layout = html.Div([
    dcc.Graph(
        id='bar-chart',
        figure=px.bar(df, x='Cohorte', y='Tasa_Finalización', title='Tasa de Finalización de Cursos por Cohorte')
    ),
    dcc.Graph(
        id='line-chart',
        figure=px.line(df, x='Cohorte', y='Tiempo_Promedio_Sesión', title='Tiempo Promedio de Sesión por Cohorte')
    )
])
# Ejecutar la app de Dash
if __name__ == '__main__':
    app.run_server(debug=True)

## Ejemplo 2 - Extraer datos desde un csv
En este ejemplo:
* Extraemos los datos desde un CSV en Drive o en local y los cargamos en un DataFrame.
* Transformamos los datos para tenerlos a la medida.
* Manipulamos los datos según los requerimientos.
* Creamos y ejecutamos la app Dasboard.

### Extraer datos y crear DataFrame con pandas
Creamos el objeto de tipo **DataFrame** con la librería de *pandas* desde un archivo CSV en Drive o en local.

Mostramos el DataFrame con la función ```.head()```

In [3]:
# Cargar un archivo CSV en un DataFrame de Pandas
df_csv = pd.read_csv('e_learning_data.csv',encoding='latin')
# Mostrar las primeras filas del DataFrame
df_csv.head()

Unnamed: 0,Platform_User_ID,Year,Total_Courses_Completed,Average_Session_Duration_hrs,Total_Active_Days,Country
0,3,1991,6,1.8,12,USA
1,8,1992,14,1.3,21,USA
2,12,1993,10,2.1,16,USA
3,13,1994,6,1.8,17,USA
4,15,1995,14,2.7,19,USA


### Transformación y manipulación de datos con pandas
#### Dar formato de Fecha con pandas
Con ```.to_datetime(DataFrame['columna'],format='')``` indicamos que nuestros datos son fechas para poder manipularlos como tal.

In [4]:
# Convertir la columna Year al tipo datetime
df_csv['Year'] = pd.to_datetime(df_csv['Year'], format='%Y').dt.year

#### Eliminar valores nulos


In [5]:
# Eliminar filas con valores nulos
df_csv = df_csv.dropna()
df_csv.head()

Unnamed: 0,Platform_User_ID,Year,Total_Courses_Completed,Average_Session_Duration_hrs,Total_Active_Days,Country
0,3,1991,6,1.8,12,USA
1,8,1992,14,1.3,21,USA
2,12,1993,10,2.1,16,USA
3,13,1994,6,1.8,17,USA
4,15,1995,14,2.7,19,USA


#### Crear tabla pivote para mejor análisis

In [6]:
df_csv_pivot = df_csv.pivot(
    index='Year',
    columns='Country',
    values='Total_Courses_Completed')
df_csv_pivot.tail()

Country,Canada,India,Mexico,UK,USA
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020,12.0,12.0,6.0,7.0,13.0
2021,11.0,9.0,9.0,11.0,7.0
2022,10.0,12.0,15.0,9.0,7.0
2023,14.0,14.0,10.0,12.0,6.0
2024,15.0,6.0,6.0,13.0,8.0


#### Carga de datos para visualización

##### Lineplot

In [7]:
# Importar las librerías necesarias
import cufflinks as cf
from IPython.display import display,HTML

In [None]:
cf.getThemes()

In [8]:
# Definir el tema de los gráficos
cf.set_config_file(theme='space')

In [9]:
df_csv_pivot.iplot(kind='line',
                   xTitle='Year',
                   yTitle='Total Courses Completed',
                   title='Total Courses Completed by Country (1991-2024)')

##### Barplot

In [10]:
# filtrar los datos por años de interés
df_barplot = df_csv_pivot[df_csv_pivot.index.isin([2008, 2009, 2010, 2011, 2012,
                                                   2013, 2014, 2015, 2016, 2017,
                                                   2018, 2019, 2020, 2021, 2022,
                                                   2023, 2024])]

# graficar los datos filtrados
df_barplot.iplot(kind='bar',
                 xTitle='Year',
                 yTitle='Total Courses Completed')

#### Boxplot simple
Herramienta visual que resume la distribución de un conjunto de datos numéricos a través de las estadísticas principales.

Elementos clave de un boxplot:
- Caja (Box):

    Representa la distancia entre el primer cuartil (Q1) (25%) y el tercer cuartil (Q3) (75%) de los datos. La caja contiene el 50% central de los datos.

- Línea central (Mediana):

    Es la línea que atraviesa la caja y representa la mediana (el valor central de los datos). Divide la mitad superior de la mitad inferior de los datos.
    
- Bigotes (Whiskers):

    Se extienden desde los bordes de la caja hasta el valor más pequeño y más grande de los datos, excluyendo los valores atípicos. Cualquier dato fuera de este rango es considerado un valor atípico.

- Valores atípicos (Outliers):

    Son los puntos que se encuentran fuera de los bigotes. Se representan con puntos o asteriscos, y suelen indicar valores extremos.

In [11]:
df_csv_pivot['USA'].iplot(kind='box',
                          color='blue', 
                          yTitle='Total Courses Completed',)

In [12]:
df_csv_pivot['USA'].describe()

count    33.000000
mean      9.454545
std       3.382777
min       5.000000
25%       6.000000
50%      10.000000
75%      13.000000
max      15.000000
Name: USA, dtype: float64

##### Boxplot multiple

In [13]:
df_csv_pivot.iplot(kind='box',
                   xTitle='Country',
                   yTitle='Total Courses Completed',)

##### Histograma

In [14]:
df_csv_pivot[['USA', 'Mexico']].iplot(kind='hist',
                                      xTitle='Total Courses Completed',
                                      yTitle='Frequency',)

##### Piechart

In [15]:
# Filtrar los datos del año 2022
df_pie_2022 = df_csv_pivot.loc[2022]

# Reiniciar el índice para convertir el índice en una columna
df_pie_2022 = df_pie_2022.reset_index()

# Renombrar las columnas para mayor claridad
df_pie_2022.columns = ['Country', 'Total_Courses_Completed']

# Crear la gráfica de pastel
df_pie_2022.iplot(kind='pie',
                  labels='Country',
                  values='Total_Courses_Completed',
                  title='Total Courses Completed by Country in 2022')

##### Scatter plot

In [16]:
df_csv_pivot.iplot(kind='scatter', mode='markers')

### Resumen:
* Pandas se usa para la manipulación y transformación de datos (lectura, conversión, agrupación y renombrado).
* Plotly se utiliza para crear los gráficos (gráfico de barras, gráfico de líneas).
* Dash se encarga de la interfaz web y la estructura de la aplicación, donde los gráficos se muestran.
* Cufflinks agrega características interactivas





