#### Diplomado en Ciencia de Datos
Módulo 2: Business Intelligence  
## Tema 5: Inteligencia de Negocio

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](../header.jpg)

# Tipos de Analitica de Datos

La analítica de datos es una parte fundamental de la inteligencia de negocios porque permite a las organizaciones tomar decisiones informadas basadas en la recolección y análisis de datos, maximizando el valor estratégico.

Los cuatro tipos de analítica de datos son:

- **Analítica descriptiva**: Proporciona una visión histórica de lo que ha sucedido en la organización.
- **Analítica diagnóstica**: Examina las relaciones y correlaciones entre los datos para identificar las causas de eventos pasados.
- **Analítica predictiva**: Utiliza datos históricos para predecir tendencias futuras.
- **Analítica prescriptiva**: Recomienda acciones para lograr los resultados deseados en el futuro.

**Ejemplos de negocio con los 4 tipos de analítica**  

✅ [gravitar/tipos-analitica](https://gravitar.biz/bi/tipos-analitica/)

<img src="https://static.vecteezy.com/system/resources/previews/025/339/070/non_2x/the-4-types-of-data-analytics-for-descriptive-diagnostic-predictive-prescriptive-analytics-vector.jpg" alt="Types of Data Analytics" width="50%">

## Google Looker Studio

We are going to be using Google Looker Studio to create graphics and have a wider variety of options regarding business intelligence tools

**Watch the video to get started!!**

In [1]:
from IPython.display import YouTubeVideo
YouTubeVideo('aCGdU9DDHN4')

**Importar los Datos**  
En el ejemplo del video usan un connector de datos especial, en lugar de ello lo que vamos a hacer es utilizar el mismo dataset que hemos usado [Gapminder Data Flows](https://github.com/dsFMAT/data-visualization-with-python/blob/main/data/gapminder_data_world_health.csv). El siguiente paso es subir este dataset a tu cuenta de google, para que puedas abrirlo y connectarlo como un `Google Sheet` así como se ve en la imagen. Otra opción es buscar `upload` cuando se selecciona el connector para que subar el archivo en CSV

![](../gapminder.png)

**Incrustar Gráficas de Looker Studio en Notebooks**

La idea es crear dashboards en looker studio y hacerlos `públicos` de este modo, uno puede obtener el `iframe` template para que se pueda incrustar en un sitio externo, en este caso tu Jupyter Notebook usando la libreria `IPython.display`

![](../embed.png)

---
# EJERCICIO 1

- Ingresa a [Google Looker Studio](https://lookerstudio.google.com/) con tu cuenta Google
- Crea una conexión o sube los datos de Gapminder en Google Looker Studio.
    - Para hacer esto necesitas crear una fuente de datos (Data Source) 
    - Ve a "Create" (arriba a la izquierda), y dale click a "Data Source"
    - Busca el conector "File Upload" y sube el dataset the `Gapminder Data Flows` que hemos usado hasta ahora
- Prueba que los datos se han cargado correctamente creando una tabla básica
- El "Data Source" va a ser usado en los ejercicios siguientes.

In [29]:
#Se creó una tabla básica
# from IPython______________
import IPython
# IFrame(_____________________)
src0= 'https://lookerstudio.google.com/embed/reporting/51fd2d71-3629-440a-9669-909d6cd5d9d3/page/SwhCE'

IPython.display.IFrame(src0, width=974, height=500)


---
# EJERCICIO 2

- Desarrolla una gráfica de barras en Looker Studio que represente la **analítica descriptiva** del KPI de **esperanza de vida promedio**. 
- Prueba mostrando 5 países pobres (tu decides el subset apropiado) una esperanza de vida baja en el año más reciente disponible.
- **NOTA:** En Looker Studio las variables categóricas se les llama "Dimension" y a las numericas se les llama "Metric"
- Publica la grafica de barras e incrustala en este notebook usando `IPython.display` checa [ejemplo aquí](https://www.youtube.com/watch?v=b4OvEVQxoN0)

In [30]:
import pandas as pd

dataset = pd.read_csv("../data/gapminder_data_world_health.csv")
dataset.head(5)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


In [31]:
max(dataset.year)

2007

In [32]:
min(dataset.year)

1952

In [33]:
dataset[dataset.year==2007].sort_values("lifeExp").head(5)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
1463,Swaziland,Africa,2007,39.613,1133066,4513.480643,SWZ,748
1043,Mozambique,Africa,2007,42.082,19951656,823.685621,MOZ,508
1691,Zambia,Africa,2007,42.384,11746035,1271.211593,ZMB,894
1355,Sierra Leone,Africa,2007,42.568,6144562,862.540756,SLE,694
887,Lesotho,Africa,2007,42.592,2012649,1569.331442,LSO,426


In [34]:
#Tomé a los 5 países con los valores de Esperanza de vida más bajos en 2007.
# from IPython______________
import IPython
# IFrame(_____________________)
src1= 'https://lookerstudio.google.com/embed/reporting/160b88e8-a317-4a4d-a91f-af9265844977/page/pqPCE'
IPython.display.IFrame(src1, width=974, height=500)

---
# EJERCICIO 3

- Desarrolla un gráfico de dispersión que represente la **analítica diagnóstica**, examinando la relación entre el **PIB per cápita** y la **esperanza de vida** de esos países pobres.
- Prueba correlacionando ambas variables, checa que pasa comparando años
- Publica la grafica de barras e incrustala en este notebook usando `IPython.display` checa [ejemplo aquí](https://www.youtube.com/watch?v=b4OvEVQxoN0)

In [35]:
# from IPython______________
import IPython
# IFrame(_____________________)
src2= 'https://lookerstudio.google.com/embed/reporting/160b88e8-a317-4a4d-a91f-af9265844977/page/p_c1wosvm8kd'
IPython.display.IFrame(src2, width=974, height=500)

---
# EJERCICIO 4

- Desarrolla un gráfico linear o waterfall que represente la **analítica predictiva** mostrando la tendencia de la **esperanza de vida** en los países seleccionados en los próximos años.
- Que patrones puedes observar? Apoyate agregando un filtro [ejemplo aquí](https://www.youtube.com/watch?v=nGSwdpDsGpY)

In [37]:
# from IPython______________
import IPython
# IFrame(_____________________)
src4= 'https://lookerstudio.google.com/embed/reporting/160b88e8-a317-4a4d-a91f-af9265844977/page/p_6gwmvnn8kd'

IPython.display.IFrame(src4, width=974, height=500)

---
# EJERCICIO 5

- Para la **analítica prescriptiva** normalmente un diagrama de Sankey puede ayudar a la toma de decisiones futuras. Con los datos que tenemos no es posible hacer uno.
- Investiga sobre los diagrama de Sankey y explica que tipo de datos necesitariamos para graficar, asumiendo que quisieramos recomendar intervenciones a estos países para incrementar su esperanza de vida.

Los diagramas de Sankey son un tipo especifico de diagrama de flujo. Muestran los flujos y sus cantidades en proporción entre sí. El ancho de las flechas o líneas se utiliza para mostrar sus magnitudes, por lo tanto cuanto mayor sea la flecha, mayor será la cantidad de flujo. Las flechas o líneas de flujo pueden combinarse o dividirse a través de sus trayectorias en cada etapa de un proceso. El color se puede utilizar para dividir el diagrama en diferentes categorías o para mostrar la transición de un estado del proceso a otro.


#### Tipo de datos

Utilizar un diagrama de Sankey en el contexto de la esperanza de vida puede ser muy útil para visualizar los factores que influyen en ella, por lo cual, alguno de los datos que necesitariamos para graficar, son los relacionados con: salud (por ejemplo: servicio médico, campañas de vacunación, etc.), condiciones socioeconómicas, entre otros.



## 🎉🎉 Congrats!!  

## You've finished the notebook