# Ciencia de datos: Un campo laboral en crecimiento



*Edgar Adrian Quiroz Calvillo*

In [1]:
# librerías

### Manejadores de datos
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None)
import warnings
warnings.filterwarnings('ignore')


### Gráficas y visualizaciones
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.io as pio
import plotly
import plotly.graph_objects as go
import plotly.express as px
import plotly.tools as tls
import plotly.graph_objs
import plotly.figure_factory as ff
import json
from plotly.offline import init_notebook_mode
init_notebook_mode(connected=True)
from IPython.display import Markdown, display


# options de visualización
## Rise
from IPython.display import IFrame, display, HTML
import pyqrcode
import io
import base64
from traitlets.config.manager import BaseJSONConfigManager
from pathlib import Path
path = Path.home() / ".jupyter" / "nbconfig"
cm = BaseJSONConfigManager(config_dir=str(path))
cm.update(
    "rise",
    {
        "theme": "sky",
        "transition": "slide",
        "scroll": True,
        "enable_chalkboard":True,
        "center":True
        #"start_slideshow_at": "selected",
     }
)

{'theme': 'sky',
 'transition': 'slide',
 'scroll': True,
 'enable_chalkboard': True,
 'center': True}

In [2]:
### Bases
skills = {'data_engineer':
         {'software':10,'deployment':8,'data_engineering':10,'business':1,'data_base':10,'data_wrangling':10,
          'data_visualization':1,'statistics':1,'ml_modeling':4,'programming':10,'big_data':9},
         'data_analyst':
         {'software':3,'deployment':3,'data_engineering':1,'business':10,'data_base':8,'data_wrangling':8,
          'data_visualization':10,'statistics':8,'ml_modeling':4,'programming':3,'big_data':2},
         'bi_analyst':
         {'software':5,'deployment':5,'data_engineering':1,'business':10,'data_base':8,'data_wrangling':8,
          'data_visualization':10,'statistics':8,'ml_modeling':1,'programming':6,'big_data':4},
         'data_scientist':
         {'software':10,'deployment':8,'data_engineering':6,'business':8,'data_base':8,'data_wrangling':10,
          'data_visualization':10,'statistics':10,'ml_modeling':10,'programming':9,'big_data':8},
         'data_governance':
         {'software':6,'deployment':10,'data_engineering':8,'business':8,'data_base':6,'data_wrangling':8,
          'data_visualization':5,'statistics':5,'ml_modeling':9,'programming':7,'big_data':5},
         'data_architecture':
         {'software':10,'deployment':10,'data_engineering':10,'business':5,'data_base':10,'data_wrangling':10,
          'data_visualization':1,'statistics':1,'ml_modeling':8,'programming':10,'big_data':10}}
pd_skills = pd.DataFrame(skills).T#.reset_index().rename({'index':'skill'},axis=1)
pd_skills = (pd_skills[['data_engineering','software','deployment','programming','big_data','data_base','data_wrangling','data_visualization','business','statistics','ml_modeling']]
            .T.reset_index().rename({'index':'skill'},axis=1))

*¿Qué son las ciencias de datos?*

In [3]:
ruta = 'https://www.surveylegend.com/s/4e9v'
qr = pyqrcode.create(ruta)
s = io.BytesIO()
qr.png(s,scale=8)
encoded = base64.b64encode(s.getvalue()).decode("ascii")

In [4]:
display(ruta)
display(HTML('''<img src="data:image/png;base64,''' + encoded + '''">'''))

'https://www.surveylegend.com/s/4e9v'

In [5]:
IFrame(ruta, width=500, height=500)

https://www.surveylegend.com/app/#/live-analytics/-NBEZQnvX0iGRFkr7rW3


## Ciencia de datos
Es el estudio datos con el fin de extraer información significativa que permita contestar preguntas como **¿qué pasó?**, **¿por qué pasó?**, **¿qué pasará?** y **¿qué se puede hacer con los resultados?**.  

*AWS*

<img src="inputs/ds_act_1.png" width="1300"/>

 **Conocimientos**
 <img src="inputs/DS_venn.png" width="700"/>

 **Cross Industry Standard Process for Data Mining "CRISP DM"**
 <img src="inputs/crispdm.png" width="500"/>

¿Dónde entra la ciencia de datos en un negocio?

<img src="inputs/ds_area.jpeg" width="800"/>

## Analítica Avanzada

Las actividades relacionadas con ciencia de datos suelen estar dentro de equipos generalmente llamados **Analítica Avanzada.** 


<img src="inputs/data-science-team.jpeg" width="800"/>


También existen equipos de:
- Ciencia de datos 
- Models factory
- Dentro de otras áreas (Riesgos, marketing, etc).

Dentro de estos equipos existen diferentes roles de colaboradores:

-    Ingeniero de datos
-    Analista de datos
-    Analista de BI
-    Científico de datos
-    Data Governance
-    Arquitecto de datos

**Ingeniero de datos**

Habilidades:
- **Programación** en C, Java, sql, nonsql, spark, etc.

Actividades:

- **Ingestas y optimización de bases**
- Data Warehouse y mantenimiento

In [6]:
perfil = 'data_engineer'
fig = go.Figure(data=go.Scatterpolar(r=pd_skills[perfil], theta=pd_skills.skill, fill='toself'))
fig.update_layout(polar=dict(radialaxis=dict(visible=True),),showlegend=False,width=450, height=400)
fig.show()

**Analista de Datos**

Habilidades:
- **Estadística**, comunicación, **entendimiento de negocio**.
- **Excel**, SQL, Tableau, python

Actividades:
- **Entrega de KPI's**
- Datos para toma de decisiones
- **Reportes**

In [7]:
perfil = 'data_analyst'
fig = go.Figure(data=go.Scatterpolar(r=pd_skills[perfil], theta=pd_skills.skill, fill='toself'))
fig.update_layout(polar=dict(radialaxis=dict(visible=True),),showlegend=False,width=450, height=400)
fig.show()

**Analista de BI**

Habilidades:
- Comunicación, **visualización**, **entendimiento de negocio**.
- Excel, SQL, **Tableau**, **power BI**
- Python, R

In [8]:
perfil = 'bi_analyst'
fig = go.Figure(data=go.Scatterpolar(r=pd_skills[perfil], theta=pd_skills.skill, fill='toself'))
fig.update_layout(polar=dict(radialaxis=dict(visible=True),),showlegend=False,width=450, height=400)
fig.show()

**Analista de BI**

Actividades:
- Revisión y monitoreo de KPI's
- Generación de **Insights**
- Gráficas y seguimiento de tendencias
- Reportes descriptivos y **dashboards**.

<img src="inputs/dashboards.png" width="800"/>

**Científico de datos**

Habilidades:
- Programación en **python, R**, SQL, spark.
- **Matemáticas**, estadística, **ML** e IA
- Visualización, comunicación, **autodidacta**

In [9]:
perfil = 'data_scientist'
fig = go.Figure(data=go.Scatterpolar(r=pd_skills[perfil], theta=pd_skills.skill, fill='toself'))
fig.update_layout(polar=dict(radialaxis=dict(visible=True),),showlegend=False,width=450, height=400)
fig.show()

Actividades:
- **Limpiar, preparar y transfomar data**.
- Estadística descriptiva y visualización.
- **Construcción de modelos**, insigths
- **Retroalimentación** de negocio y propuestas de valor
- **Documentación**

<img src="inputs/ml_models.jpeg" width="800"/>

**Gobierno de datos**

Habilidades:
- **Control de procesos**, estandarización, calidad, conocimiento de **regulaciones**.
- Organización, comunicación.
- Excel, SQL, python.



In [10]:
perfil = 'data_governance'
fig = go.Figure(data=go.Scatterpolar(r=pd_skills[perfil], theta=pd_skills.skill, fill='toself'))
fig.update_layout(polar=dict(radialaxis=dict(visible=True),),showlegend=False,width=450, height=400)
fig.show()

**Gobierno de datos**

Actividades:
- Arquitectura y **Calidad**.
- **Documentación**, Auditoría.
- Diccionarios e integración.

<img src="inputs/governance.png" width="800"/>

**Arquitecto de datos**

Habilidades:
- Programación en spark, java, C, redes, nube (aws, azure, etc.)

- Manejo de equipos.
- Soluciones e interfaces front & back.

In [11]:
perfil = 'data_architecture'
fig = go.Figure(data=go.Scatterpolar(r=pd_skills[perfil], theta=pd_skills.skill, fill='toself'))
fig.update_layout(polar=dict(radialaxis=dict(visible=True),),showlegend=False,width=450, height=400)
fig.show()


Actividades:
- Definición de estándares y arquetectura de data
- Construcción de data lakes y data warehouse
- Flujos de data y herramientas corporativas.
- Seguridad y calidad del data warehouse

<img src="inputs/data_arch.png" width="800"/>

**Esquema de trabajo**

<img src="inputs/perfiles_AA_1.png" width="800"/>

**¿Qué habilidades debería trabajar?**

**Herramientas**
<img src="inputs/skills_tech.png" width="800"/>

**Habilidades**
<img src="inputs/soft_skills.png" width="800"/>

**Gracias!!!**

Notebook de presentación en: https://github.com/Eddqzc/uaq_DS

¿Dudas?