# Clase 1: Introducción a Big Data

## 1. ¿Qué es Big Data?

Actualmente los términos Big data, Ciencia de Datos (Data Science) Aprendizaje de Máquinas (Machine Learning) e Inteligencia Artificial (Artificial Intelligence) se utilizan como si fueran lo mismo. No obstante, son diferentes, por lo cual debemos definirlos para entender bien qué haremos.

Sin embargo, antes de definirlo todo, debemos definir **qué son los datos**.

## 1.1. ¿Qué son los datos?

Existen muchas definiciones de datos:

* Información fáctica (como mediciones o estadísticas) utilizada como base para el razonamiento, la discusión o el cálculo (Merriam-Webster, 2022).
* Características o información, generalmente numérica, que se recopila a través de la observación (OECD, 2008).
* Un objeto, variable o pieza de información que tiene la capacidad percibida de ser recolectado, almacenado e idnetificado (Data Pop Alliance, 2022).

No obstante, en este curso utilizaremos una definición coloquial 
> **Los datos son algo cuyo valor nos importa**. 

No es una definición formal, pero está de acuerdo con la realidad. 

**Advertencia:** ¡no confundir datos, información, conocimiento y sabiduría!

<center><img src="images/Data-Wisdom.jpg"/></center>

En ese sentido, los datos son nuestros números de cédula, edad, balance bancario, tus gustos, entre otros. También es el balance de una empresa, los ingresos, los gastos, el inventario y la producción. Así mismo lo son pixeles de una radiografía de tórax o de la imagen de una cara, las últimas palabras que te envió tu ex, likes en Instagram, comentarios en Twitter o los gustos de películas en Netflix. Somos datos y casi todo puede ser potencialmente un dato.

Los datos pueden ser estructurados o no estructurados. Según Data Pop Alliance (2022), los **datos estructurados** son aquellos que responden a una pregunta, son fácilmente manipulados e idenficados y tienen una jerarquía que no es manipulada, como las respuestas a una encuesta, los años de una persona o su ingreso. Los **datos no estructurados** son aquellos que no están dispuestos para ser usados para análisis automático y por lo general responden a un objetivo diferente a ser recolectados y que no tiene un método de identificación jerárquico, tales como imágenes, videos, tweets, documentos, entre otros.

## 1.2. ¿Qué es Big Data?

Siempre hemos tenido datos, la diferencia es que ahora tenemos datos más fácilmente y de manera menos costosa: tenemos sensores, plataformas, nuevas tecnologías, archivos de Excel, entre otros. Eso ha hecho que tengamos una cantidad inmensa de datos a disposición, incluso más de los que podemos procesar. En ese sentido, **Big Data hace referencia a los datos que presentan las 3 V's** (Oracle, 2022):

* **Volumen:** los datos se presentan en grandes volúmenes que se deben recoger, procesar y analizar.
* **Velocidad:** los datos se reciben a una velocidad mayor. Algunos incluso en tiempo real, sin necesidad de discos de almacenamiento.
*  **Variedad:** los datos se presentan en una gran cantidad de tipos. Anteriormente, los datos eran estructurados (bases de daos relacionales), pero ahora la tecnología permite procesar datos no estructurados como texto, audio, video, entre otros.

Algunos autores (Schroeder, 2016; Kumar & Nagpal, 2015) proponen dos V's adicionales:

* **Valor:** los datos se han vuelto en uno de los activos más importantes. Sin embargo, el valor de los datos no es útil hasta que le demos un sentido. El analista de datos es quien le da valor agregado a los mismos.
* **Veracidad:** los datos deben considerar un proceso para asegurarse que son confiables.

Otras características son consideradas en Al-Mekhal & Ali Khwaja (2019).

## 1.3. ¿Qué es la Ciencia de Datos?

Ante esta gran disposición de datos, necesitamos una ciencia que permita a los humanos hacerle a los datos las preguntas correctas. En ese sentido, la Ciencia de Datos puede definirse como

> **El proceso de formular hipótesis basados en el mundo alrededor nuestro para analizar los datos relevantes para validar o invalidar nuestra hipótesis**.

En ese sentido, la Ciencia de Datos **NO** es exactamente lo que normalmente escuchamos:

* No son computadores reconociendo imágenes de gatos y perros.
* No es el programa del Tesla que se maneja solo.
* No es el programa de IBM Watson que analiza los tejidos humanos en búsqueda de enfermedades.

Estos ejemplos se acercan más a Machine Learning.

<center><img src="images/datascienceone.jpg" width = "500", height = "450"/></center>


## 1.4. ¿Qué es Machine Learning?

El aprendizaje de máquinas (Machine Learning) es 

> **La ciencia (y el arte) de programar computadores para que puedan _aprender de los datos_ (Géron, 2017)**. 

Con esta definición (y con lo que nos han contado), normalmente pensamos que Machine Learning (ML) es uno de los androides que pueden interactuar con humanos, una máquina que sabe cómo limpiar la casa, el programa que venció al campeón de ajedrez, incluso lo relacionamos con Terminator. Sí lo son, pero el ML puede llegar a ser más simple: un filtro de spam, un bot de servicio al cliente, un programa que identifica los probables sentimientos de comentarios en Twitter, una regresión lineal. También el ML puede ser más complejo: inteligencia artificial, aprendizaje automático, entre otros.

En este curso nos concentraremos, en parte, en cómo programar computadores para que aprendan de los datos: nos concentraremos en el **cómo**. Aprenderemos los algoritmos más usados en ML:

1. Algoritmo de clasificación con vecinos más cercanos (kNN).
2. Aprendizaje probabilístico: Naive Bayes.
3. Support Vector Machines.
4. Árboles de decisión y bosques aleatorios (Random Forest).
5. Métodos de regresión:
    * Regresión simple y múltiple.
    * Regresión Logit.
    * Árboles de regresión.
    * Regresión RIDGE.
    * Regresión LASSO.

Así mismo, aprenderemos sobre la evaluación del desempeño de los modelos, cómo mejorar dicho desempeño, overfitting y elección, extracción e ingeniería de parámetros.

## 1.5. ¿Qué es Inteligencia Artificial?

In [2]:
from IPython.display import IFrame
IFrame('https://www.youtube.com/watch?v=G-zyTlZQYpE&ab_channel=TheTonightShowStarringJimmyFallon', width=560, height=315)

Según Russell & Norvig (2020), existen cuatro definiciones o metas de la Inteligencia Artificial (AI):

1. **Enfoque humano:**
    * Sistemas que piensan como humanos.
    * Sistemas que actúan como humanos.
    
2. **Enfoque ideal:**
    * Sistemas que piensan racionalmente. 
    * Sistemas que actúan racionalmente.
    
En general, son sistemas que pueden actuar o pensar como humanos, pero no limitándose a procesos biológicos. Por ejemplo, hay nueva computadora de IBM jugadora de ajedrez que aprendió a ser una maestra sin que un humano le enseñara más que las reglas. Otros programas han ayudado a entender la misma inteligencia artificial al generar sus propias conclusiones.

# 2. ¿Por qué aprender Big Data, Data Science y Machine Learning (e Inteligencia Artificial)?

**Los datos son el nuevo petróleo**. Más allá, quienes tengan los datos tienen el poder. Solo se debe pensar en los casos de Cambridge Analytica, en los cuales se influenció la votación de millones de personas a partir de sus datos. No obstante, otros ejemplos pueden ser relevantes: el éxito de las Big Tech (Google, Meta, TikTok), el nuevo auge de los sistemas automatizados (Tesla, Amazon, SpaceX), el fortalecimiento del Bussines Intelligence (McKinsey, EY, BCG), entre otros.

A la vez, los empleos con mayor propención a la automatización están siendo reemplazadas por este tipo de tecnología (como ha ocurrido a lo largo de la historia): cajeros, atención al cliente, contadores, entre otros. Por otro lado, nuevos empleos se están creando a partir de esta tendencia: analistas de inteligencia de negocio, científicos de datos,  programadores de front end y back end, ingenieros de algoritmos de Machine Learning, entre otros.

-------------------
<br>
<center> <b>En ese sentido, no podemos pelear con la innovación: </b></center> 
<center> <b><i>unámonos a ella. </i></b> </center> 
<br>

-------------------
Este curso les dará las herramientas necesarias para que puedan entender, analizar, construir y evaluar los algoritmos básicos de Ciencia de Datos y, especialmente, de Machine Learning. Después de este curso esperamos que puedan obtener un valor agregado en el mercado que otros profesionales no tienen. Además, esperamos que puedan adquirir capacidades analíticas que puedan conectarse con lo que han aprendido en otros cursos y con lo que aprenderán en el futuro.

# 3. Lenguajes de programación: ¿Por qué Python y Power BI?

Actualmente existe una infinidad de lenguajes de programación y software para Ciencia de Datos: R, Python, Julia, C++, Power BI, Tableau entre otros. En detalle, R y Python son los lenguajes que dominan el área. No obstante, nos centraremos en dos en particular: Python para el procesamiento y Power BI para la visualización (lo que no implica que no se puedan utilizar con otros objetivos).

Realizamos esta elección por varias razones:

1. **Python es el lenguaje preferido por el mundo de la Ciencia de Datos**. Aunque R es el programa predilecto en el mundo estadístico y está ganando terreno rápidamente, Python sigue siendo muy versátil y es utilizado por múltiples áreas en las ciencias de la computación. En ese sentido, encontramos una mayor comunidad en la que apoyarnos.
2. **Python ofrece ventajas pedagógicas que R no tiene**. La interfaz de Python ofrece una mayor facilidad para incluir comentarios, códigos y otros elementos que permiten entender un mejor proceso de aprendizaje.
3. **Python tiene una mayor facilidad para llamar librerías que R**. Esto nos permitirá diferenciar y utilizar paquetes de una manera más sencilla cuando estemos programando.
4. **Python y R son fácilmente traducibles**. Ya existen programas que permiten la traducción sencilla entre estos lenguajes o ustedes mismos podrán hacerlo. Lo importante de este curso es que aprendan lo esencial de la Ciencia de Datos para que lo puedan aplicar al lenguaje y software de su preferencia.
5. **Power BI es el software predilecto en el mundo de los negocios en Colombia**. Aunque Tableau ofrece herramientas también para la visualización, Power BI es el programa más usado en los negocios por la sencillez con la que se puede manejar.

Esto no significa que no se deba aprender R u otros lenguajes de programación. Por el contrario, se recomienda fuertemente manejar más de un solo lenguaje de programación y software para atender diferentes problemas. El **_poliglotismo digital_** puede ser un gran valor para ustedes y los lugares en donde quieran estar. Por ello, en este curso se puede utilizar R a quien prefiera hacerlo, pero el material se encontrará en Python.

<br>
<center><b>Las 10 habilidades más solicitadas en ofertas de trabajo</b></center>
<center><b>en Data Science</b>

<center>Habilidad     | Porcentaje   | Habilidad     | Porcentaje   |
------------- | -------------| ------------- | -------------|
Python        | 72%          | SAS           | 30%          |
R             | 64%          | Spark         | 27%          |
SQL           | 51%          | Matlab        | 20%          |
Hadoop        | 39%          | Hive          | 17%          |
Java          | 33%          | Tableau       | 14%          |
</center>
<center><b>Fuente:</b> Glassdor, 2017</center>
<br>

En aras de la verdad, también debemos resaltar algunas ventajas de R:

* Las gráficas son mucho más estéticas que en Python.
* Las entidades públicas y estadísticas en Colombia prefieren R más que cualquier otro lenguaje (en el mundo de los negocios es mixto, con alguna dominancia de Python).
* Dado su origen estadístico, las operaciones estadísticas son mucho más fáciles de calcular y mostrar en R. Ello incluye los métodos de regresión.

No obstante, les recomendamos explorar todos los lenguajes de programación y software que puedan, si este tema las interesa. Les recomendamos fuertemente aprender SQL y Dash.



# 4. Algunos peligros y consideraciones éticas de Big Data

La tendencia del Big Data han traído nuevos retos y peligros (que no incluyen solamente la rebelión de los robots). Algunas de ellas son:

1. **La amenaza a la privacidad.** La información extraída de Big Data, incluida la anonimizada, permite conocer a la persona más de lo que pensamos. En ese sentido, no solo la privacidad se ve amenazada en la recolección, sino en otras etapas. Algunos ejemplos son el reto Netflix y el caso de un gobernador en EE.UU.
2. **La capacidad de influencia en el comportamiento humano.** El procesamiento y análisis de Big Data permite obtener conocimiento de cómo afectar el comportamiento humano, al igual que los algoritmos basados en Big Data. Algunos ejemplos son Cambridge Analytica, Candy Crush e Instagram y Facebook.
3. **Discriminación y sesgo en los algoritmos.** Los computadores son tan buenos aprendiendo que pueden aprender nuestros sesgos. Así, aprenden a discriminar igual que nosotros. Algunos ejemplos son la distribución de policías en la ciudad, algoritmos de elección de personal, reconocimiento facial, entre otros.
4. **Abolición del anonimato.** La capacidad de identificación y perfilación del Big Data evita que las personas puedan tener anonimato, el cual, en algunos casos, es necesario. Algunos ejemplos consideran anonimato en regímenes autocráticos e, incluso, regímenes democráticos.
5. **Destrucción y creación de empleos.** Se destruyen algunos empleos automatizables y se crean unos nuevos. Sin embargo, los nuevos empleos son de alta cualificación. El reto surge en poder generar aquellas habilidades y que el nuevo orden económico no termine en una mala distribución de la riqueza.
6. **No toda solución es un martillo.** La generalización de los hallazgos en una situación no siempre es aplicable bajo todo contexto.

Es nuestra labor poner la tecnología al servicio del humano y no al contrario (o a merced de intereses que son contrarios al bienestar de la mayoría). Es nuestro reto velar por una buena aplicación del conocimiento.

<center><img src="images/disc_banking.png" width = "700", height = "150"/></center>

# 5. Una última observación: correlación no implica causalidad

Cuando dos cosas tienen una tendencia similar, no significa necesariamente que una implique la otra. Considere los siguientes ejemplos:

1. Los datos muestran que las muertes por ahogamiento aumentan al mismo tiempo que aumenta la venta de helados.
2. Los datos muestran que las personas casadas viven más.
3. Los datos muestran que hay más crimen cuando hay más policía.

<br>
<center><img src="images/pol_crimen.png" width = "500", height = "350"/></center>
<br>

Pero que dos variables se muevan de manera similar no implica que una cause a la otra. La lógica nos lo dice:

1. **Helado vs. Ahogamientos:** hay una variable omitida: el calor del verano.
2. **Personas casadas vs. Edad:** hay una causalidad reversa: los hombres con mayor edad se casan más.
3. **Policía vs. Crimen:** hay una causalidad reversa: mayor presencia de crimen hace que se envíe más policías a la zona.

En ese sentido, podemos definir los siguientes conceptos en términos prácticos:

> <b>Correlación es la fluctuación conjunta de dos variables, la cual puede ser causal o no.</b> 

> <b>Causalidad hace referencia a que una variable causa directamente otra.</b>

Nunca se deben confundir, pues puede derivar conclusiones erróneas en nuestros análisis. Esto puede marcar la diferencia entre un buen consejo y un consejo desastroso.

# 6. Bibliografía

* Al-Mekhlal, M., & Khwaja, A. A. (2019). A Synthesis of Big Data Definition and Characteristics. IEEE Computer Society. doi:10.1109/CSE/EUC.2019.00067
* Data Pop Alliance. (2022). Data. Obtenido de Key Terms: https://datapopalliance.org/resources/key-terms/#data
* Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O’Reilly Media.
* Glassdoor. (21 de septiembre de 2017). Data Scientist Personas: What Skills Do They Have and How Much Do They Make? Obtenido de Economic Research: https://www.glassdoor.com/research/data-scientist-personas/
* Kumar, R., & Nagpal, B. (2015). A Survey On Big Data Analytics. Manager’s Journal on Cloud Computing, 43-48.
* Merriam-Webster. (2022). Data. Obtenido de Dictionary: https://www.merriam-webster.com/dictionary/data
* Oracle. (2022). ¿Qué es el big data? Obtenido de Sitio web de Oracle: https://www.oracle.com/co/big-data/what-is-big-data/
* Organisation for Economic Co-operation and Development (OECD). (2008). Data. Obtenido de Glossary of Statistical Terms: https://stats.oecd.org/glossary/detail.asp?ID=532
* Russell, S., & Norvig, P. (2021). Artificial Intelligence: A Modern Approach. Pearson.
* Schroeder, R. (2016). Big data business models: Challenges and opportunities. Cogent Social Sciences. doi:10.1080/23311886.2016.1166924