# Mundo de datos

Los avances tecnológicos recientes nos permiten **medir, almacenar y transmitir** datos de toda índole

- Datos comerciales y bancarios
- Datos de operaciones industriales
- Datos públicos y gubernamentales
- Datos científicos y médicos
- Datos de redes sociales
- Datos de dispositivos: Smart-hardware e Internet de las cosas

Pero

> Los datos crudos tienen poco valor, debemos **extraer información a partir de los datos** si queremos tener el conocimiento para tomar buenas decisiones

![Screenshot_2020-07-19%20info147.png](attachment:Screenshot_2020-07-19%20info147.png)


# Predicciones y decisiones

- Nuestros datos son **mediciones/observaciones** de un **sistema/proceso** que queremos analizar
- En base a nuestros datos podemos proponer y ajustar un **modelo** para nuestro sistema
- Finalmente usamos el modelo para hacer predicciones y tomar decisiones

![Screenshot_2020-07-17%20info147%20-%20Presentaciones%20de%20Google.png](attachment:Screenshot_2020-07-17%20info147%20-%20Presentaciones%20de%20Google.png)


**Ejemplo**

El censo de Chile busca contar y caracterizar a los habitantes de nuestro pais

1. El **censo son las observaciones** de un **sistema: La población de Chile**
1. En base a los datos obtenidos a través de múltiples censos podríamos crear un **modelo para la evolución de la población de la ciudad de Valdivia**
1. Usando el modelo podríamos intentar **predecir el crecimiento poblacional** en un cierto horizonte de años
1. Esta predicción puede servir como sustento para **desarrollar políticas públicas (tomar decisiones)**





# Describiendo sistemas

Según su comportamiento los sistemas se clasifican como deterministas o estocásticos

- Un sistema **determinista** está gobernado por reglas que nos permiten calcular exactamente su estado final dado un cierto punto de partida o condición inicial
- Un sistema **estocástico** tiene un componente aleatorio, incluso usando la misma condición inicial el estado final puede ser distinto

En general todos los sistemas complejos del mundo real tienen uno o más componentes aleatorios


Consideremos que
- Las condiciones naturales varían constantemente
- Los sensores y los equipos de medición están sujetos a ruido

Por ende

> Para hacer predicciones en sistemas complejos debemos manejar su **incerteza**

# Fuentes de incertidumbre

La incerteza puede tener distintos orígenes

## Incerteza inherente o propia

Se refiere a sistemas que son naturalmente inciertos. 

Por ejemplo, si estoy analizando sistemas de partículas, estoy sujeto al [principio cuántico de incertudimbre](https://es.wikipedia.org/wiki/Relaci%C3%B3n_de_indeterminaci%C3%B3n_de_Heisenberg)

> Este tipo de incerteza es irreducible


## Incerteza debido a un modelo imperfecto

Ciertos supuestos o aproximaciones del modelo pueden introducir incerteza

Un modelo demasiado simple o mal calibrado puede introducir ruido en nuestras predicciones

> Podemos disminuir este tipo de incerteza mejorando nuestro modelo

## Incerteza debido a observaciones imperfectas

En este caso la incertidumbre puede deberse a que

- nuestras observaciones del sistema son incompletas o parciales
- nuestros sensores son imperfectos e introducen ruido

En cualquier caso lo que observamos no es una representación perfecta del sistema

> Podemos disminuir este tipo de incerteza capturando más datos, mejorando la calidad de nuestros sensores y/o haciendo mediciones que sean representativas del sistema completo



# Probabilidades

Es la rama de las matemáticas que estudia los eventos y fenómenos aleatorios

Un evento aleatorio tiene asociado una **probabilidad**

> Una probabilidad es un valor en el rango $[0, 1]$ que indica que tan posible o que tan cierto es que dicho evento ocurra

## Variable aleatoria

En probabilidades se llama **variable aleatoria (VA)** al resultado de un experimento que puede tomar múltiples valores

Se llama **evento o realización** a un resultado en particular de la VA

Usamos la notación 
$$
x \sim X
$$ 

para referirnos a una realización $x$ que resulta de observar la VA $X$

Llamamos dominio $\mathcal{X}$ al espacio de posibilidades de la VA

**Ejemplo**

El **valor de un dado** es una VA con dominio $[1, 2, 3, 4, 5, 6]$

Es una VA **discreta** con **seis estados posibles**


## Interpretación frecuentista de probabilidad

El significado más común de probabilidad proviene de

> observar muchas veces el resultado de una VA y contar

Sea una variable aleatoria $M$ que corresponde al resultado de lanzar una moneda

Lanzamos una moneda 5 veces y registramos [x, x, o, x, o]

La probabilidad de cada evento corresponde a su **frecuencia** (número de apariciones) dividido el total, es decir que

- La probabilidad de x es $3/5$ o que $P(M=x) = 3/5$
- La probabilidad de o es $2/5$ o que $P(M=o) = 2/5$

Esto se conoce como la

> interpretación frecuentista de la probabilidad



# Estadística

La estadística es la

> Disciplina científica dedicada al desarrollo y estudio de métodos para recopilar, analizar y extraer información de los datos


Modelaremos la incerteza usando el lenguaje de las **probabilidades** 

Reduciremos la incerteza y tomaremos decisiones usando técnicas de **estadística**


En esta serie de lecciones aprenderemos a usar [`scipy.stats`](https://docs.scipy.org/doc/scipy/reference/stats.html) y [`numpy.random`](https://docs.scipy.org/doc/numpy/reference/routines.random.html) para resolver problemas de **inferencia estadística**