# Estadísticas para Data Science

## 4 tipos de analíticas de datos
![image-3.png](attachment:image-3.png)

1. **Análisis descriptivo**: comprender lo que sucedió
- Implica examinar datos históricos para comprender eventos pasados. Proporciona información y resúmenes. 
- Responde a preguntas como "¿Qué sucedió?" y "¿Cómo sucedió?". 
- Técnicas:
    - Agregación de datos: este proceso implica recopilar datos de varias fuentes para crear un conjunto de datos completo. Por ejemplo, los datos de ventas de diferentes regiones se pueden agregar para proporcionar una descripción general de las ventas de toda la empresa.
    - Extracción de datos: esto implica descubrir patrones y relaciones dentro de grandes conjuntos de datos. Por ejemplo, un minorista puede extraer datos de transacciones para identificar tendencias de compra.
    - Visualización de datos: presentar información de datos a través de gráficos y cuadros de mando ayuda a resumir los datos. Herramientas como Tableau, Power BI y Excel se utilizan a menudo para este propósito.

2. **Análisis de diagnóstico**: comprender por qué sucedió
- Va un paso más allá, al ayudar a comprender las razones detrás de eventos pasados. 
- Responde preguntas como "¿Por qué sucedió esto?" y "¿Cuáles son las causas?". 
- Implica:
    - Análisis detallado: esta técnica permite a los analistas explorar datos detallados al desglosar los datos agregados en partes más pequeñas. Por ejemplo, si las ventas generales de una empresa disminuyeron, un análisis detallado podría revelar que las ventas en una región en particular fueron significativamente menores.
    - Descubrimiento de datos: identificación de patrones y relaciones en los datos a través de técnicas como el análisis de correlación, que examina la relación entre diferentes variables. Por ejemplo, un análisis de diagnóstico podría revelar que un aumento en las quejas de los clientes se correlaciona con una línea de productos específica.
    - Análisis de causa raíz: esto implica investigar las causas raíz de los problemas o eventos. Por ejemplo, si una campaña de marketing tuvo un rendimiento inferior, el análisis de causa raíz podría identificar factores como la segmentación o el momento inadecuados.

3. **Análisis predictivo**: previsión de eventos futuros
- Utiliza datos históricos junto con algoritmos estadísticos y técnicas de aprendizaje automático para pronosticar eventos futuros. 
- Su objetivo es predecir resultados futuros basándose en patrones y tendencias identificados en datos pasados. 
- Este tipo de análisis responde a preguntas como "¿Qué es probable que suceda?"
- Implica:
    - Métodos estadísticos: técnicas como el análisis de regresión, que identifica relaciones entre variables para predecir resultados futuros. La regresión lineal puede predecir ventas basándose en datos históricos, mientras que la regresión logística puede predecir la pérdida de clientes.
    - Algoritmos de aprendizaje automático: algoritmos avanzados como árboles de decisión, bosques aleatorios, máquinas de potenciación de gradiente y redes neuronales. Estos pueden manejar grandes conjuntos de datos e identificar patrones complejos. Por ejemplo, una red neuronal puede predecir precios de acciones basándose en datos históricos del mercado.
    - Análisis de series temporales: este método analiza puntos de datos ordenados en el tiempo para identificar tendencias y pronosticar valores futuros. Se utilizan técnicas como ARIMA (promedio móvil integrado autorregresivo) para predecir ventas a lo largo del tiempo.

4. **Análisis prescriptivo**: recomendaciones de acciones
- Ofrece recomendaciones de acciones que pueden afectar los resultados futuros. 
- Responde a preguntas como "¿Qué debemos hacer?" y "¿Cómo podemos lograrlo?". 
- Combina el análisis predictivo con técnicas de optimización y simulación para sugerir el mejor curso de acción. 
- Implica:
    - Modelos de optimización: estos modelos ayudan a encontrar la mejor solución o decisión posible en función de las limitaciones y los objetivos. Por ejemplo, la programación lineal se puede utilizar para optimizar las operaciones de la cadena de suministro a fin de minimizar los costos.
    - Simulación: esta técnica modela diferentes escenarios para comprender los resultados potenciales de varias acciones. Por ejemplo, una simulación puede evaluar el impacto de diferentes estrategias de precios en los ingresos.
    - Análisis de decisiones: implica evaluar y comparar diferentes opciones de decisión. Herramientas como los árboles de decisión y el análisis de escenarios ayudan a evaluar los riesgos y los beneficios de cada opción.

## El papel de la estadística en el aprendizaje automático

La estadística es fundamental para el aprendizaje automático, ya que proporciona las herramientas necesarias para analizar e interpretar datos, identificar patrones y hacer predicciones. Sirve como base teórica para construir y validar modelos de aprendizaje automático, permitiendo que los ordenadores aprendan de los datos y generalicen a nuevos casos.

Su aplicación en el aprendizaje automático incluye:

- Construcción de modelos: Métodos como la regresión lineal utilizan técnicas estadísticas, como los mínimos cuadrados, para estimar parámetros.
- Interpretación de resultados: Conceptos como el valor p, intervalos de confianza y R-cuadrado ayudan a evaluar el rendimiento y fiabilidad de los modelos.
- Validación de modelos: Técnicas como la validación cruzada, pruebas de hipótesis y bootstrapping garantizan la eficacia y evitan el sobreajuste.
- Optimización de algoritmos avanzados: Métodos como el descenso de gradiente, esenciales para entrenar redes neuronales, se basan en principios estadísticos.

### Probabilidad
La teoría de la probabilidad es de suma importancia en el aprendizaje automático, ya que proporciona la base para modelar la incertidumbre y realizar predicciones probabilísticas. 

¿Cómo podríamos cuantificar la probabilidad de distintos resultados, acontecimientos o simplemente valores numéricos? La probabilidad ayuda. 

Además, las distribuciones de probabilidad son especialmente importantes en el aprendizaje automático y hacen que se produzca toda la magia.

Algunas de las distribuciones más utilizadas son la **gaussiana (normal), la de Bernoulli, la de Poisson y la Exponencial**. 
 
- Ver Anexo Resumen de Probabilidades

### Estadísticas descriptivas
Las estadísticas descriptivas nos permiten comprender las características y propiedades de los conjuntos de datos. Nos ayudan a resumir y visualizar los datos, identificar patrones, detectar valores atípicos y obtener una visión inicial que sirva de base para posteriores modelos y análisis.

![image.png](attachment:image.png)

[Ver cheatsheet](./desc_stats.png)

- Medidas de tendencia central
    - La media, la mediana y la moda proporcionan información valiosa sobre los valores centrales o representativos de un conjunto de datos. En el aprendizaje automático, ayudan en el preprocesamiento de datos mediante la imputación de valores perdidos y la identificación de posibles valores atípicos.
    - Durante la ingeniería de características, también resultan útiles para capturar los valores típicos o más frecuentes que influyen en el rendimiento del modelo.

- Varianza y desviación típica
    - La varianza y la desviación típica cuantifican la dispersión de los datos en torno a la tendencia central. Sirven como indicadores de la coherencia y variabilidad de los datos en el aprendizaje automático.
    - Estas medidas son útiles para la selección de características o la reducción de la dimensionalidad, identificando características con un poder predictivo limitado.
    - Además, ayudan a evaluar el rendimiento del modelo analizando la variabilidad de las predicciones o los residuos, lo que facilita la evaluación y comparación de distintos algoritmos.

- Medida de dispersión
    - El rango, el rango intercuartílico y los percentiles son medidas de dispersión que ofrecen información sobre la distribución de los valores de los datos.
    - Son especialmente valiosos en la detección de valores atípicos, ya que ayudan a identificar y tratar los valores atípicos que pueden influir enormemente en el entrenamiento y las predicciones de los modelos. 
    - En los casos en que sea necesario transformar o normalizar los datos para mejorar el rendimiento de los algoritmos, estas medidas pueden servir de orientación.

- Muestreo
    - Los modelos de aprendizaje automático se entrenan a partir de datos muestreados. Si las muestras no se seleccionan cuidadosamente, la fiabilidad de nuestros modelos se vuelve incierta. Lo ideal es elegir subconjuntos de datos representativos de poblaciones más amplias.
    - El empleo de técnicas de muestreo adecuadas también garantiza que los modelos de aprendizaje automático se entrenen con datos diversos e imparciales, fomentando un uso ético y responsable de la tecnología.

- Estimación
    - Las técnicas de estimación son cruciales en el aprendizaje automático para determinar parámetros poblacionales desconocidos a partir de datos de muestra. - Nos permiten estimar los parámetros del modelo, evaluar su rendimiento y hacer predicciones sobre datos desconocidos.
    - El método de estimación más utilizado en el aprendizaje automático es la estimación de máxima verosimilitud (ML), que encuentra el estimador de un parámetro desconocido maximizando la función de verosimilitud.

- Pruebas de hipótesis
    - La comprobación de hipótesis proporciona un enfoque sistemático para evaluar la importancia de las relaciones o diferencias en las tareas de aprendizaje automático. 
    - Nos permite evaluar la validez de los supuestos, comparar modelos y tomar decisiones estadísticamente significativas basadas en las pruebas disponibles.

- Validación cruzada
    -La validación cruzada (CV) es una técnica estadística utilizada en el aprendizaje automático para evaluar el rendimiento y el error de generalización de un algoritmo. Su objetivo principal es evitar el sobreajuste, un fenómeno en el que el modelo funciona bien en los datos de entrenamiento pero no generaliza a los datos no vistos.
    - Al dividir el conjunto de datos en varios subconjuntos y entrenar y evaluar de forma iterativa el modelo en distintas combinaciones, la CV proporciona una estimación más fiable del rendimiento del algoritmo en datos no vistos.