### Matemáticas para Data Science: Estadística Descriptiva

In [2]:
import numpy as np
import pandas as pd

# Tema 1: ¿Para qué sirve la estadística descriptiva?

## Estadística descriptiva vs. inferencial

### Diferencia entre descriptiva vs inferencial

**La estadística descriptiva**

 es la técnica matemática que obtiene, **organiza**, **presenta** y **describe un conjunto de datos para facilitar el uso**, generalmente con el apoyo de tablas, medidas numéricas o gráficas. En resumen la estadistica descriptiva trata de resumir informacion

**La estadística inferencial**

Es una parte de la estadística que comprende los métodos y procedimientos que **por** medio de la **inducción determina propiedades de una población estadística**, a partir de una parte de esta. **Su objetivo** es **obtener conclusiones** útiles **para hacer deducciones** sobre una totalidad, **basándose** en la información numérica **de la muestra**.

### Puedes mentir con estadistica?

- **El resultado podría estar sesgado a nuestro criterio personal**, mostrando mayor interés a un cierto parámetro. dejando de lado a otro que también podría ser relevante. Mostramos solo una cara de la moneda.

- **No existen definiciones objetivas en estadística**, sin embargo sobre estas definiciones podemos realizar cálculos exactos lo cual es un problema

- **Los diferentes estadísticos** descriptivos **dan nociones diferentes sobre los mismos datos**.

> "Con frecuencia construimos un caso estadistico con datos imperfectos, como resultado hay numerosas razones por las cuales individuos intelectuaels respetables pueden no estar de acuerdo sobre los resultados estadisticos."  
> *-Naked Statistics, Charles Wheelan*

### ¿Por que aprender estadística?

A pesar de los problemas que pueda presentar es muy importante entender que la estadística nos puede ayudar a:

- Resumir grandes cantidades de información.
- tomar mejores decisiones.
- responder preguntas con relevancia social (economia, politica, etc).
- reconocer patrones en los datos.
- descubrir a quien usan estas herramientas para mentir sobre informacion.

Hay que entender que resumir informacion conlleva perder informacion, y no caer en las verdades a medias, que omiten el contexto globar para usar como elemento engañoso para tergiversar la verdad.

## Flujo de trabajo en data science
![](https://www.oreilly.com/library/view/machine-learning-design/9781098115777/assets/mldp_0102.png)

Como son los casos especificos donde se encuentra la estadistica?

- **Ingesta de datos y Validación:**

    Se encarga de todo el procesamiento de **ETL** (Extract Transform Load) **obtener los datos**, **limpiarlos** y **estructurarlos**, **crear pipelines de análisis automatizado**, es decir que transformaciones vamos a realizar a los datos para que estén listos para el caso especifico de estudio que vamos a realizar.

- **Preparación y entrenamiento del modelo:**

    En este bloque **se va a realizar** un **análisis exploratorio de los datos con estadística descriptiva**, entender **correlaciones** y realizar posibles **reducciones de datos**.

- **Evaluar el modelo, Producción e Interacción:**

    esta parte del flujo se basa mas en la **estadística inferencial**.

[Acelerar el flujo de trabajo en Ciencia de Datos BBVA](https://www.bbvaaifactory.com/es/accelerating-data-science-workflows/)

## Plan del curso

La estadistica descriptiva es un area comun de las matematicas, hay una numerosa cantidad de libros, articulos, apuntes y cursos que tratan este tema.

Pero en este curso se guiara la Estadistica Descriptiva en el caso particular de Ciencias de Datos, entender no solo las formulas matematicas que estan detras de las estadisticas descriptivas que debemos calcular, sino tambien en el contexto que da el libro [Naked Statistic](https://www.amazon.com/-/es/Charles-Wheelan-ebook/dp/B007Q6XLF2/), a como indentificar cual es la cara correcta de la moneda dependiendo del contexto.

**Del bloque de flujo de trabajo en Data Science se trabajara:**

Estadísticas para ingesta y procesamiento

- Conocer los tipos de datos: si son numéricos, cadenas de texto, estructurado, etc.
- Pipeline o flujo de procesamiento de estos: lo que haremos a los datos para que sean útiles.

Estadística para analítica y exploración

- Análisis exploratorio de los datos, base de la estadística descriptiva.
- Identificar correlaciones para buscar la reducción del conjunto de datos

# Tema 2: Estadística descriptiva para analítica

## Tipos de datos en estadística inferencial 

Aquí tenemos en cuenta los diferentes tipos de datos o variables estructuradas en cualquier problema de ciencia de datos.

### datos categóricos: 
* **ordinales (object)**

    Los datos ordinales representan unidades discretas y ordenadas, su orden es importante.


* **nominales (bool)**

    Se usan para etiquetar variables que no tienen un valor cuantitativo.
    
    Estos datos no tienen un orden, aunque cambiara el orden de sus valores, no cambia su significado.

### datos numéricos: 
* **discretos (int64)**
    Se dice que una variable es discreta cuando no puede tomar ningún valor entre dos consecutivos
    
    Un objeto discreto tiene límites conocidos y definibles. Es fácil definir con precisión dónde comienza y dónde termina el objeto.



* **continuos (float64)**
    Las variables continuas pueden tomar cualquier valor dentro de un intervalo.
    Los datos continuos representan mediciones y, por lo tanto, sus valores. no se pueden contar, pero se pueden medir. 
     
a continuación exploraremos un dataset que contiene todos estos tipos de datos: https://www.kaggle.com/lepchenkov/usedcarscatalog

In [7]:
df = pd.read_csv('./cars.csv')
df.head(2)

Unnamed: 0,manufacturer_name,model_name,transmission,color,odometer_value,year_produced,engine_fuel,engine_has_gas,engine_type,engine_capacity,...,feature_1,feature_2,feature_3,feature_4,feature_5,feature_6,feature_7,feature_8,feature_9,duration_listed
0,Subaru,Outback,automatic,silver,190000,2010,gasoline,False,gasoline,2.5,...,True,True,True,False,True,False,True,True,True,16
1,Subaru,Outback,automatic,blue,290000,2002,gasoline,False,gasoline,3.0,...,True,False,False,True,True,False,False,False,True,83
