# Introducción a la Estadística (muy breve)

## Referencias

- [Khan Academy: Statistics](https://es.khanacademy.org/math/statistics-probability)
- [Plotting with Pandas](https://realpython.com/pandas-plot-python/)
- [Interactive visualizations with Bokeh](https://realpython.com/python-data-visualization-bokeh/)
- [Datos Covid en Catalunya](https://dadescovid.cat/descarregues)

## Definiciones

- Informática: Es la ciencia que estudia cómo procesar la INFORmación automMÁTICAmente.

### Definiciones relacionadas con datos.
- Información: Todo aquello que nos interese.
- Dato: Unidad de información.

### Definiciones relacionadas con predicciones.

Aleatoriedad:
- Se usa para simular la falta aparente de predecibilidad de los eventos: altura, peso, temperatura, enfermedades en un ser vivo ... 
- El resultado de un suceso aleatorio sólo se puede conocer DESPUÉS de que ocurra el suceso.

Probabilidad:
- Medida de la certeza de que un suceso ocurra.
- Es un número real entre 0 y 1 SIEMPRE.
- 0 significa que el suceso es imposible.
- 1 significa que el suceso ocurrirá seguro.


## Definición de Estadística

La Estadística es una rama de las matemáticas.
Estudia dos cosas:
1. La variabilidad de los DATOS.
2. Los procesos aleatorios que generan estos datos, es decir la PROBABILIDAD.

Bioestadística: Estadística aplicada a las ciencias de la vida.

En europa por el 1663, surgen los primeros escritos de estadística.
Estos escritos se refieren a la "ciencia del estado" porque tratan de decidir la política del estado en base a datos económicos y demográficos.

![lies-stats](lies-stats.jpg "Lies")

# La ramas de la Estadística

### Estadística descriptiva (se centra en los DATOS)
Un resumen de los datos que tenemos. 

### Estadística inferencial (se centra en las probabilidades)
Extrapolar una información que tengo de unas muestras a toda la población.

*Va bien para predecir las propabilidades de que ocurra un succeso: por ejemplo: que un virus se expanda o se elimine.*

Al final del documento hay más información (primero es importante entender Est.Descriptiva)

# Pipeline de análisis de datos

1. Importar los datos
2. Ponerlos en formato tidy
3. Caja grande: Visualizar -> Tranformar -> Modelar   [EDA]
4. Comunicar

EDA = Exploratory Data Analysis. Análisis exploratorio de datos.
En EDA se trabajan las dos ramas de la estadística (descriptiva + inferencial)


# Relación entre datos y probabilidad

- Si tenemos datos observados -> Podemos intentar deducir las probablidades que tenían esos sucesos antes de ocurrir.
- Si tenemos las probablidades -> Podemos intentar predecir los sucesos que veremos en un futuro.



# Definiciones

- Población: El conjunto de elementos o sucesos que queremos estudiar.
- Muestra: El subconjunto de la población que podemos observar.
- Variable: Característica de la muestra que podemos medir.



# Tipos de variables

Hay dos tipos.

1. Variables cuantitativas: Se describen con números.
  - Contínuas: Hay un número infinito de valores. Ejemplo: Peso, altura.
  - Discretas: Hay un número finito (normalmente pocos) de valores. Ej: Número de hijos.

2. Variables cualitativas: Se describen con texto.
  - Ordinales: Tienen un orden implícito. Ej: Excelente > Notable > Bien > Suf
  - Nominales: No tienen un orden. Cáncer, Covid19, Sida, Ébola; Sí, No, No Sabe. A+, A-, AB+, ...




# Frecuencias

El valor de una variable se le puede llamar también "frecuencia".

- Frecuencia absoluta: El valor absoluto.
- Frecuencia relativa: El valor dividido por el tamaño de la muestra.

Es muy importante calcular estas frecuencias para hacer gráficos como el diagrama de barras.
En Pandas, nos facilita mucho esta tarea funciones como el groupby y el value_counts.

Ejemplo:
- Número de casos de una enfermedad por ciudad en enero del 2022.

Más código de ejemplo (con Seaborn)
- https://dfrieds.com/data-visualizations/bar-plot-python-pandas.html


### Tipos de gráficos segun la variable.

Cuantitativas contínuas, diagrama de linea.
Cuantitativas discretas, diagrama de barras.
Cualitativas ordinales, histograma.

Reflexiones sobre diferencias entre diagrama de barras o histograma:


- https://anestesiar.org/2014/como-un-huevo-una-castana-diferencias-entre-un-diagrama-de-barras-y-un-histograma/


## Estadística descriptiva: Medidas de Tendencia Central

En *[estadística descriptiva](https://es.wikipedia.org/wiki/Estad%C3%ADstica_descriptiva)* se utilizan distintas medidas para intentar describir la tendencia central de nuestros datos.

Los más simples son los siguientes. Se recomienda implementarlos usando [Python, Pandas y programación vectorial](https://en.wikipedia.org/wiki/Array_programming).

* **Media**: La [media aritmética o promedio](https://es.wikipedia.org/wiki/Media_aritm%C3%A9tica) es el valor obtenido al sumar todos los *[datos](https://es.wikipedia.org/wiki/Dato)* y dividir el resultado entre el número total elementos.
En inglés se llama **MEAN** (Pandas, Numpy) o **AVERAGE**  

* **Media Ponderada**: La [media ponderada](https://es.wikipedia.org/wiki/Media_ponderada) nos interesa cuando algunos de los datos tienen más peso dentro del valor de la media que otros. Por ejemplo, al calcular las notas finales de un módulo, en el que la Práctica Pt1 cuenta un 25%, la Pt2 vale un 40% y el examen cuenta el 35% restante. 

* **Moda**: La <a href="https://es.wikipedia.org/wiki/Moda_(estad%C3%ADstica)">moda</a> es el valor que tiene mayor frecuencia absoluta. Se representa con $M_0$. Ver también [Histogramas](https://es.khanacademy.org/math/cc-sixth-grade-math/cc-6th-data-statistics/histograms/v/histograms-intro).

* **Mediana**: La <a href="https://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica)">mediana</a> es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor. Se representa con $\widetilde{x}$. Recomendable hacer la gráfica de todas las observaciones ordenadas.
En inglés se llama **median**.


## Estadística descriptiva: Medidas de Variabilidad

Para complementar las medidas de tendencia central, se usan las medidas de variabilidad, que describen cómo varían los datos respecto a su centro.

Abajo se presentan varios y se vuelve a definir la media, esta vez con su fórmula matemática. Se recomienda implementar las siguientes fórmulas usando [Python, Pandas y programación vectorial](https://en.wikipedia.org/wiki/Array_programming).

* **Rango**: El rango (range en inglés) es la diferencia entre la observación más alta (máximo) y la más baja (mínimo).


* **Media aritmética**: La [media aritmética](https://es.wikipedia.org/wiki/Media_aritm%C3%A9tica) es el valor obtenido al sumar todos los *[datos](https://es.wikipedia.org/wiki/Dato)* y dividir el resultado entre el número total elementos. Se suele representar con la letra griega $\mu$. Si tenemos una [muestra](https://es.wikipedia.org/wiki/Muestra_estad%C3%ADstica) de $n$ valores, $x_i$, la *media aritmética*, $\mu$, es la suma de los valores divididos por el numero de elementos; en otras palabras:
$$\mu = \frac{1}{n} \sum_{i}x_i$$

En inglés se dice **mean**. 

* **Desviación respecto a la media**: La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de la variable estadística y la media aritmética.
$$D_i = |x_i - \mu|$$


* **Varianza**: La [varianza](https://es.wikipedia.org/wiki/Varianza) es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística. La varianza intenta describir la dispersión de los *[datos](https://es.wikipedia.org/wiki/Dato)*. Se representa como $\sigma^2$. 
$$\sigma^2 = \frac{\sum\limits_{i=1}^n(x_i - \mu)^2}{n} $$

En resumen, la varianza sería la media de las desviaciones al cuadrado

* **Desviación típica**: La [desviación típica](https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica) es la raíz cuadrada de la varianza. Se representa con la letra griega $\sigma$.
$$\sigma = \sqrt{\frac{\sum\limits_{i=1}^n(x_i - \mu)^2}{n}} $$

En inglés se llama Standard Desviation, con el acrónimo **std**

## Estadística descriptiva: Boxplots

Otros descriptores complementan a los descriptores presentados arriba.

* **Cuantil**: Los [cuantiles](https://es.wikipedia.org/wiki/Cuantil) son puntos tomados a intervalos regulares de la función de distribución de una variable aleatoria. Las muestras se ordenan según sus valores de menor a mayor, y el cuantil es el valor en ese punto. 

Si el punto se toma en tanto por ciento de las observaciones, se llaman percentil. Si las observaciones se dividen en cuatro cuartos, las tres divisiones se llaman **cuartiles** (Q1=25%, Q2=50%, Q3=75%). Q2 es la Mediana.

![Cuantil](cuantil.jpg "Cuantil")

El rango intercuartilico es **RI = Q3 − Q1.**

* **Valor atípico**: Un [valor atípico (outlier)](https://en.wikipedia.org/wiki/Outlier) es una observación que se aleja demasiado de la moda; esta muy lejos de la tendencia principal del resto de los datos. [Siempre hay que considerar su causa.](https://statisticsbyjim.com/basics/remove-outliers/) 
Si son causados por errores en la lectura de los datos o medidas inusuales se borran o se substituyen por una medida como la media, pero si no hay que considerarlos. 

* **Boxplot**: Un [boxplot](https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51) es una gráfica que muestra varios descriptores a la vez: Los tres cuartiles, el "mínimo" y "máximo" calculados y los outliers. [Son usados en muchos ámbitos.](https://www.phoronix.com/scan.php?page=article&item=vulkan-rt-aug21&num=4)

### Com calculem els outliers ???

En Pandas, podem aplicar aquest codi:

```python
def remove_outlier(df_in, col_name):
    q1 = df_in[col_name].quantile(0.25)
    q3 = df_in[col_name].quantile(0.75)
    iqr = q3-q1 #Interquartile range
    fence_low  = q1-1.5*iqr
    fence_high = q3+1.5*iqr
    df_out = df_in.loc[(df_in[col_name] > fence_low) & (df_in[col_name] < fence_high)]
    return df_out
```

Obtingut a:

https://stackoverflow.com/questions/23199796/detect-and-exclude-outliers-in-a-pandas-dataframe

### Mireu l'exemple de les temperatures fet a classe:

<a href="Sessió15_Estadistica/Estadistica_Rectes_Regressió/exercici-tempbcn.ipynb">Co·lapse Climàtic Barcelona i Londres</a>


## Estadística descriptiva: Scatter Plots and Regression Lines.

Las nubes de puntos (scatter plots) y las rectas de regresión que creamos uniendo los puntos
(regresion lines) sirven para comprobar si entre 2 variables hay una correlación o no.

#### Y para que nos sirven ? 

Por ejemplo, para saber si hay relación entre:
- La renta de la población i y la ciudad y barrio en el que vive, o la renta y el nivel de estudios.
- https://www.elcritic.cat/dades/la-catalunya-fracturada-tres-mapes-de-la-desigualtat-entre-barris-que-tindignaran-113993
- La densidad de población de una ciudad y el porcentaje de zonas verdes:
- https://www.elcritic.cat/dades/poques-zones-verdes-i-alta-densitat-no-es-el-mateix-confinar-se-a-hospitalet-que-a-sant-cugat-73423
 

#### Para generar gráficos interactivos como los anteriores, sin pagar, recomendamos:
- [plot.ly en Python](https://plotly.com/python/)
- [d3js en Javascript] https://d3js.org/


#### Exemple pràctic. Demostra amb un gràfic si hi ha col·lapse climàtic en una ciutat.

En aquest informe es fa recta de regressió de les dades de temperatures dels últims anys a la ciutat de Londres.
- https://towardsdatascience.com/regression-plots-with-pandas-and-numpy-faf2edbfad4f?gi=6b8c6ae7dc5

##### Exercici. Reprodueix el mateix exemple de Londres amb les dades de Barcelona, usant Pandas i llibreries.

https://opendata-ajuntament.barcelona.cat/data/ca/dataset/temperatures-hist-bcn 

Possible solució (ipynb) a:
<a href="https://github.com/miquelamorosaldev/dawbio2-m14-bioinformatica-uf1-uf2/tree/main/Sessió15_Estadistica/Estadistica_Rectes_Regressió/exercici-tempbcn.ipynb">Possible Solució Co·lapse Climàtic Barcelona</a>



## Estadística descriptiva: Scatter Plots and Regression Lines.

Las nubes de puntos (scatter plots) y las rectas de regresión que creamos uniendo los puntos
(regresion lines) sirven para comprobar si entre 2 variables hay una correlación o no.

#### Y para que nos sirven ? 

Por ejemplo, para saber si hay relación entre:
- La renta de la población i y la ciudad y barrio en el que vive, o la renta y el nivel de estudios.
- https://www.elcritic.cat/dades/la-catalunya-fracturada-tres-mapes-de-la-desigualtat-entre-barris-que-tindignaran-113993
- La densidad de población de una ciudad y el porcentaje de zonas verdes:
- https://www.elcritic.cat/dades/poques-zones-verdes-i-alta-densitat-no-es-el-mateix-confinar-se-a-hospitalet-que-a-sant-cugat-73423
 

#### Para generar gráficos interactivos como los anteriores, sin pagar, recomendamos:
- [plot.ly en Python](https://plotly.com/python/)
- [d3js en Javascript] https://d3js.org/


#### Exemple pràctic. Demostra amb un gràfic si hi ha col·lapse climàtic en una ciutat.

En aquest informe es fa recta de regressió de les dades de temperatures dels últims anys a la ciutat de Londres.
- https://towardsdatascience.com/regression-plots-with-pandas-and-numpy-faf2edbfad4f?gi=6b8c6ae7dc5

##### Exercici. Reprodueix el mateix exemple de Londres amb les dades de Barcelona, usant Pandas i llibreries.

https://opendata-ajuntament.barcelona.cat/data/ca/dataset/temperatures-hist-bcn 

Possible solució (ipynb) a:
<a href="Sessió15_Estadistica/Estadistica_Rectes_Regressió/exercicis-metereologia.ipynb">Possible Solució Co·lapse Climàtic Barcelona</a>


### Estadística inferencial (se centra en las probabilidades)
Extrapolar una información que tengo de unas muestras a toda la población.

*Va bien para predecir las propabilidades de que ocurra un succeso: por ejemplo: que un virus se expanda o se elimine.*

Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la práctica es la <strong>distribución normal, también llamada distribución gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso) y/o genéticos.</strong> Son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal.

<p> La segunda distribución más comun es la <strong>distribución de datos binomial; que suele darse al obtener muestras del clima (temperaturas, lluvias...) </strong>y también en eventos donde interviene el azar (la aletoriedad): probabilidad de obtener una cara de un dado, una moneda ... </p>
En algunas ocasiones, se pueden hacer cálculos para aproximar la distribución binomial hacia la normal.

#### Propiedades Distribución Normal.

La distribución normal tiene propiedades muy interesantes que sirven para predecir probabilidades:

- <a href="https://www.geeksforgeeks.org/how-to-plot-normal-distribution-over-histogram-in-python/]">Gráficos Matplotlib</a>
- <a href="https://www.statology.org/seaborn-normal-distribution/">Gráficos Seaborn</a>


![campanadegauss.png](campanadegauss.png "Gauss")

1. Es una distribución simétrica respecto a la media μ.
2. La media y la mediana son iguales a la media (letra mu) μ
3. En el intervalo μ - 1σ y μ + 1σ hay el 68.26% de los datos. σ és la desviación estándar (std).
4. En el intervalo μ - 2σ y μ + 2σ se encuentran el 95.44 de los datos.
5. En el intervalo μ - 3σ y μ + 3σ se encuentran el encuentran el 99.73 de los datos.

Mediante la libreria Pandas podemos crear un gráfico con 2 componentes para saber si nuestros datos siguen (aproximadamente) la distribución normal.
1. Un diagrama de barras o histograma con los datos de la muestra
2. Dibujar la curva de la distribución encima del diagrama para ver si se parece o no.

![hist-gauss.jpg](hist-gauss.jpg "Gauss")

Documento teoria y ejercicios PDF, interesante:

- https://moodle.educarex.es/evex/pluginfile.php/179485/mod_resource/content/1/Tema15.pdf?forcedownload=1

### Heat Map.

Provem el Heat Map a classe:

- https://seaborn.pydata.org/generated/seaborn.heatmap.html