## Estadística

La estadística es la ciencia que se encarga de recolectar, organizar, resumir y analizar datos para después obtener conclusiones a partir de ellos. 

De manera general, la estadística puede ser dividida en dos grandes áreas:
- **Estadística descriptiva.**
- **Estadística inferencial.**

**La estadística descriptiva** es una colección de métodos para la organización, resumen y presentación de datos. 

**La estadística inferencial** utiliza algunas técnicas que nos ayudan a conocer, con determinado grado de confianza, cierta información de una **población** con base en la información de la muestra obtenida.

In [None]:
# pip install scipy
# pip install pandas
# pip install seaborn

# o pip install scipy pandas seaborn todo seguido, pero entonces si da fallos no lo vemos 


In [6]:
import numpy as np

import scipy
from scipy import stats

from collections import Counter

In [7]:
# Versiones

print(f"numpy=={np.__version__}")
print(f"scipy=={scipy.__version__}")

numpy==2.2.0
scipy==1.14.1


## Estadística Descriptiva

El objetivo principal de la **estadística descriptiva** es, valga la redundancia, describir la información que hemos recopilado. Entre las técnicas/herramientas más utilizadas por la **estadística descriptiva** para describir datos tenemos:
- **Tablas.**
- **Graficos.**
- **Medidas de tendencia central.**
- **Medidas de dispersión.**

Ejemplos donde se aplica la **estadística descriptiva**:

- Los datos del Censo de población de un año determinado.
- Fichas de alumnos de un instituto.
- Los goles de un equipo de fútbol.

### Conceptos Básicos

**1. Población**
La población es un conjunto bien definido sobre el que se observa o puede observarse una cierta característica.


**2. Individuo**
Se llama individuo a cada uno de los elementos de la población. Estos elementos no tienen por qué ser necesariamente personas.

**3. Muestra, tamaño**
Una muestra es un conjunto de individuos de la población que refleja las características de ésta lo mejor posible.

**4. Variable estadística:**
Característica que se desea estudiar. Las distintas observaciones de la variable constituyen los datos de la investigación. 

**5. Variables cualitativas:**
Son datos que no son valores numéricos. 

**6. Variables cuantitativas:** 
Los datos que son valores numéricos.
- **Discretas**: Los datos son números enteros.
- **Continuas**: Los datos pueden tomar cualquier valor real.

<div align="center">
   <img src="attachment:6d1a91bf-0284-4e9d-a7f6-677bf4a0d333.png" width="600">
</div>

### Escala de las variables

**Escala nominal:**
Modalidades sin ningún orden ni jerarquía entre ellas. (No podemos realizar operaciones aritméticas entre ellas).

- _Ejemplos: género, nacionalidad, número de teléfono..._

**Escala ordinal:**
Modalidades con algún tipo de orden entre ellas.

- _Ejemplos: nivel educativo, cargo militar..._

**Escala de intervalos:**
Se puede cuantificar numéricamente la distancia entre 2 observaciones.
- _Ejemplos: temperatura en grados Celsius, transacción bancaria..._

**Escala de proporción:**
Se puede cuantificar numéricamente la distancia entre 2 observaciones y fijar un punto de origen como cero absoluto.
- _Ejemplos: temperatura en grados Kelvin, peso, estatura..._

**Escala binaria:**
Son escalas nominales que consisten en elementos binarios que asumen uno de dos valores posibles, como sí o no, verdadero o falso.
- _Ejemplos: Hombre/Mujer, Encendido/Apagado, Cara/Cruz..._

|Fare |Pclass|Sex   |Survived|Age|
|-----|------|------|--------|---|
|7.25 |3     |male  |False   |22 |
|71.28|1     |female|True    |38 |
|7.92 |3     |female|True    |26 |
|53.10|1     |female|True    |35 |
|8.05 |3     |male  |False   |35 |

### Estudio Estadístico

Un estudio estadístico es un proceso sistemático que se utiliza para recopilar, analizar e interpretar datos con el objetivo de obtener información sobre una población o fenómeno.

Etapas de un estudio estadístico:

1. **Planteamiento del problema**: En esta etapa se define el problema que se va a investigar, se establecen los objetivos del estudio y se determina la población o muestra a la que se va a aplicar el estudio.


2. **Recolección de datos**: En esta etapa se recopilan los datos necesarios para el estudio. Los datos pueden ser recogidos a través de diferentes métodos, como encuestas, cuestionarios, entrevistas, experimentos o registros administrativos.


3. **Preparación de los datos**: En esta etapa se preparan los datos para su análisis. Esto puede incluir la limpieza de los datos, la codificación de las variables y la transformación de los datos.


4. **Análisis de los datos**: En esta etapa se analizan los datos para obtener información sobre el problema que se está investigando. Las técnicas de análisis estadístico que se utilizan dependerán del tipo de datos y del problema que se esté investigando.


5. **Interpretación de los resultados**: En esta etapa se interpretan los resultados del análisis estadístico. Esto implica comunicar los resultados a los interesados y explicar las implicaciones de los resultados.


6. **Conclusiones**: En esta etapa se presentan las conclusiones del estudio y se realizan recomendaciones para la toma de decisiones.


<div align="center">
   <img src="attachment:4e71fa48-32a6-41de-9953-0c42e0832db9.png" width="700">
</div>

### Exploratory Data Analysis (EDA)

El **análisis exploratorio de datos** (_EDA_) es un proceso iterativo de **resumen**, **visualización** y **exploración** de datos para **obtener información sobre sus características y relaciones**.

Es un paso esencial que ayuda a descubrir patrones, identificar anomalías y comprender la estructura general de los datos.

### Medidas de tendencia central

Supongamos que tenemos un conjunto de datos numéricos $x_1,x_2,x_3,x_4...,x_n$, que representan mediciones de alguna variable de interés.

Para conocer algunas características globales de esta variable se pueden calcular ciertas medidas o tendencias.

**1. Media Aritmética (_mean_)**: La media es la suma de todos los valores divididos por el número total de valores. Suele denotarse con la letra griega _**Mu**_ $\mu$.

$$ \overline{x} = \mu = \frac{\sum_{i=1}^{n} x_i}{n} $$

In [12]:
array = np.array([10, 9, 8, 7, 6])

# versión rápida y eficiente
mean_np = np.mean(array)
print(f"Promedio con NumPy: {mean_np}")

# versión rudimentaria
mean = sum(array)/len(array)
print(f"Promedio rudimentario: {mean}")

# versión aún más rudimentaria
tamaño = 0
suma = 0
for num in array:
    tamaño +=1
    suma += num

media = suma/tamaño
print(f"Promedio aún más rudimentario: {media}")

Promedio con NumPy: 8.0
Promedio rudimentario: 8.0
Promedio aún más rudimentario: 8.0


**2. Mediana (median)**

Dada una distribución de frecuencias con los valores ordenados de menor a mayor llamamos mediana y la representamos por $M_e$ al valor de la variable, qué deja a su izquierda el mismo número de frecuencias que a su derecha.

$M_e = x_{(k)}$ Para $n$ impar.


$M_e = \frac{ x_{(k)}+ x_{(k+1)}}{2}$ Para $n$ par.

In [13]:
# versión rápida y eficiente
median_np = np.median(array)
print(f"Mediana con NumPy: {median_np}")

# versión rudimentaria
sorted_array = sorted(array)
length = len(array)
middle = length//2

if length%2 == 0:
    elem1 = array[middle - 1]
    elem2 = array[middle]
    
    median = (elem1 + elem2)/2
else:
    median = array[middle]
    
print(f"Mediana rudimentario: {median}")

Mediana con NumPy: 8.0
Mediana rudimentario: 8


In [18]:
precios_casas = np.array([120000.32, 120000.32, 115000.32, 122000.32, 121000.32])
print(f"precios_casas media: {np.mean(precios_casas)}")
print(f"precios_casas mediana: {np.median(precios_casas)}")


precios_casas media: 119600.32000000002
precios_casas mediana: 120000.32


**3. Moda (mode)**

La moda es el valor de la variable que más veces se repite, y en consecuencia en una distribución de frecuencias es el valor de variable que viene afectada por la máxima frecuencia de la distribución. 

Se suele usar para la ciudad donde vive un usuario, a datos etiquetados como grupos. Podríamos saber desde que ciudad te visitan mas o te compran mas. 
Las cookies analíticas permiten saber el navegador que usamos, el dispositivo, el país, el agent, la resolucion del dispositivo que usemos..

In [19]:
array = np.array([1, 1, 2, 2, 2])

# versión rápida y eficiente
x = stats.mode(array) # en vez de scipy usa stats
print(f"Moda con SciPy: {x}")
print(f"El valor de la moda es {x[0]} y se repite {x[1]} veces")

# versión rudimentaria
count = 0
value = None
for key, val in Counter(array).items():
    if val > count:
        value = key
        count = val
print(f"Moda rudimentaria: {value}, {count}")
print(f"El valor de la moda es {value} y se repite {count} veces")

Moda con SciPy: ModeResult(mode=np.int64(2), count=np.int64(3))
El valor de la moda es 2 y se repite 3 veces
Moda rudimentaria: 2, 3
El valor de la moda es 2 y se repite 3 veces


In [20]:
array = np.array([1, 1, 2, 2, 2, 2, 2, 2, 5, 5, 5, 5, 5, 5, 5])

# versión rápida y eficiente
x = stats.mode(array) # en vez de scipy usa stats
print(f"Moda con SciPy: {x}")
print(f"El valor de la moda es {x[0]} y se repite {x[1]} veces")

# versión rudimentaria
count = 0
value = None
for key, val in Counter(array).items():
    if val > count:
        value = key
        count = val
print(f"Moda rudimentaria: {value}, {count}")
print(f"El valor de la moda es {value} y se repite {count} veces")

Moda con SciPy: ModeResult(mode=np.int64(5), count=np.int64(7))
El valor de la moda es 5 y se repite 7 veces
Moda rudimentaria: 5, 7
El valor de la moda es 5 y se repite 7 veces


In [29]:
# np.unique: ver los valores únicos de un conjunto de valores categóticos (textos)
array = np.array(['madrid', 'zamora', 'madrid', 'gijon', 'barcelona', 'salamanca', 'barcelona'])
np.unique(array)


array(['barcelona', 'gijon', 'madrid', 'salamanca', 'zamora'], dtype='<U9')

In [25]:
array = np.array([120000.32, 120000.32, 115000.32, 122000.32, 121000.32])
x = stats.mode(array)

print(f"Moda con SciPy: {x}")
print(f"El valor de la moda es {x[0]} y se repite {x[1]} veces")


Moda con SciPy: ModeResult(mode=np.float64(120000.32), count=np.int64(2))
El valor de la moda es 120000.32 y se repite 2 veces


### Medidas de posición no central (Cuantiles)

Los cuantiles son aquellos valores de la muestra, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias.

**1. Cuartiles (Qi)**:

Son valores de la variable que dividen a la distribución en 4 partes, cada una de las cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: 

- **Q1** es el primer cuartil que deja a su izquierda el 25% de los datos y a su derecha 75% de los datos.
- **Q2** es el segundo cuartil que deja a su izquierda el 50% de los datos y a su derecha 50% de los datos. Es, en esencia, la mediana.
- **Q3** es el tercer cuartil que deja a su izquierda el 75% de los datos y a su derecha 25% de los datos. 

In [35]:
array = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])

np.quantile(a = array, 
            q = 0.5,   # 50% 
            interpolation = "lower")

np.int64(5)

**2. Deciles (Di):**

Son los valores de la variable que dividen a la distribución en partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habrá 9 deciles. (Q2 = D5 = Median)

In [38]:
np.quantile(a = array, 
            q = 0.40,
            interpolation = "lower")

np.int64(4)

**3. Centiles o Percentiles (Pi):**

Son los valores que dividen a la distribución en 100 partes iguales, cada una de las cuales engloba el 1 % de las observaciones. 

En total habrá 100 percentiles (de 0 a 99). (Q2 = D5 = Me = P50)

In [39]:
np.quantile(a = range(200),
            q = 0.02,
            interpolation = "lower")

np.int64(3)

### Medidas de dispersión 

Sirven para medir la dispersión de los datos, es decir, cómo de separados están unos de otros.

**1. Rango:**

Se define como la diferencia entre el máximo y el mínimo valor de la variable.

$$ R = max(x_i) - min (x_i)$$

In [None]:
array = [9, 7, 5, 4, 2]

r = np.max(np.array(array)) - np.min(np.array(array))
print(r)

**2. Rango intercuartil (Interquartile range):**

Se define como la diferencia entre el máximo y el mínimo valor de la variable.

$$
RIC = IQR = Q3 - Q1
$$

In [41]:
# nos sirve para descartar valores anómalos
array = [9, 7, 5, 4, 2]

q1 = np.quantile(a = np.array(array), q = 0.25)
q3 = np.quantile(a = np.array(array), q = 0.75)

ric = q3 - q1
print(ric)

3.0


**3. Varianza**

La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media aritmética. 

Cuanto mayor sea la varianza mayor dispersión existirá y por lo tanto menor representatividad tendrá la media aritmética.

$$ \mathbf{S^2} = \frac{1}{n} \sum_{i=1}^{n} x_{i}^{2}- \overline{x}^2$$

In [43]:
array = np.array([1, 1, 1, 3, 3, 3, 5, 5, 5, 5, 5, 6, 6])

np.var(array)

np.float64(3.254437869822485)

In [49]:
array = np.array([1, 300, 3000, 30000, 50, 500, 5000, 50000])
h = np.var(array)
print(h)
print(np.sqrt(h))

305941246.984375
17491.17626074287


**4. Desviación estándar**

Cuantifica la dispersión de los valores que se alejan de la media aritmética, al igual que la varianza; pero la desviación estándar es la raíz cuadrada de la varianza. Se suele denotar por la letra griega _**sigma**_ $\sigma$.

$$ \mathbf{S} = \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} x_{i}^{2}- \overline{x}^2}$$

In [53]:
array = np.array([1, 1, 1, 3, 3, 3, 5, 5, 5, 5, 5, 6, 6])
print(np.sqrt(np.var(array)))
np.std(array)

1.8040060614705498


np.float64(1.8040060614705498)

In [None]:
array = np.array([1, 1, 1, 3, 3, 3, 5, 5, 5, 5, 5, 6, 6])

np.sqrt(np.var(array))

In [None]:
# versión rudimentaria
def std(array):
    mean = np.mean(array)
    squared_mean = mean**2
    squared_elements = [element**2 for element in array]
    differences = [element - squared_mean for element in squared_elements]
    variance = np.sum(differences)/len(array)
    standard_dev = np.sqrt(variance)
    return standard_dev

In [None]:
array = np.array([1, 1, 1, 3, 3, 3, 5, 5, 5, 5, 5, 6, 6])
print(std(array))

### Tabla de funciones

|Función          |Descripción                                |
|-----------------|-------------------------------------------|
|**np.mean()**    |Calcula la media de un array.              |
|**np.median()**  |Calcula la mediana de un array.            |
|**np.quantile()**|Cualcula quantiles de un array.            |
|**np.var()**     |Calcula la varianza de un array.           |
|**np.std()**     |Calcula la desviación estandar de un array.|
|**stats.mode()** |Calcula la moda de un array.               |

In [None]:
################################################################################################################################