# Introducción a la inferencia estadística
# IE01 Conceptos básicos - Parte 1

## <font color='blue'>**Conceptos básicos**</font>

Un error frecuente sostiene que la era de Big data, significa el fin de la necesidad de muestreo. De hecho, la proliferación de datos de diferente calidad y relevancia, refuerza la necesidad del muestreo como herramienta para trabajar de manera eficiente con una variedad de datos y minimizar el sesgo (_bias_). Incluso en un proyecto de Big data, los modelos predictivos suelen desarrollarse con muestras. 

### Muestreo aleatorio y sesgo de muestra

Una **muestra** (sample) es un subconjunto de datos de un conjunto de datos más grande; Los estadísticos llaman a este conjunto de datos más amplio la **población**. Una población en estadística no es lo mismo que en biología: es un conjunto de datos grande y definido (pero a veces teórico o imaginario).

El muestreo aleatorio es un proceso en el que cada miembro disponible de la población que se muestrea tiene la misma probabilidad de ser elegido para la muestra en cada sorteo. La muestra resultante se denomina muestra aleatoria simple. El muestreo se puede hacer con reemplazo, en el que las observaciones se vuelven a colocar en la población después de cada sorteo para
posible reselección futura. O se puede hacer sin reemplazo, en cuyo caso las observaciones, una vez seleccionadas, no están disponibles para futuros sorteos.

La calidad de los datos a menudo es más importante que la cantidad de datos cuando se hace una estimación o un modelo basado en una muestra. La calidad de los datos en la ciencia de datos implica la integridad, la coherencia del formato, la limpieza y la precisión de los puntos de datos individuales. La estadística agrega la noción de representatividad.

### Sesgo (Bias)

El ejemplo clásico es la encuesta Literary Digest de 1936 que predijo una victoria de Alf Landon sobre Franklin Roosevelt. The Literary Digest, un periódico líder del día, encuestó a toda su base de suscriptores más listas adicionales de individuos, un total de más de 10 millones de personas, y predijo una victoria aplastante para Landon. George Gallup, fundador de la Encuesta Gallup, realizó encuestas quincenales de solo 2.000 personas y predijo con precisión una victoria de Roosevelt. La diferencia radica en la selección de los encuestados. El mal resultado fue debido al sesgo de la muestra.

El sesgo estadístico se refiere a errores de medición o muestreo que son sistemáticos y producidos por el proceso de medición o muestreo. Debe hacerse una distinción importante entre los errores debidos al azar y los errores debidos al sesgo. Considere el proceso físico de un arma que dispara a un objetivo. La bala no impactará el centro absoluto al apuntar cada vez. Un proceso imparcial producirá un error, pero el mismo será aleatorio y no tenderá a preferenciar ninguna dirección. En la imagen siguiente tenemos a la izquierda un scatter plot sin sesgo y en el grafico de la derecha uno con sesgo.

![tipos de variables](https://drive.google.com/uc?export=view&id=1IH_OCdVOJuu-YBftlpbpIFMXm4hG2crn)



### Muestreo Aleatorio

1. **Muestreo aleatorio simple**: cada elemento tiene la misma probabilidad de ser seleccionado para ser parte de la muestra. Se utiliza cuando no tenemos ningún tipo de información previa sobre la población objetivo.


![MuestreoAleatorioSimple](https://drive.google.com/uc?export=view&id=1RbuQ5OFB9aBqI9Rku3ODneOd9wtuNS1M)

2. En el **muestreo estratificado**, la población se divide en estratos y se toman muestras aleatorias de cada estrato. Los encuestadores políticos pueden buscar conocer las preferencias electorales de blancos, afro-americanos e hispanos. Una muestra aleatoria simple tomada de la población produciría muy pocos afro-americanos e hispanos, por lo que esos estratos podrían sobreponderarse en el muestreo estratificado para producir tamaños de muestra equivalentes. El problema es que la mayoria de las veces no se conoce la población y sus estratos. 


![MuestreoEstratificado](https://drive.google.com/uc?export=view&id=1B6JZso39ptFZgTw7hQ8MzH0rGNmZuoNs)

3. **Muestreo por grupos**:Toda nuestra población se divide en grupos o secciones y luego los grupos se seleccionan al azar. Todos los elementos del conglomerado se utilizan para el muestreo. Los clústeres se identifican utilizando detalles como edad, sexo, ubicación, etc.


![Muestreo  Por grupos](https://drive.google.com/uc?export=view&id=15VmkVo6OEDGNQXhNeWhjiee3D4m1YhF2)

4. **Muestreo de varias etapas**: La población se divide en múltiples grupos y luego estos grupos se dividen y agrupan en varios subgrupos (estratos) según la similitud. Se pueden seleccionar al azar uno o más conglomerados de cada estrato. Este proceso continúa hasta que el clúster ya no se puede dividir. Por ejemplo, el país se puede dividir en estados, ciudades, urbano y rural y todas las áreas con características similares se pueden fusionar para formar un estrato.

![Muestreo  Por grupos](https://drive.google.com/uc?export=view&id=1NYHlJFCMZDgX4aD7BymnShPCsJibE1VO)




### Probabilidad

La probabilidad consiste en interpretar y comprender los eventos aleatorios de la vida, y dado que vivimos en absoluta aleatoriedad (incluso si tratamos de creer que no lo hacemos), su utilidad se vuelve bastante clara. La probabilidad es la posibilidad a largo plazo de que se produzca un determinado resultado de algún proceso aleatorio. Básicamente, le dice con qué frecuencia ocurrirán diferentes tipos de eventos.

Algunos ejemplos de la vida real del uso de probabilidades son:

1. Finanzas: al estimar la probabilidad de que un activo financiero determinado se encuentre entre o dentro de un rango específico, es posible desarrollar estrategias comerciales para capturar ese resultado previsto.

2. Pronóstico del tiempo: los meteorólogos no pueden predecir exactamente qué tiempo hará, por lo que utilizan herramientas e instrumentos para determinar la probabilidad de que llueva, nieve o granizo. También examinan bases de datos históricas para estimar temperaturas altas y bajas y patrones climáticos probables para ese día o semana.

3. Seguro: la probabilidad juega un papel importante en el análisis de las pólizas de seguro para determinar qué planes son los mejores para los clientes y qué deducibles necesitan.

4. Deportes: los atletas y entrenadores usan la probabilidad para determinar las mejores estrategias deportivas para juegos y competencias. Empresas como BWin han hecho un negocio con esto e incluso puedes apostar usando diferentes estrategias.

5. Publicidad: la probabilidad se utiliza para estimar los clientes potenciales que tendrán más probabilidades de reaccionar positivamente a campañas específicas, en función de sus patrones de consumo.

Hablando numéricamente, una probabilidad es un número que va desde 0 (lo que significa que no hay forma de que suceda un evento) a 1 (lo que significa que el evento sucederá con seguridad), y si toma todos los resultados posibles y los suma , la suma  da 1. Cuanto mayor sea el valor de la probabilidad, mayor será la probabilidad de que ocurra el evento.

Axiomas:

1. La probabilidad de un evento ${\displaystyle S}$ no puede ser negativa

$$0 \le P({\displaystyle S})$$

2. La probabilidad del evento seguro, ${\displaystyle \Omega }$ , es igual a 1, denotado simbólicamente como:

$$1 = P({\displaystyle \Omega})$$

3. Si ${\displaystyle E_{1},E_{2},\dots }$ son eventos mutuamente excluyentes (es decir, no tienen resultados en común o su intersección es el conjunto vacío), entonces:

$$ P(\displaystyle E_{1} \cup \displaystyle  E_{2}\cup \dots )=\sum P(E_{i})$$

Experimento: Se echa a rodar un dado de 6 lados. ¿Cuál es la probabilidad de que salga un número par o uno impar?

Posibilidades: 
1. El número que salga puede ser un número impar.
2. El número que salga puede ser un número par.

Eventos: 

Estos eventos son mutuamente excluyentes no pueden ocurrir a la misma vez. 




### Variables aleatorias
Digamos que la probabilidad de que llueva mañana es del 40% (expresada como "P (lluvia) = 0,4"), o la probabilidad de un robo de automóvil en una región en particular es del 2% (definida como " P (robo de coche) = 0,02 ”). En el primer caso, le interesa la variable "lluvia", y en el segundo, la variable "robo de coche". Estas variables, así como cualquier otra que sea resultado de un proceso aleatorio, se denominan **variables aleatorias**.

Una **variable aleatoria** es una variable que está sujeta a variaciones aleatorias para que pueda tomar varios valores diferentes, cada uno con una probabilidad asociada.

### Distribuciones de probabilidad

Una distribución de probabilidad es una lista de todos los posibles resultados de una variable aleatoria, junto con sus correspondientes valores de probabilidad. Una distribución de probabilidad vincula cada resultado de una variable o proceso aleatorio con su probabilidad de ocurrencia. Por ejemplo, si toma muestras de sangre de diferentes personas en un lugar determinado, puede calcular la distribución de probabilidad de sus tipos de sangre:

![Muestreo  Por grupos](https://drive.google.com/uc?export=view&id=1cgrimjyOatpOUqgxnkfHzH1q2FrUktDt)

En este caso, el tipo de sangre es la variable aleatoria. La distribución de probabilidad muestra que los individuos con el tipo de sangre "A" tienen la mayor probabilidad de ocurrencia, a diferencia de las personas con el tipo de sangre "AB", que tienen la más baja. Además, si sumas las diferentes probabilidades, obtienes 1. ¿Cómo lo haces? Simple: define la variable aleatoria que desea analizar (en este ejemplo es "tipo de sangre"), establece las categorías que desea contar ("O", "A", "B" y "AB"), y cuente el número de ocurrencias en cada categoría. Luego, o trabaja con ese número absoluto (por ejemplo, 150 casos de tipo de sangre "A"), o lo divide por el número total de casos (haciéndolo un porcentaje del total, como en nuestro ejemplo).

Lo interesante es cuando **estima** la distribución de probabilidad de una variable aleatoria (como el tipo de sangre o cualquier otra), lo que realmente está haciendo es usar datos que representan solo una parte del comportamiento real de esa variable aleatoria que está analizando. No está mirando todos los valores de datos posibles (que en términos probabilísticos se define como "población"), ya que solo obtuvo datos de un subconjunto (que se conoce como "muestra") en un momento y espacio dados.

## <font color='green'>**Actividad 1**</font>

Abra con _Pandas_ el archivo `loans_income.csv`. <br>
Tome una muestra aleatoria de 10, 50, 100, 1000, 10000 puntos.<br> 
Compare las variables estadísticas como media, mediana, desviación estandar y rango intercuartil para las distintas muestras y la población.

Qué conclusiones se pueden obtener?

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns 
%matplotlib inline

In [37]:
path_file: str = r'/content/drive/MyDrive/Colab Python/04. Inferencia Estadistica/Archivos/loans_income.csv'
df = pd.read_csv(path_file, sep=";")
df.head()

Unnamed: 0,x
0,67000
1,52000
2,100000
3,78762
4,37041


<font color='green'>Fin actividad 1</font>

In [38]:
# 0, 50, 100, 1000, 10000 puntos.
df10= df.sample(10)
df10.describe()

Unnamed: 0,x
count,10.0
mean,58950.0
std,25757.900622
min,24000.0
25%,41250.0
50%,56000.0
75%,65375.0
max,112000.0


In [39]:
# 0, 50, 100, 1000, 10000 puntos.
df50= df.sample(50)
df50.describe()

Unnamed: 0,x
count,50.0
mean,61949.38
std,31201.17002
min,18000.0
25%,40000.0
50%,52000.0
75%,78150.0
max,150000.0


In [40]:
# 0, 50, 100, 1000, 10000 puntos.
df100= df.sample(100)
df100.describe()

Unnamed: 0,x
count,100.0
mean,67679.64
std,31071.561232
min,20792.0
25%,46125.0
50%,60000.0
75%,88500.0
max,165000.0


In [41]:
# 0, 50, 100, 1000, 10000 puntos.
df1000= df.sample(1000)
df1000.describe()

Unnamed: 0,x
count,1000.0
mean,68689.784
std,33132.641339
min,10000.0
25%,45000.0
50%,60868.0
75%,85000.0
max,195000.0


In [42]:
# 0, 50, 100, 1000, 10000 puntos.
df10000= df.sample(10000)
df10000.describe()

Unnamed: 0,x
count,10000.0
mean,69213.5273
std,33126.927494
min,8000.0
25%,45000.0
50%,63000.0
75%,85000.0
max,198000.0


In [43]:
df.describe()

Unnamed: 0,x
count,50000.0
mean,68760.51844
std,32872.03537
min,4000.0
25%,45000.0
50%,62000.0
75%,85000.0
max,199000.0


In [44]:
samples = {10: df.sample(10),
           50: df.sample(50),
           100: df.sample(100),
           1000: df.sample(1000),
           10000: df.sample(10000),
           'all': df
           }

def append_Sample(dict):
    df = pd.DataFrame()
    for i, keys in enumerate(dict):
        sample = dict[keys]
        sample['Sample'] = keys
        df = df.append(sample)

    df.rename(columns={'x':'Data'}, inplace=True)
    return df

append_Sample(samples).groupby('Sample').describe()


Unnamed: 0_level_0,Data,Data,Data,Data,Data,Data,Data,Data
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Sample,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
10,10.0,55240.4,22065.473519,15504.0,51500.0,65000.0,69300.0,75000.0
50,50.0,68110.28,37776.721833,19000.0,42730.0,58500.0,75003.75,195000.0
100,100.0,68682.19,33302.553847,16000.0,46578.5,63000.0,81250.0,183000.0
1000,1000.0,68022.12,33595.493125,9984.0,42957.25,60000.0,86000.0,190000.0
10000,10000.0,68439.7921,32551.720489,4000.0,45000.0,62000.0,85000.0,199000.0
all,50000.0,68760.51844,32872.03537,4000.0,45000.0,62000.0,85000.0,199000.0


Cuando la muestra es muy pequeña los estadísticos no representan a la población.
Con el caso de 1.000, que corresponde al 2%, se obtiene un resultado cercano al total de la población.