# Fundamentos de estadística para Analítica de Datos





# Probabilidad

La probabilidad es una rama de las matemáticas que se ocupa del estudio de los eventos aleatorios y la posibilidad de que ocurran. Es una medida numérica que describe la posibilidad de que ocurra un evento en particular y se expresa como un número entre 0 y 1, donde 0 significa que el evento es imposible y 1 significa que el evento es seguro.

## Axiomas de probabilidad

1. Axioma de no-negatividad: La probabilidad de un evento nunca puede ser un número negativo, es decir, para cualquier evento A, la probabilidad de que ocurra A es igual o mayor que cero: $P(A) \geq 0$.

2. Axioma de la adición: La probabilidad de la unión de dos eventos mutuamente excluyentes (eventos que no pueden ocurrir al mismo tiempo) es igual a la suma de las probabilidades de cada evento individual, es decir, para dos eventos A y B, la probabilidad de que ocurra A o B es igual a la suma de la probabilidad de A y la probabilidad de B: $P(A \cup B) = P(A) + P(B)$.

3. Axioma de la probabilidad de $\Omega$: La probabilidad de $\Omega$ es 1, es decir $P(\Omega)$.

# Probabilidad Laplaciana

La probabilidad Laplaciana, también conocida como probabilidad clásica, es un tipo de probabilidad que se utiliza en situaciones donde todos los resultados posibles de un experimento tienen la misma probabilidad de ocurrir. En otras palabras, se trata de una probabilidad basada en la igualdad de posibilidades.

Este tipo de probabilidad toma su nombre del matemático francés Pierre-Simon Laplace, quien la utilizó para estudiar el comportamiento de los eventos aleatorios en la física y la astronomía.

## Vamos con un ejemplo

1. Queremos jugar el baloto. [Click](https://www.baloto.com/resultados/)

2. Qué es $\Omega$

3. Necesitamos saber contar

In [None]:
from math import comb
comb(6,3)*comb(4,0)/comb(10,3)

0.16666666666666666

In [None]:
datos= {"premio":["5y1", "5y0", "4y1", "4y0", "3y1", "3y0", "2y1", "0y1"],
        "Numerodecombinaciones":[1, 15, 190, 2850, 7030, 105450, 84360, 501942],
        "ganadores": [0,0,1,39,92,1490,1151,11881]}
datos = pd.DataFrame(datos)
datos["ProbabTeorica"]= datos["Numerodecombinaciones"]/15401568
datos

Unnamed: 0,premio,Numerodecombinaciones,ganadores,ProbabTeorica
0,5y1,1,0,6.492845e-08
1,5y0,15,0,9.739268e-07
2,4y1,190,1,1.233641e-05
3,4y0,2850,39,0.0001850461
4,3y1,7030,92,0.000456447
5,3y0,105450,1490,0.006846705
6,2y1,84360,1151,0.005477364
7,0y1,501942,11881,0.03259032


In [None]:
datos["Ganadores330KJugadores"]  = datos["ProbabTeorica"]*330000
datos

Unnamed: 0,premio,Numerodecombinaciones,ganadores,ProbabTeorica,Ganadores1MillondeJugadores,Ganadores330KJugadores
0,5y1,1,0,6.492845e-08,0.064928,0.021426
1,5y0,15,0,9.739268e-07,0.973927,0.321396
2,4y1,190,1,1.233641e-05,12.336406,4.071014
3,4y0,2850,39,0.0001850461,185.046094,61.065211
4,3y1,7030,92,0.000456447,456.447032,150.627521
5,3y0,105450,1490,0.006846705,6846.705478,2259.412808
6,2y1,84360,1151,0.005477364,5477.364383,1807.530246
7,0y1,501942,11881,0.03259032,32590.318077,10754.804965


In [None]:
330000*5700

1881000000

## Tecnicas de Conteo

1. Multiplicacion: Sí un evento se construye en dos pasos independientes, el número total de posibilidades es igual al producto de las posibilidades de cada paso.

2. Permutación: Una permutación es un arreglo ordenado de elementos. El número de permutaciones de n elementos tomados r a la vez se denota por P(n,r) y se calcula como P(n,r) = n!/(n-r)!, donde n! denota el factorial de n, es decir, el producto de todos los enteros positivos desde 1 hasta n.

3. Combinación: Una combinación es un arreglo no ordenado de elementos. El número de combinaciones de n elementos tomados r a la vez se denota por C(n,r) y se calcula como C(n,r) = n!/((n-r)! r!), donde n! y (n-r)! r! son factoriales.

4. Falta una, ¿cuál?

## Modelo de Urna

Sí una urna tiene N elementos, de los cuales B elementos son de color azul y R elementos son de color rojo. Se extraen n elementos de la urna sin reemplazo. Sea x el número de elementos de color azul, su probabilidad es:

$$P(x)= \frac{{R\choose x}{N \choose n-x} }{N\choose n}$$

## Ejercicios fáciles
1. Si lanzas un dado justo, ¿cuál es la probabilidad de que salga un 3?
$$\frac{1}{6}$$
2. Si tienes una baraja de cartas española y sacas una carta al azar, ¿cuál es la probabilidad de que sea un as?
$$\frac{4}{40}$$
3. Si lanzas dos monedas justas, ¿cuál es la probabilidad de que salgan dos caras?
4. Si tienes una bolsa con 10 canicas rojas y 5 canicas azules, ¿cuál es la probabilidad de sacar una canica roja al azar?
5. Si tienes un frasco con 20 caramelos, 10 son de fresa y 10 son de limón, ¿cuál es la probabilidad de sacar un caramelo de limón al azar?
6. Si tienes un reloj con números del 1 al 12, ¿cuál es la probabilidad de que la manecilla de las horas apunte a un número par?
7. Si lanzas una moneda al aire y sacas una carta al azar de una baraja de 52 cartas, ¿cuál es la probabilidad de que salga cara y sea un as al mismo tiempo?
8. Si tienes una urna con 6 bolas blancas y 4 bolas negras, ¿cuál es la probabilidad de sacar 3 bolas blancas al azar sin reemplazo?
$$\frac{{6\choose 3}{4\choose 0}}{10\choose 4}$$
9. Si tienes un tablero de ajedrez y mueves un peón al azar, ¿cuál es la probabilidad de que sea un peón blanco?
10. Si lanzas un dado justo dos veces, ¿cuál es la probabilidad de que salgan dos números pares?
11. Si tienes una baraja de cartas francesa y sacas una carta al azar, ¿cuál es la probabilidad de que sea una carta roja?
12. Si tienes una urna con 5 bolas rojas, 3 bolas verdes y 2 bolas azules, ¿cuál es la probabilidad de sacar una bola roja y una bola verde al azar sin reemplazo?
13. Si tienes una bolsa con 8 caramelos, 4 son de cereza y 4 son de manzana, ¿cuál es la probabilidad de sacar dos caramelos de cereza al azar sin reemplazo?
14. Si tienes un frasco con 30 canicas, 10 son rojas, 10 son verdes y 10 son azules, ¿cuál es la probabilidad de sacar una canica verde al azar?
15. Si lanzas dos dados justos, ¿cuál es la probabilidad de que la suma de los dos números sea 7?

## Ejercicios mas complejos 
1. En una mesa hay 3 cartas boca abajo, cada una de las cuales tiene un número entero de 1 a 10 escrito en ella. Si se seleccionan dos cartas al azar, ¿cuál es la probabilidad de que la suma de los números en ellas sea igual a 8?
2. Una empresa produce 5 tipos de productos, cada uno con una probabilidad del 10% de ser defectuoso. Se seleccionan 4 productos al azar para ser revisados. ¿Cuál es la probabilidad de que exactamente 3 de ellos sean defectuosos?
3. Se tienen 5 dados justos, cada uno con un número del 1 al 6 en sus caras. Se lanzan los 5 dados al mismo tiempo. ¿Cuál es la probabilidad de que la suma de los números en las caras de los dados sea igual a 20?
4. Se tienen dos monedas justas. Se lanzan las dos monedas al mismo tiempo y se registran los resultados. Si ambos resultados son iguales, se lanza una moneda adicional. ¿Cuál es la probabilidad de que los tres lanzamientos de moneda resulten en cara?
5. Se tienen tres urnas, cada una de las cuales contiene una bola roja y una bola verde. Se selecciona al azar una urna y se extrae una bola. Si la bola es roja, se devuelve a la urna y se agrega otra bola roja. Si la bola es verde, se devuelve a la urna y se agrega otra bola verde. Si se repite este proceso 4 veces, ¿cuál es la probabilidad de que se extraigan exactamente 2 bolas rojas y 2 bolas verdes?
6. En una caja hay 10 fichas numeradas del 1 al 10. Se extraen tres fichas al azar sin reemplazo. ¿Cuál es la probabilidad de que la suma de los números en las fichas sea un múltiplo de 3?
7. En un baraja de 52 cartas, se eligen 4 cartas al azar. ¿Cuál es la probabilidad de que exactamente 2 de ellas sean reyes y las otras dos sean ases?
$$\frac{{4\choose 2}{4\choose 2}{44\choose 0}}{52\choose 4}$$
8. Se tienen 3 bolas rojas, 4 bolas verdes y 5 bolas azules. Se seleccionan 3 bolas al azar sin reemplazo. ¿Cuál es la probabilidad de que las 3 bolas seleccionadas sean del mismo color?
9. Una ruleta tiene 12 ranuras, numeradas del 1 al 12. Si la ruleta se hace girar 4 veces, ¿cuál es la probabilidad de que se obtengan cuatro números consecutivos?
10. En un partido de tenis, dos jugadores A y B se enfrentan. El jugador A tiene una probabilidad del 60% de ganar cada punto. Si el jugador A gana un set al mejor de 3 juegos, ¿cuál es la probabilidad de que gane el partido?

## Tarea para 23 de Marzo

1. Calcular todas las combinaciones en Poker [Acá](https://es.wikipedia.org/wiki/Texas_hold_%27em)

# Probabilidad Frecuentista

1. La probabilidad frecuentista es un enfoque de la probabilidad que se basa en la idea de que la probabilidad de un evento se puede calcular observando la frecuencia con la que ocurre ese evento en un gran número de ensayos o experimentos.

2. Según esta perspectiva, la probabilidad de un evento se define como el límite de la frecuencia relativa de ese evento en un número infinito de repeticiones del mismo experimento. Por ejemplo, si lanzamos una moneda al aire muchas veces y contamos el número de veces que sale cara, la probabilidad frecuentista de que salga cara se define como la proporción de veces que sale cara en un número infinito de lanzamientos de la moneda.

3. Se realiza el evento de 

In [None]:
## Pandas datafrmaes y variables
import pandas as pd
## Numerical Python
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
from scipy.stats import chi2_contingency

In [None]:
datos = pd.read_csv("/content/drive/MyDrive/2023/Fundamentos de Estadistica/Hojas de datos/Saber_11__2019-2.csv", na_values="-", index_col=5)

In [None]:
datos.groupby("ESTU_GENERO", dropna=False).size()

ESTU_GENERO
F      295994
M      250097
NaN       121
dtype: int64

In [None]:
datos.groupby("FAMI_ESTRATOVIVIENDA", dropna=False).size()/datos.shape[0]

FAMI_ESTRATOVIVIENDA
Estrato 1      0.292884
Estrato 2      0.344764
Estrato 3      0.198992
Estrato 4      0.047253
Estrato 5      0.014690
Estrato 6      0.006794
Sin Estrato    0.031447
NaN            0.063175
dtype: float64

# Probabilidad condicional
La probabilidad condicional es la probabilidad de que ocurra un evento A, dado que ya ha ocurrido un evento B. Se representa por P(A|B) y se lee como "la probabilidad de A dado B". La fórmula para la probabilidad condicional es:

$$P(A|B) = \frac{P(A \cap B) }{ P(B)}$$

donde $P(A \cap B) $ es la probabilidad de que ambos eventos A y B ocurran juntos, y P(B) es la probabilidad de que ocurra el evento B.


## Ejemplos

In [None]:
pd.crosstab(datos["ESTU_GENERO"], datos['COLE_NATURALEZA'])

COLE_NATURALEZA,NO OFICIAL,OFICIAL
ESTU_GENERO,Unnamed: 1_level_1,Unnamed: 2_level_1
F,65437,230557
M,64737,185360




4. En una universidad, el 60% de los estudiantes son mujeres y el 40% son hombres. De las mujeres, el 30% estudian ciencias y de los hombres, el 50% estudian ciencias. Si se selecciona al azar un estudiante de la universidad, ¿cuál es la probabilidad de que sea un hombre que estudia ciencias?

5. En un hospital, el 10% de los pacientes son alérgicos a la penicilina y el 90% no lo son. De los pacientes alérgicos a la penicilina, el 80% son alérgicos a la aspirina. De los pacientes que no son alérgicos a la penicilina, el 5% son alérgicos a la aspirina. Si se selecciona al azar un paciente del hospital, ¿cuál es la probabilidad de que sea alérgico a la aspirina?

6. En una escuela, el 70% de los estudiantes tienen teléfono celular y el 30% no tienen. De los estudiantes que tienen teléfono celular, el 60% tienen un plan de datos. De los estudiantes que no tienen teléfono celular, el 10% tienen un plan de datos. Si se selecciona al azar un estudiante de la escuela, ¿cuál es la probabilidad de que tenga un plan de datos, dado que tiene un teléfono celular?

7. En un conjunto de datos, el 25% de las observaciones son mayores que 100 y el 75% son menores o iguales que 100. De las observaciones mayores que 100, el 80% son mayores que 150. De las observaciones menores o iguales que 100, el 40% son mayores que 50. Si se selecciona al azar una observación del conjunto de datos, ¿cuál es la probabilidad de que sea mayor que 150?

# Teorema de Bayes

El teorema de Bayes es un principio fundamental en la teoría de la probabilidad que describe cómo actualizar la probabilidad de un evento basándose en nueva información o evidencia. El teorema establece que la probabilidad de un evento condicionado a la ocurrencia de otro evento se puede calcular a partir de la probabilidad del evento condicionante y la probabilidad condicional inversa.

En términos más simples, el teorema de Bayes nos permite actualizar nuestra creencia sobre la probabilidad de un evento dado, una vez que tenemos información adicional o evidencia sobre el evento. La fórmula del teorema de Bayes es la siguiente:

$$ P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}$$

donde $P(A|B)$ es la probabilidad de que A ocurra dado que B ha ocurrido,$ P(B|A)$ es la probabilidad de que B ocurra dado que A ha ocurrido, $P(A)$ es la probabilidad inicial de que A ocurra, y $P(B)$ es la probabilidad de que B ocurra.

En resumen, el teorema de Bayes es una herramienta valiosa para calcular la probabilidad condicional de eventos y es ampliamente utilizado en la estadística, la ciencia de datos y otras disciplinas para la toma de decisiones y la inferencia probabilística.