# **Tarea 4: diseño e implementación de algoritmos para el cálculo de probabilidades**

Para esta tarea será utilizada la biblioteca Pandas, que se encuentra ya importada en este notebook

In [None]:
import pandas as pd

Antes de empezar a calcular probabilidades, necesitamos una base de datos. La siguiente es una base de datos de juguete que es utilizada en Aprendizaje Automático para practicar. Dicha base de datos resguarda 10 registros de tres tipos de flores (```tipo```): margaritas, lirios y rosas. Estas flores tienen las siguientes características: color de pétalo (```color```), número de pétalos (```num_pet```) y diámetro de la flor (```diamet```).

![picture](https://drive.google.com/uc?export=view&id=1qnJFJRSR6QObff_830OJfMOcQGr0msxC)

Para poder representar esta base de datos, vamos a hacer uso de los ```DataFrame``` que son una estructura de datos, parecida a los diccionarios ```dict()```. De igual manera que los diccionarios, el ```DataFrame``` guarda elementos relacionados en llaves y valores.

In [None]:
# Creamos un DataFrame vacío, al que llamaremos data_set
data_set = pd.DataFrame()

# Creamos los registros y sus correspondientes valores
color = ["Rojo", "Blanco", "Amarillo", "Blanco", "Rojo", "Rojo", "Blanco", "Blanco", "Amarillo", "Blanco"]
num_pet = ["40-70", "10-39", "5-9", "40-70", "40-70", "40-70", "10-39", "5-9", "5-9", "40-70"]
diamet = ["5-15cm", "5-15cm", "5-15cm", "5-15cm", "5-15cm", "5-15cm", "5-15cm", "16-25cm", "16-25cm", "5-15cm"]
tipo = ["Rosa", "Margarita", "Lirio", "Rosa", "Rosa", "Rosa", "Margarita", "Lirio", "Lirio", "Rosa"]

# Creamos nuevas columnas en el DataFrame con los valores expresados
data_set["color"] = color
data_set["num_pet"] = num_pet
data_set["diamet"] = diamet
data_set["tipo"] = tipo

Después de haber creado el ```data_set``` puede observarse su contenido

In [None]:
data_set

A partir de esto, podemos determinar varios eventos. Con respecto al ```tipo```:

$R = $ El evento de que la flor sea Rosa \\
$M = $ El evento de que la flor sea Margarita \\
$L = $ El evento de que la flor sea Lirio \\

Con respecto al ```color```: \\
$O = $ El evento de que la flor sea de color rojo \\
$B = $ El evento de que la flor sea de color blanco \\
$A = $ El evento de que la flor sea de color amarillo \\

Con respecto al número de pétalos ```num_pet```: \\
$C = $ El evento de que la flor tenga entre 40 y 70 pétalos \\
$D = $ El evento de que la flor tenga entre 10 y 39 pétalos \\
$I = $ El evento de que la flor tenga entre 5 y 9 pétalos \\

Con respecto al diámetro de la flor ```diamet```: \\
$Q = $ El evento de que la flor tenga de 5 a 15cm de diámetro \\
$V = $ El evento de que la flor tenga de 16 a 25cm de diámetro \\

Además, podemos calcular las distintas tablas de frecuencias para cada caso.

1. Para el color de flor:

![picture](https://drive.google.com/uc?export=view&id=1gnx1uLvOBGMvt25tTmh6u759JlWNtH0I)

2. Para el número de pétalos de la flor:

![picture](https://drive.google.com/uc?export=view&id=1wj1Nqq7nXKeyiB-URzKjXt5e_qvhvfDw)


3. Para el diámetro del pétalo

![picture](https://drive.google.com/uc?export=view&id=1aZ52Sz1JwinJ34DuD9VjUERO3UQrVrEp)

La siguiente celda de código, contiene la manera en cómo se pueden hacer estas tablas de frecuencias.

In [None]:
### Para el color de la flor ###

# De manera manual, creamos 5 columnas: color, R (de Rosas), L (de Lirios), M (de Margaritas) y total (para expresar los totales)
# Y asignamos sus respectivos valores
color_frec = pd.DataFrame({"color": ["O", "B", "A", "total"], "R": [3, 2, 0, 5], "L": [0, 1, 2, 3], "M": [0, 2, 0, 2], "total": [3, 5, 2, 10]})

# Finalmente, asignamos a la columna color como la principal o 'llave' de nuestra tabla
# Este paso nos va a ayudar a detectar fácilmente las filas de nuestra tabla, que en este caso son O, B y A (de nuestros eventos), y total
color_frec = color_frec.set_index(["color"])

Visualizamos nuestra tabla

In [None]:
color_frec

Y ahora podemos jugar con ella: \\
1. La frecuencia de $O \cap R$.

In [None]:
# Utilizamos la propiedad loc de nuestra tabla (DataFrame)
# loc es una propiedad de los DataFrame, se utilizan las filas y columnas de los datos deseados: DataFrame.loc[[filas], [columnas]]
color_frec.loc[["O"], ["R"]]

2. La frecuencia de $O \cap L$, $A \cap M$, $O \cap M$, y $A \cap L$.

In [None]:
# Podemos adjuntar varios elementos en nuestro resultado, utilizando los dos arreglos que ofrece loc
color_frec.loc[["O", "A"], ["L", "M"]]

3. La frecuencia de $B \cap L$ y el total de flores en $L$

In [None]:
color_frec.loc[["B", "total"], ["L"]]

4. La frecuencia total de flores amarillas

In [None]:
color_frec.loc[["A"], ["total"]]

### **Implementa lo siguiente**

Respetando las celdas y variables creadas, implementa y ejecuta lo que se pide

Ejercicio 1:
- Utilizando la variable ```num_pet_frec```
- Crea la tabla de frecuencias del número de pétalos de la flor

Ejercicio 2: ejecuta la siguiente celda para visualizar que todo esté correcto

In [None]:
num_pet_frec

Ejercicio 3:
- Utilizando la variable diamet_frec
- Crea la tabla de frecuencias del diámetro de la flor

Ejercicio 4: ejecuta la siguiente celda para visualizar que todo esté correcto

In [None]:
diamet_frec

Tablas de probabilidades conjuntas y marginales

Para hacer las tablas de probabilidades conjuntas se ejecuta la siguiente celda

In [None]:
# Utilizando la tabla de frecuencias con respecto al color, se divide todo entre 10
color_conjm = color_frec/10

Y visualizamos el resultado

In [None]:
color_conjm

Ejercicio 5: crea la tabla de probabilidades conjuntas con respecto al número de pétalos, utilizando la variable ```num_pet_conjm```

Ejercicio 6: visualiza el resultado

In [None]:
num_pet_conjm

Ejercicio 7: crea la tabla de probabilidades conjuntas con respecto al diámetro, utilizando la variable ```diamet_conjm```

Ejercicio 7: visualiza el resultado

In [None]:
diamet_conjm

Cálculo de probabilidades condicionales $P(A|B)$

Para conocer la probabilidad de que la flor sea Lirio dado que el color es blanco $P(L|B)$, se tienen que seguir los siguientes pasos:

- Paso 1: buscar la probabilidad conjunta $P(L \cap B)$

In [None]:
color_conjm.loc[["B"], ["L"]]

- Paso 2: buscar la probabilidad $P(B)$

In [None]:
color_conjm.loc[["B"], ["total"]]

- Paso 3: se divide $\frac{P(L \cap B)}{P(B)}$

In [None]:
# Para no caer en un error de formato del DataFrame, se utiliza la propiedad values
# Además, se utiliza un "casting" hacia el tipo de dato flotante (float), para visualizar el valor buscado
float(color_conjm.loc[["B"],["L"]].values / color_conjm.loc[["B"], ["total"]].values)

Calcular la probabilidad de que la flor sea blanca dado que la flor es Margarita $P(B | M)$

- Paso 1: buscar la probabilidad conjunta $P(B \cap M)$

In [None]:
color_conjm.loc[["B"], ["M"]]

- Paso 2:  buscar la probabilidad $P(M)$

In [None]:
color_conjm.loc[["total"], ["M"]]

- Paso 3: dividir $\frac{P(B \cap M)}{P(M)}$

In [None]:
# Para no caer en un error de formato del DataFrame, se utiliza la propiedad values
# Además, se utiliza un "casting" hacia el tipo de dato flotante (float), para visualizar el valor buscado
float(color_conjm.loc[["B"],["M"]].values / color_conjm.loc[["total"], ["M"]].values)

Ejercicio 8: calcular la probabilidad de que la flor sea Rosa dado que el color es rojo $P(R |O)$

Ejercicio 9: calcular la probabilidad de que la flor sea de color amarillo dado que la flor es Rosa $P(A | R)$

Ejercicio 10: calcular la probabilidad de que la flor sea amarilla dado que la flor es Margarita $P(A|M)$

Ejercicio 11: calcular la probabilidad de que la flor sea de color rojo dado que la flor es una Rosa $P(O|R)$

Con las tablas de probabilidades conjuntas realizadas anteriormente, realiza los siguientes ejercicios:

Ejercicio 12: calcular la probabilidad de que la flor sea Rosa dado que la flor tiene entre 40 y 70 pétalos $P(R|C)$

Ejercicio 13: calcular la probabilidad de que la flor tenga de 5 a 9 pétalos, dado que la flor es Margarita $P(I | M)$

Ejercicio 14: calcular la probabilidad de que la flor sea Lirio dado que la flor tiene un diámetro de 5 a 15cm $P(L|Q)$

Ejercicio 15: calcular la probabilidad de que la flor tenga un diámetro de 16 a 25cm, dado que la flor es Rosa $P(V|R)$