# Estimando distribuciones (parte 1)
El objetivo de esta notebook es explorar una primera manera de aproximar $p(y|x)$ y $p(x|y)$ en un set de datos tabular. En este set de datos $x$ tiene valores discretos, $x\in\mathbb{D}^k$, y el target $y$ es un booleano, $y\in\{0,1\}$.

## Imports

In [None]:
import numpy as np
import pandas as pd
import random

## Cargamos los datos

In [None]:
df = pd.read_csv('./tennis.csv', delimiter=',', header=0)
df

### Eliminamos la columna Day 

In [None]:
df = df.drop('Day', axis=1)
df

In [None]:
X_names = df.columns.to_list()[:-1]
X_names

Guardamos en la variable $X$ todas las features del dataset.

In [None]:
X = df.iloc[:,0:-1]
X

In [None]:
Y_name = df.columns.to_list()[-1]
Y_name

Guardamos en $Y$ el objetivo

In [None]:
Y = df.iloc[:,-1]
Y

## Construimos una tabla de observaciones

En este paso vamos a crear una tabla de observaciones. Esta tabla tiene que contener la frecuencia de cada observación. Para este ejemplo tomaremos a $x$ como **Outlook**.

Calcule las dimensiones de la tabla

In [None]:
# Cantidad total de elementos
N = ...

# Elementos únicos de la clase Outlook
xvalues = ...
dimx = len(xvalues)

# Elementos únicos del objetivo
yvalues = ...
dimy = len(yvalues)

print(f'Cantidad total de elementos: {N}')
print(f'Elementos únicos de la clase Outlook: {xvalues}')
print(f'Elementos únicos del objetivo: {yvalues}')

Calculamos la tabla de frecuencia.

In [None]:
obs = pd.DataFrame(0, columns=yvalues, index=xvalues)

## Llene la tabla de observaciones

obs

## Aproximación de la distribución conjunta $p(x,y)$

Tome a $x$ como Outlook y aproxime la distribución conjunta utilizando la tabla de observaciones. 

In [None]:
joint_x_y = ...
joint_x_y

1. ¿Qué significa el valor calculado en los índices "Sunny", "Yes"?

2. ¿Justifique el resultado de la pareja "Overcast", "No"?

## Aproximamos $p(y|x)$

Tome a $x$ como **Outlook** y estime la probabilidad condicional de $y$ dado $x$. Luego realice una muestra de 10 valores de $y$ dado $x = Sunny$.

Calculamos la cantidad de entradas por cada valor distinto de $x$.

In [None]:
m = obs.sum(axis=1)
obs['m'] = m
m

Calculamos la cantidad de entradas por cada valor distinto de $y$.

In [None]:
l = obs.sum(axis=0)
obs.loc['l'] = l
l

In [None]:
obs

Calcule la probabilidad condicional de $y$ dado $x$.

In [None]:
p_y_x = pd.DataFrame(0, columns=yvalues, index=xvalues)

## Llene la tabla de probabilidades condicionales p(y|x)

p_y_x

3. ¿La suma de cada fila siempre tiene que dar 1? ¿Por qué?

4. ¿Y si la suma de las columnas?

Realice 10 muestras de $y$ dado $x = Sunny$.

Puede utilizar la función random.choice de numpy. https://numpy.org/doc/stable/reference/random/generated/numpy.random.choice.html

In [None]:
sampled_values = ...

sampled_values

5. ¿Qué pasaría si utilizamos $x = Overcast$ en vez de $x = Sunny$? ¿Tiene sentido que pase esto? ¿Por qué?

## Aproximamos $p(x|y)$
Tome a $x$ como Outlook y estime la probabilidad condicional de $x$ dado $y$ basandose en la tabla de observaciones. Luego realice 10 muestras de $x$ dado $y = Yes$.

$p(x|y)$

In [None]:
p_x_y = pd.DataFrame(0, columns=yvalues, index=xvalues)

## Llene la tabla de probabilidades condicionales p(x|y)

p_x_y

Muestreo

In [None]:
sampled_values = ...

sampled_values

## Aproxime $p(y,o,h,w,t)$

Aproxime la proabilidad conjunta del Tennis (y), Outlook (o), Humidity (h), Wind (w), Temp (t).

Recuerde que $p(y,o,h,w,t)$ = $p(y)$.$p(o|y)$.$p(h|y,o)$.$p(w|y,o,h)$.$p(t|y,o,h,w)$

Calcule P(y)

In [None]:
# P(Y)
p_y = ...
p_y

Calcule P(o|y)

In [None]:
p_o_y = ...
p_o_y

Calcule P(h|y,o)

Recomendamos usar la función *crosstab* de pandas. En este link pueden encontrar un ejemplo de su uso: https://www.geeksforgeeks.org/pandas-crosstab-function-in-python/

In [None]:
# Calcule la tabla de frecuencia
p_h_yo = ...

# Luego se divide cada fila por la suma de sus elementos, puede usar las funciones div y sum de pandas
p_h_yo = ...

# No se oliden de llenar los valores NaN!!!

# Cambiamos los nombres de los indices (si es que lo precisa)


p_h_yo

Calcule P(w|y,o,h)

In [None]:
p_w_yoh = ...
p_w_yoh = ...
p_w_yoh

Calcule P(t|y,o,h,w)

In [None]:
p_t_yohw = ...
p_t_yohw = ...
p_t_yohw

Calcule P(y,o,h,w,t)

In [None]:
# Definimos una función que nos calcula la probabilidad conjunta usando la regla del producto.
def calculate_prob(y,o,h,w,t):
    "Calculate the probability of occurrence of a row"
    ...

In [None]:
prob = calculate_prob('Yes','Sunny','Normal','Weak','Cool')

print(f'P(Yes|Sunny,Normal,Weak,Cool) = {prob}')
print(f"Cantidad de observaciones: {prob*N}")

Definimos el muestreo de datos completos.

Primero generamos un *y* utilizando *p(y)* y luego seguimos con las probabilidades condicionales.

In [None]:
def sample_from_y(y):
    "Generates a sample of weather conditions based on a specific y"
    ...

def sample():
    "Generates a sample of weather conditions based on a random y"
    ...

In [None]:
samples = np.array([sample() for _ in range(len(df))])
new_df = pd.DataFrame(samples, columns=['Tennis', 'Outlook', 'Humidity', 'Wind', 'Temp'])
new_df