# Estimando distribuciones (parte 1)

**Estudiante**: Germán Otero
**Número estudiante**: 138796

El objetivo de esta notebook es explorar una primera manera de aproximar $p(y|x)$ y $p(x|y)$ en un set de datos tabular. En este set de datos $x$ tiene valores discretos, $x\in\mathbb{D}^k$, y el target $y$ es un booleano, $y\in\{0,1\}$.

## Imports

In [1]:
import numpy as np
import pandas as pd
import random

## Cargamos los datos

In [2]:
df = pd.read_csv('./tennis.csv', delimiter=',', header=0)
df

Unnamed: 0,Day,Outlook,Temp,Humidity,Wind,Tennis
0,D1,Sunny,Hot,High,Weak,No
1,D2,Sunny,Hot,High,Strong,No
2,D3,Overcast,Hot,High,Weak,Yes
3,D4,Rain,Mild,High,Weak,Yes
4,D5,Rain,Cool,Normal,Weak,Yes
5,D6,Rain,Cool,Normal,Strong,No
6,D7,Overcast,Cool,Normal,Strong,Yes
7,D8,Sunny,Mild,High,Weak,No
8,D9,Sunny,Cool,Normal,Weak,Yes
9,D10,Rain,Mild,Normal,Weak,Yes


### Eliminamos la columna Day 

In [3]:
df = df.drop('Day', axis=1)
df

Unnamed: 0,Outlook,Temp,Humidity,Wind,Tennis
0,Sunny,Hot,High,Weak,No
1,Sunny,Hot,High,Strong,No
2,Overcast,Hot,High,Weak,Yes
3,Rain,Mild,High,Weak,Yes
4,Rain,Cool,Normal,Weak,Yes
5,Rain,Cool,Normal,Strong,No
6,Overcast,Cool,Normal,Strong,Yes
7,Sunny,Mild,High,Weak,No
8,Sunny,Cool,Normal,Weak,Yes
9,Rain,Mild,Normal,Weak,Yes


In [4]:
X_names = df.columns.to_list()[:-1]
X_names

['Outlook', 'Temp', 'Humidity', 'Wind']

Guardamos en la variable $X$ todas las features del dataset.

In [5]:
X = df.iloc[:,0:-1]
X

Unnamed: 0,Outlook,Temp,Humidity,Wind
0,Sunny,Hot,High,Weak
1,Sunny,Hot,High,Strong
2,Overcast,Hot,High,Weak
3,Rain,Mild,High,Weak
4,Rain,Cool,Normal,Weak
5,Rain,Cool,Normal,Strong
6,Overcast,Cool,Normal,Strong
7,Sunny,Mild,High,Weak
8,Sunny,Cool,Normal,Weak
9,Rain,Mild,Normal,Weak


In [6]:
Y_name = df.columns.to_list()[-1]
Y_name

'Tennis'

Guardamos en $Y$ el objetivo

In [7]:
Y = df.iloc[:,-1]
Y

0      No
1      No
2     Yes
3     Yes
4     Yes
5      No
6     Yes
7      No
8     Yes
9     Yes
10    Yes
11    Yes
12    Yes
13     No
Name: Tennis, dtype: object

## Construimos una tabla de observaciones

En este paso vamos a crear una tabla de observaciones. Esta tabla tiene que contener la frecuencia de cada observación. Para este ejemplo tomaremos a $x$ como **Outlook**.

Calcule las dimensiones de la tabla

In [8]:
# Cantidad total de elementos
N = df.shape[0]

# Elementos únicos de la clase Outlook
xvalues = df.iloc[:,0].unique() # Sabemos que la columna 0 es la clase Outlook
dimx = len(xvalues)

# Elementos únicos del objetivo
yvalues = df.iloc[:,-1].unique()
dimy = len(yvalues)

print(f'Cantidad total de elementos: {N}')
print(f'Elementos únicos de la clase Outlook: {xvalues}')
print(f'Elementos únicos del objetivo: {yvalues}')

Cantidad total de elementos: 14
Elementos únicos de la clase Outlook: ['Sunny' 'Overcast' 'Rain']
Elementos únicos del objetivo: ['No' 'Yes']


Calculamos la tabla de frecuencia.

In [9]:
obs = pd.DataFrame(0, columns=yvalues, index=xvalues)


## Llene la tabla de observaciones

for i in range(len(df)):
    # df.iloc[i,0] es el valor de la clase Outlook
    # df.iloc[i,-1] es el valor del objetivo
    obs.loc[df.iloc[i,0], df.iloc[i,-1]] += 1

obs

Unnamed: 0,No,Yes
Sunny,3,2
Overcast,0,4
Rain,2,3


## Aproximación de la distribución conjunta $p(x,y)$

Tome a $x$ como Outlook y aproxime la distribución conjunta utilizando la tabla de observaciones. 

In [10]:
joint_x_y = obs.values / N
joint_x_y = pd.DataFrame(joint_x_y, columns=yvalues, index=xvalues)
joint_x_y

Unnamed: 0,No,Yes
Sunny,0.214286,0.142857
Overcast,0.0,0.285714
Rain,0.142857,0.214286


1. ¿Qué significa el valor calculado en los índices "Sunny", "Yes"?

2. ¿Justifique el resultado de la pareja "Overcast", "No"?

**[Nota de estudiante]**
1. La probabilidad de que se juegue al tenis y que esté soleado.
2. Dentro de las observaciones, no se ha dado el caso de que esté nublado y se haya jugado al tenis.

## Aproximamos $p(y|x)$

Tome a $x$ como **Outlook** y estime la probabilidad condicional de $y$ dado $x$. Luego realice una muestra de 10 valores de $y$ dado $x = Sunny$.

Calculamos la cantidad de entradas por cada valor distinto de $x$.

In [11]:
m = obs.sum(axis=1)
obs['m'] = m
m

Sunny       5
Overcast    4
Rain        5
dtype: int64

Calculamos la cantidad de entradas por cada valor distinto de $y$.

In [12]:
l = obs.sum(axis=0)
obs.loc['l'] = l
l

No      5
Yes     9
m      14
dtype: int64

In [13]:
obs

Unnamed: 0,No,Yes,m
Sunny,3,2,5
Overcast,0,4,4
Rain,2,3,5
l,5,9,14


Calcule la probabilidad condicional de $y$ dado $x$.

In [14]:
p_y_x = pd.DataFrame(0, columns=yvalues, index=xvalues)

## Llene la tabla de probabilidades condicionales p(y|x)
for i in range(dimx):
    for j in range(dimy):
        if m[i] != 0:
            p_y_x.iloc[i,j] = obs.iloc[i,j] / m[i]

p_y_x

  if m[i] != 0:
  p_y_x.iloc[i,j] = obs.iloc[i,j] / m[i]
  p_y_x.iloc[i,j] = obs.iloc[i,j] / m[i]
  if m[i] != 0:
  p_y_x.iloc[i,j] = obs.iloc[i,j] / m[i]
  p_y_x.iloc[i,j] = obs.iloc[i,j] / m[i]
  if m[i] != 0:
  p_y_x.iloc[i,j] = obs.iloc[i,j] / m[i]
  if m[i] != 0:
  p_y_x.iloc[i,j] = obs.iloc[i,j] / m[i]
  if m[i] != 0:
  p_y_x.iloc[i,j] = obs.iloc[i,j] / m[i]
  if m[i] != 0:
  p_y_x.iloc[i,j] = obs.iloc[i,j] / m[i]


Unnamed: 0,No,Yes
Sunny,0.6,0.4
Overcast,0.0,1.0
Rain,0.4,0.6


3. ¿La suma de cada fila siempre tiene que dar 1? ¿Por qué?

4. ¿Y si la suma de las columnas?

**[nota del estudiante]**

3. Se debe a que los eventos son complementarios, es decir, p(x='Sunny'|y='No') y p(x='Sunny'|y='Yes') son mutuamente exclusivos y son todos los casos posibles para x='Sunny'. Otra forma de ver esto es que todos los valores observados en las filas, constituyen una distribución en sí misma por lo que -por definición- la suma de todos los valores debe ser igual a uno.

4. En el caso de las columnas, no se trata de una distribución por lo que no podemos predecir qué valores o resultados deberían dar.

Realice 10 muestras de $y$ dado $x = Sunny$.

Puede utilizar la función random.choice de numpy. https://numpy.org/doc/stable/reference/random/generated/numpy.random.choice.html

In [15]:
sampled_values = np.random.choice(yvalues, size=10, p=p_y_x.loc['Sunny'].values)

sampled_values

array(['No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'No', 'No', 'No', 'Yes'],
      dtype=object)

5. ¿Qué pasaría si utilizamos $x = Overcast$ en vez de $x = Sunny$? ¿Tiene sentido que pase esto? ¿Por qué?

**[nota del estudiante]**

5. De acuerdo a las observaciones, si el outlook es 'Overcast', siempre se jugó al tenis.

## Aproximamos $p(x|y)$
Tome a $x$ como Outlook y estime la probabilidad condicional de $x$ dado $y$ basandose en la tabla de observaciones. Luego realice 10 muestras de $x$ dado $y = Yes$.

$p(x|y)$

In [16]:
p_x_y = pd.DataFrame(0, columns=yvalues, index=xvalues)

## Llene la tabla de probabilidades condicionales p(x|y)
for j in range(dimy):
    for i in range(dimx):
        if l[j] != 0:
            p_x_y.iloc[i,j] = obs.iloc[i,j] / l[j]

p_x_y

  if l[j] != 0:
  p_x_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  p_x_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_x_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_x_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_x_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  p_x_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_x_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_x_y.iloc[i,j] = obs.iloc[i,j] / l[j]


Unnamed: 0,No,Yes
Sunny,0.6,0.222222
Overcast,0.0,0.444444
Rain,0.4,0.333333


Muestreo

In [17]:
obs

Unnamed: 0,No,Yes,m
Sunny,3,2,5
Overcast,0,4,4
Rain,2,3,5
l,5,9,14


In [18]:
sampled_values = np.random.choice(xvalues, size=10, p=p_x_y.loc[:, 'Yes'].values)

sampled_values

array(['Overcast', 'Overcast', 'Rain', 'Overcast', 'Sunny', 'Rain',
       'Overcast', 'Overcast', 'Sunny', 'Sunny'], dtype=object)

## Aproxime $p(y,o,h,w,t)$

Aproxime la proabilidad conjunta del Tennis (y), Outlook (o), Humidity (h), Wind (w), Temp (t).

Recuerde que $p(y,o,h,w,t)$ = $p(y)$.$p(o|y)$.$p(h|y,o)$.$p(w|y,o,h)$.$p(t|y,o,h,w)$

Calcule P(y)

In [19]:
# P(Y)

p_y = l / N
p_y

No     0.357143
Yes    0.642857
m      1.000000
dtype: float64

Calcule P(o|y)

In [20]:
p_o_y = pd.DataFrame(0, columns=yvalues, index=xvalues)

for j in range(dimy):
    for i in range(dimx):
        if l[j] != 0:
            p_o_y.iloc[i,j] = obs.iloc[i,j] / l[j]
p_o_y

  if l[j] != 0:
  p_o_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  p_o_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_o_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_o_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_o_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  p_o_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_o_y.iloc[i,j] = obs.iloc[i,j] / l[j]
  if l[j] != 0:
  p_o_y.iloc[i,j] = obs.iloc[i,j] / l[j]


Unnamed: 0,No,Yes
Sunny,0.6,0.222222
Overcast,0.0,0.444444
Rain,0.4,0.333333


Calcule P(h|y,o)

Recomendamos usar la función *crosstab* de pandas. En este link pueden encontrar un ejemplo de su uso: https://www.geeksforgeeks.org/pandas-crosstab-function-in-python/

In [21]:
df

Unnamed: 0,Outlook,Temp,Humidity,Wind,Tennis
0,Sunny,Hot,High,Weak,No
1,Sunny,Hot,High,Strong,No
2,Overcast,Hot,High,Weak,Yes
3,Rain,Mild,High,Weak,Yes
4,Rain,Cool,Normal,Weak,Yes
5,Rain,Cool,Normal,Strong,No
6,Overcast,Cool,Normal,Strong,Yes
7,Sunny,Mild,High,Weak,No
8,Sunny,Cool,Normal,Weak,Yes
9,Rain,Mild,Normal,Weak,Yes


In [22]:
a = {
    'h': df.loc[:,'Humidity'].values,
    'o': df.loc[:,'Outlook'].values,
    'y': Y.values

}


a = pd.DataFrame(a)
a

res = pd.crosstab(index=[a['h'], a['o']], columns=a['y'])
res

Unnamed: 0_level_0,y,No,Yes
h,o,Unnamed: 2_level_1,Unnamed: 3_level_1
High,Overcast,0,2
High,Rain,1,1
High,Sunny,3,0
Normal,Overcast,0,2
Normal,Rain,1,2
Normal,Sunny,0,2


In [33]:
h_and_o = res.sum(axis=1)
h_and_o = pd.DataFrame(h_and_o)
h_and_o.columns = ['m']
h_and_o


Unnamed: 0_level_0,Unnamed: 1_level_0,m
h,o,Unnamed: 2_level_1
High,Overcast,2
High,Rain,2
High,Sunny,3
Normal,Overcast,2
Normal,Rain,3
Normal,Sunny,2


In [37]:
# Calcule la tabla de frecuencia
# p(h|y,o) = 

# Armamos un nuevo DataFrame con las columnas que nos interesan
a = {
    'h': df.loc[:,'Humidity'].values,
    'o': df.loc[:,'Outlook'].values,
    'y': Y.values

}

a = pd.DataFrame(a)

# La tabla de frecuencia se puede calcular con la función crosstab de pandas
p_h_yo = pd.crosstab(index=[a['h'], a['o']], columns=a['y'])
p_h_yo

# Luego se divide cada fila por la suma de sus elementos, puede usar las funciones div y sum de pandas
p_h_yo = p_h_yo.div(p_h_yo.sum(axis=1), axis=0)

# No se oliden de llenar los valores NaN!!!
p_h_yo = p_h_yo.fillna(0)

# Cambiamos los nombres de los indices (si es que lo precisa)
p_h_yo.index.names = ['Humidity', 'Outlook']
p_h_yo.columns.name = 'Y'
p_h_yo

Unnamed: 0_level_0,Y,No,Yes
Humidity,Outlook,Unnamed: 2_level_1,Unnamed: 3_level_1
High,Overcast,0.0,1.0
High,Rain,0.5,0.5
High,Sunny,1.0,0.0
Normal,Overcast,0.0,1.0
Normal,Rain,0.333333,0.666667
Normal,Sunny,0.0,1.0


Calcule P(w|y,o,h)

In [41]:
a = {
    'h': df.loc[:,'Humidity'].values,
    'o': df.loc[:,'Outlook'].values,
    'w': df.loc[:,'Wind'].values,
    'y': Y.values

}

a = pd.DataFrame(a)
a


Unnamed: 0,h,o,w,y
0,High,Sunny,Weak,No
1,High,Sunny,Strong,No
2,High,Overcast,Weak,Yes
3,High,Rain,Weak,Yes
4,Normal,Rain,Weak,Yes
5,Normal,Rain,Strong,No
6,Normal,Overcast,Strong,Yes
7,High,Sunny,Weak,No
8,Normal,Sunny,Weak,Yes
9,Normal,Rain,Weak,Yes


In [43]:
p_w_y_o_h = pd.crosstab(index=[a['h'], a['o'], a['w']], columns=a['y'])
p_w_y_o_h


Unnamed: 0_level_0,Unnamed: 1_level_0,y,No,Yes
h,o,w,Unnamed: 3_level_1,Unnamed: 4_level_1
High,Overcast,Strong,0,1
High,Overcast,Weak,0,1
High,Rain,Strong,1,0
High,Rain,Weak,0,1
High,Sunny,Strong,1,0
High,Sunny,Weak,2,0
Normal,Overcast,Strong,0,1
Normal,Overcast,Weak,0,1
Normal,Rain,Strong,1,0
Normal,Rain,Weak,0,2


In [44]:
p_w_y_o_h = p_w_y_o_h.div(p_w_y_o_h.sum(axis=1), axis=0)
p_w_y_o_h = p_w_y_o_h.fillna(0)
p_w_y_o_h.index.names = ['Humidity', 'Outlook', 'Wind']
p_w_y_o_h.columns.name = 'Y'
p_w_y_o_h

Unnamed: 0_level_0,Unnamed: 1_level_0,Y,No,Yes
Humidity,Outlook,Wind,Unnamed: 3_level_1,Unnamed: 4_level_1
High,Overcast,Strong,0.0,1.0
High,Overcast,Weak,0.0,1.0
High,Rain,Strong,1.0,0.0
High,Rain,Weak,0.0,1.0
High,Sunny,Strong,1.0,0.0
High,Sunny,Weak,1.0,0.0
Normal,Overcast,Strong,0.0,1.0
Normal,Overcast,Weak,0.0,1.0
Normal,Rain,Strong,1.0,0.0
Normal,Rain,Weak,0.0,1.0


Calcule P(t|y,o,h,w)

In [46]:
a = {
    'h': df.loc[:,'Humidity'].values,
    'o': df.loc[:,'Outlook'].values,
    'w': df.loc[:,'Wind'].values,
    't': df.loc[:,'Temp'].values,
    'y': Y.values
}

a = pd.DataFrame(a)
a


Unnamed: 0,h,o,w,t,y
0,High,Sunny,Weak,Hot,No
1,High,Sunny,Strong,Hot,No
2,High,Overcast,Weak,Hot,Yes
3,High,Rain,Weak,Mild,Yes
4,Normal,Rain,Weak,Cool,Yes
5,Normal,Rain,Strong,Cool,No
6,Normal,Overcast,Strong,Cool,Yes
7,High,Sunny,Weak,Mild,No
8,Normal,Sunny,Weak,Cool,Yes
9,Normal,Rain,Weak,Mild,Yes


In [47]:
p_t_yohw = pd.crosstab(index=[a['h'], a['o'], a['w'], a['t']], columns=a['y'])
p_t_yohw

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,y,No,Yes
h,o,w,t,Unnamed: 4_level_1,Unnamed: 5_level_1
High,Overcast,Strong,Mild,0,1
High,Overcast,Weak,Hot,0,1
High,Rain,Strong,Mild,1,0
High,Rain,Weak,Mild,0,1
High,Sunny,Strong,Hot,1,0
High,Sunny,Weak,Hot,1,0
High,Sunny,Weak,Mild,1,0
Normal,Overcast,Strong,Cool,0,1
Normal,Overcast,Weak,Hot,0,1
Normal,Rain,Strong,Cool,1,0


In [49]:
p_t_yohw = p_t_yohw.div(p_t_yohw.sum(axis=1), axis=0)
p_t_yohw = p_t_yohw.fillna(0)
p_t_yohw.index.names = ['Humidity', 'Outlook', 'Wind', 'Temp']
p_t_yohw.columns.name = 'Y'
p_t_yohw

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Y,No,Yes
Humidity,Outlook,Wind,Temp,Unnamed: 4_level_1,Unnamed: 5_level_1
High,Overcast,Strong,Mild,0.0,1.0
High,Overcast,Weak,Hot,0.0,1.0
High,Rain,Strong,Mild,1.0,0.0
High,Rain,Weak,Mild,0.0,1.0
High,Sunny,Strong,Hot,1.0,0.0
High,Sunny,Weak,Hot,1.0,0.0
High,Sunny,Weak,Mild,1.0,0.0
Normal,Overcast,Strong,Cool,0.0,1.0
Normal,Overcast,Weak,Hot,0.0,1.0
Normal,Rain,Strong,Cool,1.0,0.0


Calcule P(y,o,h,w,t)

Recuerde que $p(y,o,h,w,t)$ = $p(y)$.$p(o|y)$.$p(h|y,o)$.$p(w|y,o,h)$.$p(t|y,o,h,w)$

In [54]:
# Definimos una función que nos calcula la probabilidad conjunta usando la regla del producto.
def calculate_prob(y,o,h,w,t):
    "Calculate the probability of occurrence of a row"
    return (p_y[y] *
            p_o_y.loc[o,y] *
            p_h_yo.loc[(h,o),y] *
            p_w_y_o_h.loc[(h,o,w),y] *
            p_t_yohw.loc[(h,o,w,t),y]
           )

In [62]:
prob = calculate_prob('Yes','Sunny','Normal','Weak','Cool')

print(f'P(Yes|Sunny,Normal,Weak,Cool) = {prob}')
print(f"Cantidad de observaciones: {prob*N}")

P(Yes|Sunny,Normal,Weak,Cool) = 0.14285714285714285
Cantidad de observaciones: 2.0


Definimos el muestreo de datos completos.

Primero generamos un *y* utilizando *p(y)* y luego seguimos con las probabilidades condicionales.

In [None]:
def sample_from_y(y):
    "Generates a sample of weather conditions based on a specific y"
    

def sample():
    "Generates a sample of weather conditions based on a random y"
    ...

In [None]:
samples = np.array([sample() for _ in range(len(df))])
new_df = pd.DataFrame(samples, columns=['Tennis', 'Outlook', 'Humidity', 'Wind', 'Temp'])
new_df