# Estadística descriptiva bivariable: características de una asociación bivariable

Nos adentramos un poco más en las condiciones que influyen en la distribución de una variable.

In [1]:
# Distribución porcentual bivariable
import pandas as pd

datos_pct = {'Total': [18, 38, 22, 21],
            'Muy católicos': [5, 30, 39, 26],
            'Practicantes': [8, 43, 26, 23],
            'No muy practicantes': [16, 35, 18, 21],
            'No practicantes': [34, 37, 11, 18],
            'Indiferentes': [52, 28, 6, 14] }
df = pd.DataFrame(datos_pct, index = ['Izquierda', 'Centro', 'Derecha', 'NsNc'])
df

Unnamed: 0,Total,Muy católicos,Practicantes,No muy practicantes,No practicantes,Indiferentes
Izquierda,18,5,8,16,34,52
Centro,38,30,43,35,37,28
Derecha,22,39,26,18,11,6
NsNc,21,26,23,21,18,14


Por lo general se sigue la convención de situar la variable dependiente, cuando la hubiere, en las filas, y la variable independiente en las columnas.

¿Qué comparación debe facilitarse a a hora de calcular porcentajes? Existe una regla sencilla, universalmente aceptada: los porcentajes deben calcularse en el sentido del factor _causal_ o de la **_variables independiente_**.

La diferencia entre porcentajes de columnas se conoce como _epsilón_ ($ \epsilon $)

In [2]:
# Ej. epsilon

df['Practicantes'] - df['Muy católicos']


Izquierda     3
Centro       13
Derecha     -13
NsNc         -3
dtype: int64

## Características de una asociación de dos variables

Se puede caracterizar la relación entre dos variables mediante el estudio de las siguientes características:
1. **existencia** o no de una asociación
2. la **fuerza** de la asociación
3. la **dirección** de la asociación
4. la **naturaleza** de la asociación

Existe una **asociación** entre dos variables cuando las correspondientes distribuciones condicionales porcentuales difieren en mayor o menor grado entre sí. Cuando hay asociación entre dos variables, la mayor parte de los _epsilón_ calculados al comparar las diferentes categorías son diferentes de cero.

Otra forma de decir si existe asociación entre dos variables consiste en comparar las _frecuencias observadas_ en la tabla con las frecuencias que cabría eseperar si no existiera asociación, o _frecuencias esperadas_.

$$ f_{eij} =  \frac{n_i * n_j}{N} $$

donde $ f_{eij} $ representa la frecuencia esperada de la celda correspondiente a la fila _i_ y la columna _j_ de la tabla; $n_i$ es el total para la fila _i_, y $n_j$ es el total para la columna _j_, siendo _N_ el número total de casos.

La comparación se realiza restando el valor esperado de cada celdilla del valor observado de la celdilla correspondiente. Este valor se denomina _delta_.
$$ \delta = f_o - f_e $$

Si todos los _deltas_ son cero, entonces existe _independencia estadística_ entre las dos variables.

Cuando los valores epsilón o delta son elevados cabe hablar de una **fuerte** asociación entre las variables.

Por lo que se refiere a la dirección de la **asociación**, sólo cabe hablar de ella cuando las variables se han medido, cómo mínimo, a nivel ordinal. Cuando la tendencia de variación conjunta de las dos variables es a que los valores altos de una variable se correspondan con los valores altos de la segunda variable, cabe hablar de la existencia de una _asociación positiva_. Caso contrario se dice entonces que la _asociación es negativa_.

Por último, la **naturaleza** de una asociación se refiere a la forma general en que se distribuyen los datos en la tabla. Por ej. puede producirse una asociación _lineal_, _curvilinea_, o de otra naturaleza.

## La obtención de medidas de asociación entre dos variables: independencia estadística y asociación perfecta

