In [1]:
import pandas as pd
import random

In [2]:
df = pd.read_csv('../datasets/comprar_alquilar.csv')
df

Unnamed: 0,ingresos,gastos_comunes,pago_coche,gastos_otros,ahorros,vivienda,estado_civil,hijos,trabajo,comprar
0,6000,1000,0,600,50000,400000,0,2,2,1
1,6745,944,123,429,43240,636897,1,3,6,0
2,6455,1033,98,795,57463,321779,2,1,8,1
3,7098,1278,15,254,54506,660933,0,0,3,0
4,6167,863,223,520,41512,348932,0,0,3,1
...,...,...,...,...,...,...,...,...,...,...
197,3831,690,352,488,10723,363120,0,0,2,0
198,3961,1030,270,475,21880,280421,2,3,8,0
199,3184,955,276,684,35565,388025,1,3,8,0
200,3334,867,369,652,19985,376892,1,2,5,0


# 1. Revisando si existen valores faltantes

In [3]:
len(df)

202

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202 entries, 0 to 201
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   ingresos        202 non-null    int64
 1   gastos_comunes  202 non-null    int64
 2   pago_coche      202 non-null    int64
 3   gastos_otros    202 non-null    int64
 4   ahorros         202 non-null    int64
 5   vivienda        202 non-null    int64
 6   estado_civil    202 non-null    int64
 7   hijos           202 non-null    int64
 8   trabajo         202 non-null    int64
 9   comprar         202 non-null    int64
dtypes: int64(10)
memory usage: 15.9 KB


In [5]:
df.count()

ingresos          202
gastos_comunes    202
pago_coche        202
gastos_otros      202
ahorros           202
vivienda          202
estado_civil      202
hijos             202
trabajo           202
comprar           202
dtype: int64

In [6]:
print ('Total: ', df['ingresos'].sum())

Total:  1001717


# 2. Filtros

In [7]:
mas_de_4 = df[df['ingresos'] > 4000]
mas_de_4

Unnamed: 0,ingresos,gastos_comunes,pago_coche,gastos_otros,ahorros,vivienda,estado_civil,hijos,trabajo,comprar
0,6000,1000,0,600,50000,400000,0,2,2,1
1,6745,944,123,429,43240,636897,1,3,6,0
2,6455,1033,98,795,57463,321779,2,1,8,1
3,7098,1278,15,254,54506,660933,0,0,3,0
4,6167,863,223,520,41512,348932,0,0,3,1
...,...,...,...,...,...,...,...,...,...,...
185,4025,1369,32,493,38752,225841,1,4,5,1
188,4708,1459,84,567,32314,379520,0,0,0,0
192,4653,1024,447,703,16952,392957,0,0,3,0
195,4169,1292,48,333,28503,239872,2,1,7,1


In [12]:
doble_filtro = df[(df['ingresos'] > 4000)  & (df['vivienda'] < 400000)]
doble_filtro

Unnamed: 0,ingresos,gastos_comunes,pago_coche,gastos_otros,ahorros,vivienda,estado_civil,hijos,trabajo,comprar
2,6455,1033,98,795,57463,321779,2,1,8,1
4,6167,863,223,520,41512,348932,0,0,3,1
5,5692,911,11,325,50875,360863,1,4,5,1
8,6251,1250,209,571,50503,291010,0,0,3,1
9,6987,1258,252,245,40611,324098,2,1,7,1
...,...,...,...,...,...,...,...,...,...,...
185,4025,1369,32,493,38752,225841,1,4,5,1
188,4708,1459,84,567,32314,379520,0,0,0,0
192,4653,1024,447,703,16952,392957,0,0,3,0
195,4169,1292,48,333,28503,239872,2,1,7,1


# 2. Medidas de tendencia central

A primera vista, resumir los datos puede parecer bastante fácil: calculamos la media de los datos y listo. De hecho, si bien la media es fácil de calcular y conveniente de usar, es posible que no siempre sea la mejor medida para un valor central. Por esta razón, los estadísticos han desarrollado varias estimaciones alternativas a la media.

# Media

La estimación más básica de cómo están conformados los datos es el valor medio, media o promedio. La media es la suma de todos los valores dividida por el número de valores. Considera el siguiente conjunto de números: [3, 3, 1, 2]. La media es (3 + 5 + 1 + 2) / 4 = 11 / 4 = 2.75. El símbolo  $\bar{x}$ representa la media de la muestra de una población (se pronuncia x-bar). La fórmula para calcula la media de una conjunto de N valores ($x_1$,$x_2$,...,$x_N$) es:

Media = $\bar{x}$ = $\frac{\sum_{i=1}^{N}x_i}{N}$

In [8]:
print('Media: ', df['ingresos'].mean())

Media:  4958.995049504951


## Media recortada

Una variación de la media es la media recortada, la cual es calculada después de eliminar los extremos de un conjunto de valores ordenados y luego calculamos el promedio de los valores restantes. De un conjunto de valores ordenados ($x_1$, $x_2$,...,$x_N$) donde $x_1$ es el valor más pequeño y $x_N$ es el valor más grande, la fórmula para calcular la media recortada con los p valores más pequeños y más grandes omitidos es:

Media recortada = $\bar{x}$ = $\frac{\sum_{i=p + 1}^{N - p}x_i}{N - 2p}$

La media recortada elimina la influencia de valores extremos. Por ejemplo, la puntuación de los concursos internacionales de clavados se obtiene eliminando la puntuación máxima y mínima de los jueces y calculando el promedio de las puntuaciones restantes. Esto imposibilita que un solo juez manipule la puntuación, quizás para favorecer al competidor de su país. Las medias recortadas se utilizan ampliamente y, en muchos casos, es preferible utilizarlas en lugar de la media ordinaria.

In [9]:
sorted = df['ingresos'].sort_values()
sorted

190    2008
180    2022
160    2024
179    2028
173    2028
       ... 
142    7777
22     7831
138    7877
28     7939
37     7984
Name: ingresos, Length: 202, dtype: int64

In [10]:
sorted = sorted.reset_index(drop = True)
sorted

0      2008
1      2022
2      2024
3      2028
4      2028
       ... 
197    7777
198    7831
199    7877
200    7939
201    7984
Name: ingresos, Length: 202, dtype: int64

In [11]:
p = 5
acum = 0
for i in range(p, len(sorted) - p):
    acum += sorted[i]
croppedMean =  acum / (len(sorted) - (2 * p))
print('Media recortada: ', croppedMean)

Media recortada:  4959.369791666667


In [12]:
p = 5
acum = sum(sorted.values.flatten()[p:len(df['ingresos'])-p])
croppedMean = acum / (len(sorted) - (2 * p))
print('Media recortada: ', croppedMean)

Media recortada:  4959.369791666667


## Media ponderada

Otro tipo de media es la media ponderada, que se calcula multiplicando cada valor $x_i$ por un peso $w_i$ y dividiendo la suma por la suma de los pesos. La fórmula para una media ponderada es:

Media ponderada = $\bar{x_{w}}$ = $\frac{\sum_{i=1}^{N}w_{i}x_{i}}{\sum_{i=1}^{N}w_{i}}$

Hay dos razones principales para usar una media ponderada:
* Algunos valores son intrínsecamente más variables que otro, y las observaciones muy variables reciben un peso menor. Por ejemplo, si tomamos el promedio de varios sensores y uno de los sensores es menos preciso, entonces podríamos reducir el peso de ese sensor.
*  Los datos recopiladores no representan igualmente a los diferentes grupos que nos interesa medir. Por ejemplo, debido a la forma en que se realizó un experimente en línea, es posible que no tengamos un conjunto de datos que refleje con precisión todos los grupos de usuarios. Para corregir eso, podemos dar un mayor peso a los valores de los grupos que estaban subrepresentados.

In [14]:
weights = [random.random() for i in range(len(df['ingresos']))]
print(weights)

[0.14145356469060733, 0.0703677046839748, 0.33630670589832934, 0.32007684261628155, 0.3174934948861946, 0.9286400903658422, 0.8566205222850598, 0.8084859618913869, 0.6314429126515322, 0.40600766076074835, 0.3196492132705355, 0.3654606166291351, 0.9107478917479337, 0.736323161824165, 0.4224299979824596, 0.7070147629985435, 0.07497789134743249, 0.7242852064283337, 0.5634484335157469, 0.9582276587246938, 0.5604107663122008, 0.6122369131725888, 0.7903087520388858, 0.6592222029763802, 0.575242988631262, 0.47387326385256767, 0.9857404846546105, 0.7388404555699241, 0.21464832925838295, 0.01872949973026472, 0.06959559432395035, 0.9822261885423398, 0.26206184310057046, 0.3068091455323134, 0.9417228996170914, 0.00965286390652953, 0.25945861988787433, 0.007312164464811977, 0.546589931909678, 0.7813549703669677, 0.6233493201072003, 0.7536078543038748, 0.5122329556616113, 0.9831036740757894, 0.28334171576460987, 0.5253825866608474, 0.9266877344851169, 0.004407404946963012, 0.7806210549661199, 0.661

In [15]:
accWeightedValues = df['ingresos'].values.flatten().dot(weights)
weightedMean = accWeightedValues / sum(weights)
print('Media ponderada: ', weightedMean)

Media ponderada:  4954.362092009899


## Moda

La moda es el valor con mayor frecuencia en la distribución de datos. Si tomamos como ejemplo una muestra compuesta de los siguientes 5 números: 3, 8, 2, 8, 1; el valor modal es 8, ya que se es el que se repite la mayor cantidad de veces. La moda sirve para definir lo más común, lo que más se usa o lo que es más frecuente, en términos matemáticos, el valor de mayor frecuencia absoluta.

In [15]:
moda = pd.Series(df['ingresos'].values.flatten()).mode()[0]
print('Moda: ', moda)

Moda:  2028


## Mediana

La mediana es el número del medio de una lista de datos ordenada. Si hay un número par de valores de datos, el valor medio es uno que no está realmente en el conjunto de datos, sino que es el promedio de los dos valores que dividen los datos ordenados en dos mitades. En comparación con la media, que usa todas las observaciones, la mediana solo depende de los valores en el centro de los datos ordenados. Si bien, esto puede parecer una desventaja, dado que la media es mucho más sensible a los datos, hay muchos casos en los que la mediana es una mejor métrica para la ubicación. Supongamos que queremos analizar los ingresos familiares típicos en los vecindarios de una zona. Al comparar un vecindario de ingresos altos con un vecindario de ingresos bajos, usar la media producirá resultados muy diferentes. Si usamos la mediana, no importa cuán rico sean los que vivan en un vecindario; la posición de la observación intermedia seguirá siendo la misma.

In [16]:
print('Mediana:', df['ingresos'].median())

Mediana: 4947.5


Por las mismas razones por las que usamos una media ponderada, también es posible calcular una mediana ponderada. Al igual que con la mediana, primero ordenamos los datos, aunque cada valor de datos tiene un peso asociado. En lugar de tomar el número del medio, la mediana pondera es el valor tal que la suma de los pesos es igual para ambas mitades de la lista ordenada. Como la mediana, la mediana ponderada es robusta a los valores atípicos (outliners).

### Valores atípicos

La mediana no es la única estimación sólida de la ubicación. De hecho, una media recortada se usa ampliamente para evitar la influencia de valores atípicos. Por ejemplo, recortar el 10% inferior y superior (una estrategia muy usada) de los datos proporcionará protección contra valores atípicos en todos los conjuntos de datos, excepto en los más pequeños. Se puede pensar en la media recortada como un compromiso entre la media y la mediana: es robusta a los valores extremos en los datos, pero utiliza más datos para calcular la estimación de la ubicación.

# Desviación estándar

La ubicación es solo una dimensión para resumir una característica. Una segunda dimensión, la variabilidad, también conocida como dispersión, mide que tan agrupados o dispersos están los datos. La variabilidad es un concepto muy importante a tener en cuenta: hay que medirla, reducirla, distinguir en la variabilidad aleatoria y la real, identificar las diversas fuentes de variabilidad real y tomar decisiones sobre ella. Asi como existen diferentes formas de medir la ubicación (media, mediana, etc.) también existen diferente formas de medir la variabilidad.

Las estimaciones de variación más utilizadas se basan en las diferencia entre la media (una estimación de ubicación) y los datos observados. Para un conjunto de datos, [1, 4, 4], la media es 3 y la mediana es 4. Las desviaciones de la media son las diferencias (1 - 3 = -2, 4 - 3 = 1, 4 - 3 = 1). Estas desviaciones nos dicen qué tan dispersos están los datos alrededor del valor central.

Las estimaciones de variabilidad más conocidas son la varianza y la desviación estándar, que se basan en desviaciones cuadradas. La varianza es un promedio de las desviaciones cuadradas y la desviación estándar es la raíz cuadrada de la varianza.

Varianza = $s^{2}$ = $\frac{\sum_{i=1}^{N}(x_{i} - \bar{x})^{2} }{N - 1}$

Desviación estándar = $\sqrt{Varianza}$

In [17]:
print('Varianza: ', df['ingresos'].var())

Varianza:  2832026.3830599478


In [18]:
print('Desviación estándar: ', df['ingresos'].std())

Desviación estándar:  1682.862556199985


## Desviación absoluta mediana

Promediar las desviaciones en sí no nos diría mucho: las desviaciones negativas compensan las positivas. De hecho, la suma de las desviaciones de la media es exactamente cero. En cambio, un enfoque simple es tomar el promedio de los valores absolutos de las desviaciones de la media. En el ejemplo anterior, el valor absoluto de las desviaciones es [2, 1, 1] y su promedio es (2 + 1+ 1) / 3 = 1.33. Esta se conoce como la desviación absoluta media y se calcula mediante la fórmula:

Desviación absoluta mediana = $Mediana(\left | x_{1} - m \right |, \left | x_{2} - m \right |, ..., \left | x_{N} - m \right |)$

La desviación estándar es mucho más fácil de interpretar que la varianza, ya que está en la misma escala que los datos originales. Aun así, con su fórmula más complicada y menos intuitiva, puede parecer extraño que en las estadísticas se prefiera la desviación estándar a la desviación media absoluta. Su preferencia se debe a que, matemáticamente, trabajar con valores cuadrados es mucho más conveniente que con valores absolutos, especialmente para modelos estadísticos.

In [19]:
dam = pd.Series(df['ingresos'].values.flatten()).mad()
print('Desviación absoluta media: ', dam)

Desviación absoluta media:  1456.4999509851975


## Estimaciones basadas en percentiles

Un enfoque diferente que se puede emplear para estimar la dispersión se basa en observar la separación de los datos clasificados. Las estadísticas basadas en datos ordenados, o clasificados, se denominan estadísticas de orden. La medida más básica es el rango: la diferencia entre el número más grande y el más pequeño. Es útil conocer los valores mínimos y máximos en sí mismos y para identificar los valores atípicos, pero el rango es extremadamente sensible a los valores atípicos y no es muy útil como medida general de dispersión.

Para evitar la sensibilidad a valores atípicos, podemos mirar el rango de los datos después de eliminar los valores de cada extremo. Formalmente, este tipo de estimaciones se basan en diferencias entre percentiles. En un conjunto de datos, el $n$-ésimo percentil es un valor tal que, al menos, el $n$ por ciento de los valores toman este valor o menos $(100 - n)$ por ciento de los valores toman este valor o más. Por ejemplo, si queremos conocer el percentil 80, ordenamos los dartos. Luego, comenzando con el valor más pequeño, continuamos el 80 por ciento del camino hasta el valor más grande. Ten en cuenta que la mediana es lo mismo que el percentil 50. El percentil es, esencialmente, lo mismo que un cuantil, con cuantiles indexados por fracciones (el cuantil .8 es el percentil 80).

Una medida común de variabilidad es la diferencia entre el percentil 25 y el percentil 75, también llamado rango intercuartílico (o IQR). Por ejemplo, queremos conocer el IQR del conjunto de datos [3, 1, 5, 3, 6, 7, 2, 9]. Ordenamos los datos para obtener [1, 2, 3, 3, 5, 6, 7, 9]. El percentil 25 está en 2.5, el percentil 75 está en 6.5, por lo que el rango intercuartílico es 6.5 - 2.5 = 4.

In [20]:
df['ingresos'].quantile([0.25,0.50, 0.75])

0.25    3513.75
0.50    4947.50
0.75    6374.50
Name: ingresos, dtype: float64

## Correlación

El coeficiente de correlación da una estimación de la relación entre dos variables. El coeficiente de correlación de Pearson se calcular multiplicando las desviaciones de la media de la variable 1 por las de la variable 2, dividiendo por el producto de las desviaciones estándar:

$r(x,y)$ = $\frac{\sum_{i=1}^{N}(x_{i} - \bar{x})(y_{i} - \bar{y})}{(N - 1)s_{x}s_{y}}$

La correlación puede oscilar entre -1 y 1. Valores cercanos a 1, indican que existe una relación más cercana entre las dos variables; valores negativos cercanos a -1 indican una relación inversa. Por último, valores cercanos a 0, significan que no hay relación. Hay que recordar que "correlación no significa causalidad". En otras palabras, el hecho de que dos variables estén correlacionadas no significa que se afecten entre sí.

In [16]:
df

Unnamed: 0,ingresos,gastos_comunes,pago_coche,gastos_otros,ahorros,vivienda,estado_civil,hijos,trabajo,comprar
0,6000,1000,0,600,50000,400000,0,2,2,1
1,6745,944,123,429,43240,636897,1,3,6,0
2,6455,1033,98,795,57463,321779,2,1,8,1
3,7098,1278,15,254,54506,660933,0,0,3,0
4,6167,863,223,520,41512,348932,0,0,3,1
...,...,...,...,...,...,...,...,...,...,...
197,3831,690,352,488,10723,363120,0,0,2,0
198,3961,1030,270,475,21880,280421,2,3,8,0
199,3184,955,276,684,35565,388025,1,3,8,0
200,3334,867,369,652,19985,376892,1,2,5,0


In [17]:
selected = df[['hijos', 'ingresos']]
aux = (df['gastos_comunes'] + df['pago_coche'] + df['gastos_otros']).values
selected = selected.assign(gastos = aux)
selected

Unnamed: 0,hijos,ingresos,gastos
0,2,6000,1600
1,3,6745,1496
2,1,6455,1926
3,0,7098,1547
4,0,6167,1606
...,...,...,...
197,0,3831,1530
198,3,3961,1775
199,3,3184,1915
200,2,3334,1888


In [71]:
print('Correlación Pearson: ', selected['hijos'].corr(selected['gastos'], method='pearson'))
print('Correlación spearman: ', selected['hijos'].corr(selected['gastos'], method='spearman'))
print('Correlación kendall: ', selected['hijos'].corr(selected['gastos'], method='kendall'))

Correlación Pearson:  -0.013227831122921273
Correlación spearman:  -0.015689487358224386
Correlación kendall:  -0.012304208834291197


In [72]:
print('Correlación Pearson: ', selected['ingresos'].corr(selected['gastos'], method='pearson'))
print('Correlación spearman: ', selected['ingresos'].corr(selected['gastos'], method='spearman'))
print('Correlación kendall: ', selected['ingresos'].corr(selected['gastos'], method='kendall'))

Correlación Pearson:  0.3628225113311151
Correlación spearman:  0.35388389040394264
Correlación kendall:  0.24451179550071883


Una limitación de Pandas es que no calcula la significancia estadística. 

Como mencionamos antes, el coeficiente de correlación, $r$ ,es un valor sin unidades entre -1 y 1. La significancia estadística se indica con un valor $p$. Por lo tanto, usualmente las correlaciones se escriben con dos números clave: $r$ = y $p$ = .
* Cuanto más se aproxima $r$ a cero, más débil es la relación lineal.
* Los valores de $r$ positivos indican una correlación positiva, en la que los valores de ambas variables tienden a incrementarse juntos.
* Los valores de $r$ negativos indican una correlación negativa, en la que los valores de una variable tienden a incrementarse mientras que los valores de la otra variable descienden.
* Los valores 1 y -1 representan una correlación "perfecta" positiva y negativa, respectivamente. Dos variables perfectamente correlacionadas cambian conjuntamente a una tasa fija. Decimos que tienen una relación linear; cuando representados en un gráfico de dispersión, todos los puntos correspondientes a los datos pueden conectarse con una misma línea recta.
* El valor $p$ nos ayuda a determinar si podemos o no concluir de manera significativa que el coeficiente de correlación de la población es diferente a cero, basándonos en lo que observamos en la muestra.

El valor $p$ es una medida de probabilidad empleada para hacer pruebas de hipótesis. El objetivo de una prueba de hipótesis es determinar si hay evidencia suficiente para apoyar una determinada hipótesis sobre los datos. De hecho, formulamos dos hipótesis: la hipótesis nula y la hipótesis alternativa. En el análisis de correlación, usualmente, **la hipótesis nula expresa que la relación observada entre las variables es producto del mero azar** (esto es, que el coeficiente de correlación en realidad es cero y no hay una relación lineal). La **hipótesis alternativa expresa que la correlación que hemos medido está legítimamente presente en nuestros datos** (esto es, que el coeficiente de correlación es distinto a cero).

El valor $p$ es la probabilidad de observar un coeficiente de correlación distinto a cero en los datos de nuestra muestra cuando en realidad la hipótesis nula es verdadera. **Un valor p bajo nos lleva a rechazar la hipótesis nula. Un umbral típico para rechazar la hipótesis nula es un valor p de 0,05. Esto es, si el valor p es inferior a 0,05, rechazaríamos la hipótesis nula en favor de la hipótesis alternativa: que el coeficiente de correlación es diferente a cero**.

In [73]:
from scipy import stats
from scipy.stats import pearsonr

In [74]:
r, p = stats.pearsonr(selected['hijos'], selected['gastos'])
print(f"Correlación Pearson: r={r}, p-value={p}")

r, p = stats.spearmanr(selected['hijos'], selected['gastos'])
print(f"Correlación Spearman: r={r}, p-value={p}")

r, p = stats.kendalltau(selected['hijos'], selected['gastos'])
print(f"Correlación Pearson: r={r}, p-value={p}")

Correlación Pearson: r=-0.013227831122921243, p-value=0.851782736653732
Correlación Spearman: r=-0.015689487358224386, p-value=0.8246102381082991
Correlación Pearson: r=-0.012304208834291197, p-value=0.8155465256085394


In [75]:
r, p = stats.pearsonr(selected['ingresos'], selected['gastos'])
print(f"Correlación Pearson: r={r}, p-value={p}")

r, p = stats.spearmanr(selected['ingresos'], selected['gastos'])
print(f"Correlación Spearman: r={r}, p-value={p}")

r, p = stats.kendalltau(selected['ingresos'], selected['gastos'])
print(f"Correlación Pearson: r={r}, p-value={p}")

Correlación Pearson: r=0.36282251133111526, p-value=1.1167959359092352e-07
Correlación Spearman: r=0.35388389040394264, p-value=2.3840275027781308e-07
Correlación Pearson: r=0.24451179550071883, p-value=2.3905377446810804e-07


## Covarianza

La covarianza es el valor que refleja en qué cuantía dos variables aleatorias varían de forma conjunta respecto a sus medias. Nos permite saber cómo se comporta una variable en función de lo que hace otra variable. Es decir, cuando $X$ sube ¿Cómo se comporta $Y$? Así pues, la covarianza puede tomar los siguiente valores:
* Si $Covarianza(X,Y)$ es menor que cero, entonces cuando $X$ sube, $Y$ baja. Hay una relación negativa.
* Si $Covarianza(X,Y)$ es mayor que cero, entonces cuando $X$ sube, $Y$ sube. Hay una relación positiva.
* Si $Covarianza(X,Y)$ es igual a cero, no hya relación entre $X$  y $Y$.

In [82]:
selected['ingresos'].cov(selected['gastos'])

198339.7251366927