# Estadística básica

In [None]:
# !pip install numpy scipy matplotlib seaborn scikit-learn -q

* Empezemos cargando `pandas` y `numpy`.

In [None]:
import pandas as pd
import numpy as np
import random

## Preparando los datos

* Vamos a cargar el archivo de datos `credit.csv`. Lo usaremos a lo largo esta actividad y lo puedes encontrar en el repositorio del curso.

In [None]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

Saving credit.csv to credit.csv
User uploaded file "credit.csv" with length 21967 bytes


* A continuación, vamos a leer el archivo y a revisar su contenido.

In [None]:
df = pd.read_csv('credit.csv')
df.head(2)

Unnamed: 0.1,Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
0,1,14.891,3606,283,2,34,11,Male,No,Yes,Caucasian,333
1,2,106.025,6645,483,3,82,15,Female,Yes,Yes,Asian,903


* Para este ejercicio, las variables que vamos a considerar son las siguientes:
  ID: identificador
  * **Income**: Ingreso en miles de dólares.
  * **Limit**: Límite de crédito.
  * **Rating**: Calificación crediticia.
  * **Cards**: Número de tarjetas de crédito.
  * **Age**: Edad en años.
  * **Education**: Número de años de educación.
  * **Gender**: Male/Female.
  * **Married**: Yes/No. Indicador si la persona está casada.
  * **Ethnicity**: African American/Asian/Caucasian.
  * **Balance**: Balance promedio en la tarjeta de crédito.

### Revisando el conjunto de datos

* `shape`nos permite conocer las dimensiones del `DataFrame` (renglones y columnas).

In [None]:
df.shape

(400, 12)

* `info` nos permite conocer el tipo de dato de cada columna. También nos indica cuantos reglones, por columna, tiene algún valor nulo (o faltante).

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  400 non-null    int64  
 1   Income      400 non-null    float64
 2   Limit       400 non-null    int64  
 3   Rating      400 non-null    int64  
 4   Cards       400 non-null    int64  
 5   Age         400 non-null    int64  
 6   Education   400 non-null    int64  
 7   Gender      400 non-null    object 
 8   Student     400 non-null    object 
 9   Married     400 non-null    object 
 10  Ethnicity   400 non-null    object 
 11  Balance     400 non-null    int64  
dtypes: float64(1), int64(7), object(4)
memory usage: 37.6+ KB


* `colums`nos muestra los índices de las columnas.

In [None]:
df.columns

Index(['Unnamed: 0', 'Income', 'Limit', 'Rating', 'Cards', 'Age', 'Education',
       'Gender', 'Student', 'Married', 'Ethnicity', 'Balance'],
      dtype='object')

* Como puedes observar, la primera columna es un indicador del número de renglón, y además no tiene nombre, así que la eliminaremos.

In [None]:
df = df.drop('Unnamed: 0', axis=1)
df.head(2)

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
0,14.891,3606,283,2,34,11,Male,No,Yes,Caucasian,333
1,106.025,6645,483,3,82,15,Female,Yes,Yes,Asian,903


In [None]:
df.describe()

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Balance
count,400.0,400.0,400.0,400.0,400.0,400.0,400.0
mean,45.218885,4735.6,354.94,2.9575,55.6675,13.45,520.015
std,35.244273,2308.198848,154.724143,1.371275,17.249807,3.125207,459.758877
min,10.354,855.0,93.0,1.0,23.0,5.0,0.0
25%,21.00725,3088.0,247.25,2.0,41.75,11.0,68.75
50%,33.1155,4622.5,344.0,3.0,56.0,14.0,459.5
75%,57.47075,5872.75,437.25,4.0,70.0,16.0,863.0
max,186.634,13913.0,982.0,9.0,98.0,20.0,1999.0


### Más filtros

In [None]:
more_than_4 = df[df['Cards'] > 4]
more_than_4.head(4)

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
8,15.125,3300,266,5,66,13,Female,No,No,Caucasian,279
23,64.027,5179,398,5,48,8,Male,No,Yes,African American,411
25,14.09,4323,326,5,25,16,Female,No,Yes,African American,671
26,42.471,3625,289,6,44,12,Female,Yes,No,Caucasian,654


In [None]:
double_filter = df[(df['Cards'] > 4) & (df['Income'] < 15.000)]
double_filter.head(4)

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
25,14.09,4323,326,5,25,16,Female,No,Yes,African American,671
95,14.084,855,120,5,46,17,Female,No,Yes,African American,0
109,13.561,3261,279,5,37,19,Male,No,Yes,Asian,297
131,10.726,1568,162,5,46,19,Male,No,Yes,Asian,0


## Medidas de tendencia central

A primera vista, resumir los datos puede parecer bastante fácil: calculamos la media de los datos y listo. De hecho, si bien la media es fácil de calcular y conveniente de usar, es posible que no siempre sea la mejor medida para un valor central. Por esta razón, los estadísticos han desarrollado varias estimaciones alternativas a la media.

### Media

La estimación más básica de cómo están conformados los datos es el valor medio, media o promedio. La media es la suma de todos los valores dividida por el número de valores. Considera el siguiente conjunto de números: [3, 3, 1, 2]. La media es (3 + 5 + 1 + 2) / 4 = 11 / 4 = 2.75. El símbolo  $\bar{x}$ representa la media de la muestra de una población (se pronuncia x-bar). La fórmula para calcula la media de una conjunto de N valores ($x_1$,$x_2$,...,$x_N$) es:

Media = $\bar{x}$ = $\frac{\sum_{i=1}^{N}x_i}{N}$

In [None]:
print('Media: ', df['Income'].mean())

Media:  45.218885000000036


### Media recortada

Una variación de la media es la media recortada, la cual es calculada después de eliminar los extremos de un conjunto de valores ordenados y luego calculamos el promedio de los valores restantes. De un conjunto de valores ordenados ($x_1$, $x_2$,...,$x_N$) donde $x_1$ es el valor más pequeño y $x_N$ es el valor más grande, la fórmula para calcular la media recortada con los p valores más pequeños y más grandes omitidos es:

Media recortada = $\bar{x}$ = $\frac{\sum_{i=p + 1}^{N - p}x_i}{N - 2p}$

La media recortada elimina la influencia de valores extremos. Por ejemplo, la puntuación de los concursos internacionales de clavados se obtiene eliminando la puntuación máxima y mínima de los jueces y calculando el promedio de las puntuaciones restantes. Esto imposibilita que un solo juez manipule la puntuación, quizás para favorecer al competidor de su país. Las medias recortadas se utilizan ampliamente y, en muchos casos, es preferible utilizarlas en lugar de la media ordinaria.

In [None]:
sorted = df['Income'].sort_values()
sorted

58      10.354
250     10.363
199     10.403
235     10.503
262     10.588
        ...   
275    163.329
261    180.379
355    180.682
323    182.728
28     186.634
Name: Income, Length: 400, dtype: float64

In [None]:
sorted = sorted.reset_index(drop = True)
sorted

0       10.354
1       10.363
2       10.403
3       10.503
4       10.588
        ...   
395    163.329
396    180.379
397    180.682
398    182.728
399    186.634
Name: Income, Length: 400, dtype: float64

In [None]:
p = 5
acum = 0
for i in range(p, len(sorted) - p):
    acum += sorted[i]
croppedMean =  acum / (len(sorted) - (2 * p))
print('Media recortada: ', croppedMean)

Media recortada:  43.95279743589744


In [None]:
p = 5
acum = sum(sorted.values.flatten()[p:len(df['Income'])-p])
croppedMean = acum / (len(sorted) - (2 * p))
print('Media recortada: ', croppedMean)

Media recortada:  43.95279743589744


### Media ponderada

Otro tipo de media es la media ponderada, que se calcula multiplicando cada valor $x_i$ por un peso $w_i$ y dividiendo la suma por la suma de los pesos. La fórmula para una media ponderada es:

Media ponderada = $\bar{x_{w}}$ = $\frac{\sum_{i=1}^{N}w_{i}x_{i}}{\sum_{i=1}^{N}w_{i}}$

Hay dos razones principales para usar una media ponderada:
* Algunos valores son intrínsecamente más variables que otro, y las observaciones muy variables reciben un peso menor. Por ejemplo, si tomamos el promedio de varios sensores y uno de los sensores es menos preciso, entonces podríamos reducir el peso de ese sensor.
*  Los datos recopiladores no representan igualmente a los diferentes grupos que nos interesa medir. Por ejemplo, debido a la forma en que se realizó un experimente en línea, es posible que no tengamos un conjunto de datos que refleje con precisión todos los grupos de usuarios. Para corregir eso, podemos dar un mayor peso a los valores de los grupos que estaban subrepresentados.

In [None]:
weights = [random.random() for i in range(len(df['Income']))]
print(weights)

[0.2235604123103665, 0.061493836459683315, 0.34512349617359384, 0.42114955296236356, 0.3107536599314683, 0.9365905910784965, 0.503591336926702, 0.1383270304505173, 0.880370718704655, 0.2981946695162151, 0.8489383241427275, 0.2546908498347944, 0.8338887252532061, 0.5715762813966778, 0.10386893282812049, 0.3140209775161801, 0.8130397715213692, 0.7588328740792023, 0.108229245453348, 0.05604104323674308, 0.5533514660966966, 0.17890183555064687, 0.6099628171038097, 0.9661789717422661, 0.44541516832975414, 0.8772202211165665, 0.6807918616677575, 0.5364051501229161, 0.6967085745340843, 0.6485066434229598, 0.42614861854666686, 0.1203932308921869, 0.3385182035873677, 0.33908432964152013, 0.00786234121605367, 0.09664225325406306, 0.4416662641922603, 0.9830459507311142, 0.9183389606280381, 0.989165905563556, 0.7095048178307851, 0.8970295884325952, 0.2014793216172961, 0.6725356046315971, 0.9932796021135639, 0.6143580406040384, 0.2742556623387664, 0.8649361646279259, 0.9226746383418517, 0.582944423

In [None]:
accWeightedValues = df['Income'].values.flatten().dot(weights)
weightedMean = accWeightedValues / sum(weights)
print('Media ponderada: ', weightedMean)

Media ponderada:  46.97336054264544


### Moda

La moda es el valor con mayor frecuencia en la distribución de datos. Si tomamos como ejemplo una muestra compuesta de los siguientes 5 números: 3, 8, 2, 8, 1; el valor modal es 8, ya que se es el que se repite la mayor cantidad de veces. La moda sirve para definir lo más común, lo que más se usa o lo que es más frecuente, en términos matemáticos, el valor de mayor frecuencia absoluta.

In [None]:
moda = pd.Series(df['Income'].values.flatten()).mode()[0]
print('Moda: ', moda)

Moda:  23.793


### Mediana

La mediana es el número del medio de una lista de datos ordenada. Si hay un número par de valores de datos, el valor medio es uno que no está realmente en el conjunto de datos, sino que es el promedio de los dos valores que dividen los datos ordenados en dos mitades. En comparación con la media, que usa todas las observaciones, la mediana solo depende de los valores en el centro de los datos ordenados. Si bien, esto puede parecer una desventaja, dado que la media es mucho más sensible a los datos, hay muchos casos en los que la mediana es una mejor métrica para la ubicación. Supongamos que queremos analizar los ingresos familiares típicos en los vecindarios de una zona. Al comparar un vecindario de ingresos altos con un vecindario de ingresos bajos, usar la media producirá resultados muy diferentes. Si usamos la mediana, no importa cuán rico sean los que vivan en un vecindario; la posición de la observación intermedia seguirá siendo la misma.

In [None]:
print('Mediana:', df['Income'].median())

Mediana: 33.1155


Por las mismas razones por las que usamos una media ponderada, también es posible calcular una mediana ponderada. Al igual que con la mediana, primero ordenamos los datos, aunque cada valor de datos tiene un peso asociado. En lugar de tomar el número del medio, la mediana pondera es el valor tal que la suma de los pesos es igual para ambas mitades de la lista ordenada. Como la mediana, la mediana ponderada es robusta a los valores atípicos (outliners).

### Valores atípicos

La mediana no es la única estimación sólida de la ubicación. De hecho, una media recortada se usa ampliamente para evitar la influencia de valores atípicos. Por ejemplo, recortar el 10% inferior y superior (una estrategia muy usada) de los datos proporcionará protección contra valores atípicos en todos los conjuntos de datos, excepto en los más pequeños. Se puede pensar en la media recortada como un compromiso entre la media y la mediana: es robusta a los valores extremos en los datos, pero utiliza más datos para calcular la estimación de la ubicación.

### Desviación estándar

La ubicación es solo una dimensión para resumir una característica. Una segunda dimensión, la variabilidad, también conocida como dispersión, mide que tan agrupados o dispersos están los datos. La variabilidad es un concepto muy importante a tener en cuenta: hay que medirla, reducirla, distinguir en la variabilidad aleatoria y la real, identificar las diversas fuentes de variabilidad real y tomar decisiones sobre ella. Asi como existen diferentes formas de medir la ubicación (media, mediana, etc.) también existen diferente formas de medir la variabilidad.

Las estimaciones de variación más utilizadas se basan en las diferencia entre la media (una estimación de ubicación) y los datos observados. Para un conjunto de datos, [1, 4, 4], la media es 3 y la mediana es 4. Las desviaciones de la media son las diferencias (1 - 3 = -2, 4 - 3 = 1, 4 - 3 = 1). Estas desviaciones nos dicen qué tan dispersos están los datos alrededor del valor central.

Las estimaciones de variabilidad más conocidas son la varianza y la desviación estándar, que se basan en desviaciones cuadradas. La varianza es un promedio de las desviaciones cuadradas y la desviación estándar es la raíz cuadrada de la varianza.

Varianza = $s^{2}$ = $\frac{\sum_{i=1}^{N}(x_{i} - \bar{x})^{2} }{N - 1}$

Desviación estándar = $\sqrt{Varianza}$

In [None]:
print('Varianza: ', df['Income'].var())

Varianza:  1242.1587909341097


In [None]:
print('Desviación estándar: ', df['Income'].std())

Desviación estándar:  35.24427316507052


### Desviación absoluta mediana

Promediar las desviaciones en sí no nos diría mucho: las desviaciones negativas compensan las positivas. De hecho, la suma de las desviaciones de la media es exactamente cero. En cambio, un enfoque simple es tomar el promedio de los valores absolutos de las desviaciones de la media. En el ejemplo anterior, el valor absoluto de las desviaciones es [2, 1, 1] y su promedio es (2 + 1+ 1) / 3 = 1.33. Esta se conoce como la desviación absoluta media y se calcula mediante la fórmula:

Desviación absoluta mediana = $Mediana(\left | x_{1} - m \right |, \left | x_{2} - m \right |, ..., \left | x_{N} - m \right |)$

La desviación estándar es mucho más fácil de interpretar que la varianza, ya que está en la misma escala que los datos originales. Aun así, con su fórmula más complicada y menos intuitiva, puede parecer extraño que en las estadísticas se prefiera la desviación estándar a la desviación media absoluta. Su preferencia se debe a que, matemáticamente, trabajar con valores cuadrados es mucho más conveniente que con valores absolutos, especialmente para modelos estadísticos.

In [None]:
dam = pd.Series(df['Income'].values.flatten()).mad()
print('Desviación absoluta media: ', dam)

Desviación absoluta media:  26.132287050000013


### Estimaciones basadas en percentiles

Un enfoque diferente que se puede emplear para estimar la dispersión se basa en observar la separación de los datos clasificados. Las estadísticas basadas en datos ordenados, o clasificados, se denominan estadísticas de orden. La medida más básica es el rango: la diferencia entre el número más grande y el más pequeño. Es útil conocer los valores mínimos y máximos en sí mismos y para identificar los valores atípicos, pero el rango es extremadamente sensible a los valores atípicos y no es muy útil como medida general de dispersión.

Para evitar la sensibilidad a valores atípicos, podemos mirar el rango de los datos después de eliminar los valores de cada extremo. Formalmente, este tipo de estimaciones se basan en diferencias entre percentiles. En un conjunto de datos, el $n$-ésimo percentil es un valor tal que, al menos, el $n$ por ciento de los valores toman este valor o menos $(100 - n)$ por ciento de los valores toman este valor o más. Por ejemplo, si queremos conocer el percentil 80, ordenamos los dartos. Luego, comenzando con el valor más pequeño, continuamos el 80 por ciento del camino hasta el valor más grande. Ten en cuenta que la mediana es lo mismo que el percentil 50. El percentil es, esencialmente, lo mismo que un cuantil, con cuantiles indexados por fracciones (el cuantil .8 es el percentil 80).

Una medida común de variabilidad es la diferencia entre el percentil 25 y el percentil 75, también llamado rango intercuartílico (o IQR). Por ejemplo, queremos conocer el IQR del conjunto de datos [3, 1, 5, 3, 6, 7, 2, 9]. Ordenamos los datos para obtener [1, 2, 3, 3, 5, 6, 7, 9]. El percentil 25 está en 2.5, el percentil 75 está en 6.5, por lo que el rango intercuartílico es 6.5 - 2.5 = 4.

In [None]:
df['Income'].quantile([0.25,0.50, 0.75])

0.25    21.00725
0.50    33.11550
0.75    57.47075
Name: Income, dtype: float64

### Correlación

El coeficiente de correlación da una estimación de la relación entre dos variables. El coeficiente de correlación de Pearson se calcular multiplicando las desviaciones de la media de la variable 1 por las de la variable 2, dividiendo por el producto de las desviaciones estándar:

$r(x,y)$ = $\frac{\sum_{i=1}^{N}(x_{i} - \bar{x})(y_{i} - \bar{y})}{(N - 1)s_{x}s_{y}}$

La correlación puede oscilar entre -1 y 1. Valores cercanos a 1, indican que existe una relación más cercana entre las dos variables; valores negativos cercanos a -1 indican una relación inversa. Por último, valores cercanos a 0, significan que no hay relación. Hay que recordar que "correlación no significa causalidad". En otras palabras, el hecho de que dos variables estén correlacionadas no significa que se afecten entre sí.

In [None]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
0,1,14.891,3606,283,2,34,11,Male,No,Yes,Caucasian,333
1,2,106.025,6645,483,3,82,15,Female,Yes,Yes,Asian,903
2,3,104.593,7075,514,4,71,11,Male,No,No,Asian,580
3,4,148.924,9504,681,3,36,11,Female,No,No,Asian,964
4,5,55.882,4897,357,2,68,16,Male,No,Yes,Caucasian,331


In [None]:
df.corr()

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Balance
Income,1.0,0.792088,0.791378,-0.018273,0.175338,-0.027692,0.463656
Limit,0.792088,1.0,0.99688,0.010231,0.100888,-0.023549,0.861697
Rating,0.791378,0.99688,1.0,0.053239,0.103165,-0.030136,0.863625
Cards,-0.018273,0.010231,0.053239,1.0,0.042948,-0.051084,0.086456
Age,0.175338,0.100888,0.103165,0.042948,1.0,0.003619,0.001835
Education,-0.027692,-0.023549,-0.030136,-0.051084,0.003619,1.0,-0.008062
Balance,0.463656,0.861697,0.863625,0.086456,0.001835,-0.008062,1.0


In [None]:
selected = df[['Income', 'Limit', 'Age']]
selected.head(5)

Unnamed: 0,Income,Limit,Age
0,14.891,3606,34
1,106.025,6645,82
2,104.593,7075,71
3,148.924,9504,36
4,55.882,4897,68


In [None]:
print('Correlación Pearson: ', selected['Income'].corr(selected['Limit'], method='pearson'))
print('Correlación spearman: ', selected['Income'].corr(selected['Limit'], method='spearman'))
print('Correlación kendall: ', selected['Income'].corr(selected['Limit'], method='kendall'))

Correlación Pearson:  0.7920883413369417
Correlación spearman:  0.6574112277463957
Correlación kendall:  0.4773601707879722


In [None]:
print('Correlación Pearson: ', selected['Income'].corr(selected['Age'], method='pearson'))
print('Correlación spearman: ', selected['Income'].corr(selected['Age'], method='spearman'))
print('Correlación kendall: ', selected['Income'].corr(selected['Age'], method='kendall'))

Correlación Pearson:  0.17533840304718862
Correlación spearman:  0.1478919926211158
Correlación kendall:  0.09854982944108391


Una limitación de Pandas es que no calcula la significancia estadística.

Como mencionamos antes, el coeficiente de correlación, $r$ ,es un valor sin unidades entre -1 y 1. La significancia estadística se indica con un valor $p$. Por lo tanto, usualmente las correlaciones se escriben con dos números clave: $r$ = y $p$ = .
* Cuanto más se aproxima $r$ a cero, más débil es la relación lineal.
* Los valores de $r$ positivos indican una correlación positiva, en la que los valores de ambas variables tienden a incrementarse juntos.
* Los valores de $r$ negativos indican una correlación negativa, en la que los valores de una variable tienden a incrementarse mientras que los valores de la otra variable descienden.
* Los valores 1 y -1 representan una correlación "perfecta" positiva y negativa, respectivamente. Dos variables perfectamente correlacionadas cambian conjuntamente a una tasa fija. Decimos que tienen una relación linear; cuando representados en un gráfico de dispersión, todos los puntos correspondientes a los datos pueden conectarse con una misma línea recta.
* El valor $p$ nos ayuda a determinar si podemos o no concluir de manera significativa que el coeficiente de correlación de la población es diferente a cero, basándonos en lo que observamos en la muestra.

El valor $p$ es una medida de probabilidad empleada para hacer pruebas de hipótesis. El objetivo de una prueba de hipótesis es determinar si hay evidencia suficiente para apoyar una determinada hipótesis sobre los datos. De hecho, formulamos dos hipótesis: la hipótesis nula y la hipótesis alternativa. En el análisis de correlación, usualmente, **la hipótesis nula expresa que la relación observada entre las variables es producto del mero azar** (esto es, que el coeficiente de correlación en realidad es cero y no hay una relación lineal). La **hipótesis alternativa expresa que la correlación que hemos medido está legítimamente presente en nuestros datos** (esto es, que el coeficiente de correlación es distinto a cero).

El valor $p$ es la probabilidad de observar un coeficiente de correlación distinto a cero en los datos de nuestra muestra cuando en realidad la hipótesis nula es verdadera. **Un valor p bajo nos lleva a rechazar la hipótesis nula. Un umbral típico para rechazar la hipótesis nula es un valor p de 0,05. Esto es, si el valor p es inferior a 0,05, rechazaríamos la hipótesis nula en favor de la hipótesis alternativa: que el coeficiente de correlación es diferente a cero**.

In [None]:
from scipy import stats
from scipy.stats import pearsonr

In [None]:
r, p = stats.pearsonr(selected['Income'], selected['Limit'])
print(f"Correlación Pearson: r={r}, p-value={p}")

r, p = stats.spearmanr(selected['Income'], selected['Limit'])
print(f"Correlación Spearman: r={r}, p-value={p}")

r, p = stats.kendalltau(selected['Income'], selected['Limit'])
print(f"Correlación Pearson: r={r}, p-value={p}")

Correlación Pearson: r=0.7920883413369415, p-value=2.3917894422844805e-87
Correlación Spearman: r=0.6574112277463957, p-value=7.39521257865891e-51
Correlación Pearson: r=0.4773601707879722, p-value=4.045409395333521e-46


In [None]:
r, p = stats.pearsonr(selected['Income'], selected['Age'])
print(f"Correlación Pearson: r={r}, p-value={p}")

r, p = stats.spearmanr(selected['Income'], selected['Age'])
print(f"Correlación Spearman: r={r}, p-value={p}")

r, p = stats.kendalltau(selected['Income'], selected['Age'])
print(f"Correlación Pearson: r={r}, p-value={p}")

Correlación Pearson: r=0.1753384030471885, p-value=0.0004264908512442499
Correlación Spearman: r=0.1478919926211158, p-value=0.0030277791482324562
Correlación Pearson: r=0.09854982944108391, p-value=0.0034938967852514305


### Covarianza

La covarianza es el valor que refleja en qué cuantía dos variables aleatorias varían de forma conjunta respecto a sus medias. Nos permite saber cómo se comporta una variable en función de lo que hace otra variable. Es decir, cuando $X$ sube ¿Cómo se comporta $Y$? Así pues, la covarianza puede tomar los siguiente valores:
* Si $Covarianza(X,Y)$ es menor que cero, entonces cuando $X$ sube, $Y$ baja. Hay una relación negativa.
* Si $Covarianza(X,Y)$ es mayor que cero, entonces cuando $X$ sube, $Y$ sube. Hay una relación positiva.
* Si $Covarianza(X,Y)$ es igual a cero, no hya relación entre $X$  y $Y$.

In [None]:
selected['Income'].cov(selected['Limit'])

64437.012873684216

## Estadísticas de variables categóricas

Para las columnas que no sean numéricas, el método **`describe`** no nos brinda ningún tipo de resumen. Cono recordaremos, una **variable categórica** es una variable que puede tomar uno de un número limitado, y por lo general fijo, de posibles valores.

Una de las principales operaciones que podemos realizar con estas variables es contar cuántas apariciones tiene cada uno de los diferentes valores o *niveles*. El método `.value_counts()` cuenta el número de apariciones que tiene cada elemento distinto de una columna o una variable.

In [None]:
df['Gender'].value_counts()

Female    207
Male      193
Name: Gender, dtype: int64

In [None]:
df['Student'].value_counts()

No     360
Yes     40
Name: Student, dtype: int64

Para obtener los distintos elementos que hay en una columna categórica utilizamos el método unique.

In [None]:
df['Ethnicity'].unique()

array(['Caucasian', 'Asian', 'African American'], dtype=object)

In [None]:
np.sort(df['Ethnicity'].unique())

array(['African American', 'Asian', 'Caucasian'], dtype=object)

Cuando queremos comparar el número de observaciones (renglones) entre **dos variables cualitativas**, generamos una tabla de contingencia con `pd.crosstab()`

In [None]:
pd.crosstab(df['Married'], df['Gender'])

Gender,Female,Male
Married,Unnamed: 1_level_1,Unnamed: 2_level_1
No,79,76
Yes,128,117


## Estadísticas y agrupaciones

Hay ocaciones en las que nos interesa obtener estadísticos para **diferentes grupos** o separaciones. Retomando el ejemplo anterior, quizás nos interese conocer límite de crédito promedio **dependiendo** si la persona es estudiante o no. Esto nos ayudará a comparar esta característica (límite de crédito) para diferentes *niveles* de una variable categórica (estudiante). Esto lo podemos hacer con el método `groupby()` de un data frame:

```python
df.groupby(['Variables','agrupadoras']).metrica()[['Columna calculada']]
```

In [None]:
df.groupby('Student').mean()[['Limit']]

Unnamed: 0_level_0,Limit
Student,Unnamed: 1_level_1
No,4740.222222
Yes,4694.0


Lo que va adentro del `groupby` son las columnas agrupadoras. Es decir, vamos a dividir la tabla grupos definidos por la combinación de los diferentes valores de las columnas agrupadoras. Puede ser una o varias.

In [None]:
df.groupby(['Ethnicity', 'Student']).mean()[['Income']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Income
Ethnicity,Student,Unnamed: 2_level_1
African American,No,46.639685
African American,Yes,56.9596
Asian,No,43.384326
Asian,Yes,49.688769
Caucasian,No,44.965577
Caucasian,Yes,39.772471


El método de *métrica* puede ser cualquiera de los estadísticos que vimos anteriormente (min, max, sum, count, mean, median, std, var).

In [None]:
# Calcular la edad máxima por grupo étnico, estado civil y género
df.groupby(['Ethnicity','Married', 'Gender']).max()[['Age']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Age
Ethnicity,Married,Gender,Unnamed: 3_level_1
African American,No,Female,84
African American,No,Male,89
African American,Yes,Female,91
African American,Yes,Male,81
Asian,No,Female,71
Asian,No,Male,87
Asian,Yes,Female,83
Asian,Yes,Male,78
Caucasian,No,Female,84
Caucasian,No,Male,83


In [None]:
# Determinar cuántos clientes por género existen y si son estudiantes o no.
# IMPORTANTE: Cuando queremos contar, no importa cuál columna seleccionemos para
# calcular. Sólo tenemos que tener cuidado que que no tenga CELDAS VACÍAS.
df.groupby(['Gender', 'Student']).count()[['Balance']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Balance
Gender,Student,Unnamed: 2_level_1
Female,No,183
Female,Yes,24
Male,No,177
Male,Yes,16


In [None]:
# Calcular la calificación crediticia y límite promedios por etnicidad y estado
# civil
df.groupby(['Ethnicity', 'Married']).mean()[['Rating', 'Limit']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Rating,Limit
Ethnicity,Married,Unnamed: 2_level_1,Unnamed: 3_level_1
African American,No,366.914894,4935.404255
African American,Yes,363.403846,4832.961538
Asian,No,345.46875,4625.25
Asian,Yes,345.414286,4599.857143
Caucasian,No,336.960526,4474.342105
Caucasian,Yes,365.780488,4885.479675


In [None]:
# Calcular el número mínimo y máximo de tarjetas de crédito  y edad por
# etnicidad y género
df.groupby(['Ethnicity', 'Gender']).agg(['min', 'max'])[['Cards', 'Age']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Cards,Cards,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,min,max
Ethnicity,Gender,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
African American,Female,1,5,25,91
African American,Male,1,7,26,89
Asian,Female,1,7,24,83
Asian,Male,1,7,24,87
Caucasian,Female,1,7,23,86
Caucasian,Male,1,9,25,98
