# Estadísticas de datos con Pandas

Semana Tec

Profesores: José Ignacio Treviño / Luz Eunice Angeles

In [None]:
# Si trabajamos en Google Colaboratory corremos las siguientes lineas de código
from google.colab import drive
drive.mount('/gdrive')

In [None]:
# Nos cambiamos a la carpeta donde tengamos el repositorio
%cd /gdrive/MyDrive/SemanaTec/arte-analitica

## Importar el dataset

* Vamos a importar una tabla de datos de información de un banco con respecto a créditos.

In [None]:
import numpy as np
import pandas as pd

# Importar los datos
credit = pd.read_csv('data/Credit.csv')

Las variables a considerar son las siguientes:
  * ID: identificador
  * Income: ingreso en miles de dólares
  * Limit: límite de crédito
  * Rating: calificación crediticia
  * Cards: número de tarjetas de crédito
  * Age: edad en años
  * Education: número de años de educación
  * Gender: male/female
  * Married: Yes/No. Indicador si la persona está casada.
  * Ethnicity: African American/Asian/Caucasian
  * Balance: Balance promedio en la tarjeta de crédito.

## Métodos y atributos de los datasets

* `shape`: Nos da las dimensiones (renglones y columnas) de la tabla.

In [None]:
# Imprimir las dimensiones del DF. Atributo
credit.shape

* `columns`: Regresa el nombre de las columnas.

In [None]:
# Imprimir las columnas del DF. Atributo
credit.columns

* `info()`: Nos permite ver el tipo de dato que hay en cada columna.

In [None]:
# Revisar el tipo de dato de cada columna. Método
credit.info()

* `head()`: Selecciona los primeros n renglones de la tabla.

In [None]:
# Muestra las primeras 4 líneas de la tabla
credit.head(4)

* `tail()`: Selecciona los últimos n renglones de la tabla.

In [None]:
# Muestra las últimas 6 líneas de la tabla
credit.tail(6)

La primera columna al parecer es un indicador del número de renglón, y además no tiene nombre (por eso aparece como Unnamed). Podemos eliminarla con el método `.drop()`

In [None]:
# Al usar el mismo nombre de variable, la estamos sobreescribiendo.
# Perderemos la primera columna. Si queremos conservarla, podemos usar otro nombre de variable.
credit = credit.drop('Unnamed: 0', axis=1)

## Estadísticas de variables numéricas


* `describe()`: Regresa un resumen estadístico de las columnas numéricas. Estos estadísticos son las *medidas* de **tendencia central** y de **dispersión**.

  * Las medidas de tendencia central nos dicen el valor central o promedio de una distribución de datos. Son la **media** y la **mediana**.

  * Las medidas de dispersión nos dicen la variabilidad que hay en los datos. Son la **desviación estándar**, la **varianza**, el **rango** y el **rango intercuartil**.

In [None]:
# Obtener un resumen de las columnas numéricas. Método
# Similar al summary() en R
credit.describe()

* El método **`describe`** nos ayuda a sacar estadísticas sobre todas las variables (columnas) numéricas de la tabla. Los estadísticos que obtenemos son:
  * El número de observaciones (renglones no vacíos)
  * La media y desviación estándar.
  * Los percentiles 25, 50 (mediana), 75.
  * Valores máximo y mínimo.

* Estas métricas las podemos calcular individualmente para cada columna e incluso podemos aplicarlos a un subconjunto de la tabla (aplicando filtros).

## Matriz de correlación.

* Cuando trabajamos con varias variables numéricas, nos interesa saber si hay un tipo de **relación entre ellas**. 

* Una métrica para esta relación es la **correlación de Pearson**. 

* La correlación va de `-1` a `1`. 
  * El valor de 1 significa que las dos variables tienen una *relación lineal* perfecta. Cuando una variable crece, la otra también.

  * El valor de -1 significa que las dos variables tienen una *relación lineal negativa* perfecta. Mientras una variable crece, la otra disminuye.

  * El valor de 0 significa que no hay *relación lineal* entre las variables. No significa que no haya una relación entre las variables. 

* En Pandas, podemos calcular la correlación de Pearson con el método `.corr()`

In [None]:
credit.corr()

* La matriz de correlación es **cuadrada y simétrica**, tiene el mismo número de columnas que renglones. 

* Cada celda representa la intersección de dos variables, y el contenido representa el valor de la correlación. 

* Una variable siempre tiene una correlación de 1 consigo misma.

## Estadísticas de variables categóricas

* Para las columnas que no sean numéricas, el método **`describe`** no nos brinda ningún tipo de resumen. 

* Una **variable categórica** es una variable que puede tomar uno de un número limitado, y por lo general fijo, de posibles valores. 

* Una de las principales operaciones que podemos realizar con estas variabels es contar cuántas apariciones tiene cada uno de los diferentes valores o *niveles*.

* El método `.value_counts()` cuenta el número de apariciones que tiene cada elemento distinto de una columna o una variable. 

In [None]:
# La columnas "Gender", "Student", "Married" y "Ethnicity" son cualitativas o categóricas.
credit['Gender'].value_counts()

* La mayoría de los clientes son mujeres.

* Al valor que más se repite en una columna o variable se le conoce como **moda**.

* Para obtener los distintos elementos que hay en una columna categórica utilizamos el método unique.

In [None]:
# Obtener los niveles o valores distintos de la columna quality
credit['Ethnicity'].unique()

Cuando queremos comparar el número de observaciones (renglones) entre **dos variables cualitativas**, generamos una tabla de contingencia con `pd.crosstab()`

In [None]:
# Ver cuántas personas están casadas y cuál es su género.
pd.crosstab(credit['Married'],credit['Gender'])

 ## Estadísticas y agrupaciones.
 
* Hay ocaciones en las que nos interesa obtener estadísticos para **diferentes grupos** o separaciones. 

* Retomando el ejemplo anterior, quizás nos interese conocer el nivel de alcohol promedio **dependiendo** de la calidad del vino. 

* Esto nos ayudará a comparar esta característica (nivel de alcohol) para diferentes *niveles* de una variable categórica (calidad). 

* Esto lo podemos hacer con el método `groupby()` de un data frame:

```python
df.groupby(['Variables','agrupadoras']).metrica()[['Columna calculada']]
```

In [None]:
credit.head()

In [None]:
# Calcular el límite de crédito promedio dependiendo si la persona es estudiante o no
credit.groupby('Student').mean()[['Limit']]

* Lo que va adentro del `groupby` son las columnas agrupadoras. 

* Es decir, vamos a dividir la tabla grupos definidos por la combinación de los diferentes valores de las columnas agrupadoras. Pueden ser una o varias.

* El método de *métrica* puede ser cualquiera de los estadísticos que vimos anteriormente (min, max, sum, count, mean, median, std, var).

In [None]:
# Calcular la edad máxima por grupo étnico, estado civil y género
credit.groupby(['Ethnicity','Married', 'Gender']).max()[['Age']]

 - La columna que está entre brackets es sobre la que queremos hacer la operación.

 - También puede ser más de una columna.

* También podemos calcular dos estadísticos a la vez usando el método `agg`

In [None]:
# Calcular número mínimo y máximo de tarjetas de crédito  y edad por etnicidad y género
credit.groupby(['Ethnicity', 'Gender']).agg(['min', 'max'])[['Cards', 'Age']]