# Estadísticas de datos con Pandas

Semana Tec

Profesores: José Ignacio Treviño / Luz Eunice Angeles

In [1]:
# Si trabajamos en Google Colaboratory corremos las siguientes lineas de código
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [2]:
# Nos cambiamos a la carpeta donde tengamos el repositorio
%cd /gdrive/MyDrive/SemanaTec/arte-analitica

/gdrive/MyDrive/SemanaTec/arte-analitica


## Importar el dataset

* Vamos a importar una tabla de datos de información de un banco con respecto a créditos.

In [3]:
import numpy as np
import pandas as pd

# Importar los datos
credit = pd.read_csv('data/Credit.csv')

Las variables a considerar son las siguientes:
  * ID: identificador
  * Income: ingreso en miles de dólares
  * Limit: límite de crédito
  * Rating: calificación crediticia
  * Cards: número de tarjetas de crédito
  * Age: edad en años
  * Education: número de años de educación
  * Gender: male/female
  * Married: Yes/No. Indicador si la persona está casada.
  * Ethnicity: African American/Asian/Caucasian
  * Balance: Balance promedio en la tarjeta de crédito.

## Métodos y atributos de los datasets

* `shape`: Nos da las dimensiones (renglones y columnas) de la tabla.

In [4]:
# Imprimir las dimensiones del DF. Atributo
credit.shape

(400, 12)

* `columns`: Regresa el nombre de las columnas.

In [5]:
# Imprimir las columnas del DF. Atributo
credit.columns

Index(['Unnamed: 0', 'Income', 'Limit', 'Rating', 'Cards', 'Age', 'Education',
       'Gender', 'Student', 'Married', 'Ethnicity', 'Balance'],
      dtype='object')

* `info()`: Nos permite ver el tipo de dato que hay en cada columna.

In [6]:
# Revisar el tipo de dato de cada columna. Método
credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  400 non-null    int64  
 1   Income      400 non-null    float64
 2   Limit       400 non-null    int64  
 3   Rating      400 non-null    int64  
 4   Cards       400 non-null    int64  
 5   Age         400 non-null    int64  
 6   Education   400 non-null    int64  
 7   Gender      400 non-null    object 
 8   Student     400 non-null    object 
 9   Married     400 non-null    object 
 10  Ethnicity   400 non-null    object 
 11  Balance     400 non-null    int64  
dtypes: float64(1), int64(7), object(4)
memory usage: 37.6+ KB


* `head()`: Selecciona los primeros n renglones de la tabla.

In [7]:
# Muestra las primeras 4 líneas de la tabla
credit.head(4)

Unnamed: 0.1,Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
0,1,14.891,3606,283,2,34,11,Male,No,Yes,Caucasian,333
1,2,106.025,6645,483,3,82,15,Female,Yes,Yes,Asian,903
2,3,104.593,7075,514,4,71,11,Male,No,No,Asian,580
3,4,148.924,9504,681,3,36,11,Female,No,No,Asian,964


* `head()`: Selecciona los últimos n renglones de la tabla.

In [8]:
# Muestra las últimas 6 líneas de la tabla
credit.tail(6)

Unnamed: 0.1,Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
394,395,49.794,5758,410,4,40,8,Male,No,No,Caucasian,734
395,396,12.096,4100,307,3,32,13,Male,No,Yes,Caucasian,560
396,397,13.364,3838,296,5,65,17,Male,No,No,African American,480
397,398,57.872,4171,321,5,67,12,Female,No,Yes,Caucasian,138
398,399,37.728,2525,192,1,44,13,Male,No,Yes,Caucasian,0
399,400,18.701,5524,415,5,64,7,Female,No,No,Asian,966


La primera columna al parecer es un indicador del número de renglón, y además no tiene nombre (por eso aparece como Unnamed). Podemos eliminarla con el método `.drop()`

In [9]:
# Al usar el mismo nombre de variable, la estamos sobreescribiendo.
# Perderemos la primera columna. Si queremos conservarla, podemos usar otro nombre de variable.
credit = credit.drop('Unnamed: 0', axis=1)

## Estadísticas de variables numéricas


* `describe()`: Regresa un resumen estadístico de las columnas numéricas. Estos estadísticos son las *medidas* de **tendencia central** y de **dispersión**.

  * Las medidas de tendencia central nos dicen el valor central o promedio de una distribución de datos. Son la **media** y la **mediana**.

  * Las medidas de dispersión nos dicen la variabilidad que hay en los datos. Son la **desviación estándar**, la **varianza**, el **rango** y el **rango intercuartil**.

In [10]:
# Obtener un resumen de las columnas numéricas. Método
# Similar al summary() en R
credit.describe()

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Balance
count,400.0,400.0,400.0,400.0,400.0,400.0,400.0
mean,45.218885,4735.6,354.94,2.9575,55.6675,13.45,520.015
std,35.244273,2308.198848,154.724143,1.371275,17.249807,3.125207,459.758877
min,10.354,855.0,93.0,1.0,23.0,5.0,0.0
25%,21.00725,3088.0,247.25,2.0,41.75,11.0,68.75
50%,33.1155,4622.5,344.0,3.0,56.0,14.0,459.5
75%,57.47075,5872.75,437.25,4.0,70.0,16.0,863.0
max,186.634,13913.0,982.0,9.0,98.0,20.0,1999.0


* El método **`describe`** nos ayuda a sacar estadísticas sobre todas las variables (columnas) numéricas de la tabla. Los estadísticos que obtenemos son:
  * El número de observaciones (renglones no vacíos)
  * La media y desviación estándar.
  * Los percentiles 25, 50 (mediana), 75.
  * Valores máximo y mínimo.

* Estas métricas las podemos calcular individualmente para cada columna e incluso podemos aplicarlos a un subconjunto de la tabla (aplicando filtros).

## Matriz de correlación.

* Cuando trabajamos con varias variables numéricas, nos interesa saber si hay un tipo de **relación entre ellas**. 

* Una métrica para esta relación es la **correlación de Pearson**. 

* La correlación va de `-1` a `1`. 
  * El valor de 1 significa que las dos variables tienen una *relación lineal* perfecta. Cuando una variable crece, la otra también.

  * El valor de -1 significa que las dos variables tienen una *relación lineal negativa* perfecta. Mientras una variable crece, la otra disminuye.

  * El valor de 0 significa que no hay *relación lineal* entre las variables. No significa que no haya una relación entre las variables. 

* En Pandas, podemos calcular la correlación de Pearson con el método `.corr()`

In [11]:
credit.corr()

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Balance
Income,1.0,0.792088,0.791378,-0.018273,0.175338,-0.027692,0.463656
Limit,0.792088,1.0,0.99688,0.010231,0.100888,-0.023549,0.861697
Rating,0.791378,0.99688,1.0,0.053239,0.103165,-0.030136,0.863625
Cards,-0.018273,0.010231,0.053239,1.0,0.042948,-0.051084,0.086456
Age,0.175338,0.100888,0.103165,0.042948,1.0,0.003619,0.001835
Education,-0.027692,-0.023549,-0.030136,-0.051084,0.003619,1.0,-0.008062
Balance,0.463656,0.861697,0.863625,0.086456,0.001835,-0.008062,1.0


* La matriz de correlación es **cuadrada y simétrica**, tiene el mismo número de columnas que renglones. 

* Cada celda representa la intersección de dos variables, y el contenido representa el valor de la correlación. 

* Una variable siempre tiene una correlación de 1 consigo misma.

## Estadísticas de variables categóricas

* Para las columnas que no sean numéricas, el método **`describe`** no nos brinda ningún tipo de resumen. 

* Una **variable categórica** es una variable que puede tomar uno de un número limitado, y por lo general fijo, de posibles valores. 

* Una de las principales operaciones que podemos realizar con estas variabels es contar cuántas apariciones tiene cada uno de los diferentes valores o *niveles*.

* El método `.value_counts()` cuenta el número de apariciones que tiene cada elemento distinto de una columna o una variable. 

In [12]:
# La columnas "Gender", "Student", "Married" y "Ethnicity" son cualitativas o categóricas.
credit['Gender'].value_counts()

Female    207
Male      193
Name: Gender, dtype: int64

In [13]:
credit['Student'].value_counts()

No     360
Yes     40
Name: Student, dtype: int64

* La mayoría de los clientes son mujeres.

* Al valor que más se repite en una columna o variable se le conoce como **moda**.

* Para obtener los distintos elementos que hay en una columna categórica utilizamos el método unique.

In [14]:
# Obtener los niveles o valores distintos de la columna quality
credit['Ethnicity'].unique()

array(['Caucasian', 'Asian', 'African American'], dtype=object)

In [15]:
# Si los queremos ordenados, podemos agregar usar la función sort de numpy
np.sort(credit['Ethnicity'].unique())

array(['African American', 'Asian', 'Caucasian'], dtype=object)

Cuando queremos comparar el número de observaciones (renglones) entre **dos variables cualitativas**, generamos una tabla de contingencia con `pd.crosstab()`

In [17]:
# Ver cuántas personas están casadas y cuál es su género.
pd.crosstab(credit['Married'],credit['Ethnicity'])

Ethnicity,African American,Asian,Caucasian
Married,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
No,47,32,76
Yes,52,70,123


 ## Estadísticas y agrupaciones.
 
* Hay ocaciones en las que nos interesa obtener estadísticos para **diferentes grupos** o separaciones. 

* Retomando el ejemplo anterior, quizás nos interese conocer el nivel de alcohol promedio **dependiendo** de la calidad del vino. 

* Esto nos ayudará a comparar esta característica (nivel de alcohol) para diferentes *niveles* de una variable categórica (calidad). 

* Esto lo podemos hacer con el método `groupby()` de un data frame:

```python
df.groupby(['Variables','agrupadoras']).metrica()[['Columna calculada']]
```

In [18]:
credit.head()

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
0,14.891,3606,283,2,34,11,Male,No,Yes,Caucasian,333
1,106.025,6645,483,3,82,15,Female,Yes,Yes,Asian,903
2,104.593,7075,514,4,71,11,Male,No,No,Asian,580
3,148.924,9504,681,3,36,11,Female,No,No,Asian,964
4,55.882,4897,357,2,68,16,Male,No,Yes,Caucasian,331


In [19]:
# Calcular el límite de crédito promedio dependiendo si la persona es estudiante o no
credit.groupby('Student').mean()[['Limit']]

Unnamed: 0_level_0,Limit
Student,Unnamed: 1_level_1
No,4740.222222
Yes,4694.0


* Lo que va adentro del `groupby` son las columnas agrupadoras. 

* Es decir, vamos a dividir la tabla grupos definidos por la combinación de los diferentes valores de las columnas agrupadoras.

* Puede ser una o varias.

In [21]:
# Calcular el ingreso promedio por etnicidad y si la persona es estudiante o no
# Como son dos variables, utilizamos los brackets para hacer una lista
credit.groupby(['Ethnicity', 'Student']).std()[['Income']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Income
Ethnicity,Student,Unnamed: 2_level_1
African American,No,39.084865
African American,Yes,36.726365
Asian,No,32.682605
Asian,Yes,52.883809
Caucasian,No,33.946769
Caucasian,Yes,25.34547


* El método de *métrica* puede ser cualquiera de los estadísticos que vimos anteriormente (min, max, sum, count, mean, median, std, var).

In [22]:
# Calcular la edad máxima por grupo étnico, estado civil y género
credit.groupby(['Ethnicity','Married', 'Gender']).max()[['Age']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Age
Ethnicity,Married,Gender,Unnamed: 3_level_1
African American,No,Female,84
African American,No,Male,89
African American,Yes,Female,91
African American,Yes,Male,81
Asian,No,Female,71
Asian,No,Male,87
Asian,Yes,Female,83
Asian,Yes,Male,78
Caucasian,No,Female,84
Caucasian,No,Male,83


In [None]:
# Contar cuántos clientes por género y si es estudiante.
# NOTA: Cuando queremos contar, no importa qué columna seleccionemos para calcular. Sólo tenemos que tener
# cuidado que que no tenga CELDAS VACÍAS.
credit.groupby(['Gender', 'Student']).count()[['Balance']]

 - La columna que está entre brackets es sobre la que queremos hacer la operación.

 - También puede ser más de una columna.

In [23]:
# Calcular la calificación crediticia y límite promedios por etnicidad y estado civil
credit.groupby(['Ethnicity', 'Married']).mean()[['Rating', 'Limit']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Rating,Limit
Ethnicity,Married,Unnamed: 2_level_1,Unnamed: 3_level_1
African American,No,366.914894,4935.404255
African American,Yes,363.403846,4832.961538
Asian,No,345.46875,4625.25
Asian,Yes,345.414286,4599.857143
Caucasian,No,336.960526,4474.342105
Caucasian,Yes,365.780488,4885.479675


* También podemos calcular dos estadísticos a la vez usando el método `agg`

In [24]:
# Calcular número mínimo y máximo de tarjetas de crédito  y edad por etnicidad y género
credit.groupby(['Ethnicity', 'Gender']).agg(['min', 'max'])[['Cards', 'Age']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Cards,Cards,Age,Age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,min,max
Ethnicity,Gender,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
African American,Female,1,5,25,91
African American,Male,1,7,26,89
Asian,Female,1,7,24,83
Asian,Male,1,7,24,87
Caucasian,Female,1,7,23,86
Caucasian,Male,1,9,25,98
