<font color="#CA3532"><h1 align="left">Auditoría de datos</h1></font>

**Manuel Sánchez-Montañés**

## <font color="#CA3532">Inspección y auditoría de datos</font>

El primer paso siempre es mirar los datos y ver qué contienen. Algunas tareas típicas que se realizan durante esta etapa son calcular estadísticas descriptivas básicas y representar histogramas y diagramas de dispersión para diferentes pares de variables son .

Primero importamos las librerías *pandas* y *matplotlib*, establecemos el modo en línea *matplotlib* y establecemos el estilo de dibujo:

In [None]:
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline
matplotlib.style.use('ggplot')

### <font color="#CA3532">Carga de datos con *pandas*</font>

Ahora cargaremos unos datos sencillos usando la función <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html">pandas.read_csv</a>:

In [None]:
data = pd.read_csv("../datasets/small.csv",
                   na_values = ["?", "none"],
#                   sep = ","
                  )

Mostramos los datos que acabamos de leer:

In [None]:
data

In [None]:
data.dtypes

Repetimos lo mismo pero ahora con ua base de datos más grande:

In [None]:
data = pd.read_csv("../datasets/adult.csv", na_values = ["?"],
#                   sep = ","
                  )
data.head()

In [None]:
data.shape

In [None]:
data.dtypes

### <font color="#CA3532">Estadísticas descriptivas</font>

Puedes sacar pon pantalla estadísticas descriptivas básicas usando el método <a  href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html#pandas-dataframe-describe"> pandas.DataFrame.describe</a>, tanto para variables numéricas:

In [None]:
data.describe().T[["count", "min", "max", "mean", "std"]]

como para variables categóricas:

In [None]:
data.describe(include = "object").T

Por cada variable se puede contar el número de repeticiones de cada valor con el método <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html#pandas-series-value-counts">pandas.Series.value_counts()</a>. Aunque esto se puede realizar tanto en atributos numéricos como categóricos, tiene mucho más sentido hacerlo en los categóricos:

In [None]:
data["workclass"].value_counts()

Podemos chequear ahora si hay alguna variable que presente valores ausentes (missing values):

In [None]:
#data.isnull()
data.isna()

In [None]:
data.isna().any()

Y contar cuántos missing values hay en cada variable:

In [None]:
100*data.isna().mean()

In [None]:
aux = 100*data.isna().mean()
aux

In [None]:
aux[aux>0]

In [None]:
from mi_libreria import my_missings, my_message

In [None]:
my_message()

### <font color="#CA3532">Visualización de los datos</font>

Finalmente podemos realizar diferentes tipos de gráficos para visualizar los datos.

Histogramas para datos numéricos:

In [None]:
#data["capital-gain"].unique()

In [None]:
import numpy as np
np.unique(data["capital-gain"])

In [None]:
sum(data["capital-gain"] == 99999)

In [None]:
np.unique(data["marital-status"],
          return_counts=True)

In [None]:
data["marital-status"].value_counts()

In [None]:
data["age"].hist(bins=15, figsize=(4,2)) # 4 ancho, 2 alto
plt.xlim(0,100);

In [None]:
data["age"].hist(bins=200, figsize=(4,2)) # 4 ancho, 2 alto
plt.xlim(0,100);


In [None]:
data["age"].plot.density(figsize=(4,2))
plt.xlim(0,100);

In [None]:
h = data.hist(bins = 20, figsize = (12, 12))

Y diagramas de barras o circulares (también conocidos como "diagramas de tarta") mostrando el número de repeticiones de cada valor en un atributo categórico:

In [None]:
var = "relationship"
h = data[var].value_counts().plot(kind = 'bar',
                                  figsize = (4, 3),
                                  title = var,
                                  color = 'firebrick')

In [None]:
var = "relationship"
h = data[var].value_counts().plot(kind = 'pie',
                                  figsize = (4, 4),
                                  title = var).set_ylabel('')

Si queremos mostrar todos los gráficos circulares juntos podemos hacer:

In [None]:
data.dtypes == object

In [None]:
import numpy as np
categorical_data = data.loc[:, data.dtypes == object].copy()
numerical_data   = data.loc[:, data.dtypes != object].copy()

In [None]:
categorical_data.head(5)

In [None]:
numerical_data.head(5)

In [None]:
categorical_data.columns

In [None]:
for i, var in enumerate(categorical_data.columns):
    print(i%2, (i%2)==0, i%2+1)

In [None]:
for i, var in enumerate(categorical_data.columns):
    print(i%2, (i%2)==0, i%2+1)
    
    if i%2 == 0:
        plt.figure(figsize=(10,3))
    # plt.subplot(num_filas, num_cols, num_figura_a_dibujar)
    plt.subplot(1,2,i%2+1) # si i es par, el tercer argumento es 1. Si no, es 2
    p = categorical_data[var].value_counts().plot(kind = 'bar',
                                                  color='firebrick',
                                                  title = var)
    if i%2 == 1:
        plt.show()
    
    #input("Intro para seguir");

#### Diagramas de dispersión para datos numéricos:

In [None]:
#?data.plot.scatter

In [None]:
h = data.plot.scatter(x='age', y='hours-per-week',
                      figsize = (8, 5))

#### Para que se vea mejor la estructura de la nube de puntos introducimos un factor alpha (transparencia):

In [None]:
h = data.plot.scatter(x='age', y='hours-per-week', 
                      figsize = (8, 5),
                      alpha=0.1)

In [None]:
h = pd.plotting.scatter_matrix(data, alpha=0.005, figsize=(12, 12),
                               diagonal='kde', marker = 'o', s = 50)

#### Y si ahora quiero distinguir los puntos de cada clase con colores:

In [None]:
np.unique(data['class'])

In [None]:
labels = data['class'] == '>50K'

In [None]:
labels

In [None]:
h = pd.plotting.scatter_matrix(data, alpha=0.01, figsize=(12, 12),
                               diagonal='kde', marker = 'o', s = 50,
                               c = labels)

In [None]:
import seaborn as sns # librería avanzada de visualización

In [None]:
data.head()

In [None]:
# datos numéricos:

data_num = data.loc[:,data.dtypes != object]
data_num.head()

In [None]:
# correlación entre todas las variables numéricas:

data_num.corr()

#### Matriz de correlación dibujada como heatmap

Información sobre diferentes mapas de color: https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html

In [None]:
sns.heatmap(data_num.corr(), cmap="bwr", vmin=-1, vmax=1);

In [None]:
# matriz de correlación dibujada de manera ordenada con clustermap:

sns.clustermap(data_num.corr(), cmap="bwr", vmin=-1, vmax=1,
               figsize=(5,5));

#### Ahora añado "class_num" que es una columna numérica nueva que es 1 si class<=50K, y 0 en caso contrario:

In [None]:
data2 = data_num.copy()
data2["class_num"] = 1*labels
data2

In [None]:
# clustermap teniendo en cuenta esta variable:

sns.clustermap(data2.corr(), cmap="bwr", vmax=1, vmin=-1,
               figsize=(5,5));

In [None]:
# correlación de todas las variables numéricas con class_num:

data2.corr()["class_num"]

Para más información sobre visualización usando *pandas*: https://pandas.pydata.org/pandas-docs/stable/visualization.html

### <font color="#CA3532">Ejercicio</font>

Crea una versión de este notebook donde cargues la base de datos *loan.csv* (carpeta datasets) y resuelve las siguientes preguntas:

- ¿Cuántas instancias (filas) hay?  ¿y cuántos atributos (columnas)?
- ¿Hay valores ausentes (missing)?
- ¿Hay otros valores que deberían ser tratados como missing?
- ¿Hay alguna variable que deberíamos descartar?
- ¿Hay alguna variable que debería transformarse?
- ¿Hay otros hechos relevantes que deberían ser comentados?

**Nota:** para entender el problema descarga y lee detenidamente el fichero **loan_data_dictionary.xls** (carpeta datasets) . Este fichero contiene la descripción de las columnas del dataset.
Una estrategia muy útil en la práctica es "incrustar" esta descripción en el notebook del ejercicio. La idea es cargar este excel como si fuera otra tabla y visualizarla dentro del notebook. De esa forma toda la información relevante estará contenida en el notebook.

In [None]:
pd.options.display.max_colwidth = 200

In [None]:
# leo y muestro diccionario de datos:
pd.read_excel("../datasets/loan_data_dictionary.xls", header=1).set_index("Variable Name")

In [None]:
# leo dataset:
data = pd.read_csv("../datasets/loan.csv")
data.sample(5).T

In [None]:
data.describe().T[["count", "min", "max", "mean", "std"]]

In [None]:
data.shape

In [None]:
data.dtypes

In [None]:
len(data), data["ID"].nunique()

In [None]:
# Conclusión: ID es un identificador único. Lo pongo como índice:

data = data.set_index("ID")

In [None]:
# Histograma de las variables:

data.hist(figsize=(10,40), layout=(10,2));

In [None]:
my_missings(data)

In [None]:
data_num = data.loc[:, data.dtypes != object]

In [None]:
data_num.mean()

In [None]:
# Una estrategia para quitar missing values:

data2 = data.fillna(value={"MonthlyIncome": 1000,
                           "NumberOfDependents": data["NumberOfDependents"].median()})

# Otra:

data2 = data.fillna(data_num.mean())

In [None]:
# Tras lo que no quedará ningún missing value:

my_missings(data2)

In [None]:
# Lo que en realidad haremos: eliminar filas que contienen missing values en MonthlyIncome:

data3 = data.dropna(subset=["MonthlyIncome"])

In [None]:
data3.shape

In [None]:
my_missings(data3)

In [None]:
# Como vemos, esto ha eliminado los missing values también en NumberOfDependents.
# Es decir, todas las filas con missing en NumberOfDependents tenían missing
# también en MonthlyIncome 

In [None]:
data3.describe().T[["count", "min", "max", "mean", "std"]]

In [None]:
aux = data3["age"].value_counts()
for i,x in zip(aux.index,aux):
    print(i,x)

In [None]:
# Hay valores de edad < 18, por lo que los quitamos:

data3 = data3[data3["age"]>=18]

In [None]:
# A continuación representaremos las variables numéricas logarítmicamente:

In [None]:
cols = data3.columns.drop("SeriousDlqin2yrs")
cols

In [None]:
def faux(x):
    return np.log10(1+x)

data4 = data3.copy()
cols = data3.columns.drop("SeriousDlqin2yrs")
for c in cols:
    data4[c] = data4[c].apply(faux)

In [None]:
# Histogramas sin logaritmos:
data.hist(figsize=(10,40), layout=(10,2));

In [None]:
# Histogramas con logaritmos:
data4.hist(figsize=(10,40), layout=(10,2));