# Análisis preeliminar de datos

Para el iniciar el análisis de datos es importante hacer una limpieza de datos, un análisis estadístico preeliminar, así como algunas visualizaciones de los datos. 

## Dimensiones y estructuras

Pandas permite hacer una exploración preeliminar de los datos que han sido cargados. 

In [None]:
import pandas as pd
import os

In [None]:
mainpath = "/home/oscar/Escritorio/misnotebooks/data/"
filename = "titanic3.csv"
fullpath = os.path.join(mainpath,filename)

In [None]:
data = pd.read_csv(fullpath)
data.head(10)

In [None]:
data.tail(10)

In [None]:
# el atributo shape devuelve la dimensión
# del dataframe
data.shape

In [None]:
# devuelve los nombres de columnas
data.columns.values


In [None]:
# devuelve un resumen estadístico del conjunto de datos
data.describe()

In [None]:
# devuelve el tipo de datos de las columnas
data.dtypes

## Datos faltantes

La función de Pandas `isnull()` devuelve información sobre datos faltantes de alguna columna del dataframe. El valor `True` indica un dato faltante. De la misma forma `notnull()` devuelve información sobre datos que se encuentran en el dataframe, donde `True` expresa que existe un dato. 

In [None]:
pd.isnull(data["body"])

In [None]:
pd.notnull(data["body"])

In [None]:
# devuelve el número de valores nulos en la columna body
pd.isnull(data["body"]).values.ravel().sum() # ravel() consolida los valores es un único array

In [None]:
# devuelve el número de no-nulos en la columna body
pd.notnull(data["body"]).values.ravel().sum()

Los valores faltantes en un data set puden ser causados por dos razones:
* extracción de los datos
* recolección de datos

### Borrado de valores que faltan

In [None]:
# elimina los renglones donde todos los datos están ausentes
data.dropna(axis=0, how="all")

In [None]:
# elimina los renglones donde algún dato falte
data2 = data
data2.dropna(axis=0, how="any")
data2.head(10)

### Imputación o cálculo de valores faltantes

In [None]:
# cambia todos los NaN por el valor 0
data3 = data
data3.fillna(0)

In [None]:
# cambia todos los NaN por el valor "Desconocido"
data4 = data
data4.fillna("Desconocido")

In [None]:
# cambia los valores NaN por columna específica
data5 = data
data5["body"] = data5["body"].fillna(0)
data5["home.dest"] = data5["home.dest"].fillna("Desconocido")

In [None]:
data5.head(5)

Imputación de valores faltantes usando el valor **promedio** de la columna:

In [None]:
pd.isnull(data5["age"]).values.ravel().sum()

In [None]:
data5["age"].fillna(data["age"].mean())

Imputación de valores utilizando el **primero hacia adelante**:

In [None]:
data5["age"].fillna(method="ffill") # foreward fill

Imputación de valores utilizando el **primero hacia atrás**:

In [None]:
data5["age"].fillna(method="backfill") 

### Variables dummy
Las variables auxiliares o variables artificiales sirven para crear variables separadas cuando el contenido de una variable tiene valores categóricos (clasificación específica) y se desea hacer un análisis de causalidad respecto a un solo valor categórico.

In [None]:
data["sex"].head()

In [None]:
dummy_sex = pd.get_dummies(data["sex"], prefix = "sex")

In [None]:
dummy_sex.head()

Posteriormente se elimina la columna con valores categoricos y se agrega al data set las variables dummy creadas

In [None]:
column_names = data.columns.values.tolist()
column_names

In [None]:
# elimina la columna sex del data set data y lo actualiza.
data = data.drop(["sex"], axis = 1)

In [None]:
column_names = data.columns.values.tolist()
column_names

In [None]:
# concatena los data sets data y dummy_sex por columnas y actualiza el data set original
data = pd.concat([data, dummy_sex], axis = 1)

In [None]:
data.head()

Se recomienda crear las variables dummy por medio de un solo procedimiento:

In [None]:
def createDummies(df, var_name):
    dummy = pd.get_dummies(df[var_name], prefix = var_name)
    df = df.drop(var_name, axis = 1)
    df = pd.concat([df, dummy], axis = 1)
    return df

In [None]:
data2.head(5)

In [None]:
createDummies(data2, "sex")