## Resumen de los datos: Dimensiones y estructuras


In [None]:
import pandas as pd
import os
mainpath = "/Users/cristian/Google Drive/JupyterNotebooks/machine_learning/datasets"
filename = "titanic/titanic3.csv"
fullpath = os.path.join(mainpath,filename)

data = pd.read_csv(fullpath)
data.tail() 

In [None]:
#dimensiones del dataframe, atributo shape
data.shape

In [None]:
#cabeceras de las columnas, con el atributo collumns.values
data.columns.values

## Estadisticos basicos en variables numericas

In [None]:
data.describe()

# tipos de los datos de cada columna

In [None]:
data.dtypes

## Missing Values

In [None]:
pd.isnull(data["body"])

In [None]:
pd.notnull(data["body"])

In [None]:
#se verifica que valores de la columna son null, con ravel se ordenan en una sola fila y con sum, sabremos cuantos null son
pd.isnull(data["body"]).values.ravel().sum()

In [None]:
pd.notnull(data["body"]).values.ravel().sum()

Los valores que faltan en un dataset pueden venir por dos razones
* Extracción de los datos (incompatibilidad entre el tipo de dato alojado en la BD y la forma en que se extrae)
* Recolección de los datos (Ej: encuestas incompletas, o datos que simplemente no se ingresaron nunca en la BD)

### Borrado de valores que falten

In [None]:
#borra toda la fila axis = 0, y how='all' borra las filas que tienen todos sus datos NaN
data.dropna(axis = 0, how ="all")

In [None]:
#borra toda la filasi cualquiera de sus valores es Nan, aqui borra todo, porque en todas las filas hay algun valor Nan
data2 = data
data2.dropna(axis=0,how="any")

### Computo o inferencia de los valores faltantes

In [None]:
#rellena todos los valores Nan con ceros
data3 = data
data3.fillna(0)

In [None]:
#reemplaza valores con respecto a una columna, aqui, llena con ceros, solo los datos Nan de la columna 'body', si no se hace
# data = data['columna'].fillna(), no se reemplaza en el dataframe, solo seria un reemplazo visual
data5 = data
data5["body"] = data5["body"].fillna(0)
data5["home.dest"] = data5["home.dest"].fillna("Desconocido")
data5.head()

### Usando estadisticos para reemplazar los Nan

In [None]:
#cuantas filas del columna 'age' son Nan
pd.isnull(data5["age"]).values.ravel().sum()

In [None]:
#reemplaza los Nan de la columna 'age' por el valor promedio de dicha columna
data5["age"].fillna(data5["age"].mean())

In [None]:
#reemplaza ls Nan por el valor conocido inmediatamente anterior, method = forward fill
data5["age"][1291] #fila 1291 tiene el valor 'age' en Nan

#reemplaza por el valor conocido inmediatamente anterior de la columa 'age' fila 1291,
#en este caso la fila 1290 tiene valor 'age'= 47,
data5["age"].fillna(method="ffill") 

In [None]:
#tambien se puede method = backfill, reemplaza por el primer valor conocido posterior a la fila en cuestion
data5["age"].fillna(method="backfill") #en este casi por el valor de columna 'age' fila 1294 = 28,5

### Variables dummy para variables categoricas

In [None]:
#variable categorica, 'male' o 'female'
data["sex"] 

In [None]:
#transformamos las variables categoricas en columnas separadas, con valor 1 o 0, quedan dos columnas donde se distribuye el
#1 segun si la fila cumple con el valor original ej: fila[0] es female, por lo tanto sex_female = 1 y sex_male = 0, fila[1]
# es male por lo tanto sex_female = 0 y sex_male = 1
dummy_sex = pd.get_dummies(data["sex"], prefix="sex")
dummy_sex.head()

In [None]:
# se elimina la columna original y se reemplaza por la dummy, primero listamos las columnas del dataframe
column_name = data.columns.values.tolist()
column_name

In [None]:
#elimino toda la columa sex, con axis = 1, eje vertical
data = data.drop(["sex"],axis = 1)

In [None]:
#ahora concatenamos al dataset las variables dummy
data = pd.concat([data, dummy_sex],axis = 1)

In [None]:
#definimos una funcion para hacer todo el proceso anterior de una sola vez
def createDummies(df, var_name):
    dummy = pd.get_dummies(df[var_name], prefix = var_name)
    df = df.drop(var_name, axis = 1)
    df = pd.concat([df, dummy ], axis = 1)
    return df

In [None]:
createDummies(data3, "sex")