# Resumen de los datos: dimensiones y estructuras

In [1]:
import pandas as pd
import os

In [2]:
ruta0 = "C:/Users/jvill/Documents/ESCUELA/Machine Learning"
ruta1 = "Datasets/titanic/titanic3.csv"
ruta_completa = os.path.join(ruta0,ruta1)

In [3]:
#Leer los datos
datos = pd.read_csv(ruta_completa)

## Principales atributos

In [None]:
#Visualizar los primeros renglones.
datos.head()   

In [None]:
#Visualizar los últimos renglones
datos.tail() 

In [4]:
# El primer atributo que nos concierne es la dimension del dataset
datos.shape       #Devuleve el numero de renglones contando el encabezado y el numero de columnas sin contar el contador

(1309, 14)

### Diferencia entre funcion y atributo de un objeto.

* Las funciones son **acciones** que pueden realizar los objetos, y se solicitan mediante: **objeto.funcion()**


* Los atributos son **características** con las que ya cuenta el objeto, y se solicitan mediante: **objeto.atributo**

Todas las funciones llevan paréntesis al final, puesto que allí van los parámentros de la función, aunque los paréntesis estén vacíos (en ese caso se devolverá el valor predeterminado para tal función).


Los atributos son valores ya dados, cualidades del objeto, por lo tanto no cambian y por eso no se requieren parámetros.



In [5]:
# Resumen de los estadísticos básicos de las variables numéricas:

datos.describe()   # count = ¿cuántos valores no nulos hay en dicha columna?
                   # mean = media
                   # std = desviación estándar 
                   # El resto son los cuartiles y los valores mínimo y máximo.

Unnamed: 0,pclass,survived,age,sibsp,parch,fare,body
count,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0,121.0
mean,2.294882,0.381971,29.881135,0.498854,0.385027,33.295479,160.809917
std,0.837836,0.486055,14.4135,1.041658,0.86556,51.758668,97.696922
min,1.0,0.0,0.1667,0.0,0.0,0.0,1.0
25%,2.0,0.0,21.0,0.0,0.0,7.8958,72.0
50%,3.0,0.0,28.0,0.0,0.0,14.4542,155.0
75%,3.0,1.0,39.0,1.0,0.0,31.275,256.0
max,3.0,1.0,80.0,8.0,9.0,512.3292,328.0


In [6]:
# Tipo de dato de las variables
datos.dtypes  

pclass         int64
survived       int64
name          object
sex           object
age          float64
sibsp          int64
parch          int64
ticket        object
fare         float64
cabin         object
embarked      object
boat          object
body         float64
home.dest     object
dtype: object

## Tratamiento de Missing values

In [7]:
# Para saber cuántos valores nulos o no nulos tiene una columna, (ya sea numérica o no):
'''
print(pd.isnull(datos["body"]))                   # Devuelve true para cada valor nulo en la columna pclass
print(pd.isnull(datos["body"]).values)            # Convierte la tabla anterior de boleanos en un arreglo
print(pd.isnull(datos["body"]).values.ravel())    #Convierte el arreglo anterior en unidimensional
print(pd.isnull(datos["body"]).values.ravel().sum())  #Suma los boleanos del arreglo anterior
'''
# Por lo tanto, para saber cuántos valores nulos hay en la columna body, se tiene que usar:
print(pd.isnull(datos["body"]).values.ravel().sum(), "valores nulos") 

# Y para saber cuántos valores no nulos hay en la columna body:
print(pd.notnull(datos["body"]).values.ravel().sum(),"valores no nulos") 

1188 valores nulos
121 valores no nulos


Los valores que faltan en un dataset (nulos) pueden venir por dos razones:
* Extracción de datos
* Recoleccion de datos

### Borrado de elementos con valores faltantes

**data.dropna(axis,how)**

* **axis** indica el eje sobre el cuál se borrarán los datos

axis = 0, se borrará por renglones;  
axis = 1, se borrará por columnas.
 
* **how** indica el criterio sobre na respecto al cuál se borrarán las axis

how = "all", se borrarán los elementos que tengan todos sus campos nulos;  
how = "any", se borrarán los elementos que tengan cualquier campo nulo



In [None]:
datos.dropna(axis=0, how ="all").head()  #borrar todas las filas que tengan todos  sus campos nulos (no borró ninguna)

In [None]:
datos.dropna(axis=0,how ="any").head()  #borrar todas las filas que tengan cualquiera de sus campos nulos (borró todas)

In [None]:
datos.dropna(axis=1,how ="any").head()  #borrar todas las columnas que tengan cualquiera de sus campos nulos (borró varias columnas)

## Cómputo de los valores faltantes

### Rellenar con valores genéricos

In [None]:
datos.fillna(0)        #  Rellena todos los na's con cero

In [None]:
datos.fillna("Desconocido")     #  Rellena todos los na's con la palabra Desconocido

In [None]:
datos["body"].fillna(0)                  # Rellena los na's de la columna body con ceros

In [None]:
datos["home.dest"].fillna("Desconocido") # Rellena los na's de la columna home.dest con la palabra Desconocido

In [6]:
datos["body"]=datos["body"].fillna(0)                        # Sobreescribe los na's de la columna body por ceros
datos["home.dest"]=datos["home.dest"].fillna("Desconocido")  # Sobreescribe los na's de la columna home.dest por Desconocido
datos.head(20)                                               # Muestra la nueva tabla con las dos columnas modificadas

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,0.0,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,0.0,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,0.0,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,0.0,"Montreal, PQ / Chesterville, ON"
5,1,1,"Anderson, Mr. Harry",male,48.0,0,0,19952,26.55,E12,S,3,0.0,"New York, NY"
6,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S,10,0.0,"Hudson, NY"
7,1,0,"Andrews, Mr. Thomas Jr",male,39.0,0,0,112050,0.0,A36,S,,0.0,"Belfast, NI"
8,1,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2,0,11769,51.4792,C101,S,D,0.0,"Bayside, Queens, NY"
9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay"


### Rellenar con valores específicos

In [8]:
#Ver cuántos datos nulos hay en una columna:
pd.isnull(datos["age"]).values.ravel().sum()

263

In [None]:
#Rellenar tales datos nulos con el promedio de los demás valores:
datos["age"].fillna(datos["age"].mean())

In [None]:
#Rellenar tales datos nulos con la mediana de los demás valores:
datos["age"].fillna(datos["age"].median())  #  *En vez de media o mediana se puede usar cualquier función dada por el analista

In [None]:
datos["age"].fillna(method="ffill")       # Rellena cada na con el primer valor que tiene por delante

In [None]:
datos["age"].fillna(method="backfill")      # rellena cada na con el primer valor que tiene por detrás

## Variables dummy
Son variables auxiliares que se usan para evitar trabajar con variables categóricas. Las variables dummies son binarias de 0 y 1.

In [27]:
pd.get_dummies(datos["sex"]).head()  # Para este ejemplo voy a trabajar la variable "sex"
# Éstas son las variables dummies para la variable categórica sex:

Unnamed: 0,female,male
0,1,0
1,0,1
2,1,0
3,0,1
4,1,0


In [24]:
# Cambiar la variable sexo por variables dummies.
# Aquí se automatizará el proceso mediante la creación de una función que lo haga.

def crearDummie(df,nombre_var):
    dumis = pd.get_dummies(df[nombre_var], prefix=nombre_var)
    df = df.drop(nombre_var, axis=1)
    df = pd.concat([df,dumis],axis=1)
    return df

In [28]:
datos = crearDummie(datos,"sex")

In [29]:
datos.head()

Unnamed: 0,pclass,survived,name,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,sex_female,sex_male
0,1,1,"Allen, Miss. Elisabeth Walton",29.0,0,0,24160,211.3375,B5,S,2.0,0.0,"St Louis, MO",1,0
1,1,1,"Allison, Master. Hudson Trevor",0.9167,1,2,113781,151.55,C22 C26,S,11.0,0.0,"Montreal, PQ / Chesterville, ON",0,1
2,1,0,"Allison, Miss. Helen Loraine",2.0,1,2,113781,151.55,C22 C26,S,,0.0,"Montreal, PQ / Chesterville, ON",1,0
3,1,0,"Allison, Mr. Hudson Joshua Creighton",30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON",0,1
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",25.0,1,2,113781,151.55,C22 C26,S,,0.0,"Montreal, PQ / Chesterville, ON",1,0
