# Datos del Titanic

In [9]:
import seaborn as sns # Este paquete tiene muchos datasets de ciencias naturales

In [10]:
titanic = sns.load_dataset("titanic") #Cargamos el data set con la instruccion load_dataset

In [11]:
titanic.head() #Mostramos los primeros 5 datos del data set

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [12]:
titanic.shape  #La funcion shape me permite saber cuantas filas y columnas tiene la tabla

(891, 15)

In [13]:
import numpy as np  #Para el manejo de datos aleatorios
import pandas as pd #Variables categoricas en un grafico

In [14]:
#Convertimos algunas variables a factores (un factor es una variable de categorias), para categorizarlas con CROSSTAB()

titanic["survived"] =pd.Categorical(titanic["survived"])
titanic["pclass"]= pd.Categorical(titanic["pclass"])
titanic["sex"]= pd.Categorical(titanic["sex"])
titanic["sibsp"]= pd.Categorical(titanic["sibsp"])
titanic["embarked"] =pd.Categorical(titanic["embarked"])

## Tablas de contingencia de una variable

In [17]:
#crosstab()=Suma uno o mas objetos en forma de array para construir un nuevo objeto de variables segun las suministradas
tabla_contingencia = pd.crosstab(index= titanic["survived"],
                              columns= "pasajeros") 
#index= la columna que sera indice de la tabla
#columns= Nombre de la columna de datos
tabla_contingencia

col_0,pasajeros
survived,Unnamed: 1_level_1
0,549
1,342


In [18]:
type(tabla_contingencia)  #Indica que tipo de objeto se esta trabajando (en este caso es un dataframe)

pandas.core.frame.DataFrame

In [19]:
#Mostramos clase de pasajero en el barco
pd.crosstab( index=titanic["pclass"] ,
            columns="Pasajeros")

col_0,Pasajeros
pclass,Unnamed: 1_level_1
1,216
2,184
3,491


In [24]:
#Para saber que tipo de objeto es una variable,dato,dataframe
type(tabla_contigencia) 

pandas.core.frame.DataFrame

In [20]:
#Tabla categorica de los pasajeros por sexo
#Los valores NAN no forma parte de un espectro de valores disponible para las catagorias de una tabla de frecuencias
pd.crosstab(index= titanic["sex"],
           columns="sexo")

col_0,sexo
sex,Unnamed: 1_level_1
female,314
male,577


In [21]:
#Mostramos las cubiertas por pasajeros 
tabla_cabinas= pd.crosstab(index=titanic["deck"],
           columns="pasajeros")
#Guardamos la slaida en una variable y mostramos el resultado
tabla_cabinas

col_0,pasajeros
deck,Unnamed: 1_level_1
A,15
B,47
C,59
D,33
E,32
F,13
G,4


In [30]:
titanic.deck #Aqui se muestra que si solo se consulota la variable sin una funcion (crosstab), ahora si estan visibles los NAN

0      NaN
1        C
2      NaN
3        C
4      NaN
      ... 
886    NaN
887      B
888    NaN
889      C
890    NaN
Name: deck, Length: 891, dtype: category
Categories (7, object): [A, B, C, D, E, F, G]

In [23]:
# La tabla creada (tabla_cabinas), podremos hacer uso de las funciones asociadas a Tablas
tabla_cabinas.sum()

col_0
pasajeros    203
dtype: int64

In [36]:
#la tabla creada (tabla_cabinas) tiene un formato diferente 
tabla_cabinas.shape

(7, 1)

In [39]:
tabla_cabinas.iloc[1:5]  #Muestra los datos de la fila 1 a la 5-1

col_0,pasajeros
deck,Unnamed: 1_level_1
B,47
C,59
D,33
E,32


In [41]:
# Como obtener la Tabla de las frecuencias relativas
# Con esto podemos conocer la proporcion de datos en %  que representa cada cubirta
tabla_cabinas/tabla_cabinas.sum() 

col_0,pasajeros
deck,Unnamed: 1_level_1
A,0.073892
B,0.231527
C,0.29064
D,0.162562
E,0.157635
F,0.064039
G,0.019704


# Ejercicio del tema

In [24]:
#Se muestra el % de hombres y mujeres del barco
tabla_sexo=pd.crosstab(index= titanic["sex"],
           columns="sexo")
tabla_sexo/tabla_sexo.sum()

col_0,sexo
sex,Unnamed: 1_level_1
female,0.352413
male,0.647587


## Tabla de contingencia de dos variables

In [25]:
#Tabla de contingencia para dos variables
#1.- Con crosstab() definimos la tabla indicando que una variable sea fila y otra Columna 
survived_sex=pd.crosstab(index=titanic["survived"],
                        columns=titanic["sex"])
survived_sex

sex,female,male
survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,81,468
1,233,109


In [47]:
#2.-index = Damos una etiqueta a los valores de los indice para el dataframe (survived_sex)
survived_sex.index=["died","survived"]
survived_sex

sex,female,male
died,81,468
survived,233,109


In [62]:
# Tabla de contingecia con frecuencias marginales. Se agrega la opcion margins=True
survived_class=pd.crosstab(index= titanic["survived"],
                          columns=titaic["class"],
                          margins=True)
# Tener en cuanta que como la opcion margin=True agrega 1 fila y 1 columna extra(Totales); se tiene que considerar el rename 
survived_class.index=["No Rescatado","Rescatado","Tot_Clase"]
survived_class.columns=["1_Clase","2_Clase","3_Clase","Tot_Personas"]
survived_class

Unnamed: 0,1_Clase,2_Clase,3_Clase,Tot_Personas
No Rescatado,80,97,372,549
Rescatado,136,87,119,342
Tot_Clase,216,184,491,891


## Fecuencia Relativa global

In [64]:
# Frecuencia global,% totl por grupo de elemento en proporcion al total de la poblacion
#Dividimos df / el mismo  df .loc ( localizado) entre la fila u columna Tot_Clase y Tot_Personas
survived_class/survived_class.loc["Tot_Clase","Tot_Personas"]

Unnamed: 0,1_Clase,2_Clase,3_Clase,Tot_Personas
No Rescatado,0.089787,0.108866,0.417508,0.616162
Rescatado,0.152637,0.097643,0.133558,0.383838
Tot_Clase,0.242424,0.20651,0.551066,1.0


### Frecuencias Relativas Marginales

In [67]:
#::::::  MARGINAL POR COLUMNMAS  :::::::
#Ratio de supervivencia segun a la clase de la poblacion en el barco
#loc = sirve para localizar filas
survived_class/survived_class.loc["Tot_Clase"] #Divide cada una de las COLUMNAS por el total del mismo

Unnamed: 0,1_Clase,2_Clase,3_Clase,Tot_Personas
No Rescatado,0.37037,0.527174,0.757637,0.616162
Rescatado,0.62963,0.472826,0.242363,0.383838
Tot_Clase,1.0,1.0,1.0,1.0


In [68]:
survived_class.div(survived_class.loc["Tot_Clase"],axis=1)  # div()=Permite dividir las columnas por filas

Unnamed: 0,1_Clase,2_Clase,3_Clase,Tot_Personas
No Rescatado,0.37037,0.527174,0.757637,0.616162
Rescatado,0.62963,0.472826,0.242363,0.383838
Tot_Clase,1.0,1.0,1.0,1.0


In [65]:
#:::::: MARGINAL POR FILAS :::::::
#Tomar en cuanta que cuando se quiere hacer la tabla de Relativas Marginal por FILAS la solucion es: 
#1. trasponer la tabla
survived_class.T/survived_class["Tot_Personas"] #Divide cada una de las FILAS por el total del mismo

Unnamed: 0,No Rescatado,Rescatado,Tot_Clase
1_Clase,0.145719,0.397661,0.242424
2_Clase,0.176685,0.254386,0.20651
3_Clase,0.677596,0.347953,0.551066
Tot_Personas,1.0,1.0,1.0


In [66]:
#2. Utilizamos la funcion div()
survived_class.div(survived_class["Tot_Personas"],axis=0)  #Donde axis= 0 (Filas), axis=1 (columnas)

Unnamed: 0,1_Clase,2_Clase,3_Clase,Tot_Personas
No Rescatado,0.145719,0.176685,0.677596,1.0
Rescatado,0.397661,0.254386,0.347953,1.0
Tot_Clase,0.242424,0.20651,0.551066,1.0


## Tablas multidimensionales

In [76]:
#Tanbien con CORSSTAB, podemos indicarle que se requieren mas de 2 variables
#Donde Index = Variable, columns= variable1, varible2
survived_sex_class= pd.crosstab(index=titanic["survived"],
                               columns=[titanic["sex"],titanic["class"]],
                               margins=True)
survived_sex_class

sex,female,female,female,male,male,male,All
class,First,Second,Third,First,Second,Third,Unnamed: 7_level_1
survived,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
0,3,6,72,77,91,300,549
1,91,70,72,45,17,47,342
All,94,76,144,122,108,347,891


In [78]:
# name_crosstable[<valor_buscado>] = filtramos los datos perteneciente a las mujeres
survived_sex_class["female"]

class,First,Second,Third
survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,3,6,72
1,91,70,72
All,94,76,144


In [79]:
#Del dataframe creado, filtramos las mujeres de primera clase, respetando el orden(columns=[titanic["sex"],titanic["class"])
survived_sex_class["female"]["First"]

survived
0       3
1      91
All    94
Name: First, dtype: int64

In [80]:
#De esta manera se obtiene la frecuencia Relativa Marginal por Columnas
survived_sex_class/survived_sex_class.loc["All"]

sex,female,female,female,male,male,male,All
class,First,Second,Third,First,Second,Third,Unnamed: 7_level_1
survived,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
0,0.031915,0.078947,0.5,0.631148,0.842593,0.864553,0.616162
1,0.968085,0.921053,0.5,0.368852,0.157407,0.135447,0.383838
All,1.0,1.0,1.0,1.0,1.0,1.0,1.0
