## Análisis exploratorio. Caso: Titanic
El siguiente caso está alineado con el proceso desarrollado de análisis exploratorio compuesto por 7 etapas

In [75]:
# Cargado de librerías
import pandas as pd
import numpy as np

In [76]:
# Carga de datos
mainpath = "C:/Users/Carlos/OneDrive/Formación/Python/Casos de análisis/Titanic/"
filename = "train.csv"
fullpath = mainpath + filename
dataset = pd.read_csv(fullpath, sep = ",")

### Etapa 1: Formulación del problema general
Consiste en preguntarse qué información se desea obtener del conjunto de datos. Puede plantearse como una pregunta.

¿Cuáles son la características principales del dataset?

¿Qué particularidades tenían las personas con mayor probabilidad de sobrevivir?

### Etapa 2: Barrido general de datos
Se busca conocer algunas generalidades del dataset, por ejemplo, las dimensiones, el significado de cada registro, sus particularidades, variables, de qué estudio provienen, cómo se hizo la muestra, etc.

In [77]:
# Existen 891 filas y 12 columnas
dataset.shape

(891, 12)

In [78]:
dataset.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [79]:
dataset.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [80]:
# El dataset es reconocido como un dataframe de pandas
type(dataset)

pandas.core.frame.DataFrame

In [81]:
# Extraer los valores únicos de una columna
#np.unique(dataset["Cabin"].tolist())
np.unique(dataset["Sex"].tolist())

array(['female', 'male'], dtype='<U6')

### Etapa 4: Tranformación de datos
En esta etapa se harán todos los ajustes necesarios sobre el dataset de manera que pueden someterse a un análisis estadístico, es habitual llevar a cabo operaciones de data wrangling (ordenación y transofrmación).

Puede repetirs la etapa 2 para verificar que las operaciones otorgaron el resultado deseado.

In [82]:
# Cambios sobre variables con etiquetas numéricas y con abreviaturas para hacer más comprensible el dataset
# Tome en cuenta que esto es opcional y el proceso inverso es una parte de la creación de variables dummy

cleanup_nums = {"Survived": {1: "Survived", 0: "Not survived"},
                "Pclass"  : {1: "First", 2: "Second", 3: "Third"},
                "Sex"     : {"male": "Male", "female": "Female"},
                "Embarked"  : {"C":"Cherbourg", "Q": "Queenstown", "S": "Southampton"}}

dataset2 = dataset.replace(cleanup_nums)

In [83]:
# Verificando los resultados obtenidos
dataset2.head()
#dataset2.shape

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,Not survived,Third,"Braund, Mr. Owen Harris",Male,22.0,1,0,A/5 21171,7.25,,Southampton
1,2,Survived,First,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Female,38.0,1,0,PC 17599,71.2833,C85,Cherbourg
2,3,Survived,Third,"Heikkinen, Miss. Laina",Female,26.0,0,0,STON/O2. 3101282,7.925,,Southampton
3,4,Survived,First,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Female,35.0,1,0,113803,53.1,C123,Southampton
4,5,Not survived,Third,"Allen, Mr. William Henry",Male,35.0,0,0,373450,8.05,,Southampton


In [84]:
# Los cambios no modificaron el dataset original...
dataset.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Etapa 5: Reconocer los tipos de datos y su escala de medición
Marca el inicio del análisis identificando el tipo de variable dentro del dataset. Es elaborado casi al mismo tiempo que la etapa 4.

In [85]:
dataset2.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Dado que el dataset contiene 891 filas, podemos observar que existen variables con datos faltantes. Sin embargo, aún no se pueden intuir las causas.

In [86]:
# verbose = True muestra las columnas completas
dataset2.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    object 
 2   Pclass       891 non-null    object 
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(3), object(7)
memory usage: 83.7+ KB


### Etapa 6:	Selección de estadísticas descriptivas
Consiste en identificar las medidas calculadas que se aplicarán en las variables del dataset.

#### Análisis estadístico preliminar

In [87]:
# Análsis de una columna usando el método apply
# Tomar en cuenta que no deben existir valores faltantes pues la función "len" no devolvería reusltados correctos
dataset["Fare"].apply({'sum':sum,'min':min,'max':max,'count':len,'mean':np.mean})

sum      28693.949300
min          0.000000
max        512.329200
count      891.000000
mean        32.204208
Name: Fare, dtype: float64

In [88]:
# Agregando columnas con el método aggregate. Funciona con una o más columnas.
# Tomar en cuenta que no deben existir valores faltantes pues la función "len" no devolvería reusltados correctos.
dataset[["Fare","Age","Parch"]].aggregate({sum,min,max,len,np.mean,np.var})

Unnamed: 0,Fare,Age,Parch
len,891.0,891.0,891.0
sum,28693.9493,21205.17,340.0
min,0.0,0.42,0.0
var,2469.436846,211.019125,0.649728
max,512.3292,80.0,6.0
mean,32.204208,29.699118,0.381594


In [89]:
# Análisis para variables cualitativas
dataset2.describe(include = "object")

Unnamed: 0,Survived,Pclass,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,891,891,204,889
unique,2,3,891,2,681,147,3
top,Not survived,Third,"Braund, Mr. Owen Harris",Male,347082,B96 B98,Southampton
freq,549,491,1,577,7,4,644


In [90]:
# Por defecto solo se toman solamente las variables cuantitativas
dataset2.describe()

Unnamed: 0,PassengerId,Age,SibSp,Parch,Fare
count,891.0,714.0,891.0,891.0,891.0
mean,446.0,29.699118,0.523008,0.381594,32.204208
std,257.353842,14.526497,1.102743,0.806057,49.693429
min,1.0,0.42,0.0,0.0,0.0
25%,223.5,20.125,0.0,0.0,7.9104
50%,446.0,28.0,0.0,0.0,14.4542
75%,668.5,38.0,1.0,0.0,31.0
max,891.0,80.0,8.0,6.0,512.3292


In [91]:
# Análisis para todo tipo de variables
dataset2.describe(include = "all")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891,891,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,2,3,891,2,,,,681.0,,147,3
top,,Not survived,Third,"Braund, Mr. Owen Harris",Male,,,,347082.0,,B96 B98,Southampton
freq,,549,491,1,577,,,,7.0,,4,644
mean,446.0,,,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,,,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,,,,,0.42,0.0,0.0,,0.0,,
25%,223.5,,,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,,,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,,,,,38.0,1.0,0.0,,31.0,,


#### Clasificación de variables
Es importante clasificar las variables del dataset para proceder con el método de análisis correcto. Tome en cuenta que no todas las variables de tipo int64 o float64 son cuantitativas (estadísticamente), es necesario evaluar la escala de medición porque pueden existir variables nominales u ordinales expresadas numéricamente.

Primero se retirarán las variables que no aportan información relevante al análisis estadístico como "PassengerId", que funciona como una llave primaria para identificar elementos y filas dentro del dataset, y de igual manera con las columnas "Name" y "Ticket", debido a que ambas solo buscan identificar a un pasajero o registro y no conviene hacer agregaciones con sus datos. Es posible que estas variables sean útiles para otros porpósitos o dentro de otras secciones, pero eso se depende de la formulación del problema, el objetivo de análisis o otra necesidad de información en particular.

In [92]:
# Eliminando variables que no aportan información relevante al análisis estadístico
removed_cols = ["PassengerId","Name","Ticket"]
dataset2 = dataset2.drop(removed_cols, axis = 1)

cols = (pd.DataFrame(dataset2.dtypes).
             reset_index().
             rename(columns = {"index": "Name", 0: "Type"}))

# Selección de variables cualitativas
qual_cols = cols[cols["Type"] == "object"]["Name"]
#qual_cols = cols.query('Type == "object"')["Name"]
qualitative_data = dataset2[qual_cols]

# Selección de variables cunatitativas
#quant_cols = cols.query('Type != "object"')["Name"]
quant_cols = cols[cols["Type"] != "object"]["Name"]
quantitative_data = dataset2[quant_cols]

In [93]:
quantitative_data

Unnamed: 0,Age,SibSp,Parch,Fare
0,22.0,1,0,7.2500
1,38.0,1,0,71.2833
2,26.0,0,0,7.9250
3,35.0,1,0,53.1000
4,35.0,0,0,8.0500
...,...,...,...,...
886,27.0,0,0,13.0000
887,19.0,0,0,30.0000
888,,1,2,23.4500
889,26.0,0,0,30.0000


In [94]:
# Este método causó problemas cuando se inicaba una instancia en Python...

# Eliminando variables que no aportan información relevante al análisis estadístico
#removed_cols = ["PassengerId","Name","Ticket"]
#dataset2 = dataset2.drop(removed_cols, axis = 1)

# Selección de variables cualitativas
#qual_cols = (pd.DataFrame(dataset2.dtypes).
#             reset_index().
#             rename(columns = {"index": "Name", 0: "Type"}).
#             query('Type == "object"'))["Name"]

#qualitative_data = dataset2[qual_cols]

# Selección de variables cunatitativas
#quant_cols = (pd.DataFrame(dataset2.dtypes).
#              reset_index().
#              rename(columns = {"index": "Name", 0: "Type"}).
#              query('Type != "object"'))["Name"]

#quantitative_data = dataset2[quant_cols]

#### Análisis para una variable cualitativa

In [95]:
# Análisis para una variable cualitativa
study_var = "Embarked"
qual_analysis = pd.DataFrame(qualitative_data[study_var])
qual_analysis = (qual_analysis.value_counts(ascending = False, dropna = False).
                 reset_index().
                 rename(columns = {0:"Frecuencia"}))

# Frecuencia relativa
qual_analysis.loc[:,('Frecuencia_rel')] = qual_analysis["Frecuencia"]/sum(qual_analysis["Frecuencia"])
# Frecuencia acumulada
qual_analysis.loc[:,('Frecuencia_A')] = np.cumsum(qual_analysis["Frecuencia"])
# Frecuencia relativa acumulada
qual_analysis.loc[:,('Frecuencia_rel_A')] = np.cumsum(qual_analysis["Frecuencia_rel"])

# Adecuación del dataframe resultante
qual_analysis.insert(loc = 0,  column = "Variable", value = study_var)
qual_analysis = qual_analysis.rename(columns = {study_var:"Categoría"})

qual_analysis

Unnamed: 0,Variable,Categoría,Frecuencia,Frecuencia_rel,Frecuencia_A,Frecuencia_rel_A
0,Embarked,Southampton,644,0.722783,644,0.722783
1,Embarked,Cherbourg,168,0.188552,812,0.911336
2,Embarked,Queenstown,77,0.08642,889,0.997755
3,Embarked,,2,0.002245,891,1.0


#### Análisis para todas las variables cualitativas
La función que se define a continuacuón consolida todo el análisis anterior en una tabla para todas las variables cualitativas.

In [96]:
# Tranformación del análisis anterior a una función

def qual_fun_analysis(study_var):
# Análisis para una variable cualitativa
    qual_analysis = pd.DataFrame(qualitative_data[study_var])
    qual_analysis = (qual_analysis.value_counts(ascending = False, dropna = False).
                     reset_index().
                     rename(columns = {0:"Frecuencia"}))

# Frecuencia relativa
    qual_analysis.loc[:,('Frecuencia_rel')] = qual_analysis["Frecuencia"]/sum(qual_analysis["Frecuencia"])
# Frecuencia acumulada
    qual_analysis.loc[:,('Frecuencia_A')] = np.cumsum(qual_analysis["Frecuencia"])
# Frecuencia relativa acumulada
    qual_analysis.loc[:,('Frecuencia_rel_A')] = np.cumsum(qual_analysis["Frecuencia_rel"])

# Adecuación del dataframe resultante
    qual_analysis.insert(loc = 0,  column = "Variable", value = study_var)
    qual_analysis = qual_analysis.rename(columns = {study_var:"Categoría"})

# Resultado de la función
    return qual_analysis

In [97]:
qual_fun_analysis("Embarked")

Unnamed: 0,Variable,Categoría,Frecuencia,Frecuencia_rel,Frecuencia_A,Frecuencia_rel_A
0,Embarked,Southampton,644,0.722783,644,0.722783
1,Embarked,Cherbourg,168,0.188552,812,0.911336
2,Embarked,Queenstown,77,0.08642,889,0.997755
3,Embarked,,2,0.002245,891,1.0


In [98]:
# Modelo de análisis cualitativo consolidado
final_df = pd.DataFrame({'Variable' : [],
                         'Categoría' : [],
                         'Frecuencia' : [],
                         'Frecuencia_A' : [],
                         'Frecuencia_rel' : [],
                         'Frecuencia_rel_A' : []})

for i in qual_cols:
    x = qual_fun_analysis(i)
    final_df = final_df.append(x).reset_index(drop = True)

final_df
# Exportación de resultados en csv
# final_df.to_csv('Análisis de variables cualitativas - Titanic.csv')

Unnamed: 0,Variable,Categoría,Frecuencia,Frecuencia_A,Frecuencia_rel,Frecuencia_rel_A
0,Survived,Not survived,549.0,549.0,0.616162,0.616162
1,Survived,Survived,342.0,891.0,0.383838,1.000000
2,Pclass,Third,491.0,491.0,0.551066,0.551066
3,Pclass,First,216.0,707.0,0.242424,0.793490
4,Pclass,Second,184.0,891.0,0.206510,1.000000
...,...,...,...,...,...,...
154,Cabin,A10,1.0,891.0,0.001122,1.000000
155,Embarked,Southampton,644.0,644.0,0.722783,0.722783
156,Embarked,Cherbourg,168.0,812.0,0.188552,0.911336
157,Embarked,Queenstown,77.0,889.0,0.086420,0.997755


#### Análisis para una variable cuantitativa

In [99]:
# Se deben hacer transformaciones con el dataset origianl

# Listado de funciones de agregación de numpy
agg_fun_math = {'value':['count','size',
                         lambda x: (np.size(x)-len(x)),
                         'max', 'min',
                         np.mean, np.nanmedian, np.ptp,
                         lambda x: np.var(x,ddof = 1), lambda x: np.std(x,ddof = 1),
                         lambda x: ((np.std(x, ddof = 1)) / (np.mean(x)))]}

# Tranformacón de las variables cuantitativas
quant_analysis = (quantitative_data.melt(id_vars = None,
                                        var_name = "Variable" ,
                                        value_vars = list(quant_cols)).
                  groupby(["Variable"]).
                  agg(agg_fun_math).
                  round(2))

quant_analysis

Unnamed: 0_level_0,value,value,value,value,value,value,value,value,value,value,value
Unnamed: 0_level_1,count,size,<lambda_0>,max,min,mean,nanmedian,ptp,<lambda_1>,<lambda_2>,<lambda_3>
Variable,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
Age,714,891,0,80.0,0.42,29.7,28.0,,211.02,14.53,0.49
Fare,891,891,0,512.33,0.0,32.2,14.45,512.33,2469.44,49.69,1.54
Parch,891,891,0,6.0,0.0,0.38,0.0,6.0,0.65,0.81,2.11
SibSp,891,891,0,8.0,0.0,0.52,0.0,8.0,1.22,1.1,2.11


### Etapa 5: Visualizar los datos
Selección de las gráficas que mejor expliquen a las variables del dataset o cuya información sea importante para responder a la formulación del problema.

### Etapa 6: Analizar las posibles interacciones entre las variables del dataset

### Etapa 7: Conclusiones