# **Obtención y preparación de datos**

# OD27. Proyecto Final - SOLUCION

Normalmente, los proyectos de ciencia de datos, comienzan con estadísticas descriptivas para tener una idea de las propiedades del conjunto de datos que se está trabajando. Afortunadamente, es fácil obtener estas estadísticas con las estructuras de datos de **Pandas**.

## <font color='blue'>**Estadística Descriptiva con la Base de Datos Iris**</font>

En este proyecto, deberán implemnetar el cálculo de varias estadísticas descriptivas para el clásico <a href="https://en.wikipedia.org/wiki/Iris_flower_data_set">conjunto de datos de iris</a>.

El siguiente código, carga los paquetes necesarios y también el conjunto de datos iris.

`load_iris()` carga en un objeto que contiene el conjunto de datos de iris.

In [1]:
import pandas as pd
import numpy as np

from pandas import DataFrame
from sklearn.datasets import load_iris

iris_obj = load_iris()

Obtendremos un objeto del tipo __Bunch__, el cual es un contenedor de datos a los cuales se accede a través de _llaves_, de forma similar que en un diccionario de Python.

In [2]:
type(iris_obj)

sklearn.utils._bunch.Bunch

In [3]:
iris_obj.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [4]:
print(type(iris_obj['data']), '\n')
iris_obj['data']

<class 'numpy.ndarray'> 



array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

### <font color='green'>Actividad 1</font>

Basado en la estructura del objeto **iris_obj**, convierta este en un dataframe.


In [5]:
# Tu código aquí ...

#Solución

iris = DataFrame(iris_obj.data,
                 columns=iris_obj.feature_names,
                 index=pd.Index([i for i in range(iris_obj.data.shape[0])])).join(DataFrame(iris_obj.target,
                                                                                            columns=pd.Index(["species"]),
                                                                                            index=pd.Index([i for i in range(iris_obj.target.shape[0])])))
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


<font color='red'>**Deconstrucción**</font>

In [6]:
iris_1 = DataFrame(iris_obj.data,
                 columns=iris_obj.feature_names,
                 index=pd.Index([i for i in range(iris_obj.data.shape[0])]))
iris_1

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [7]:
iris_obj.data.shape

(150, 4)

In [8]:
iris_2 = DataFrame(iris_obj.target,
                   columns=pd.Index(["species"]),
                   index=pd.Index([i for i in range(iris_obj.target.shape[0])]))
iris_2

Unnamed: 0,species
0,0
1,0
2,0
3,0
4,0
...,...
145,2
146,2
147,2
148,2


In [9]:
iris = iris_1.join(iris_2)
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


<font color='red'>Fin deconstrucción</font>

<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

1. Reemplace los valores de la columna "species" por los siguientes valores:
  * "setosa" = 0
  * "versicolor" = 1
  * "virginica" = 2

2. Agrupe las muestras por especies
3. Sin usar el método `describe` calcule los estadísticos básicos de la muestra:
  * cantidad de elementos no nulos
  * media
  * varianza
  * Desviación estándar
  * Percentiles y cuartiles
  * Rango inter-cuartílico
  * Valores máximos y mínimos
  * Rango (diferencia entre el máximo y el mínimo)
4. Repita algunos de los análisis anteriores, pero muestre sus resultados por columnas y especies.
5. Compare sus resultados usando el metodo `describe` por columnas y por especies
6. Generar una tabla multi-indice por "especies" y "ancho del pétalo" y que de cuenta de la suma de los valores de cada clase



In [10]:
# Tu código aquí ...

# Parte 1

iris.species.replace({0: 'setosa', 1: 'versicolor', 2: 'virginica'}, inplace=True)
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [11]:
# Parte 2

iris_grps = iris.groupby("species").mean()
iris_grps

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [12]:
iris_grps2 = iris.groupby(by='species').species.count()
iris_grps2

species
setosa        50
versicolor    50
virginica     50
Name: species, dtype: int64

In [13]:
# Parte 3

print(iris.count(), '\n')
print(iris.mean(numeric_only=True), '\n')
print(iris.median(numeric_only=True), '\n')
print(iris.var(numeric_only=True), '\n')
print(iris.std(numeric_only=True), '\n')
print(iris.quantile(.1), '\n')
print(iris.quantile(.75), '\n')
print(iris.quantile(.75) - iris.quantile(.25), '\n')
print(iris.max(), '\n')
print(iris.min())

sepal length (cm)    150
sepal width (cm)     150
petal length (cm)    150
petal width (cm)     150
species              150
dtype: int64 

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64 

sepal length (cm)    5.80
sepal width (cm)     3.00
petal length (cm)    4.35
petal width (cm)     1.30
dtype: float64 

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64 

sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64 

sepal length (cm)    4.8
sepal width (cm)     2.5
petal length (cm)    1.4
petal width (cm)     0.2
Name: 0.1, dtype: float64 

sepal length (cm)    6.4
sepal width (cm)     3.3
petal length (cm)    5.1
petal width (cm)     1.8
Name: 0.75, dtype: float64 

sepal length (cm)    1.3
sepal width (cm)     0.5
petal length (cm)    

  print(iris.quantile(.1), '\n')
  print(iris.quantile(.75), '\n')
  print(iris.quantile(.75) - iris.quantile(.25), '\n')


In [14]:
# Parte 4

iris_grps = iris.groupby("species")
iris_grps.mean()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [15]:
iris_grps.quantile(.75)

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.2,3.675,1.575,0.3
versicolor,6.3,3.0,4.6,1.5
virginica,6.9,3.175,5.875,2.3


In [16]:
iris_grps.quantile(.75) - iris_grps.quantile(.25)

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.4,0.475,0.175,0.1
versicolor,0.7,0.475,0.6,0.3
virginica,0.675,0.375,0.775,0.5


In [17]:
# Parte 5

iris.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
sepal length (cm),150.0,5.843333,0.828066,4.3,5.1,5.8,6.4,7.9
sepal width (cm),150.0,3.057333,0.435866,2.0,2.8,3.0,3.3,4.4
petal length (cm),150.0,3.758,1.765298,1.0,1.6,4.35,5.1,6.9
petal width (cm),150.0,1.199333,0.762238,0.1,0.3,1.3,1.8,2.5


In [18]:
iris_grps.describe().T

Unnamed: 0,species,setosa,versicolor,virginica
sepal length (cm),count,50.0,50.0,50.0
sepal length (cm),mean,5.006,5.936,6.588
sepal length (cm),std,0.35249,0.516171,0.63588
sepal length (cm),min,4.3,4.9,4.9
sepal length (cm),25%,4.8,5.6,6.225
sepal length (cm),50%,5.0,5.9,6.5
sepal length (cm),75%,5.2,6.3,6.9
sepal length (cm),max,5.8,7.0,7.9
sepal width (cm),count,50.0,50.0,50.0
sepal width (cm),mean,3.428,2.77,2.974


In [19]:
# Parte 6

multicol_sum = iris.groupby(["species", "petal width (cm)"]).sum()
multicol_sum

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal length (cm),sepal width (cm),petal length (cm)
species,petal width (cm),Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.1,24.1,16.8,6.9
setosa,0.2,144.2,98.0,41.9
setosa,0.3,34.8,23.3,10.0
setosa,0.4,37.1,26.5,11.0
setosa,0.5,5.1,3.3,1.7
setosa,0.6,5.0,3.5,1.6
versicolor,1.0,37.9,16.6,25.4
versicolor,1.1,16.2,7.4,10.7
versicolor,1.2,28.9,13.7,21.2
versicolor,1.3,76.5,35.7,54.3


<font color='green'>Fin Actividad 2</font>

## <font color='blue'>**Análisis de Datos con Base de Datos Titanic**</font>

Para este probleme utilizaremos la base de datos "_titanic_". Para cargarla debe usar los siguientes comandos:

```
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)
```
Considere sólo las siguientes variables: _survived_, _pclass_, _sex_, _age_, _fare_ y _embarked_.


### <font color='green'>Actividad 3</font>

1. Reemplace los valores faltantes para la columna edad por el valor promedio de la muestra.
2. Elimine cualquier otra fila en la que falten datos

In [20]:
# Tu código aquí ...

import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [21]:
titanic = titanic[["survived", "pclass", "sex", "age", "fare", "embarked"]]
titanic

Unnamed: 0,survived,pclass,sex,age,fare,embarked
0,0,3,male,22.0,7.2500,S
1,1,1,female,38.0,71.2833,C
2,1,3,female,26.0,7.9250,S
3,1,1,female,35.0,53.1000,S
4,0,3,male,35.0,8.0500,S
...,...,...,...,...,...,...
886,0,2,male,27.0,13.0000,S
887,1,1,female,19.0,30.0000,S
888,0,3,female,,23.4500,S
889,1,1,male,26.0,30.0000,C


In [22]:
titanic["age"].fillna(titanic["age"].mean(), inplace=True)
titanic

Unnamed: 0,survived,pclass,sex,age,fare,embarked
0,0,3,male,22.000000,7.2500,S
1,1,1,female,38.000000,71.2833,C
2,1,3,female,26.000000,7.9250,S
3,1,1,female,35.000000,53.1000,S
4,0,3,male,35.000000,8.0500,S
...,...,...,...,...,...,...
886,0,2,male,27.000000,13.0000,S
887,1,1,female,19.000000,30.0000,S
888,0,3,female,29.699118,23.4500,S
889,1,1,male,26.000000,30.0000,C


In [23]:
# Parte 2

titanic.dropna(inplace=True)
titanic

Unnamed: 0,survived,pclass,sex,age,fare,embarked
0,0,3,male,22.000000,7.2500,S
1,1,1,female,38.000000,71.2833,C
2,1,3,female,26.000000,7.9250,S
3,1,1,female,35.000000,53.1000,S
4,0,3,male,35.000000,8.0500,S
...,...,...,...,...,...,...
886,0,2,male,27.000000,13.0000,S
887,1,1,female,19.000000,30.0000,S
888,0,3,female,29.699118,23.4500,S
889,1,1,male,26.000000,30.0000,C


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

1. Entregar la información correspondiente a la la tasa de supervivencia promedio agrupada por sexo y clase del pasajero.
2. Genere una tabla que muestre la cantidad de personas agrupadas por sexo y clase.
3. Muestre la misma información del punto 1, pero la cantidad de sobrevivientes.



In [24]:
# Tu código aquí ...

# Parte 1

titanic.pivot_table(values="survived", index="sex", columns="pclass")

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.967391,0.921053,0.5
male,0.368852,0.157407,0.135447


In [25]:
# Parte 2

titanic.pivot_table(values="survived", index="sex", columns="pclass", aggfunc="count")

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,92,76,144
male,122,108,347


In [26]:
# Parte 3

titanic.pivot_table(values="survived", index="sex", columns="pclass", aggfunc="sum")

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,89,70,72
male,45,17,47


Hasta ahora hemos examinado las tasas de supervivencia según el sexo y la clase de pasajeros. Otro factor que podría haber influido en la supervivencia es la edad. **¿Los niños varones tenían tanta probabilidad de morir como las mujeres en general?** Podemos investigar esta pregunta mediante la indexación múltiple, o pivotando en más de dos variables, agregando otro índice.

Divida la información de la columna "age" en intervalos, creando así una nueva categoría que se puede utilizar para agrupar. Divida el conjunto en intervalos de (0, 12], (12, 18] y (18, 80].

4. Genere la tabla que le ayude a responder la pregunta anterior (considerando los rangos definidos).
5. Para una mejor interpretación de la información anterior, genere una tabla con el número de entradas por cada grupo.






In [None]:
# Tu código aquí ...

# Parte 4

age = pd.cut(titanic['age'], [0, 12, 18, 80])
age

0      (18, 80]
1      (18, 80]
2      (18, 80]
3      (18, 80]
4      (18, 80]
         ...   
886    (18, 80]
887    (18, 80]
888    (18, 80]
889    (18, 80]
890    (18, 80]
Name: age, Length: 889, dtype: category
Categories (3, interval[int64, right]): [(0, 12] < (12, 18] < (18, 80]]

In [None]:
titanic.pivot_table(values="survived", index=["sex", age], columns="pclass", aggfunc="mean")

Unnamed: 0_level_0,pclass,1,2,3
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 12]",0.0,1.0,0.478261
female,"(12, 18]",1.0,1.0,0.55
female,"(18, 80]",0.975309,0.903226,0.49505
male,"(0, 12]",1.0,1.0,0.36
male,"(12, 18]",0.5,0.0,0.076923
male,"(18, 80]",0.350427,0.086022,0.121622


In [None]:
# Parte 5

titanic.pivot_table(values="survived", index=["sex", age],
columns="pclass", aggfunc="count")

Unnamed: 0_level_0,pclass,1,2,3
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 12]",1,8,23
female,"(12, 18]",10,6,20
female,"(18, 80]",81,62,101
male,"(0, 12]",3,9,25
male,"(12, 18]",2,6,26
male,"(18, 80]",117,93,296


Pandas también admite la indexación múltiple en las columnas. Como ejemplo, considere el precio de los boletos de un pasajero. Esta es otra característica continua que se puede discretizar. Divida los precios en 2 cuantiles iguales (baratos y caros). Algunos de los grupos resultantes podrían estar vacíos; para mejorar la legibilidad de la tabla use un guión en las casillas vacías.

6. Genere una tabla que nos permita ver el efecto del precio de los tickets.

In [32]:
# Tu código aquí ...

# Parte 6

fare = pd.qcut(titanic["fare"], 2)
fare

0       (-0.001, 14.454]
1      (14.454, 512.329]
2       (-0.001, 14.454]
3      (14.454, 512.329]
4       (-0.001, 14.454]
             ...        
886     (-0.001, 14.454]
887    (14.454, 512.329]
888    (14.454, 512.329]
889    (14.454, 512.329]
890     (-0.001, 14.454]
Name: fare, Length: 889, dtype: category
Categories (2, interval[float64, right]): [(-0.001, 14.454] < (14.454, 512.329]]

In [33]:
titanic.pivot_table(values="survived",
index=["sex", age], columns=[fare, "pclass"],
aggfunc="count", fill_value='-')

Unnamed: 0_level_0,fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,pclass,1,2,3,1,2,3
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 12]",0,0,5,1,8,18
female,"(12, 18]",0,3,16,10,3,4
female,"(18, 80]",0,26,60,81,36,41
male,"(0, 12]",0,0,4,3,9,21
male,"(12, 18]",0,4,19,2,2,7
male,"(18, 80]",6,59,245,111,34,51


<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

### Análisis de una Hipótesis

Supongamos que alguien afirma que la ciudad desde la que se embarcó un pasajero tuvo una gran influencia en la tasa de supervivencia del pasajero. Investigue esta afirmación.

7. Verifique las tasas de supervivencia de los pasajeros según el lugar desde donde se embarcaron (indicadas en la columna "embarked").

8. Cree una tabla dinámica para examinar las tasas de supervivencia según el lugar de embarque y el género.

9. ¿Qué le sugieren estas tablas sobre la importancia de dónde se embarcaron las personas para influir en su tasa de supervivencia? Examine el contexto del problema y explique lo que cree que esto realmente significa.

10. Investigue la afirmación más a fondo con al menos dos tablas dinámicas más, explorando otros criterios (por ejemplo, clase, edad, etc.). Explique cuidadosamente sus conclusiones.

Las letras que etiquetan las categorías de la variable 'embarked' corresponden a las ciudades donde la gente se embarcó en el Titanic:

* Cherbourg
* Queenstown
* Southampton

In [34]:
# Tu código aquí ...

# Parte 7

titanic = sns.load_dataset("titanic")
titanic.groupby(['embarked'])['survived'].mean()

embarked
C    0.553571
Q    0.389610
S    0.336957
Name: survived, dtype: float64

In [35]:
# Parte 8

titanic.groupby(['embarked','sex'])['survived'].mean()

embarked  sex   
C         female    0.876712
          male      0.305263
Q         female    0.750000
          male      0.073171
S         female    0.689655
          male      0.174603
Name: survived, dtype: float64

Parte 9

El lugar de embarque no tiene el mismo impacto en la mortalidad de los pasajeros según se trate de hombres o de mujeres. En el caso de las mujeres, se mantiene la misma tendencia general, pero en el caso de los hombres, hay mayor mortalidad de los que se embarcaron en Queenstown que en Southampton. Aún así, se requiere de pruebas estadísticas más concluyentes, como por ejemplo un modelo de regresión, para poder aislar el efecto de 'embarked' de otras variables como 'sex', donde quizás sí se podría confirmar que el lugar de embarque tiene un efecto significativo de acuerdo a lo observado en las primeras tablas.

In [36]:
# Parte 10

titanic.pivot_table(index = "embarked", columns = "class", values = "survived", aggfunc = [np.mean, "count"])

Unnamed: 0_level_0,mean,mean,mean,count,count,count
class,First,Second,Third,First,Second,Third
embarked,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
C,0.694118,0.529412,0.378788,85,17,66
Q,0.5,0.666667,0.375,2,3,72
S,0.582677,0.463415,0.189802,127,164,353


<font color='green'>Fin Actividad 5</font>