# **Obtención y preparación de datos**

# OD23. Tarea Final

Normalmente, los proyectos de ciencia de datos, comienzan con estadísticas descriptivas para tener una idea de las propiedades del conjunto de datos que se está trabajando. Afortunadamente, es fácil obtener estas estadísticas con las estructuras de datos de **Pandas**.

## <font color='blue'>**Estadística Descriptiva con la Base de Datos Iris**</font>

En este proyecto, deberán implementar el cálculo de varias estadísticas descriptivas para el clásico <a href="https://en.wikipedia.org/wiki/Iris_flower_data_set">conjunto de datos de iris</a>.

El siguiente código, carga los paquetes necesarios y también el conjunto de datos iris.

`load_iris()` carga en un objeto que contiene el conjunto de datos de iris.

In [146]:
import pandas as pd
import numpy as np 

from pandas import DataFrame
from sklearn.datasets import load_iris   

iris_obj = load_iris()

Obtendremos un objeto del tipo __Bunch__, el cual es un contenedor de datos a los cuales se accede a través de _llaves_, de forma similar que en un diccionario de Python. 

In [147]:
type(iris_obj)

sklearn.utils.Bunch

In [148]:
iris_obj.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [149]:
print(type(iris_obj['data']), '\n')
iris_obj['data']

<class 'numpy.ndarray'> 



array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

## <font color='green'>Actividad 1</font>

Basado en la estructura del objeto **iris_obj**, convierta este en un dataframe.


In [150]:
df_iris = pd.DataFrame(iris_obj['data'], columns=iris_obj['feature_names'])

#Se agrega la columna de especies que se llama "target" en la estructura del objeto.
df_iris['species'] = iris_obj["target"]
df_iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


<font color='green'>Fin Actividad 1</font>

## <font color='green'>Actividad 2</font>

1. Reemplace los valores de la columna "species" por los siguientes valores:
  * "setosa" = 0
  * "versicolor" = 1
  * "virginica" = 2

2. Agrupe las muestras por especies
3. Sin usar el método `describe` calcule los estadísticos básicos de la muestra:
  * cantidad de elementos no nulos
  * media
  * varianza
  * Desviación estándar
  * Percentiles y cuartiles
  * Rango inter-cuartílico
  * Valores máximos y mínimos
  * Rango (diferencia entre el máximo y el mínimo)
4. Repita algunos de los análisis anteriores, pero muestre sus resultados por columnas y especies.
5. Compare sus resultados usando el metodo `describe` por columnas y por especies
6. Generar una tabla multi-indice por "especies" y "ancho del pétalo" y que de cuenta de la suma de los valores de cada clase



**Solución:**

1. Se hará uso de la función map: función que acepta como entradas los valores que se encuentran en la serie original, en esta caso la columna 'species', y devuelve el resultado del mapeo como una nueva serie 'species' (ahora con los nombres en lugar de números) la cual reemplazará columna anterior.

In [151]:
def especie(s):
    if s==0:
        return "setosa"
    elif s==1:
        return "versicolor"
    elif s==2:
        return "virginica"

df_iris["species"]=df_iris["species"].map(especie)
df_iris

# Solución alternativa 1: Recorriendo la columna con un ciclo for y reemplazando de acuerdo a las indicaciones.
#for i in range(0,len(df_iris)):
#    if df_iris['species'][i] == 0:
#        df_iris['species'][i] = "setosa"
#    if df_iris['species'][i] == 1:
#        df_iris['species'][i] = "versicolor"
#    if df_iris['species'][i] == 2:
#        df_iris['species'][i] = "virginica"
#df_iris.head(5)

# Solución alternativa 2: Utilizando REPLACE
#https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html

#df_iris["species"] = df_iris["species"].replace([0,1,2], ["setosa","versicolor","virginica"])
#df_iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


2.

In [152]:
df_iris.groupby(by="species").count()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,50,50,50,50
versicolor,50,50,50,50
virginica,50,50,50,50


3.

In [153]:
# Se copia el dataframe:
df_aux = df_iris.copy()

# Se crean listas vacías en donde se almacenará cada uno de los estadísticos:
count = []
mean = []
var = []
std = []
min = []
q25 = []
q50 = []
q75 = []
max = []
rango_q = []
rango = []

# Se elimina la columna "species" ya que no es una variable numérica y por tanto no es posible
#obtener los estadísticos pedidos:

df_aux.drop(["species"], axis = 'columns', inplace=True)

# Se recorre cada columna (variable), para la columna se calculan los estadísticos y éstos se guardan en la lista creada para ello:

for i in df_aux.columns:
  count.append(df_aux[i].notnull().sum())
  mean.append(round(df_aux[i].mean(), 6))
  var.append(df_aux[i].var())
  std.append(df_aux[i].std())
  min.append(df_aux[i].min())
  q25.append(np.percentile(df_aux[i], 25))  # Otra forma: df_aux[i].quantile(0.25)
  q50.append(np.percentile(df_aux[i], 50))
  q75.append(np.percentile(df_aux[i], 75))
  max.append(df_aux[i].max())
  rango_q.append(np.percentile(df_aux[i], 75)-np.percentile(df_aux[i], 25))
  rango.append(df_aux[i].max()-df_aux[i].min())

# Se crea un nuevo dataframe con los estadisticos: 
estad = [count, mean, var, std, min, q25, q50, q75, max, rango_q, rango]
estadisticos = pd.DataFrame(estad, columns=df_aux.columns)

# Se define un nuevo índice para emular el resultado de la función describe:
index = ['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max', 'rango inter.', 'rango']
estadisticos = estadisticos.set_index([index])

estadisticos

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
var,0.685694,0.189979,3.116278,0.581006
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5
rango inter.,1.3,0.5,3.5,1.5


4.

In [154]:
#4.a) Se define una función cuya entrada es un dataframe y su salida es otro dataframe llamada metricas 
# en donde se presentan las medidas solicitadas:

def estats(df):
   for i in df.columns:                 #Este ciclo recorre todas las columnas, identifica cual columna está compuesta 
       if df[i].dtype == object:        #por valores no numéricos y la elimina, de modo que sólo quedan las columnas numéricas para así
          df = df.drop([i], axis=1)     #trabajar con ellas y calcular sus estadísticos.
       else:
          continue

   #De aquí en adelante se procede de manera análoga a la solución 3.
   count = []
   mean = []
   var = []
   std = []
   min = []
   q25 = []
   q50 = []
   q75 = []
   max = []
   rango_q = []
   rango = []
  
   for i in df.columns:
       count.append(df[i].notnull().sum())
       mean.append(round(df[i].mean(), 6))
       var.append(round(df[i].var(), 6))
       std.append(round(df[i].std(), 6))
       min.append(round(df[i].min(), 6))
       q25.append(round(df[i].quantile(0.25), 6))
       q50.append(round(df[i].quantile(0.50), 6))
       q75.append(round(df[i].quantile(0.75), 6))
       max.append(round(df[i].max(), 6))
       rango_q.append(round(df[i].quantile(0.75), 6)-round(df[i].quantile(0.25), 6))
       rango.append(round(df[i].max(), 6)-round(df[i].min(), 6))

   estadisticas = [count, mean, var, std, min, q25, q50, q75, max, rango_q, rango]
   metricas = pd.DataFrame(estadisticas, columns=df.columns)

   index = ['count', 'mean', 'std', 'var', 'min', '25%', '50%', '75%', 'max', 'rango inter.', 'rango']
   metricas = metricas.set_index([index])
   return metricas

In [155]:
#4.b) Se filtra toda la información para la especie setosa: df_iris[df_iris['species']=='setosa']
#Se aplica la función creada en 4.a) al dataframe seleccionado:

estats(df_iris[df_iris['species']=='setosa'])

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,50.0,50.0,50.0,50.0
mean,5.006,3.428,1.462,0.246
std,0.124249,0.14369,0.030159,0.011106
var,0.35249,0.379064,0.173664,0.105386
min,4.3,2.3,1.0,0.1
25%,4.8,3.2,1.4,0.2
50%,5.0,3.4,1.5,0.2
75%,5.2,3.675,1.575,0.3
max,5.8,4.4,1.9,0.6
rango inter.,0.4,0.475,0.175,0.1


In [156]:
#4.c) Se procede de forma análoga a 4.b) pero esta vez se considera la especie versicolor
estats(df_iris[df_iris['species']=='versicolor'])

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,50.0,50.0,50.0,50.0
mean,5.936,2.77,4.26,1.326
std,0.266433,0.098469,0.220816,0.039106
var,0.516171,0.313798,0.469911,0.197753
min,4.9,2.0,3.0,1.0
25%,5.6,2.525,4.0,1.2
50%,5.9,2.8,4.35,1.3
75%,6.3,3.0,4.6,1.5
max,7.0,3.4,5.1,1.8
rango inter.,0.7,0.475,0.6,0.3


In [157]:
#4.c) Se procede de forma análoga a 4.b) pero esta vez se considera la especie virginica
estats(df_iris[df_iris['species']=='virginica'])

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,50.0,50.0,50.0,50.0
mean,6.588,2.974,5.552,2.026
std,0.404343,0.104004,0.304588,0.075433
var,0.63588,0.322497,0.551895,0.27465
min,4.9,2.2,4.5,1.4
25%,6.225,2.8,5.1,1.8
50%,6.5,3.0,5.55,2.0
75%,6.9,3.175,5.875,2.3
max,7.9,3.8,6.9,2.5
rango inter.,0.675,0.375,0.775,0.5


5.

In [158]:
estats(df_iris[df_iris['species']=='setosa'])

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,50.0,50.0,50.0,50.0
mean,5.006,3.428,1.462,0.246
std,0.124249,0.14369,0.030159,0.011106
var,0.35249,0.379064,0.173664,0.105386
min,4.3,2.3,1.0,0.1
25%,4.8,3.2,1.4,0.2
50%,5.0,3.4,1.5,0.2
75%,5.2,3.675,1.575,0.3
max,5.8,4.4,1.9,0.6
rango inter.,0.4,0.475,0.175,0.1


In [159]:
df_iris[df_iris['species']=='setosa'].describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,50.0,50.0,50.0,50.0
mean,5.006,3.428,1.462,0.246
std,0.35249,0.379064,0.173664,0.105386
min,4.3,2.3,1.0,0.1
25%,4.8,3.2,1.4,0.2
50%,5.0,3.4,1.5,0.2
75%,5.2,3.675,1.575,0.3
max,5.8,4.4,1.9,0.6


In [160]:
#El resto se ejecuta de forma análoga:

#estats(df_iris[df_iris['species']=='versicolor'])
#estats(df_iris[df_iris['species']=='setosa'])

In [161]:
#df_iris[df_iris['species']=='versicolor'].describe()
#df_iris[df_iris['species']=='setosa'].describe()

6.

In [162]:
indice = pd.MultiIndex.from_frame(df_iris[['species', 'petal width (cm)']])
indice = indice.unique()
pd.DataFrame(df_iris.groupby(['species', 'petal width (cm)']).size(), index = indice)

Unnamed: 0_level_0,Unnamed: 1_level_0,0
species,petal width (cm),Unnamed: 2_level_1
setosa,0.2,29
setosa,0.4,7
setosa,0.3,7
setosa,0.1,5
setosa,0.5,1
setosa,0.6,1
versicolor,1.4,7
versicolor,1.5,10
versicolor,1.3,13
versicolor,1.6,3


<font color='green'>Fin Actividad 2</font>

## <font color='blue'>**Análisis de Datos con Base de Datos Titanic**</font>

Para este problema utilizaremos la base de datos "_titanic_". Para cargarla debe usar los siguientes comandos:

```
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)
```
Considere sólo las siguientes variables: _survived_, _pclass_, _sex_, _age_, _fare_ y _embarked_.


In [163]:
#Carga y visualización parcial de la base de datos titanic:

import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [164]:
#Captura de las variables de interés (se guardan en otro dataframe llamado titanic2):

titanic2=titanic.loc[:,['survived','pclass','sex','age','fare','embarked']]
titanic2.head(8)

Unnamed: 0,survived,pclass,sex,age,fare,embarked
0,0,3,male,22.0,7.25,S
1,1,1,female,38.0,71.2833,C
2,1,3,female,26.0,7.925,S
3,1,1,female,35.0,53.1,S
4,0,3,male,35.0,8.05,S
5,0,3,male,,8.4583,Q
6,0,1,male,54.0,51.8625,S
7,0,3,male,2.0,21.075,S


## <font color='green'>Actividad 3</font>

1. Reemplace los valores faltantes para la columna edad por el valor promedio de la muestra.
2. Elimine cualquier otra fila en la que falten datos

**Solución:**

1. Considere las siguientes funciones:

- `DataFrame.mean`: Return the mean of the values over the requested axis and exclude NA/null values when computing the result.

  https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html
  
- `Series.fillna`: Fill NA/NaN values using the specified method. Value to use to fill holes (e.g. 0), alternately a dict/Series/DataFrame of values specifying which value to use for each index (for a Series) or column (for a DataFrame). Values not in the dict/Series/DataFrame will not be filled. 

 https://pandas.pydata.org/docs/reference/api/pandas.Series.fillna.html

así, aún cuando existan NaN es posible calcular el promedio y la función fillna ayudará a reemplazar los valores NaN por el promedio. Se aplica fillna a la serie titanic2['age'].

In [165]:
#El promedio de la columna edad es: titanic2['age'].mean()
mean_age=titanic2['age'].mean()

#Se extrae la columna edad y las entradas NaN son reemplazadas por el promedio.
#se reescribe la columna edad con la modificación realizada.
titanic2['age']=titanic2['age'].fillna(mean_age)

titanic2.head(8)

Unnamed: 0,survived,pclass,sex,age,fare,embarked
0,0,3,male,22.0,7.25,S
1,1,1,female,38.0,71.2833,C
2,1,3,female,26.0,7.925,S
3,1,1,female,35.0,53.1,S
4,0,3,male,35.0,8.05,S
5,0,3,male,29.699118,8.4583,Q
6,0,1,male,54.0,51.8625,S
7,0,3,male,2.0,21.075,S


2. Se emplea la función:

- `DataFrame.dropna`: Remove missing values.Parameters: axis{0 or ‘index’, 1 or ‘columns’}, default 0. Determine if rows or columns which contain missing values are removed. 
0, or ‘index’ : Drop rows which contain missing values.
1, or ‘columns’ : Drop columns which contain missing value.

   https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

para eliminar las filas con valores faltantes.


In [166]:
titanic2=titanic2.dropna()

**fin solución actividad 3**

<font color='green'>Fin Actividad 3</font>

## <font color='green'>Actividad 4</font>

1. Entregar la información correspondiente a la la tasa de supervivencia promedio agrupada por sexo y clase del pasajero.
2. Genere una tabla que muestre la cantidad de personas agrupadas por sexo y clase.
3. Muestre la misma información del punto 1, pero la cantidad de sobrevivientes.
 


**Solución:**

In [167]:
#1) La información se presenta haciendo uso de una tabla dinámica:
titanic2.pivot_table(index = "sex", columns = "pclass", values = "survived")

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.967391,0.921053,0.5
male,0.368852,0.157407,0.135447


In [168]:
#2) 
titanic2.pivot_table(index = "sex", columns = "pclass", values = "survived",aggfunc = "count", margins =True)

pclass,1,2,3,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,92,76,144,312
male,122,108,347,577
All,214,184,491,889


In [169]:
#3)
titanic2.pivot_table(index = "sex", columns = "pclass", values = "survived", aggfunc= ['sum'], margins = True)

Unnamed: 0_level_0,sum,sum,sum,sum
pclass,1,2,3,All
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,89,70,72,231
male,45,17,47,109
All,134,87,119,340


**fin solución.** 

**Solución Alternativa:** 

In [170]:
#1) 
#a) Se agrupa la información por sexo y clase del pasajero, y se obtiene el promedio de todas las variables:
tabla=titanic2.groupby(by = ["sex", "pclass"]).mean()
tabla

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,age,fare
sex,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,1,0.967391,33.796653,106.69375
female,2,0.921053,28.748661,21.970121
female,3,0.5,24.068493,16.11881
male,1,0.368852,39.287717,67.226127
male,2,0.157407,30.653908,19.741782
male,3,0.135447,27.372153,12.661633


In [171]:
#b) Del resultado anterior se extrae la variable de interés: superviviencia.
tabla['survived']

sex     pclass
female  1         0.967391
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: survived, dtype: float64

In [172]:
#2) Se agrupa la información por sexo y clase del pasajero, y se obtiene la cantidad de datos de la categoría:
tabla2=titanic2.groupby(by = ["sex", "pclass"]).count()
tabla2['survived']

sex     pclass
female  1          92
        2          76
        3         144
male    1         122
        2         108
        3         347
Name: survived, dtype: int64

In [173]:
#3) 
#a) Se seleccionan los datos donde el pasajero sobrevivió, esto es: 'survived'>0
tabla3=titanic2[titanic2['survived']>0]
tabla3.head(4)

Unnamed: 0,survived,pclass,sex,age,fare,embarked
1,1,1,female,38.0,71.2833,C
2,1,3,female,26.0,7.925,S
3,1,1,female,35.0,53.1,S
8,1,3,female,27.0,11.1333,S


In [174]:
#b) Se agrupa la información por sexo y clase del pasajero, y se obtiene la cantidad de datos de la categoría:
tabla4=tabla3.groupby(by = ["sex", "pclass"]).count()
tabla4['survived']

sex     pclass
female  1         89
        2         70
        3         72
male    1         45
        2         17
        3         47
Name: survived, dtype: int64

**fin solución alternativa.**

Hasta ahora hemos examinado las tasas de supervivencia según el sexo y la clase de pasajeros. Otro factor que podría haber influido en la supervivencia es la edad. **¿Los niños varones tenían tanta probabilidad de morir como las mujeres en general?** Podemos investigar esta pregunta mediante la indexación múltiple, o pivotando en más de dos variables, agregando otro índice.

Divida la información de la columna "age" en intervalos, creando así una nueva categoría que se puede utilizar para agrupar. Divida el conjunto en intervalos de (0, 12], (12, 18] y (18, 80].

4. Genere la tabla que le ayude a responder la pregunta anterior (considerando los rangos definidos).
5. Para una mejor interpretación de la información anterior, genere una tabla con el número de entradas por cada grupo.






**Solución:**

4. Se hará uso de la función map: función que acepta como entradas los valores que se encuentran en la serie original, en esta caso la columna 'age', y devuelve el resultado del mapeo como la serie 'age intervals' la cual será una nueva columna de la tabla.

In [175]:
def intervalos(s):
    if (s> 0) & (s <= 12):
        return 'Niño'
    elif (s> 12) & (s <= 18):
        return 'Joven'
    elif (s> 18) & (s <= 80):
        return 'Adulto'

titanic2["age intervals"]=titanic2["age"].map(intervalos)
titanic2.head(5)

Unnamed: 0,survived,pclass,sex,age,fare,embarked,age intervals
0,0,3,male,22.0,7.25,S,Adulto
1,1,1,female,38.0,71.2833,C,Adulto
2,1,3,female,26.0,7.925,S,Adulto
3,1,1,female,35.0,53.1,S,Adulto
4,0,3,male,35.0,8.05,S,Adulto


luego se hace uso de una tabla dinámica para obtener la tasa de supervivencia de hombres y mujeres por rango de edad:

In [176]:
titanic2.pivot_table(index = "sex", columns = "age intervals", values = "survived")

age intervals,Adulto,Joven,Niño
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.758197,0.75,0.59375
male,0.167984,0.088235,0.567568


5. de aquí se obtiene la tasa de mortalidad considerando sexo y rango de edad:

In [177]:
1-titanic2.pivot_table(index = "sex", columns = "age intervals", values = "survived")

age intervals,Adulto,Joven,Niño
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.241803,0.25,0.40625
male,0.832016,0.911765,0.432432


por tanto: *¿Los niños varones tenían tanta probabilidad de morir como las mujeres en general?* no, en general los niños tenían mucha más probabilidad de morir que las mujeres, su probabilidad de muerte es 0.43, levemente superior a las niñas de su misma edad (0.4) pero muy alto en comparación con la probabilidad de muerte de las mujeres mayores de 12 años (0.245 aprox.).

**fin solución.**

Pandas también admite la indexación múltiple en las columnas. Como ejemplo, considere el precio de los boletos de un pasajero. Esta es otra característica continua que se puede discretizar. Divida los precios en 2 cuantiles iguales (baratos y caros). Algunos de los grupos resultantes podrían estar vacíos; para mejorar la legibilidad de la tabla use un guión en las casillas vacías.

6. Genere una tabla que nos permita ver el efecto del precio de los tickets.

**Solución:**

6. Para obtener la mediana de los pasajes, convertiremos en una lista con precios que no se repitan los precios de los pasajes. Esto se debe a que casi la mitad de las personas que habia abordado el titanic lo hizo en los precios de 3 clase, pero en la realidad este precio estaria sobrestimando lo que es barato debido a la cantidad de personas que lo habria adquirido.
Se tomo la decision de generar valores unicos y en base a estos valores, sacar la mediana para la division si un pasaje era caro o era barato

In [178]:
fare= (titanic2['fare'].append(titanic2['fare'])).unique()
fare.sort
np.median(fare, axis = None)

21.0

In [179]:
#el cual es 21 que es la mediana de la columna titanic2["fare"].

In [180]:
def intervalosPrecio(s):
    if (s <= 21):
        return 'Barato'
    elif (s> 21) :
        return 'Caro'
    

titanic2["fare intervals"]=titanic2["fare"].map(intervalosPrecio)
titanic2.head(5)

Unnamed: 0,survived,pclass,sex,age,fare,embarked,age intervals,fare intervals
0,0,3,male,22.0,7.25,S,Adulto,Barato
1,1,1,female,38.0,71.2833,C,Adulto,Caro
2,1,3,female,26.0,7.925,S,Adulto,Barato
3,1,1,female,35.0,53.1,S,Adulto,Caro
4,0,3,male,35.0,8.05,S,Adulto,Barato


In [181]:
print('Ejemplo tabla resultante:')
titanic2.head(2)

Ejemplo tabla resultante:


Unnamed: 0,survived,pclass,sex,age,fare,embarked,age intervals,fare intervals
0,0,3,male,22.0,7.25,S,Adulto,Barato
1,1,1,female,38.0,71.2833,C,Adulto,Caro


así, si la tarifa es inferior a 21 el boleto se considerará "barato" y si aquel valor es igual o superior entonces se considerará "caro". Luego se genera la tabla dinámica que considera la agrupación por el valor de los boletos:

In [182]:
titanic2.pivot_table(index = "pclass", columns = ["fare intervals"]
                     ,values = "survived"
                     ,fill_value='-'
                     ,aggfunc = [np.mean,"count"])

#- las filas corresponden a la clase: 1,2,3.

#- las columnas corresponden al tipo de boleto: barato, caro ("fare intervals").
#- el primer grupo de columnas llamado mean indica la tasa de superviviencia de acuerdo a la clase y al tipo de boleto (barato o caro).
#- el segundo grupo de columnas llamado count indica el número de datos (números de pasajeros) que hay para cada clase y tipo de boleto (barato/caro).

Unnamed: 0_level_0,mean,mean,count,count
fare intervals,Barato,Caro,Barato,Caro
pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,0.0,0.644231,6,208
2,0.4,0.581081,110,74
3,0.253623,0.181818,414,77


De la tabla se obtiene que:

- en primera clase,  personas 6 compraron boletos baratos de los cuales ninguno sobrevivió y 208 personas compraron boletos caros de los cuales
el 64% sobrevivió (134).
- en segunda clase, 110 personas compraron boletos baratos de los cuales sólo el 40% sobrevivió (44), 74 pasajeros compraron boletos caros y el 58.1% sobrevivió (43).
- en tercera clase, 414 personas compraron boletos baratos y 77 compraron boletos caros, de los cuales el 25.36% y 18.1%, respectivamente, sobrevivieron (105 y 14).

Por otro lado, otra forma de  contar los pasajero/as sobrevivientes de acuerdo a esta agrupación es la siguiente:

In [183]:
titanic2.pivot_table(index = "pclass", columns = ["fare intervals"], 
                                       values = "survived",
                                       fill_value='-',
                                       aggfunc = [lambda x:(x>0).sum(),np.mean])

#- las filas corresponden a la clase: 1,2,3.

#- las columnas corresponden al tipo de boleto: barato, caro ("fare intervals").
#- el primer grupo de columnas llamado <lambda> indica la cantidad de pasajeros que sobrevivieron de acuerdo 
#a la clase y al tipo de boleto (barato o caro).
#- el segundo grupo de columnas llamado mean indica la tasa de superviviencia de acuerdo a la clase y al tipo de boleto (barato o caro).

Unnamed: 0_level_0,<lambda>,<lambda>,mean,mean
fare intervals,Barato,Caro,Barato,Caro
pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,0,134,0.0,0.644231
2,44,43,0.4,0.581081
3,105,14,0.253623,0.181818


o bien:

In [184]:
#Se seleccionan los sobrevivientes: titanic2['survived']>0] y se agrupa de acuerdo a valor del boleto:
titanic2[titanic2['survived']>0].pivot_table(index = "pclass", 
                                             columns = ["fare intervals"], 
                                             values = "survived",
                                             fill_value='-',
                                             aggfunc = ["count"])

Unnamed: 0_level_0,count,count
fare intervals,Barato,Caro
pclass,Unnamed: 1_level_2,Unnamed: 2_level_2
1,-,134.0
2,44.0,43.0
3,105.0,14.0


**fin solución.**

<font color='green'>Fin Actividad 4</font>

## <font color='green'>Actividad 5</font>

### Análisis de una Hipótesis

Supongamos que alguien afirma que la ciudad desde la que se embarcó un pasajero tuvo una gran influencia en la tasa de supervivencia del pasajero. Investigue esta afirmación.

1. Verifique las tasas de supervivencia de los pasajeros según el lugar desde donde se embarcaron (indicadas en la columna "embarked").

2. Cree una tabla dinámica para examinar las tasas de supervivencia según el lugar de embarque y el género.

3. ¿Qué le sugieren estas tablas sobre la importancia de dónde se embarcaron las personas para influir en su tasa de supervivencia? Examine el contexto del problema y explique lo que cree que esto realmente significa.

4. Investigue la afirmación más a fondo con al menos dos tablas dinámicas más, explorando otros criterios (por ejemplo, clase, edad, etc.). Explique cuidadosamente sus conclusiones.

**Solución:**

1. Se obtienen los lugares en donde se embarcaron:

In [185]:
titanic2["embarked"].unique()

array(['S', 'C', 'Q'], dtype=object)

las letras que etiquetan las categorías de la variable 'embarked' corresponden a las ciudades donde la gente se embarcó en el Titanic:

* Cherbourg
* Queenstown
* Southampton

Y se calculan las tasas de supervivencia de acuerdo al lugar:

In [186]:
tabla5=titanic2.groupby(by = ["embarked"]).mean()
tabla5["survived"]

embarked
C    0.553571
Q    0.389610
S    0.336957
Name: survived, dtype: float64

2. Tabla dinámica según las indicaciones:

In [187]:
titanic2.pivot_table(index = "embarked", columns ="sex", values = "survived", aggfunc = np.mean)

sex,female,male
embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,0.876712,0.305263
Q,0.75,0.073171
S,0.689655,0.174603


3. Antes de responder, se investiga el contexto del viaje del Titanic:

- según  https://es.wikipedia.org/wiki/RMS_Titanic el viaje se inició en
Southampton el 10 de abril de 1912, luego el Titanic recaló en Cherburgo (Francia) y en Queenstown (actual Cobh), en Irlanda, antes de poner rumbo al océano Atlántico. 

y también se investiga sobre las opciones de la función `pivot_table` para ver si es posible obtener mayor información:

- https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html
  . Se usará la opción `margins=True`:

In [188]:
titanic2.pivot_table(index = "embarked", 
                     columns ="sex", 
                     values = "survived", 
                     aggfunc = ["count",lambda x:(x>0).sum(),np.mean],
                     margins= True)

#- las filas corresponden al lugar de embarque: C,Q,S.

#- las columnas corresponden al sexo: female, male.
#- el primer grupo de columnas llamado count indica el número de datos que hay para cada embarque y sexo, es decir, el número de pasajeros.
#- el segundo grupo de columnas llamado <lambda> indica la cantidad de valores de survived mayores que 0, es decir, 
#el número de pasajeros que sobrevivió para cada embarque y sexo.
#- el tercer grupo de columnas llamado mean indica la tasa de supervivencia de acuerdo al sexo y clase.
#- la opción margins+true permite obtener el total del "values" que se analiza por fila y por columna.

Unnamed: 0_level_0,count,count,count,<lambda>,<lambda>,<lambda>,mean,mean,mean
sex,female,male,All,female,male,All,female,male,All
embarked,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
C,73,95,168,64,29,93,0.876712,0.305263,0.553571
Q,36,41,77,27,3,30,0.75,0.073171,0.38961
S,203,441,644,140,77,217,0.689655,0.174603,0.336957
All,312,577,889,231,109,340,0.740385,0.188908,0.382452


De aquí se obtiene que en:

- Southampton embarcaron 644 pasajero/as, y sobrevivieron 217 lo cual corresponde al 33.6%.
- Cherburgo embarcaron 77 pasajero/as, y sobrevivieron 30 lo cual corresponde al 55.3%.
- Queenstown embarcaron 168 pasajero/as, y sobrevivieron 93 lo cual corresponde al 38.9%.

Con la información que entregan las tablas sólo se puede concluir lo evidente: aquellos que embarcaron en Cherburgo tuvieron mayor probabilidad de supervivencia que el resto, sin embargo, no se puede determinar la razón por la cual esto ocurre y tampoco se puede determinar si el lugar tiene relación con la tasa de supervivencia puesto que en Southampton y Queenstown la tasa es similar.

4. Ahora, si se considera además la clase del pasajero se tiene:

In [189]:
titanic2.pivot_table(index = ["embarked"], columns ="pclass", 
                                           values = "survived",
                                           fill_value='-',
                                           aggfunc = ["count",lambda x:(x>0).sum(),np.mean], margins=True)

#- las filas corresponden al lugar de embarque: C,Q,S.

#- las columnas corresponden a las clases: 1,2,3.
#- el primer grupo de columnas llamado count indica el número de datos que hay para cada embarque y clase, es decir, el número de pasajeros.
#- el segundo grupo de columnas llamado <lambda> indica la cantidad de valores de survived mayores que 0, es decir, 
#el número de pasajeros que sobrevivió para cada embarque y clase.
#- el tercer grupo de columnas llamado <mean> indica la tasa de supervivencia de acuerdo al embarque y clase.

Unnamed: 0_level_0,count,count,count,count,<lambda>,<lambda>,<lambda>,<lambda>,mean,mean,mean,mean
pclass,1,2,3,All,1,2,3,All,1,2,3,All
embarked,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
C,85,17,66,168,59,9,25,93,0.694118,0.529412,0.378788,0.553571
Q,2,3,72,77,1,2,27,30,0.5,0.666667,0.375,0.38961
S,127,164,353,644,74,76,67,217,0.582677,0.463415,0.189802,0.336957
All,214,184,491,889,134,87,119,340,0.626168,0.472826,0.242363,0.382452


De la tabla se concluye que de los 889 pasajeros:

- 214 iban en primera clase de los cuales 62.6% sobrevivió.
- 184 iban en segunda clase de los cuales 47.2% sobrevivió.
- 491 iban en tercera clase de los cuales 24.2% sobrevivió.

luego la tasa de supervivencia más alta la tiene la primera clase y la tasa más baja de supervivencia la tercera clase.

Por otro lado, también se obtiene que:

- el 19% (127) de los pasajeros que embarcaron en Southampton (644) son primera clase.
- el 51.5% (85) de los pasajeros que embarcaron en Cherburgo (168) son de primera clase.
- el 2.5% (2) de los pasajeros que embarcaron en Queenstown (77) son de primera clase.

por tanto, ahora se entiende la razón por la que hubo mayor supervivencia en los pasajeros de Cherburgo: la mayoría de los pasajeros que embarcaron en Cherburgo eran de primera clase y por tanto tenían mayor probabilidad de sobrevivir.



Por último, se agrega la edad:

In [190]:
titanic2.pivot_table(index = ["embarked","pclass"], 
                                             columns =["age intervals"], 
                                             values = "survived",
                                             fill_value='-',
                                             aggfunc = np.mean, margins=True)

#- las filas corresponden a las clases:1,2,3.
#- el primer grupo de 3 filas corresponde al embarque C.
#- el segundo grupo de 3 filas corresponde al embarque Q.
#- el tercer grupo de 3 filas corresponde al embarque S.

#- el valor indica la tasa de supervivencia para cada embarque, clase e intervalo de edad.

#- las columnas corresponden a los intervalos de edad.

Unnamed: 0_level_0,age intervals,Adulto,Joven,Niño,All
embarked,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
C,1.0,0.683544,0.833333,-,0.694118
C,2.0,0.384615,1.0,1.0,0.529412
C,3.0,0.291667,0.444444,0.777778,0.378788
Q,1.0,0.5,-,-,0.5
Q,2.0,0.666667,-,-,0.666667
Q,3.0,0.375,0.75,0.0,0.375
S,1.0,0.555556,1.0,0.75,0.582677
S,2.0,0.410072,0.4,1.0,0.463415
S,3.0,0.168421,0.181818,0.371429,0.189802
All,,0.36,0.428571,0.57971,0.382452


La tabla indica que:

- la tasa de supervivencia de los pasajeros Niño  es 0.579
- la tasa de supervivencia de los pasajeros Joven es 0.428
- la tasa de supervivencia de los pasajeros Adulto es 0.36

**fin solución**

<font color='green'>Fin Actividad 5</font>