# **Obtención y preparación de datos**

# OD23. Tarea Final

Normalmente, los proyectos de ciencia de datos, comienzan con estadísticas descriptivas para tener una idea de las propiedades del conjunto de datos que se está trabajando. Afortunadamente, es fácil obtener estas estadísticas con las estructuras de datos de **Pandas**.

## <font color='blue'>**Estadística Descriptiva con la Base de Datos Iris**</font>

En este proyecto, deberán implemnetar el cálculo de varias estadísticas descriptivas para el clásico <a href="https://en.wikipedia.org/wiki/Iris_flower_data_set">conjunto de datos de iris</a>.

El siguiente código, carga los paquetes necesarios y también el conjunto de datos iris.

**load_iris()** carga en un objeto que contiene el conjunto de datos de iris.

In [117]:
import pandas as pd
import numpy as np

from pandas import DataFrame
from sklearn.datasets import load_iris   

iris_obj = load_iris()

In [118]:
type(iris_obj.data)
type(iris_obj.feature_names)

list

## <font color='green'>Actividad 1</font>

Basado en la estructura del objeto **iris_obj**, convierta este en un dataframe.


In [119]:
#Solución
Iris_plants = pd.DataFrame(iris_obj.data, columns = iris_obj.feature_names)
Iris_plants


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [120]:
Iris_plants["target"] = pd.array(data=iris_obj.target, dtype=np.dtype("<U1"))
Iris_plants

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


<font color='green'>Fin Actividad 1</font>

## <font color='green'>Actividad 2</font>

1. Reemplace los valores de la columna "species" por los siguientes valores:
  * "setosa" = 0
  * "versicolor" = 1
  * "virginica" = 2

2. Agrupe las muestras por especies
3. Sin usar el método **describe()**, calcule los estadísticos básicos de la muestra:
  * cantidad de elementos no nulos
  * media
  * varianza
  * Desviación estándar
  * Percentiles y cuartiles
  * Rango inter-cuartílico
  * Valores máximos y mínimos
  * Rango (diferencia entre el máximo y el mínimo)
4. Repita algunos de los análisis anteriores, pero muestre sus resultados por columnas y especies.
5. Compare sus resultados usando el metodo **describe()** por columnas y por especies
6. Generar una tabla multi-indice por "especies" y "ancho del pétalo" y que de cuenta de la suma de los valores de cada clase



In [121]:
# Solución

# 1.- Reemplazar nombre de la especie
Iris_plants['Especie'] = ''
Iris_plants.loc[Iris_plants.target == '0', 'Especie'] = 'setosa'
Iris_plants.loc[Iris_plants.target == '1', 'Especie'] = 'versicolor'
Iris_plants.loc[Iris_plants.target == '2', 'Especie'] = 'virginica'
Iris_plants.pop('target')
Iris_plants


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Especie
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [None]:
# 2.- Agrupar por especies
Iris_plants.groupby("Especie").describe()

Unnamed: 0_level_0,sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal width (cm),sepal width (cm),sepal width (cm),sepal width (cm),sepal width (cm),sepal width (cm),sepal width (cm),sepal width (cm),petal length (cm),petal length (cm),petal length (cm),petal length (cm),petal length (cm),petal length (cm),petal length (cm),petal length (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm)
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Especie,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2,Unnamed: 26_level_2,Unnamed: 27_level_2,Unnamed: 28_level_2,Unnamed: 29_level_2,Unnamed: 30_level_2,Unnamed: 31_level_2,Unnamed: 32_level_2
setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,0.379064,2.3,3.2,3.4,3.675,4.4,50.0,1.462,0.173664,1.0,1.4,1.5,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,0.313798,2.0,2.525,2.8,3.0,3.4,50.0,4.26,0.469911,3.0,4.0,4.35,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,0.322497,2.2,2.8,3.0,3.175,3.8,50.0,5.552,0.551895,4.5,5.1,5.55,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


In [None]:
# 3 .- estadísticos básicos de la muestra

#funcion de rango 
def max_min(s):
   return max(s) - min(s)

#estadisticos
iris_count = Iris_plants.count()
iris_media = Iris_plants.mean()
iris_varianza = Iris_plants.var()
iris_desviacion = Iris_plants.std()
iris_media = Iris_plants.mean()
iris_Q1 = Iris_plants.quantile(0.25)
iris_Q2 = Iris_plants.quantile(0.50)
iris_Q3 = Iris_plants.quantile(0.75)
iris_RIQ = iris_Q3 - iris_Q1
iris_min = Iris_plants.min()
iris_max = Iris_plants.max()
iris_rango = Iris_plants.loc[:, iris_obj.feature_names].apply(max_min)

ires_desc = pd.DataFrame({'No Nulos': iris_count, 
                          'mean': iris_media, 
                          'var':iris_varianza, 
                          'std':iris_desviacion,
                          '25%':iris_Q1,
                          '50%':iris_Q2,
                          '75%':iris_Q3,
                          'RIQ':iris_RIQ,
                          'Min':iris_min,
                          'Max':iris_max, 
                          'Rango':iris_rango 
                          }                         
                         )

ires_desc = ires_desc.transpose()
ires_desc.pop('Especie')
ires_desc



Unnamed: 0,petal length (cm),petal width (cm),sepal length (cm),sepal width (cm)
No Nulos,150.0,150.0,150.0,150.0
mean,3.758,1.19933,5.84333,3.05733
var,3.11628,0.581006,0.685694,0.189979
std,1.7653,0.762238,0.828066,0.435866
25%,1.6,0.3,5.1,2.8
50%,4.35,1.3,5.8,3.0
75%,5.1,1.8,6.4,3.3
RIQ,3.5,1.5,1.3,0.5
Min,1.0,0.1,4.3,2.0
Max,6.9,2.5,7.9,4.4


In [None]:
# 4 .- Repita algunos de los análisis anteriores, pero muestre sus resultados por columnas y especies.

# 4.1 - no nulos.
print('No nulos\n')
Iris_plants.groupby("Especie").count()


No nulos



Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,50,50,50,50
versicolor,50,50,50,50
virginica,50,50,50,50


In [None]:
# 4.2 - Media.
print('Media\n')
Iris_plants.groupby("Especie").mean()

Media



Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [None]:
# 4.3 .- Varianza
print('Varianza\n')
Iris_plants.groupby("Especie").var()

Varianza



Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.124249,0.14369,0.030159,0.011106
versicolor,0.266433,0.098469,0.220816,0.039106
virginica,0.404343,0.104004,0.304588,0.075433


In [None]:
# 4.4 .- Desviación estandar
print('Desviación estandar\n')
Iris_plants.groupby("Especie").std()

Desviación estandar



Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.35249,0.379064,0.173664,0.105386
versicolor,0.516171,0.313798,0.469911,0.197753
virginica,0.63588,0.322497,0.551895,0.27465


In [None]:
# 4.5 .- Percentiles y cuartiles
print('Cuartil 1  25%\n')
Iris_plants.groupby("Especie").quantile(0.75)


Cuartil 1  25%



Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.2,3.675,1.575,0.3
versicolor,6.3,3.0,4.6,1.5
virginica,6.9,3.175,5.875,2.3


In [None]:
print('Cuartil 3  75%\n')
Iris_plants.groupby("Especie").quantile(0.25)


Cuartil 3  75%



Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,4.8,3.2,1.4,0.2
versicolor,5.6,2.525,4.0,1.2
virginica,6.225,2.8,5.1,1.8


In [None]:
# 4.6 .- Rango inter-cuartílico
print('Rango inter-cuartílico\n')
Q1 = Iris_plants.groupby("Especie").quantile(0.25)
Q3 = Iris_plants.groupby("Especie").quantile(0.75)
RIQ = Q3-Q1
RIQ



Rango inter-cuartílico



Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.4,0.475,0.175,0.1
versicolor,0.7,0.475,0.6,0.3
virginica,0.675,0.375,0.775,0.5


In [None]:
# 4.7 .- Valores mínimos
print('Minimos\n')
Iris_plants.groupby("Especie").min()

Minimos



Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,4.3,2.3,1.0,0.1
versicolor,4.9,2.0,3.0,1.0
virginica,4.9,2.2,4.5,1.4


In [None]:
# 4.8 .- Valores máximos
print('Maximos\n')
Iris_plants.groupby("Especie").max()

Maximos



Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.8,4.4,1.9,0.6
versicolor,7.0,3.4,5.1,1.8
virginica,7.9,3.8,6.9,2.5


In [None]:
# 4.9 .- Rango (diferencia entre el máximo y el mínimo)

#funcion de rango 
def max_min(s):
  return max(s) - min(s)

setosa = Iris_plants[Iris_plants['Especie'].isin(['setosa'])].loc[:, iris_obj.feature_names].apply(max_min)
setosa = pd.DataFrame(setosa)
setosa = setosa.transpose()
setosa.index = ['setosa']

versicolor = Iris_plants[Iris_plants['Especie'].isin(['versicolor'])].loc[:, iris_obj.feature_names].apply(max_min)
versicolor = pd.DataFrame(versicolor)
versicolor = versicolor.transpose()
versicolor.index = ['versicolor']

virginica = Iris_plants[Iris_plants['Especie'].isin(['virginica'])].loc[:, iris_obj.feature_names].apply(max_min)
virginica = pd.DataFrame(virginica)
virginica = virginica.transpose()
virginica.index = ['virginica']

especies_rango = pd.concat([setosa, versicolor, virginica]) 

print('Rango Máximos - Mínimos\n')
especies_rango


Rango Máximos - Mínimos



Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
setosa,1.5,2.1,0.9,0.5
versicolor,2.1,1.4,2.1,0.8
virginica,3.0,1.6,2.4,1.1


In [123]:
#5.- Compare sus resultados usando el metodo describe() por columnas y por especies
print('Comparación de estadisticos de Largo de petalos, agrupados por especie usando describe() y usando función estadistica')
print('\n\n')

print('Media')
print(Iris_plants.groupby('Especie').describe()['petal length (cm)']['mean'] == Iris_plants.groupby('Especie')['petal length (cm)'].mean())
print('\n\n')


print('Desviación estandar')
print(Iris_plants.groupby('Especie').describe()['petal length (cm)']['std'] == Iris_plants.groupby('Especie')['petal length (cm)'].std())
print('\n\n')

print(f"petal length (cm) especie versicolor")
print(f"funcion describe : {Iris_plants.groupby('Especie').describe()['petal length (cm)']['std']['versicolor']}")
print(f"funcion std      : {Iris_plants.groupby('Especie')['petal length (cm)'].std()['versicolor']}")
print('\n\n')


print('Cuatil 75%')
print(Iris_plants.groupby('Especie').describe()['petal length (cm)']['75%'] == Iris_plants.groupby('Especie')['petal length (cm)'].quantile(0.75))
print('\n\n')

print(f"petal length (cm) especie versicolor")
print(f"funcion describe : {Iris_plants.groupby('Especie').describe()['petal length (cm)']['75%']['virginica']}")
print(f"funcion std      : {Iris_plants.groupby('Especie')['petal length (cm)'].quantile(0.75)['virginica']}")
print('\n\n')

#Las diferencias que se presentan estan en la precición de los decimales utilizados en ambas funciones.



Comparación de estadisticos de Largo de petalos, agrupados por especie usando describe() y usando función estadistica



Media
Especie
setosa        True
versicolor    True
virginica     True
dtype: bool



Desviación estandar
Especie
setosa         True
versicolor    False
virginica      True
dtype: bool



petal length (cm) especie versicolor
funcion describe : 0.46991097723995806
funcion std      : 0.46991097723995784



Cuatil 75%
Especie
setosa         True
versicolor     True
virginica     False
dtype: bool



petal length (cm) especie versicolor
funcion describe : 5.875000000000001
funcion std      : 5.875





In [124]:
#6.- Generar una tabla multi-indice por "especies" y "ancho del pétalo" y que de cuenta de la suma de los valores de cada clase
iris_multi_index = pd.MultiIndex.from_frame(Iris_plants[['Especie', 'petal width (cm)']])
iris_multi_index

iris_multi_index_column = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)']
iris_multi_index_data = Iris_plants[iris_multi_index_column]
iris_multi_index_data.index = iris_multi_index
iris_multi_index_data

print('Suma por Especie y ancho del petalo')
iris_multi_index_data.sum(level = ['Especie', 'petal width (cm)'])



Suma por Especie y ancho del petalo


Unnamed: 0_level_0,Unnamed: 1_level_0,sepal length (cm),sepal width (cm),petal length (cm)
Especie,petal width (cm),Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.2,144.2,98.0,41.9
setosa,0.4,37.1,26.5,11.0
setosa,0.3,34.8,23.3,10.0
setosa,0.1,24.1,16.8,6.9
setosa,0.5,5.1,3.3,1.7
setosa,0.6,5.0,3.5,1.6
versicolor,1.4,44.5,20.7,31.5
versicolor,1.5,61.9,28.8,45.8
versicolor,1.3,76.5,35.7,54.3
versicolor,1.6,18.3,9.4,14.3


<font color='green'>Fin Actividad 2</font>

## <font color='blue'>**Análisis de Datos con Base de Datos Titanic**</font>

Para este probleme utilizaremos la base de datos "titanic". Para cargarla debe usar los siguientes comandos:

```
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)
```
Considere sólo las siguientes variables: survived, pclass, sex, age, fare y embarked.


## <font color='green'>Actividad 3</font>

1. Reemplace los valores faltantes para la columna edad por el valor promedio de la muestra.
2. Elimine cualquier otra fila en la que falten datos

In [527]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [528]:
# Solución
# La variable años es discreta sin decimales, por lo que se redondea al entero
import numpy as np

# Act 1. Reemplace los valores faltantes para la columna edad por el valor promedio de la muestra.
print(f'La edad promedio es de : {np.round(titanic["age"].mean())}')
titanic["age"].fillna(titanic["age"].mean())

# Act. 2 Elimine cualquier otra fila en la que falten datos
print(f'La cantidad de archivos de la base de datos es de : {len(titanic)}')
print(f'La cantidad de datos nulos por campos es:\n{titanic.isnull().sum()}')
print(f'La cantidad total de datos nulos es: {titanic.isnull().sum().sum()}')

titanic = titanic.dropna()
print(f'La cantidad de archivos de la base de datos, después de eliminar filas incompletas, es de : {len(titanic)}')

La edad promedio es de : 30.0
La cantidad de archivos de la base de datos es de : 891
La cantidad de datos nulos por campos es:
survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64
La cantidad total de datos nulos es: 869
La cantidad de archivos de la base de datos, después de eliminar filas incompletas, es de : 182


<font color='green'>Fin Actividad 3</font>

## <font color='green'>Actividad 4</font>

1. Entregar la información correspondiente a la la tasa de supervivencia promedio agrupada por sexo y clase del pasajero.
2. Genere una tabla que muestre la cantidad de personas agrupadas por sexo y clase.
3. Muestre la misma información del punto 1, pero la cantidad de sobrevivientes.
 


In [529]:
# 1.- Entregar la información correspondiente a la tasa de supervivencia promedio agrupada por sexo y clase del pasajero.
titanic_1_qty = titanic.groupby(['sex','class']).count()['survived']
titanic_1_survived = titanic.groupby(['sex','class']).sum()['survived']

titanic_1_data = pd.concat([titanic_1_qty, titanic_1_survived], axis = 1)
titanic_1_data.columns = ['Total','Sobrevivientes']

titanic_1_data['sobrevivencia %'] = 0
titanic_1_data['sobrevivencia %'] = titanic_1_data['Sobrevivientes'] / titanic_1_data['Total']

print('Tasa de sobrevivencia de pasajeros por clase y sexo')
titanic_1_data


Tasa de sobrevivencia de pasajeros por clase y sexo


Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Sobrevivientes,sobrevivencia %
sex,class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,First,74,71,0.959459
female,Second,9,8,0.888889
female,Third,5,3,0.6
male,First,83,35,0.421687
male,Second,6,4,0.666667
male,Third,5,2,0.4


In [530]:
# 2.- Genere una tabla que muestre la cantidad de personas agrupadas por sexo y clase.
titanic_2 = titanic.groupby(['sex','class']).count()['survived']
titanic_2 = pd.DataFrame(data = titanic_2)
titanic_2.columns = ['Totales']

print('Total de personas por sexo y clase')
titanic_2


Total de personas por sexo y clase


Unnamed: 0_level_0,Unnamed: 1_level_0,Totales
sex,class,Unnamed: 2_level_1
female,First,74
female,Second,9
female,Third,5
male,First,83
male,Second,6
male,Third,5


In [534]:
# 3.- Muestre la misma información del punto 1, pero la cantidad de sobrevivientes.
titanic_3_Sobrevivientes = titanic.groupby(['sex','class']).sum()['survived']
titanic_3_Sobrevivientes = pd.DataFrame(data = titanic_3_Sobrevivientes)
titanic_3_Sobrevivientes.columns = ['Sobrevivientes']

print('Sobrevivientes de personas por sexo y clase')
titanic_3_Sobrevivientes



Sobrevivientes de personas por sexo y clase


Unnamed: 0_level_0,Unnamed: 1_level_0,Sobrevivientes
sex,class,Unnamed: 2_level_1
female,First,71
female,Second,8
female,Third,3
male,First,35
male,Second,4
male,Third,2


Hasta ahora hemos examinado las tasas de supervivencia según el sexo y la clase de pasajeros. Otro factor que podría haber influido en la supervivencia es la edad. **¿Los niños varones tenían tanta probabilidad de morir como las mujeres en general?** Podemos investigar esta pregunta mediante la indexación múltiple, o pivotando en más de dos variables, agregando otro índice.

Divida la información de la columna "age" en intervalos, creando así una nueva categoría que se puede utilizar para agrupar. Divida el conjunto en intervalos de (0, 12], (12, 18] y (18, 80].

4. Genere la tabla que le ayude a responder la pregunta anterior (considerando los rangos definidos).
5. Para una mejor interpretación de la información anterior, genere una tabla con el número de entradas por cada grupo.






In [535]:
# Solución
# 4.- Genere la tabla que le ayude a responder la pregunta anterior (considerando los rangos definidos).
titanic_4 = pd.DataFrame(data=titanic[['sex', 'class', 'age', 'survived']])
titanic_4['died'] = 0
titanic_4.loc[titanic_4['survived'] == 1, 'died'] = 0
titanic_4.loc[titanic_4['survived'] == 0, 'died'] = 1

titanic_4['age_range'] = '-'
titanic_4.loc[(titanic_4['age'] >=0) & (titanic_4['age'] <=12), 'age_range'] = '0 - 12'
titanic_4.loc[(titanic_4['age'] >12) & (titanic_4['age'] <=18), 'age_range'] = '12 - 18'
titanic_4.loc[(titanic_4['age'] >18) & (titanic_4['age'] <=80), 'age_range'] = '18 - 80'
titanic_4

Unnamed: 0,sex,class,age,survived,died,age_range
1,female,First,38.0,1,0,18 - 80
3,female,First,35.0,1,0,18 - 80
6,male,First,54.0,0,1,18 - 80
10,female,Third,4.0,1,0,0 - 12
11,female,First,58.0,1,0,18 - 80
...,...,...,...,...,...,...
871,female,First,47.0,1,0,18 - 80
872,male,First,33.0,0,1,18 - 80
879,female,First,56.0,1,0,18 - 80
887,female,First,19.0,1,0,18 - 80


In [536]:
# 5.- Para una mejor interpretación de la información anterior, genere una tabla con el número de entradas por cada grupo.
# tasa de muerte por sexo y rango de edad
titanic_5_qty = titanic_4.groupby(['sex','age_range']).count()['died']
titanic_5_died = titanic_4.groupby(['sex','age_range']).sum()['died']

titanic_5_tasa = pd.concat([titanic_5_qty, titanic_5_died], axis = 1)
titanic_5_tasa.columns = ['Total','Muertos']

titanic_5_tasa['Muerte %'] = 0
titanic_5_tasa['Muerte %'] = titanic_5_tasa['Muertos'] / titanic_5_tasa['Total']

print('Tasa de muerte de pasajeros por sexo y rango de edades')
titanic_5_tasa

Tasa de muerte de pasajeros por sexo y rango de edades


Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Muertos,Muerte %
sex,age_range,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0 - 12,4,2,0.5
female,12 - 18,10,0,0.0
female,18 - 80,74,4,0.054054
male,0 - 12,7,0,0.0
male,12 - 18,2,1,0.5
male,18 - 80,85,52,0.611765


In [537]:

mujeres_muertos = titanic_5_tasa.loc['female'].sum()['Muertos'] 
mujeres_totales = titanic_5_tasa.loc['female'].sum()['Total']

niños_12_muertos = titanic_5_tasa.loc[(titanic_5_tasa.index.get_level_values('sex') == 'male') & 
                                      (titanic_5_tasa.index.get_level_values('age_range') == '0 - 12')].sum()['Muertos'] 
                                      
niños_12_totales = titanic_5_tasa.loc[(titanic_5_tasa.index.get_level_values('sex') == 'male') & 
                                      (titanic_5_tasa.index.get_level_values('age_range') == '0 - 12')].sum()['Total'] 


niños_18_muertos = titanic_5_tasa.loc[(titanic_5_tasa.index.get_level_values('sex') == 'male') & 
                                      ((titanic_5_tasa.index.get_level_values('age_range') == '0 - 12') | 
                                       (titanic_5_tasa.index.get_level_values('age_range') == '12 - 18') )].sum()['Muertos'] 
niños_18_totales = titanic_5_tasa.loc[(titanic_5_tasa.index.get_level_values('sex') == 'male') & 
                                      ((titanic_5_tasa.index.get_level_values('age_range') == '0 - 12') | 
                                       (titanic_5_tasa.index.get_level_values('age_range') == '12 - 18') )].sum()['Total'] 

mujeres_tasa = mujeres_muertos / mujeres_totales
niños_12_tasa = niños_12_muertos / niños_12_totales
niños_18_tasa = niños_18_muertos / niños_18_totales

print(f'Tasa de muerte')
print(f'Mujeres             : {np.round(mujeres_tasa,4)}')
print(f'Niños menores de 12 : {np.round(niños_12_tasa,4)}')
print(f'Niños menores de 18 : {np.round(niños_18_tasa,4)}')
print(f'\n')

if mujeres_tasa > niños_12_tasa:
  print(f'Las mujeres tenian mas probabilidad de morir que los niños menores de 12')

if mujeres_tasa > niños_18_tasa:
  print(f'Las mujeres tenian mas probabilidad de morir que los niños menores de 18')

if niños_12_tasa > mujeres_tasa:
  print(f'Los niños menores de 12 tenian mas probabilidad de morir que mas mujeres')

if niños_18_tasa > mujeres_tasa:
  print(f'Los niños menores de 18 tenian mas probabilidad de morir que mas mujeres')



Tasa de muerte
Mujeres             : 0.0682
Niños menores de 12 : 0.0
Niños menores de 18 : 0.1111


Las mujeres tenian mas probabilidad de morir que los niños menores de 12
Los niños menores de 18 tenian mas probabilidad de morir que mas mujeres


Pandas también admite la indexación múltiple en las columnas. Como ejemplo, considere el precio de los boletos de un pasajero. Esta es otra característica continua que se puede discretizar. Divida los precios en 2 cuantiles iguales (baratos y caros). Algunos de los grupos resultantes podrían estar vacíos; para mejorar la legibilidad de la tabla use un guión en las casillas vacías.

6. Genere una tabla que nos permita ver el efecto del precio de los tickets.

In [538]:
# Solución
# 6.- Genere una tabla que nos permita ver el efecto del precio de los tickets.
titanic_6 = pd.DataFrame(data=titanic[['sex', 'class', 'age', 'survived', 'fare']])
fare_range = titanic_6['fare'].max()- titanic_6['fare'].min()

titanic_6['fare_range'] = ''
titanic_6.loc[titanic_6['fare'] < fare_range/2, 'fare_range'] = 'Barato'
titanic_6.loc[titanic_6['fare'] >= fare_range/2, 'fare_range'] = 'Caro'
titanic_6


Unnamed: 0,sex,class,age,survived,fare,fare_range
1,female,First,38.0,1,71.2833,Barato
3,female,First,35.0,1,53.1000,Barato
6,male,First,54.0,0,51.8625,Barato
10,female,Third,4.0,1,16.7000,Barato
11,female,First,58.0,1,26.5500,Barato
...,...,...,...,...,...,...
871,female,First,47.0,1,52.5542,Barato
872,male,First,33.0,0,5.0000,Barato
879,female,First,56.0,1,83.1583,Barato
887,female,First,19.0,1,30.0000,Barato


In [542]:

titanic_6_tasa = pd.concat([titanic_6.groupby(['sex','fare_range']).count()['survived'], 
                            titanic_6.groupby(['sex','fare_range']).sum()['survived']], 
                           axis = 1)
titanic_6_tasa.columns = ['Total','Sobrevivientes']

titanic_6_tasa['Sobrevivientes %'] = 0
titanic_6_tasa['Sobrevivientes %'] = titanic_6_tasa['Sobrevivientes'] / titanic_6_tasa['Total']

print('Tasa de sobrevivientes de pasajeros por sexo y rango de precio de los tickets')
print(f'Precio menor que {np.round(fare_range,2)} es barato y mayor o igual es caro.')
print(f'\n')

titanic_6_tasa

Tasa de sobrevivientes de pasajeros por sexo y rango de precio de los tickets
Precio menor que 512.33 es barato y mayor o igual es caro.




Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Sobrevivientes,Sobrevivientes %
sex,fare_range,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,Barato,84,78,0.928571
female,Caro,4,4,1.0
male,Barato,90,39,0.433333
male,Caro,4,2,0.5


<font color='green'>Fin Actividad 4</font>

## <font color='green'>Actividad 5</font>

### Análisis de una Hipótesis

Supongamos que alguien afirma que la ciudad desde la que se embarcó un pasajero tuvo una gran influencia en la tasa de supervivencia del pasajero. Investigue esta afirmación.

7. Verifique las tasas de supervivencia de los pasajeros según el lugar desde donde se embarcaron (indicadas en la columna "embarked").

8. Cree una tabla dinámica para examinar las tasas de supervivencia según el lugar de embarque y el género.

9. ¿Qué le sugieren estas tablas sobre la importancia de dónde se embarcaron las personas para influir en su tasa de supervivencia? Examine el contexto del problema y explique lo que cree que esto realmente significa.

10. Investigue la afirmación más a fondo con al menos dos tablas dinámicas más, explorando otros criterios (por ejemplo, clase, edad, etc.). Explique cuidadosamente sus conclusiones.

In [543]:
# Solución
# 7.- Verifique las tasas de supervivencia de los pasajeros según el lugar desde donde se embarcaron (indicadas en la columna "embarked").
titanic_7_tasa = pd.concat([titanic.groupby(['embarked']).count()['survived'], 
                            titanic.groupby(['embarked']).sum()['survived']], 
                           axis = 1)
titanic_7_tasa.columns = ['Total','Sobrevivientes']

titanic_7_total_pasajeros = titanic_7_tasa.sum()['Total']
titanic_7_tasa['Sobrevivientes %'] = 0
titanic_7_tasa['Sobrevivientes %'] = titanic_7_tasa['Sobrevivientes'] / titanic_7_total_pasajeros

titanic_7_embarque = pd.DataFrame(titanic_7_tasa.sort_values(['Sobrevivientes %'], axis=0, ascending=False).head(1))
titanic_7_embarque_ciudad = titanic_7_embarque.index[0]
titanic_7_embarque_tasa = titanic_7_embarque['Sobrevivientes %'][0]

print(f'De los {titanic_7_total_pasajeros} pasajeros; los que embarcaron en {titanic_7_embarque_ciudad}, tubieron una mayor tasa de sobrevivencia {np.round(titanic_7_embarque_tasa,4)}.')
print(f'\n')
titanic_7_tasa


De los 182 pasajeros; los que embarcaron en S, tubieron una mayor tasa de sobrevivencia 0.4066.




Unnamed: 0_level_0,Total,Sobrevivientes,Sobrevivientes %
embarked,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
C,65,48,0.263736
Q,2,1,0.005495
S,115,74,0.406593


In [544]:
# 8.- Cree una tabla dinámica para examinar las tasas de supervivencia según el lugar de embarque y el género.
titanic_8_tasa = pd.concat([titanic.groupby(['embarked', 'sex']).count()['survived'], 
                            titanic.groupby(['embarked', 'sex']).sum()['survived']], 
                           axis = 1)
titanic_8_tasa.columns = ['Total','Sobrevivientes']

titanic_8_total_pasajeros = titanic_8_tasa.sum()['Total']
titanic_8_tasa['Sobrevivientes %'] = 0
titanic_8_tasa['Sobrevivientes %'] = titanic_8_tasa['Sobrevivientes'] / titanic_8_total_pasajeros

titanic_8_embarque = pd.DataFrame(titanic_8_tasa.sort_values(['Sobrevivientes %'], axis=0, ascending=False).head(1))
titanic_8_embarque_ciudad = titanic_8_embarque.index[0][0]
titanic_8_embarque_sexo = titanic_8_embarque.index[0][1]
titanic_8_embarque_tasa = titanic_8_embarque['Sobrevivientes %'][0]

print(f'De los {titanic_8_total_pasajeros} pasajeros; que embarcaron en {titanic_8_embarque_ciudad} de sexo {titanic_8_embarque_sexo}, tubieron una mayor tasa de sobrevivencia {np.round(titanic_8_embarque_tasa,4)}.')
print(f'\n')
titanic_8_tasa


De los 182 pasajeros; que embarcaron en S de sexo female, tubieron una mayor tasa de sobrevivencia 0.2637.




Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Sobrevivientes,Sobrevivientes %
embarked,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
C,female,34,33,0.181319
C,male,31,15,0.082418
Q,female,1,1,0.005495
Q,male,1,0,0.0
S,female,53,48,0.263736
S,male,62,26,0.142857


In [None]:
# 9.- ¿Qué le sugieren estas tablas sobre la importancia de dónde se embarcaron las personas para influir en su tasa de supervivencia? Examine el contexto del problema y explique lo que cree que esto realmente significa.
titanic


In [545]:
# 10.- Investigue la afirmación más a fondo con al menos dos tablas dinámicas más, explorando otros criterios (por ejemplo, clase, edad, etc.). Explique cuidadosamente sus conclusiones.

# 10A .- Segun embarque y clase
titanic_10A_tasa = pd.concat([titanic.groupby(['embarked', 'class']).count()['survived'], 
                              titanic.groupby(['embarked', 'class']).sum()['survived']], 
                              axis = 1)
titanic_10A_tasa.columns = ['Total','Sobrevivientes']

titanic_10A_total_pasajeros = titanic_10A_tasa.sum()['Total']
titanic_10A_tasa['Sobrevivientes %'] = 0
titanic_10A_tasa['Sobrevivientes %'] = titanic_10A_tasa['Sobrevivientes'] / titanic_10A_total_pasajeros

titanic_10A_embarque = pd.DataFrame(titanic_10A_tasa.sort_values(['Sobrevivientes %'], axis=0, ascending=False).head(1))
titanic_10A_embarque_ciudad = titanic_10A_embarque.index[0][0]
titanic_10A_embarque_class = titanic_10A_embarque.index[0][1]
titanic_10A_embarque_tasa = titanic_10A_embarque['Sobrevivientes %'][0]

print(f'De los {titanic_10A_total_pasajeros} pasajeros; que embarcaron en {titanic_10A_embarque_ciudad} de clase {titanic_10A_embarque_class}, tubieron una mayor tasa de sobrevivencia {np.round(titanic_10A_embarque_tasa,4)}.')
print(f'\n')
titanic_10A_tasa


De los 182.0 pasajeros; que embarcaron en S de clase First, tubieron una mayor tasa de sobrevivencia 0.3187.




Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Sobrevivientes,Sobrevivientes %
embarked,class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
C,First,63.0,47.0,0.258242
C,Second,2.0,1.0,0.005495
C,Third,,,
Q,First,2.0,1.0,0.005495
Q,Second,,,
Q,Third,,,
S,First,92.0,58.0,0.318681
S,Second,13.0,11.0,0.06044
S,Third,10.0,5.0,0.027473


In [546]:

# 10B .- Segun embarque y edad
titanic_10B = pd.DataFrame(data=titanic[['sex', 'class', 'age', 'embarked', 'survived']])
titanic_10B['age_range'] = '-'
titanic_10B.loc[(titanic_10B['age'] >=0) & (titanic_10B['age'] <=12), 'age_range'] = '0 - 12'
titanic_10B.loc[(titanic_10B['age'] >12) & (titanic_10B['age'] <=18), 'age_range'] = '12 - 18'
titanic_10B.loc[(titanic_10B['age'] >18) & (titanic_10B['age'] <=80), 'age_range'] = '18 - 80'
titanic_10B

titanic_10B_tasa = pd.concat([titanic_10B.groupby(['embarked', 'age_range']).count()['survived'], 
                              titanic_10B.groupby(['embarked', 'age_range']).sum()['survived']], 
                              axis = 1)
titanic_10B_tasa.columns = ['Total','Sobrevivientes']

titanic_10B_total_pasajeros = titanic_10B_tasa.sum()['Total']
titanic_10B_tasa['Sobrevivientes %'] = 0
titanic_10B_tasa['Sobrevivientes %'] = titanic_10B_tasa['Sobrevivientes'] / titanic_10B_total_pasajeros

titanic_10B_embarque = pd.DataFrame(titanic_10B_tasa.sort_values(['Sobrevivientes %'], axis=0, ascending=False).head(1))
titanic_10B_embarque_ciudad = titanic_10B_embarque.index[0][0]
titanic_10B_embarque_edad = titanic_10B_embarque.index[0][1]
titanic_10B_embarque_tasa = titanic_10B_embarque['Sobrevivientes %'][0]

print(f'De los {titanic_10B_total_pasajeros} pasajeros; que embarcaron en {titanic_10B_embarque_ciudad} de edad {titanic_10B_embarque_edad}, tubieron una mayor tasa de sobrevivencia {np.round(titanic_10B_embarque_tasa,4)}.')
print(f'\n')
titanic_10B_tasa

De los 182 pasajeros; que embarcaron en S de edad 18 - 80, tubieron una mayor tasa de sobrevivencia 0.3242.




Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Sobrevivientes,Sobrevivientes %
embarked,age_range,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
C,12 - 18,6,5,0.027473
C,18 - 80,59,43,0.236264
Q,18 - 80,2,1,0.005495
S,0 - 12,11,9,0.049451
S,12 - 18,6,6,0.032967
S,18 - 80,98,59,0.324176


In [549]:
# 10.- Investigue la afirmación más a fondo con al menos dos tablas dinámicas más, explorando otros criterios (por ejemplo, clase, edad, etc.). Explique cuidadosamente sus conclusiones.
titanic_10C = pd.DataFrame(data=titanic[['sex', 'class', 'age', 'embarked', 'survived']])
titanic_10C['age_range'] = '-'
titanic_10C.loc[(titanic_10C['age'] >=0) & (titanic_10C['age'] <=12), 'age_range'] = '0 - 12'
titanic_10C.loc[(titanic_10C['age'] >12) & (titanic_10C['age'] <=18), 'age_range'] = '12 - 18'
titanic_10C.loc[(titanic_10C['age'] >18) & (titanic_10C['age'] <=80), 'age_range'] = '18 - 80'
titanic_10C

titanic_10C_tasa = pd.concat([titanic_10C.groupby(['embarked', 'class', 'sex', 'age_range']).count()['survived'], 
                              titanic_10C.groupby(['embarked', 'class', 'sex', 'age_range']).sum()['survived']], 
                              axis = 1)
titanic_10C_tasa.columns = ['Total','Sobrevivientes']

titanic_10C_total_pasajeros = titanic_8_tasa.sum()['Total']
titanic_10C_tasa['Sobrevivientes %'] = 0
titanic_10C_tasa['Sobrevivientes %'] = titanic_10C_tasa['Sobrevivientes'] / titanic_10C_total_pasajeros

titanic_10C_embarque = pd.DataFrame(titanic_10C_tasa.sort_values(['Sobrevivientes %'], axis=0, ascending=False).head(1))
titanic_10C_embarque_ciudad = titanic_10C_embarque.index[0][0]
titanic_10C_embarque_clase = titanic_10C_embarque.index[0][1]
titanic_10C_embarque_sexo = titanic_10C_embarque.index[0][2]
titanic_10C_embarque_edad = titanic_10C_embarque.index[0][3]
titanic_10C_embarque_tasa = titanic_10C_embarque['Sobrevivientes %'][0]

print(f'De los {titanic_10C_total_pasajeros} pasajeros; que embarcaron en {titanic_10C_embarque_ciudad} de clase {titanic_10C_embarque_clase} de sexo {titanic_10C_embarque_sexo} y de edad {titanic_10C_embarque_edad}, tubieron una mayor tasa de sobrevivencia {np.round(titanic_10C_embarque_tasa,4)}.')
print(f'\n')

print("Se puede observar que la frase 'Mujeres y niños primero', se cumple, ya que independiente de la clase y del lugar de embarque, estos grupos fueron los de mayor sobrevivencia.")
titanic_10C_tasa



De los 182.0 pasajeros; que embarcaron en S de clase First de sexo female y de edad 18 - 80, tubieron una mayor tasa de sobrevivencia 0.1758.


Se puede observar que la frase 'Mujeres y niños primero', se cumple, ya que independiente de la clase y del lugar de embarque, estos grupos fueron los de mayor sobrevivencia.


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Total,Sobrevivientes,Sobrevivientes %
embarked,class,sex,age_range,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
C,First,female,0 - 12,,,
C,First,female,12 - 18,4.0,4.0,0.021978
C,First,female,18 - 80,29.0,28.0,0.153846
C,First,male,0 - 12,,,
C,First,male,12 - 18,2.0,1.0,0.005495
C,First,male,18 - 80,28.0,14.0,0.076923
C,Second,female,0 - 12,,,
C,Second,female,12 - 18,,,
C,Second,female,18 - 80,1.0,1.0,0.005495
C,Second,male,0 - 12,,,


<font color='green'>Fin Actividad 5</font>