<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/logo_ciencia_datos.png">

<center><h1 style="font-size:2em;color:#2467C0"> Pandas -Parte 3  </h1></center>

<center><h2 style="font-size:2em;color:#840700">  Pandas - Operaciones y agregaciones  </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/pandas3.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* [https://www.aqr.com/] por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativos en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Librerías

Cargando las bibliotecas que necesitamos 


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Operaciones de datos en Pandas 

Parte de las características esenciales de **NumPy** es la capacidad de realizar operaciones rápidas de elementos, tanto con aritmética básica (suma, resta, multiplicación, etc.) como con operaciones más sofisticadas (funciones trigonométricas, funciones exponenciales y logarítmicas, etc.).
Pandas hereda gran parte de esta funcionalidad de **NumPy** y las _**ufuncs**_ que fueron presentadas en lecciones pasadas son clave para esto.

Sin embargo, **Pandas** incluye un par de características  extras que serán  útiles: para operaciones de negación y trigonométricas, estas _**ufuncs**_  preservarán las etiquetas de índice y columna en la salida, y para operaciones como la suma y la multiplicación, **Pandas** automáticamente *alineará índices*.
Esto significa que mantener el contexto de los datos y combinar datos de diferentes fuentes, ambas tareas potencialmente propensas a errores con arreglos de **NumPy** sin procesar, se vuelven esencialmente infalibles con **Pandas**.


In [2]:
poblacion = pd.Series({'Belgica':11.3, 'Francia':64.3, 'Alemania':81.3,
                       'Holanda':16.9, 'Inglaterra':64.9,'Argentina':12.1,'Mexico':103.2})

In [3]:

data = {'pias': ['Belgica', 'Francia', 'Alemania', 'Holanda', 'Inglaterra','Argentina','Mexico'],
        'poblacion': [11.3, 64.3, 81.3, 16.9, 64.9, 12.1,103.2],
        'area': [30510, 671308, 357050, 41526, 244820,300163,1960573],
        'capital': ['Bruselas', 'Paris', 'Berlin', 'Amsterdam', 'Londres','Buenos Aires','Ciudad de Mexico']}
paises = pd.DataFrame(data)


In [4]:
paises

Unnamed: 0,pias,poblacion,area,capital
0,Belgica,11.3,30510,Bruselas
1,Francia,64.3,671308,Paris
2,Alemania,81.3,357050,Berlin
3,Holanda,16.9,41526,Amsterdam
4,Inglaterra,64.9,244820,Londres
5,Argentina,12.1,300163,Buenos Aires
6,Mexico,103.2,1960573,Ciudad de Mexico


## Los "nuevos" conceptos


Al igual que con loss arreglos de numpy, muchas operaciones son con elementos:

In [5]:
#Dividir entre 100 los valores de la poblacion en la serie poblacion
poblacion / 100

Belgica       0.113
Francia       0.643
Alemania      0.813
Holanda       0.169
Inglaterra    0.649
Argentina     0.121
Mexico        1.032
dtype: float64

In [7]:
#Encontrar la densidad poblacional en el DataFrame paises
paises['poblacion']/ paises['area']

0    0.000370
1    0.000096
2    0.000228
3    0.000407
4    0.000265
5    0.000040
6    0.000053
dtype: float64

In [9]:
#Obtener el logaritmo del valor de la población en el DataFrame countries
np.log(paises['poblacion'])

0    2.424803
1    4.163560
2    4.398146
3    2.827314
4    4.172848
5    2.493205
6    4.636669
Name: poblacion, dtype: float64

In [12]:
#Agregar los valores de la evaluación del logaritmo como una nueva columna "log_poblacion"
paises["log_poblacion"] = np.log(paises['poblacion'])
paises

Unnamed: 0,pias,poblacion,area,capital,log_poblacion
0,Belgica,11.3,30510,Bruselas,2.424803
1,Francia,64.3,671308,Paris,4.16356
2,Alemania,81.3,357050,Berlin,4.398146
3,Holanda,16.9,41526,Amsterdam,2.827314
4,Inglaterra,64.9,244820,Londres,4.172848
5,Argentina,12.1,300163,Buenos Aires,2.493205
6,Mexico,103.2,1960573,Ciudad de Mexico,4.636669


In [13]:
#Mostrar las columnas del  DataFrame paises
paises.columns

Index(['pias', 'poblacion', 'area', 'capital', 'log_poblacion'], dtype='object')

In [14]:
#Mostrar cuales de ellos tienen una población mayor a los 40 (millones)
paises['poblacion'] > 40

0    False
1     True
2     True
3    False
4     True
5    False
6     True
Name: poblacion, dtype: bool

Cuando requiere de una operación especial en los elementos puede hacerlo con ``apply(OPERACIÓN)``, en donde será necesario definir la  operación a través de la función deseada

In [None]:
# Agregar una columna que indique si el país es pequeño o grande (>2). 
# Defina una función llamada etiqueta_poblacion que regrese la etiqueta

In [16]:
def etiqueta_poblacion(x):
    """Etiquetar si es grande o pequeño"""
    if x > 50:
        return 'grande'
    else:
        return 'pequeño'

In [19]:
paises["poblacion"].apply(etiqueta_poblacion) # a custom user function


0    pequeño
1     grande
2     grande
3    pequeño
4     grande
5    pequeño
6     grande
Name: poblacion, dtype: object

In [20]:
#Agregar la columna etiqueta_poblacional con el resultado de aplicar la funcion etiqueta_poblacion
paises['etiqueta_poblacional']=paises["poblacion"].apply(etiqueta_poblacion)
paises

Unnamed: 0,pias,poblacion,area,capital,log_poblacion,etiqueta_poblacional
0,Belgica,11.3,30510,Bruselas,2.424803,pequeño
1,Francia,64.3,671308,Paris,4.16356,grande
2,Alemania,81.3,357050,Berlin,4.398146,grande
3,Holanda,16.9,41526,Amsterdam,2.827314,pequeño
4,Inglaterra,64.9,244820,Londres,4.172848,grande
5,Argentina,12.1,300163,Buenos Aires,2.493205,pequeño
6,Mexico,103.2,1960573,Ciudad de Mexico,4.636669,grande


También es posible utilizar la función ``lambda``  para realizar operaciones rápidas.

In [21]:
# Encuentre el número de caracteres de las palabras en la columna capital 
paises["capital"].apply(lambda x: len(x)) 

0     8
1     5
2     6
3     9
4     7
5    12
6    16
Name: capital, dtype: int64

## Agregaciones (reducciones)

Pandas proporciona un amplio conjunto de funciones de _**resumen**_ que operan en diferentes tipos de objetos de pandas (DataFrames y Series) y producen un valor único. Cuando se aplica a un *DataFrame*, el resultado se retorna como una Serie de Pandas (un valor para cada columna).

In [22]:
#Utilizando la Serie de poblacion, podemos encontrar su promedio usando mean():
poblacion.mean()

50.57142857142857

In [28]:
paises

Unnamed: 0,pias,poblacion,area,capital,log_poblacion,etiqueta_poblacional
0,Belgica,11.3,30510,Bruselas,2.424803,pequeño
1,Francia,64.3,671308,Paris,4.16356,grande
2,Alemania,81.3,357050,Berlin,4.398146,grande
3,Holanda,16.9,41526,Amsterdam,2.827314,pequeño
4,Inglaterra,64.9,244820,Londres,4.172848,grande
5,Argentina,12.1,300163,Buenos Aires,2.493205,pequeño
6,Mexico,103.2,1960573,Ciudad de Mexico,4.636669,grande


In [27]:
#Aplicar la mediana al DataFrame paises
paises.median()

  paises.median()


poblacion            64.30000
area             300163.00000
log_poblacion         4.16356
dtype: float64

In [35]:
#Podemos encontrar el pais con con area mas pequeña usando min():
paises['area'].min()

30510

La siguiente tabla resume algunas otras agregaciones integradas de Pandas:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

Todos estos son funcionan en *DataFrames* y *Series*.


Hay una función de muy útil, ``describe()`` , que calcula varios parámetros estadísticos  para cada columna y devuelve el resultado.

In [36]:
paises.describe()

Unnamed: 0,poblacion,area,log_poblacion
count,7.0,7.0,7.0
mean,50.571429,515135.7,3.588078
std,37.112115,672944.0,0.962601
min,11.3,30510.0,2.424803
25%,14.5,143173.0,2.66026
50%,64.3,300163.0,4.16356
75%,73.1,514179.0,4.285497
max,103.2,1960573.0,4.636669


# Ejercicios con los datos del Titanic

Descripción de las columnas :

    Survival - Supervivencia (0 = No; 1 = Si).
    Pclass - Clase (1 = 1st; 2 = 2nd; 3 = 3rd)
    Name - Nombre
    Sex - Sexo
    Age - Edad
    Sibsp - Número de hermanos / cónyuges a bordo
    Parch - Número de padres / niños a bordo
    Ticket - Número de ticket
    Fare - Tarifa
    Cabin - Número de cabina
    Embarked - Puerto de embarque (C = Cherbourg; Q = Queenstown; S = Southampton)



In [37]:
df = pd.read_csv("datos/titanic.csv")

In [38]:
#muestre las primeras líneas del DataFrame
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [39]:
#muestre las ultimas líneas  del DataFrame 
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [40]:
#Obtenga el número de filas y columnas
print("Número  de filas y columnas:", df.shape)
print("Número  de filas:", df.shape[0])
print("Número  de columnas:", df.shape[1])

Número  de filas y columnas: (891, 12)
Número  de filas: 891
Número  de columnas: 12


In [41]:
#Método alternativo
print("Número  de filas:", len(df)  )
print("Número  de columnas:", len(df.columns) )


Número  de filas: 891
Número  de columnas: 12


<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li> Seleccione todas las filas para pasajeros masculinos y calcule la edad media de esos pasajeros. Hacer lo mismo con las pasajeras.</li>
</ul>
</div>

In [44]:
#Se puede definir un nuevo DataFrame solamente con elementos "male" en la columna de Sex
males = df[df['Sex'] == 'male']
males

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5000,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [45]:
#Se encuentra la media utilizando el nuevo DataFrame
males['Age'].mean()

30.72664459161148

In [46]:
#Redondeando el valor anterior a dos decimales
males['Age'].mean().round(2)

30.73

In [47]:
#Para el segundo requerimiento se puede realizar todo en una sola linea
df[df['Sex'] == 'female']['Age'].mean()

27.915708812260537

In [48]:
#Redondeando el valor anterior a dos decimales
df[df['Sex'] == 'female']['Age'].mean().round(2)

27.92

<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li>¿Cuántos pasajeros mayores de 70 estaban en el Titanic?</li>
</ul>
</div>

In [49]:
#Se puede aplicar una máscara para seleccionar solamente a los pasajeros mayores a 70 años, 
#Al DataFrame resultante se cuentan las filas usando len()
len(df[df['Age'] > 70])

5

In [50]:
#Un segundo método es aplicar la función sum() a la máscara booleana, 
#Solamente se sumaran los elementos True
df['Age'] > 70

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [51]:
(df['Age'] > 70).sum()

5

<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li>¿Seleccionar los pasajeros que tienen entre 30 y 40 años?</li>
</ul>
</div>

In [52]:
df[(df['Age'] > 30) & (df['Age'] <= 40)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
867,868,0,1,"Roebling, Mr. Washington Augustus II",male,31.0,0,0,PC 17590,50.4958,A24,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q


<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li> Divida la columna 'Name' y  extraiga la primera parte (el apellido) y agréguela como nueva columna 'Surname', para el resto del nombre agregarlo en una nueva columna llamada 'R-name'</li>
</ul>

<br>
</div>

In [66]:
#Para la columna Surname se definirá una nueva función
def surname (x):
    return x.split(',')[0]

In [67]:
#Aplicando la funcion en el DataFrame
df['Surname'] = df['Name'].apply(surname)
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Surname
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,Allen
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,Montvila
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,Graham
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,Johnston
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,Behr


In [68]:
#Para la columna R-name utilizaremos una función lambda
df['R-name'] = df['Name'].apply(lambda x: x.split(',')[1])

In [69]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Surname,R-name
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,Braund,Mr. Owen Harris
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Cumings,Mrs. John Bradley (Florence Briggs Thayer)
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,Heikkinen,Miss. Laina
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,Futrelle,Mrs. Jacques Heath (Lily May Peel)
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,Allen,Mr. William Henry
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,Montvila,Rev. Juozas
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,Graham,Miss. Margaret Edith
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,Johnston,"Miss. Catherine Helen ""Carrie"""
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,Behr,Mr. Karl Howell


<div class="alert alert-success">

<b>EJERCICIO 1 </b>: 
    
    
Encontrar el promedio de edad para los pasajeros de cada clase, así como su desviación estándar.
    
    
</div>

In [85]:
clase1_prom = 0
clase2_prom = 0
clase3_prom = 0

clase1 = df[df['Pclass'] == 1]
clase2 = df[df['Pclass'] == 2]
clase3 = df[df['Pclass'] == 3]

clase1_prom = clase1['Age'].mean()
clase2_prom = clase2['Age'].mean()
clase3_prom = clase3['Age'].mean()

print('Clase 1 promedio de edad: ',clase1_prom)
print('Clase 2 promedio de edad: ',clase2_prom)
print('Clase 3 promedio de edad: ',clase3_prom)

Clase 1 promedio de edad:  38.233440860215055
Clase 2 promedio de edad:  29.87763005780347
Clase 3 promedio de edad:  25.14061971830986


<div class="alert alert-success">

<b>EJERCICIO 2</b>: 
  
Encontrar el número total de pasajeros por cada punto de embarcación.     
    
</div>

In [102]:
num_embarcacion_S = 0
num_embarcacion_C = 0
num_embarcacion_Q = 0

emb_S = df[df['Embarked'] == 'S']
emb_C = df[df['Embarked'] == 'C']
emb_Q = df[df['Embarked'] == 'Q']

num_embarcacion_S = len(emb_S)
num_embarcacion_C = len(emb_C)
num_embarcacion_Q = len(emb_Q)

print('Pasajeros en la embarcacion S: ',num_embarcacion_S)
print('Pasajeros en la embarcacion C: ',num_embarcacion_C)
print('Pasajeros en la embarcacion Q: ',num_embarcacion_Q)

Pasajeros en la embarcacion S:  644
Pasajeros en la embarcacion C:  168
Pasajeros en la embarcacion Q:  77


<div class="alert alert-success">

<b>EJERCICIO 3</b>: 
  
a) Encontrar el promedio de edad de los pasajeros que sobrevivieron. 
    
b) Encontrar el promedio de edad de los hombres que sobrevivieron
    
c) Encontrar el promedio de edad de las mujeres que sobrevivieron
</div>


a)

In [107]:
sobreviv_df = df[df['Survived'] == 1]
prom_edad_sobreviv = sobreviv_df['Age'].mean()
print('Promedio de edad de los que sobrevivieron: ', prom_edad_sobreviv)

Promedio de edad de los que sobrevivieron:  28.343689655172415


b)

In [111]:
sobreviv_hombres = sobreviv_df[sobreviv_df['Sex'] == 'male']
sobreviv_hombres_prom_edad = sobreviv_hombres['Age'].mean()
print('Promedio de edad de los hombres que sobrevivieron: ',sobreviv_hombres_prom_edad)

Promedio de edad de los hombres que sobrevivieron:  27.276021505376345


c)

In [112]:
sobreviv_mujeres = sobreviv_df[sobreviv_df['Sex'] == 'female']
sobreviv_mujeres_prom_edad = sobreviv_mujeres['Age'].mean()
print('Promedio de edad de las mujeres que sobrevivieron: ',sobreviv_mujeres_prom_edad)

Promedio de edad de las mujeres que sobrevivieron:  28.84771573604061


<div class="alert alert-success">

<b>EJERCICIO 4</b>: 
  
a) ¿Cuál era la probabilidad de supervivencia para los pasajeros?

b)  ¿Cuál fue el número de sobrevivientes hombres mayores a 40 años? ¿Cuál era la probabilidad de supervivencia para hombres mayores a 40 años?

c)   ¿Cuál fue el número de sobrevivientes mujeres  mayores a 40 años? ¿Cuál era la probabilidad de supervivencia para  mujeres mayores a 40 años?

</div>





a)

In [119]:
total_pasajeros = len(df)
total_pasajeros_sobreviv = len(df[ df['Survived'] == 1 ])
print('La probabilidad de supervivencia es de: ', (total_pasajeros_sobreviv/total_pasajeros))

La probabilidad de supervivencia es de:  0.3838383838383838


b)

In [123]:
num_sobreviv_hombres_ma40 = len(sobreviv_hombres[ sobreviv_hombres['Age'] > 40 ])
print('La probabilidad de supervivencia de los hombres mayores a 40 años es de: ', (num_sobreviv_hombres_ma40/total_pasajeros))

La probabilidad de supervivencia de los hombres mayor a 40 años es de:  0.020202020202020204


c)

In [124]:
num_sobreviv_mujeres_ma40 = len(sobreviv_mujeres[ sobreviv_mujeres['Age'] > 40 ])
print('La probabilidad de supervivencia de las mujeres mayores a 40 años es de: ', (num_sobreviv_mujeres_ma40/total_pasajeros))

La probabilidad de supervivencia de las mujeres mayores a 40 años es de:  0.04152637485970819


<div class="alert alert-success">

<b>EJERCICIO 5</b>:

    
Agregar una nueva columna llamada “Status”, la cual tendrá como elementos las siguientes etiquetas segun la edad:

* Adult-male, si el pasajero es hombre y mayor a 21 años
* Adult-female, si el pasajero es mujer  y mayor a 21 años
* Minor-male, si el pasajero es hombre y su edad es menor o igual  a 21 años
* Minor-female, si el pasajero es mujer y  su edad es menor o igual a 21 años

</div>

In [149]:
def status(Age,Sex):
    status = ''
    
    if Sex == 'male' and Age>21:
        status = 'Adult-male'
    
    if Sex == 'male' and Age<21:
        status = 'Minor-male'
        
    if Sex == 'female' and Age>21:
        status = 'Adult-female'
        
    if Sex == 'female' and Age<21:
        status = 'Minor-female'
    
    return status

In [154]:
df['Status'] = df.apply(lambda x: status(x.Age,x.Sex), axis=1)

In [152]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Surname,R-name,Status
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,Braund,Mr. Owen Harris,Adult-male
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Cumings,Mrs. John Bradley (Florence Briggs Thayer),Adult-female
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,Heikkinen,Miss. Laina,Adult-female
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,Futrelle,Mrs. Jacques Heath (Lily May Peel),Adult-female
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,Allen,Mr. William Henry,Adult-male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,Montvila,Rev. Juozas,Adult-male
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,Graham,Miss. Margaret Edith,Minor-female
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,Johnston,"Miss. Catherine Helen ""Carrie""",
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,Behr,Mr. Karl Howell,Adult-male


<div class="alert alert-success">

<b>EJERCICIO 6 </b>:
    
Escribir alguna breve conclusión de lo aprendido en la actividad
</div>

Aprendi a seleccionar por medio de mascaras ciertas caracteristicas de un conjunto de datos. De igual forma aprendi a usar la funcion apply y las funciones lambda para generar nuevas columnas con etiquetas de acuerdo a la condicion de varias columnas.