<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/logo_ciencia_datos.png">

<center><h1 style="font-size:2em;color:#2467C0"> Pandas -Parte 3  </h1></center>

<center><h2 style="font-size:2em;color:#840700">  Pandas - Operaciones y agregaciones  </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/pandas3.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* [https://www.aqr.com/] por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativos en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Librerías

Cargando las bibliotecas que necesitamos 


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Operaciones de datos en Pandas 

Parte de las características esenciales de **NumPy** es la capacidad de realizar operaciones rápidas de elementos, tanto con aritmética básica (suma, resta, multiplicación, etc.) como con operaciones más sofisticadas (funciones trigonométricas, funciones exponenciales y logarítmicas, etc.).
Pandas hereda gran parte de esta funcionalidad de **NumPy** y las _**ufuncs**_ que fueron presentadas en lecciones pasadas son clave para esto.

Sin embargo, **Pandas** incluye un par de características  extras que serán  útiles: para operaciones de negación y trigonométricas, estas _**ufuncs**_  preservarán las etiquetas de índice y columna en la salida, y para operaciones como la suma y la multiplicación, **Pandas** automáticamente *alineará índices*.
Esto significa que mantener el contexto de los datos y combinar datos de diferentes fuentes, ambas tareas potencialmente propensas a errores con arreglos de **NumPy** sin procesar, se vuelven esencialmente infalibles con **Pandas**.


In [2]:
poblacion = pd.Series({'Belgica':11.3, 'Francia':64.3, 'Alemania':81.3,
                       'Holanda':16.9, 'Inglaterra':64.9,'Argentina':12.1,'Mexico':103.2})

In [3]:

data = {'pais': ['Belgica', 'Francia', 'Alemania', 'Holanda', 'Inglaterra','Argentina','Mexico'],
        'poblacion': [11.3, 64.3, 81.3, 16.9, 64.9, 12.1,103.2],
        'area': [30510, 671308, 357050, 41526, 244820,300163,1960573],
        'capital': ['Bruselas', 'Paris', 'Berlin', 'Amsterdam', 'Londres','Buenos Aires','Ciudad de Mexico']}
paises = pd.DataFrame(data)


In [4]:
#mostrar el dataframe
paises.head()

Unnamed: 0,pais,poblacion,area,capital
0,Belgica,11.3,30510,Bruselas
1,Francia,64.3,671308,Paris
2,Alemania,81.3,357050,Berlin
3,Holanda,16.9,41526,Amsterdam
4,Inglaterra,64.9,244820,Londres


In [5]:
paises

Unnamed: 0,pais,poblacion,area,capital
0,Belgica,11.3,30510,Bruselas
1,Francia,64.3,671308,Paris
2,Alemania,81.3,357050,Berlin
3,Holanda,16.9,41526,Amsterdam
4,Inglaterra,64.9,244820,Londres
5,Argentina,12.1,300163,Buenos Aires
6,Mexico,103.2,1960573,Ciudad de Mexico


In [6]:
print(paises)

         pais  poblacion     area           capital
0     Belgica       11.3    30510          Bruselas
1     Francia       64.3   671308             Paris
2    Alemania       81.3   357050            Berlin
3     Holanda       16.9    41526         Amsterdam
4  Inglaterra       64.9   244820           Londres
5   Argentina       12.1   300163      Buenos Aires
6      Mexico      103.2  1960573  Ciudad de Mexico


In [7]:
paises.tail(2)

Unnamed: 0,pais,poblacion,area,capital
5,Argentina,12.1,300163,Buenos Aires
6,Mexico,103.2,1960573,Ciudad de Mexico


## Los "nuevos" conceptos


Al igual que con loss arreglos de numpy, muchas operaciones son con elementos:

In [8]:
#Dividir entre 100 los valores de la poblacion en la serie poblacion
poblacion = poblacion/100

In [9]:
poblacion

Belgica       0.113
Francia       0.643
Alemania      0.813
Holanda       0.169
Inglaterra    0.649
Argentina     0.121
Mexico        1.032
dtype: float64

In [10]:
#Encontrar la densidad poblacional en el DataFrame paises
paises['densidad']=paises['poblacion']/paises['area']
paises

Unnamed: 0,pais,poblacion,area,capital,densidad
0,Belgica,11.3,30510,Bruselas,0.00037
1,Francia,64.3,671308,Paris,9.6e-05
2,Alemania,81.3,357050,Berlin,0.000228
3,Holanda,16.9,41526,Amsterdam,0.000407
4,Inglaterra,64.9,244820,Londres,0.000265
5,Argentina,12.1,300163,Buenos Aires,4e-05
6,Mexico,103.2,1960573,Ciudad de Mexico,5.3e-05


In [11]:
#Obtener el logaritmo del valor de la población en el DataFrame countries
np.log(paises['poblacion'])

0    2.424803
1    4.163560
2    4.398146
3    2.827314
4    4.172848
5    2.493205
6    4.636669
Name: poblacion, dtype: float64

In [12]:
#Agregar los valores de la evaluación del logaritmo como una nueva columna "log_poblacion"
paises['log_poblacion']=np.log(paises['poblacion'])
paises

Unnamed: 0,pais,poblacion,area,capital,densidad,log_poblacion
0,Belgica,11.3,30510,Bruselas,0.00037,2.424803
1,Francia,64.3,671308,Paris,9.6e-05,4.16356
2,Alemania,81.3,357050,Berlin,0.000228,4.398146
3,Holanda,16.9,41526,Amsterdam,0.000407,2.827314
4,Inglaterra,64.9,244820,Londres,0.000265,4.172848
5,Argentina,12.1,300163,Buenos Aires,4e-05,2.493205
6,Mexico,103.2,1960573,Ciudad de Mexico,5.3e-05,4.636669


In [13]:
#Mostrar las columnas del  DataFrame paises
paises.columns

Index(['pais', 'poblacion', 'area', 'capital', 'densidad', 'log_poblacion'], dtype='object')

In [14]:
#Mostrar cuales de ellos tienen una población mayor a los 40 (millones)
paises[paises['poblacion']>40]

Unnamed: 0,pais,poblacion,area,capital,densidad,log_poblacion
1,Francia,64.3,671308,Paris,9.6e-05,4.16356
2,Alemania,81.3,357050,Berlin,0.000228,4.398146
4,Inglaterra,64.9,244820,Londres,0.000265,4.172848
6,Mexico,103.2,1960573,Ciudad de Mexico,5.3e-05,4.636669


Cuando requiere de una operación especial en los elementos puede hacerlo con ``apply(OPERACIÓN)``, en donde será necesario definir la  operación a través de la función deseada

In [15]:
# Agregar una columna que indique si el país es pequeño o grande (>50). 
# Defina una función llamada etiqueta_poblacion que regrese la etiqueta

In [16]:
def etiqueta_poblacion(x):
    if x > 50:
        return 'grande'
    else:
        return 'pequeno'

In [17]:
 paises ['poblacion'].apply(etiqueta_poblacion)

0    pequeno
1     grande
2     grande
3    pequeno
4     grande
5    pequeno
6     grande
Name: poblacion, dtype: object

In [18]:
#Agregar la columna etiqueta_poblacional con el resultado de aplicar la funcion etiqueta_poblacion
paises["etiqueta_poblacional"]=paises["poblacion"].apply(etiqueta_poblacion)
paises

Unnamed: 0,pais,poblacion,area,capital,densidad,log_poblacion,etiqueta_poblacional
0,Belgica,11.3,30510,Bruselas,0.00037,2.424803,pequeno
1,Francia,64.3,671308,Paris,9.6e-05,4.16356,grande
2,Alemania,81.3,357050,Berlin,0.000228,4.398146,grande
3,Holanda,16.9,41526,Amsterdam,0.000407,2.827314,pequeno
4,Inglaterra,64.9,244820,Londres,0.000265,4.172848,grande
5,Argentina,12.1,300163,Buenos Aires,4e-05,2.493205,pequeno
6,Mexico,103.2,1960573,Ciudad de Mexico,5.3e-05,4.636669,grande


También es posible utilizar la función ``lambda``  para realizar operaciones rápidas.

In [19]:
# Encuentre el número de caracteres de las palabras en la columna capital 
def conteo_car(word):
    return len(word)

paises['capital'].apply(conteo_car)

0     8
1     5
2     6
3     9
4     7
5    12
6    16
Name: capital, dtype: int64

In [20]:
#con lambda
paises['capital'].apply(lambda word : len(word))

0     8
1     5
2     6
3     9
4     7
5    12
6    16
Name: capital, dtype: int64

## Agregaciones (reducciones)

Pandas proporciona un amplio conjunto de funciones de _**resumen**_ que operan en diferentes tipos de objetos de pandas (DataFrames y Series) y producen un valor único. Cuando se aplica a un *DataFrame*, el resultado se retorna como una Serie de Pandas (un valor para cada columna).

In [21]:
#Utilizando la Serie de poblacion, podemos encontrar su promedio usando mean():
poblacion.mean()

0.5057142857142857

In [22]:
#Aplicar la mediana al DataFrame paises
paises.median()

  


poblacion            64.300000
area             300163.000000
densidad              0.000228
log_poblacion         4.163560
dtype: float64

In [23]:
#Podemos encontrar el pais con con area mas pequeña usando min():
paises['area'].max()

1960573

La siguiente tabla resume algunas otras agregaciones integradas de Pandas:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

Todos estos son funcionan en *DataFrames* y *Series*.


Hay una función de muy útil, ``describe()`` , que calcula varios parámetros estadísticos  para cada columna y devuelve el resultado.

In [24]:
 paises.describe()

Unnamed: 0,poblacion,area,densidad,log_poblacion
count,7.0,7.0,7.0,7.0
mean,50.571429,515135.7,0.000208,3.588078
std,37.112115,672944.0,0.00015,0.962601
min,11.3,30510.0,4e-05,2.424803
25%,14.5,143173.0,7.4e-05,2.66026
50%,64.3,300163.0,0.000228,4.16356
75%,73.1,514179.0,0.000318,4.285497
max,103.2,1960573.0,0.000407,4.636669


# Ejercicios con los datos del Titanic

Descripción de las columnas :

    Survival - Supervivencia (0 = No; 1 = Si).
    Pclass - Clase (1 = 1st; 2 = 2nd; 3 = 3rd)
    Name - Nombre
    Sex - Sexo
    Age - Edad
    Sibsp - Número de hermanos / cónyuges a bordo
    Parch - Número de padres / niños a bordo
    Ticket - Número de ticket
    Fare - Tarifa
    Cabin - Número de cabina
    Embarked - Puerto de embarque (C = Cherbourg; Q = Queenstown; S = Southampton)



In [54]:
#Utilizar el archivo datos/titanic.csv
df = pd.read_csv('datos/titanic.csv')

In [26]:
#muestre las primeras líneas del DataFrame
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [27]:
#muestre las ultimas líneas  del DataFrame 
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [28]:
#Obtenga el número de filas y columnas
df.shape

(891, 12)

In [29]:
#Método alternativo
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [30]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li> Seleccione todas las filas para pasajeros masculinos y calcule la edad media de esos pasajeros. Hacer lo mismo con las pasajeras.</li>
</ul>
</div>

In [65]:
#Se puede definir un nuevo DataFrame solamente con elementos "male" en la columna de Sex
df[df['Sex'] == 'male']['Age'].mean()

30.72664459161148

In [32]:
dfh = df[df['Sex'] == 'male']
dfh['Age'].mean()

30.72664459161148

In [33]:
#Redondeando el valor anterior a dos decimales
dfh = df[df['Sex'] == 'male']
promh = dfh['Age'].mean()
round(promh,2)

30.73

In [34]:
#Para el segundo requerimiento se puede realizar todo en una sola linea
round(df[df['Sex'] == 'male']['Age'].mean(), 2)

30.73

In [35]:
#Redondeando el valor anterior a dos decimales
 

<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li>¿Cuántos pasajeros mayores de 70 estaban en el Titanic?</li>
</ul>
</div>

In [36]:
#Se puede aplicar una máscara para seleccionar solamente a los pasajeros mayores a 70 años, 
#Al DataFrame resultante se cuentan las filas usando len()
df [df['Age'] > 70]['Age'].count()

5

In [37]:
#Un segundo método es aplicar la función sum() a la máscara booleana, 
#Solamente se sumaran los elementos True
 

<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li>¿Seleccionar los pasajeros que tienen entre 30 y 40 años?</li>
</ul>
</div>

In [38]:
df[(df['Age'] >= 30)&(df['Age']<=40)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
867,868,0,1,"Roebling, Mr. Washington Augustus II",male,31.0,0,0,PC 17590,50.4958,A24,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q


<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li> Divida la columna 'Name' y  extraiga la primera parte (el apellido) y agréguela como nueva columna 'Surname', para el resto del nombre agregarlo en una nueva columna llamada 'R-name'</li>
</ul>

<br>
</div>

In [43]:
#Para la columna Surname se definirá una nueva función
def surname(name):
    return name.split(',')[0]
df['Surname'] = df['Name'].apply(surname)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Surname
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Allen


In [40]:
#Aplicando la funcion en el DataFrame
 

In [41]:
#Para la columna R-name utilizaremos una función lambda
 

<div class="alert alert-info">

<b>EJERCICIO</b>:

    
Agregar una nueva columna llamada “Categoria”, la cual tendrá como elementos las siguientes etiquetas segun el valor del ticket:

* Si el valor es menor a 20, L -- Ticket -- Pclass -- Fare
* Si el valor es mayor o igual a 20 pero menor a 50, M -- Ticket -- Pclass -- Fare
* Si el valor es mayor o igual 50, H -- Ticket -- Pclass -- Fare

Ejemplo:    
L--A/5 21171--3--7.25
    
H--PC 17599--1--71.2833
    
L--STON/O2. 3101282--3--7.925
    
</div>

In [51]:
def Categoria(x):
    if (x[2] < 20):
        return 'L'+'--'+ str(x[0]) + '--' + str(x[1]) + '--' + str(x[2])
    elif (x[2] >= 20) & (x[2] < 50):
        return 'M'+'--'+ str(x[0]) + '--' + str(x[1]) + '--' + str(x[2])
    elif (x[2] >= 50):
        return 'H'+'--'+ str(x[0]) + '--' + str(x[1]) + '--' + str(x[2])
    else:
        return 'No status'
    
df['Categoria'] = df[['Ticket','Pclass','Fare']].apply(Categoria, axis=1)
df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Surname,Status,Categoria
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Braund,Adult-male,L--A/5 21171--3--7.25
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Cumings,Adult-female,H--PC 17599--1--71.2833
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Heikkinen,Adult-female,L--STON/O2. 3101282--3--7.925
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Futrelle,Adult-female,H--113803--1--53.1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Allen,Adult-male,L--373450--3--8.05
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,Moran,No status,L--330877--3--8.4583
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,McCarthy,Adult-male,H--17463--1--51.8625
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,Palsson,Minor-male,M--349909--3--21.075
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,Johnson,Adult-female,L--347742--3--11.1333
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,Nasser,Minor-female,M--237736--2--30.0708


<div class="alert alert-success">

<b>EJERCICIO 1 </b>: 
    
    
Encontrar el promedio de edad para los pasajeros de cada clase, así como su desviación estándar.
    
    
</div>

In [81]:
#Primera clase
p1 = df[df['Pclass'] == 1]['Age'].mean()
d1 = df[df['Pclass'] == 1]['Age'].std()
print ('Promedio 1a clase:', p1)
print ('Desviacion 1a clase:', d1)

#Segunda clase
p2 = df[df['Pclass'] == 2]['Age'].mean()
d2 = df[df['Pclass'] == 2]['Age'].std()
print ('Promedio 2a clase:', p2)
print ('Desviacion 2a clase:', d2)

#Segunda clase
p3 = df[df['Pclass'] == 3]['Age'].mean()
d3 = df[df['Pclass'] == 3]['Age'].std()
print ('Promedio 3a clase:', p3)
print ('Desviacion 3a clase:', d3)

Promedio 1a clase: 38.233440860215055
Desviacion 1a clase: 14.802855896450462
Promedio 2a clase: 29.87763005780347
Desviacion 2a clase: 14.0010768124762
Promedio 3a clase: 25.14061971830986
Desviacion 3a clase: 12.495398210982415


<div class="alert alert-success">

<b>EJERCICIO 2</b>: 
  
Encontrar el número total de pasajeros por cada punto de embarcación.     
    
</div>

In [83]:
#C Q S
#Chersbourg
countC = df[df['Embarked'] == 'C']['PassengerId'].count()
print ('Embarcados en Cherbourg:', countC)
#Queenstown
countQ = df[df['Embarked'] == 'Q']['PassengerId'].count()
print ('Embarcados en Queenstown:', countQ)
#SouthHampton
countS = df[df['Embarked'] == 'S']['PassengerId'].count()
print ('Embarcados en SouthHampton:', countS)

Embarcados en Cherbourg: 168
Embarcados en Queenstown: 77
Embarcados en SouthHampton: 644


<div class="alert alert-success">

<b>EJERCICIO 3</b>: 
  
a) Encontrar el promedio de edad de los pasajeros que sobrevivieron. 
    
b) Encontrar el promedio de edad de los hombres que sobrevivieron
    
c) Encontrar el promedio de edad de las mujeres que sobrevivieron
</div>


In [96]:
#a)#
avgsur = df[df['Survived'] == 1]['Age'].mean()
print ('Promedio de edad de los pasajeros que sobrevivieron:', avgsur)

#b)#
avgmsur = df[(df['Survived'] == 1) & (df['Sex'] == 'male')]['Age'].mean()
print ('Promedio de edad de los hombres que sobrevivieron:', avgmsur)

#c)#
avgfsur = df[(df['Survived'] == 1) & (df['Sex'] == 'female')]['Age'].mean()
print ('Promedio de edad de las mujeres que sobrevivieron:', avgfsur)

Promedio de edad de los pasajeros que sobrevivieron: 28.343689655172415
Promedio de edad de los hombres que sobrevivieron: 27.276021505376345
Promedio de edad de las mujeres que sobrevivieron: 28.84771573604061


<div class="alert alert-success">

<b>EJERCICIO 4</b>: 
  
a) ¿Cuál era la probabilidad de supervivencia para los pasajeros?

b)  ¿Cuál fue el número de sobrevivientes hombres mayores a 40 años? ¿Cuál era la probabilidad de supervivencia para hombres mayores a 40 años?

c)   ¿Cuál fue el número de sobrevivientes mujeres  mayores a 40 años? ¿Cuál era la probabilidad de supervivencia para  mujeres mayores a 40 años?

</div>





In [131]:
#a)
#contamos todos los pasajeros asi como los supervivientes
total = df['PassengerId'].count()
totals = df[df['Survived'] == 1]['PassengerId'].count()
print ('A) El porcentaje de supervivencia es de:', totals*100/total)

#b)#
sup40 = df[(df['Survived'] == 1)&(df['Age'] > 40)&(df['Sex'] == 'male')]['PassengerId'].count()
print ('B.1) El numero de supervivientes hombres mayores a 40 años es de:', sup40)
totalmayor40 = df[(df['Age'] > 40)&(df['Sex'] == 'male')]['PassengerId'].count()
print ('B.2) El porcentaje de superviencia de un hombre mayor a 40 años es de:', sup40*100/totalmayor40, '%')

#C)#
sup40f = df[(df['Survived'] == 1)&(df['Age'] > 40)&(df['Sex'] == 'female')]['PassengerId'].count()
print ('C.1) El numero de supervivientes mujeres mayores a 40 años es de:', sup40f)
totalmayor40f = df[(df['Age'] > 40)&(df['Sex'] == 'female')]['PassengerId'].count()
print ('C.2) El porcentaje de superviencia de una mujer mayor a 40 años es de:', sup40f*100/totalmayor40f, '%')

A) El porcentaje de supervivencia es de: 38.38383838383838
B.1) El numero de supervivientes hombres mayores a 40 años es de: 18
B.2) El porcentaje de superviencia de un hombre mayor a 40 años es de: 17.647058823529413 %
C.1) El numero de supervivientes mujeres mayores a 40 años es de: 37
C.2) El porcentaje de superviencia de una mujer mayor a 40 años es de: 77.08333333333333 %


<div class="alert alert-success">

<b>EJERCICIO 5</b>:

    
Agregar una nueva columna llamada “Status”, la cual tendrá como elementos las siguientes etiquetas segun la edad:

* Adult-male, si el pasajero es hombre y mayor a 21 años
* Adult-female, si el pasajero es mujer  y mayor a 21 años
* Minor-male, si el pasajero es hombre y su edad es menor o igual  a 21 años
* Minor-female, si el pasajero es mujer y  su edad es menor o igual a 21 años

</div>

In [48]:
def Status(x):
    if (x[0] == 'male') & (x[1] > 21):
        return 'Adult-male'
    elif (x[0] == 'female') & (x[1] > 21):
        return 'Adult-female'
    elif (x[0] == 'male') & (x[1] <= 21):
        return 'Minor-male'
    elif (x[0] == 'female') & (x[1] <= 21):
        return 'Minor-female'
    else:
        return 'No status'

df ['Status'] = df[['Sex','Age']].apply(Status, axis = 1)  
df.head(10)
    

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Surname,Status
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Braund,Adult-male
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Cumings,Adult-female
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Heikkinen,Adult-female
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Futrelle,Adult-female
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Allen,Adult-male
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,Moran,No status
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,McCarthy,Adult-male
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,Palsson,Minor-male
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,Johnson,Adult-female
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,Nasser,Minor-female


<div class="alert alert-success">

<b>EJERCICIO 6 </b>:
    
Escribir alguna breve conclusión de lo aprendido en la actividad
</div>

Una de las partes más esenciales para este tipo de actividades es saber utilizar de manera adecuada las máscaras, ya que seleccionar la información con la que se desea trabajar es el primer paso para realizar las operaciones. De igual manera el uso y la definición de funciones es muy útil ya que te ahorra confusión en el código.