# Análisis de Datos con pandas (I)

En esta primera introducción a pandas vamos a implementar unos ejemplos de análisis de datos con un dataset muy sencillo (y muy típico para el aprendizaje) que contiene la información de los datos del Titanic.

Una vez importado el módulo pandas, vamos a echar un vistazo al dataset titanic: cuántas filas tiene, cuántas columnas, qué indica cada columna, etc.

In [1]:
import pandas as pd

In [2]:
titanic = pd.read_csv('titanic.csv')
titanic.shape

(891, 12)

In [3]:
titanic.index

RangeIndex(start=0, stop=891, step=1)

In [4]:
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

A continuación puedes leer una descripción de cada una de las columnas que forman parte del dataset

-	PassengerId: identificador del pasajero
-	Survided: superviviente. 0 (no superviviente); 1 (superviviente)
-	Pclass: clase del pasajero. 1 (primera clase); 2 (segunda clase); 3 (tercera clase)
-	Name: Nombre del pasajero
-	Sex: Sexo del pasajero
-	Age: Edad del pasajero
-	SibSp: Número de hermanos / cónyuge embarcados
-	Parch: Número de padres / hijos embarcados
-	Ticket: Número de ticket del pasajero
-	Cabin: Cabina del pasajero
-	Embarked: Puerto de embarque. C (Cherbourg); Q (Queenstown); S (Southhampton)


Vamos a comenzar con al primera exploración de los datos

Muestra el nombre de los 10 primeros pasajeros que aparezcan en el dataset. A continuación, muestra tamién el sexo y la edad. Por último, realiza la misma operación pero con los 10 últimos pasajeros

In [5]:
titanic.Name.head(10)

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
5                                     Moran, Mr. James
6                              McCarthy, Mr. Timothy J
7                       Palsson, Master. Gosta Leonard
8    Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                  Nasser, Mrs. Nicholas (Adele Achem)
Name: Name, dtype: object

In [6]:
titanic[['Name', 'Sex', 'Age']].head(10)

Unnamed: 0,Name,Sex,Age
0,"Braund, Mr. Owen Harris",male,22.0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,"Heikkinen, Miss. Laina",female,26.0
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,"Allen, Mr. William Henry",male,35.0
5,"Moran, Mr. James",male,
6,"McCarthy, Mr. Timothy J",male,54.0
7,"Palsson, Master. Gosta Leonard",male,2.0
8,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0
9,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0


In [7]:
titanic.Name.tail(10)

881                          Markun, Mr. Johann
882                Dahlberg, Miss. Gerda Ulrika
883               Banfield, Mr. Frederick James
884                      Sutehall, Mr. Henry Jr
885        Rice, Mrs. William (Margaret Norton)
886                       Montvila, Rev. Juozas
887                Graham, Miss. Margaret Edith
888    Johnston, Miss. Catherine Helen "Carrie"
889                       Behr, Mr. Karl Howell
890                         Dooley, Mr. Patrick
Name: Name, dtype: object

In [8]:
titanic[['Name', 'Sex', 'Age']].tail(10)

Unnamed: 0,Name,Sex,Age
881,"Markun, Mr. Johann",male,33.0
882,"Dahlberg, Miss. Gerda Ulrika",female,22.0
883,"Banfield, Mr. Frederick James",male,28.0
884,"Sutehall, Mr. Henry Jr",male,25.0
885,"Rice, Mrs. William (Margaret Norton)",female,39.0
886,"Montvila, Rev. Juozas",male,27.0
887,"Graham, Miss. Margaret Edith",female,19.0
888,"Johnston, Miss. Catherine Helen ""Carrie""",female,
889,"Behr, Mr. Karl Howell",male,26.0
890,"Dooley, Mr. Patrick",male,32.0


Mostrar el nombre, sexo y edad de los pasajeros mayores de 60 años (22 en total).

In [9]:
titanic[titanic.Age>60][['Name','Sex','Age']]

Unnamed: 0,Name,Sex,Age
33,"Wheadon, Mr. Edward H",male,66.0
54,"Ostby, Mr. Engelhart Cornelius",male,65.0
96,"Goldschmidt, Mr. George B",male,71.0
116,"Connors, Mr. Patrick",male,70.5
170,"Van der hoef, Mr. Wyckoff",male,61.0
252,"Stead, Mr. William Thomas",male,62.0
275,"Andrews, Miss. Kornelia Theodosia",female,63.0
280,"Duane, Mr. Frank",male,65.0
326,"Nysveen, Mr. Johan Hansen",male,61.0
438,"Fortune, Mr. Mark",male,64.0


Obtener un listado de las mujeres que viajaron en primera clase (94 en total).

In [10]:
#Nombre de las pasajeras de primera clase
titanic[(titanic.Pclass==1) & (titanic.Sex=='female')].Name

1      Cumings, Mrs. John Bradley (Florence Briggs Th...
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
11                              Bonnell, Miss. Elizabeth
31        Spencer, Mrs. William Augustus (Marie Eugenie)
52              Harper, Mrs. Henry Sleeper (Myna Haxtun)
                             ...                        
856           Wick, Mrs. George Dennick (Mary Hitchcock)
862    Swift, Mrs. Frederick Joel (Margaret Welles Ba...
871     Beckwith, Mrs. Richard Leonard (Sallie Monypeny)
879        Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)
887                         Graham, Miss. Margaret Edith
Name: Name, Length: 94, dtype: object

Para facilitar el procesado, vamos a cambiar el contenido de la columna Sex: los ‘male’ van a pasar a ser ‘m’ y los female van a pasar a ser ‘f’. Crear una función que reciba un parámetro de entrada y devuelva el carácter ‘m’ si la entrada es ‘male’ o ‘f’ si la entrada es ‘female’. Utilizar la función apply para cmabiar el dataset

In [11]:
#Modificar 'female' por 'F' y 'male' por 'M'
def cambiar(x):
    if x=='female':
        return 'F'
    else:
        return 'M'
titanic.Sex = titanic.Sex.apply(cambiar)

Calcular la edad media de los hombre y de las mujeres. Calcular la edad máxima de hombres y mujeres. 

In [12]:
titanic[titanic.Sex=='F'].Age.mean()

27.915708812260537

In [13]:
titanic[titanic.Sex=='M'].Age.mean()

30.72664459161148

In [14]:
#Para el próximo día 
titanic.groupby('Sex').Age.mean()

Sex
F    27.915709
M    30.726645
Name: Age, dtype: float64

In [15]:
titanic[titanic.Sex=='F'].Age.max()

63.0

In [16]:
titanic[titanic.Sex=='M'].Age.max()

80.0

In [17]:
#Para el próximo día 
titanic.groupby('Sex').Age.max()

Sex
F    63.0
M    80.0
Name: Age, dtype: float64

Queremos saber desde qué puerto era desde el que se montaba un mayor número de pasajeros. Mostar, además el número de embarques de cada clase en cada puerto. 

In [19]:
titanic.groupby('Embarked').PassengerId.count()

Embarked
C    168
Q     77
S    644
Name: PassengerId, dtype: int64

In [21]:

print (titanic.groupby(['Embarked', 'Pclass']).PassengerId.count())

Embarked  Pclass
C         1          85
          2          17
          3          66
Q         1           2
          2           3
          3          72
S         1         127
          2         164
          3         353
Name: PassengerId, dtype: int64


In [22]:
# Para el próximo día 
titanic.pivot_table(values='PassengerId',index='Pclass',columns='Embarked',aggfunc='count')

Embarked,C,Q,S
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,85,2,127
2,17,3,164
3,66,72,353


Queremos conocer cuánto costaban los tickets del Titanic. Para ello, calcular la tarifa media de los pasajes. A continiación, mostar la media de las tarifas en función de la clase. ¿Cuánto costaba de media un pasaje de primera clase? ¿Y de segunda? ¿Y de tercera? 

In [23]:
#Mostrar la tarifa media de un pasaje del Titanic
titanic.Fare.mean()

32.204207968574636

In [24]:
titanic.groupby('Pclass').Fare.mean()

Pclass
1    84.154687
2    20.662183
3    13.675550
Name: Fare, dtype: float64

¿Murió mucha gente en el Titanic? ¿Es cierto que los botes salvavidas se reservaron para los pasajeros de primera clase? Y eso de primero niños y mujeres, ¿es cierto? Para ello, calcula, en primer lugar, el porcentaje de pasajeros que se salvaron. A continuación obtén el porcentaje de pasajeros que se salvaron de cada clase. Por último, el porcentaje de mujeres y de hombres que se salvaron.

In [25]:
float(titanic[titanic['Survived']==1].PassengerId.count())/titanic.PassengerId.count()*100

38.38383838383838

In [27]:
titanic[titanic['Survived']==1].groupby(['Pclass']).PassengerId.count().apply(float)/titanic.groupby('Pclass').PassengerId.count()*100

Pclass
1    62.962963
2    47.282609
3    24.236253
Name: PassengerId, dtype: float64

In [28]:
titanic[titanic['Survived']==1].groupby(['Sex']).PassengerId.count().apply(float)/titanic.groupby('Sex').PassengerId.count()*100

Sex
F    74.203822
M    18.890815
Name: PassengerId, dtype: float64

In [30]:
tabla = titanic[titanic['Survived']==1].pivot_table(values='PassengerId', index = 'Pclass', columns='Sex', aggfunc='count')
print (tabla.applymap(float).divide(tabla.sum(axis=1), axis=0)*100)

Sex             F          M
Pclass                      
1       66.911765  33.088235
2       80.459770  19.540230
3       60.504202  39.495798
