Práctica Tipología y fuentes de datos
# Dataset Titanic

![Hundimiento del Titanic](https://upload.wikimedia.org/wikipedia/commons/6/6e/St%C3%B6wer_Titanic.jpg)

El 15 de abril de 1912, el barco de pasajeros más grande jamás construido  colisionó contra un iceberg durante su viaje inaugural. En el hundimiento del RMS Titanic murieron 1502 de sus 2224 pasajeros y tripulantes. Esta tragedia conmocionó a la comunidad internacional y llevó a mejorar la seguridad de los buques. Una de las razones por las que el naufragio provocó la pérdida de tantas vidas fue que no había suficientes botes salvavidas para los todos los pasajeros y la tripulación. Sin embargo, algunos grupos de personas tenían más probabilidades de sobrevivir que otros.



https://www.kaggle.com/c/titanic



In [0]:
# importación de librerías
import pandas as pd
import numpy as np
import io



In [2]:
# subir fichero titanic.csv
from google.colab import files
uploaded = files.upload()

Saving titanic.csv to titanic.csv


## 1. Adquisición de datos

El paquete [Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) nos sirve para trabajar más cómodamente con conjuntos de datos (datasets). Para empezar, leeremos los datos que están en formato CSV para colocarlos en una estructura de datos denominada [DataFrames](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) que facilita las operaciones.

In [0]:
datos = pd.read_csv(io.BytesIO(uploaded['titanic.csv'])) # Coge el fichero y lo transforma en un dataFrame

datos.head(5) #Imprime las 5 primeras líneas por pantalla

filas = datos.shape[0] # Coge las filas del fichero. 0 filas, 1 columnas


## 2. Descripción de variables

El dataset contiene los datos de ${filas} pasajeros reales del Titanic passengers. Cada fila representa a una persona. La siguiente es la descripción de las columnas:


| Variable  | Definición  | Comentarios  |
|---|---|---|
|PassengerId | Identificador de pasajero| |
| Survived  | Superviviente  | 0 = No, 1 = Sí  |
| Pclass  | Clase  | 1 = Primera, 2 = Segunda, 3 = Tercera  |
| Name | Nombre | male = hombre, female = mujer  |    
| Sex  | Sexo  |   |
| Age  | Edad en años  | Si es menor a 1 aparece como fracción  |
| SibSp  | Nº de hermanos/esposas a bordo  |   |
| Parch  | Nº de padres/hijos a bordo  |   |
| Ticket  | Nº de ticket  |   |
| Fare  | Precio del billete  |   |
| Cabin | Camarote  |   |
| Embarked  | Puerto de embarque  | C = Cherbourg, Q = Queenstown, S = Southampton  |

In [4]:
print ('Columnas:')
print(datos.columns.values)

Columnas:
['PassengerId' 'Survived' 'Pclass' 'Name' 'Sex' 'Age' 'SibSp' 'Parch'
 'Ticket' 'Fare' 'Cabin' 'Embarked']


¿Cuáles de estas variables son categóricas? Name, Sex, Cabin, Embarked


¿Cuales de estas variables son numéricas? PassengerId, Survived, PClase, Age, SibSp, Parch, Tickert, Fare


## 3. Filtrado y subconjuntos

En muchas ocasiones necesitamos trabajar con solo parte de un dataset, es decir, un subconjunto. Exiten diferentes formas de hacer esto: usando etiquetas (nombre de columnas), rangos numéricos o especificando la localización por índice.

### 3.1 Selección por etiquetas

En Python se usan los corchetes `[]` para seleccionar un subconjunto de un objeto DataFrame. Por ejemplo, para seleccionar todos los datos de una columna denominada `Age` se usa `datos['Age']`:


In [5]:
edades = datos['Age'] ## equivalente a datos.Age

print (edades)

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64


*¿Qué ocurre cuando seleccionamos una columna que no existe?*
Que nos da un error.


### 3.2 Selección por rangos

Recordad que Python utiliza la indexación con origen en 0, es decir, que el primer elemento de un array se encuentra en la posición 0 ( y no en el 1).



In [6]:
print (edades[0])

22.0


Mediante el operador `[]` es posible seleccionar conjunto de filas y columnas de un DataFrame. Para seleccionar un conjunto de filas se puede usar `datos[inicio:fin]`. Así si queremos selecciona las filas 0, 1 y 2 usaremos el código:

In [7]:
# seleccionar las filas 0, 1 y 2 (la 3 no será seleccionada)
print (edades[0:3])

# seleccionar las filas 4 primeras filas ( 0, 1, 2 y 3 )
print (edades[:4])

# seleccionar la última fila
print ( edades [-1:])

0    22.0
1    38.0
2    26.0
Name: Age, dtype: float64
0    22.0
1    38.0
2    26.0
3    35.0
Name: Age, dtype: float64
890    32.0
Name: Age, dtype: float64


### 3.3 Selección de filas y columnas 

Es posible especificar rangos tanto en filas como en columnas de los DataFrame usando tanto etiquetas como rangos:

+ usando `loc` que se basa en etiquetas

+ usando `iloc` que se basa fundamentalmente en rangos de enteros


In [0]:
datos.loc [ [0, 2, 4], ['Age' , 'Pclass' ,  'Name']]

Unnamed: 0,Age,Pclass,Name
0,22.0,3,"Braund, Mr. Owen Harris"
2,26.0,3,"Heikkinen, Miss. Laina"
4,35.0,3,"Allen, Mr. William Henry"


In [0]:
datos.iloc [ [ 0, 2, 4 ], [ 4 , 2, 3 ] ]

Unnamed: 0,Sex,Pclass,Name
0,male,3,"Braund, Mr. Owen Harris"
2,female,3,"Heikkinen, Miss. Laina"
4,male,3,"Allen, Mr. William Henry"


### 3.4 Selección usando parámetros

También es posible seleccionar datos criterios o restricciones. Por ejemplo, es posible seleccionar los nombres de las personas que sobrevivieron al naufragio:

In [8]:
datos.loc [ datos.Survived == 1 , ['Name' ]]

Unnamed: 0,Name
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,"Heikkinen, Miss. Laina"
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
8,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)"
9,"Nasser, Mrs. Nicholas (Adele Achem)"
...,...
875,"Najib, Miss. Adele Kiamie ""Jane"""
879,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)"
880,"Shelley, Mrs. William (Imanita Parrish Hall)"
887,"Graham, Miss. Margaret Edith"


Los siguientes son algunos de los operadores disponibles para consultar datos en un DataFrame:

+ Igual: ==
+ Distinto: !=
+ Mayor que o menor que: > o <
+ Mayor o igual: >=
+ Menor o igual: <=

También es posible encadenar varias condiciones con los operadores lógicos:


In [21]:
datos.loc [ (datos.Embarked == 'C') & (datos.Age <= 12),  ['Name']]

Unnamed: 0,Name
43,"Laroche, Miss. Simonne Marie Anne Andree"
125,"Nicola-Yarred, Master. Elias"
381,"Nakid, Miss. Maria (""Mary"")"
448,"Baclini, Miss. Marie Catherine"
469,"Baclini, Miss. Helene Barbara"
644,"Baclini, Miss. Eugenie"
691,"Karun, Miss. Manca"
731,"Hassan, Mr. Houssein G N"
803,"Thomas, Master. Assad Alexander"
827,"Mallet, Master. Andre"


## Cuestiones

+ ¿Cuántas personas de más de 65 años hay en el dataset?

+ ¿cuántos menores de 1 años estaban a bordo? (según el dataset)


+ ¿cuántas mujeres en primera clase no sobrevivieron (según el dataset)?


+ Hacer un subconjunto de los datos que contenga los nombres y la edad de los hombres de tercera clase. ¿Qué dimensiones tiene el subconjunto?





In [23]:
older65 =  datos.loc[datos.Age > 65 , ['Name']]
print(older65)
print (older65.shape [0] )

                                     Name
33                  Wheadon, Mr. Edward H
96              Goldschmidt, Mr. George B
116                  Connors, Mr. Patrick
493               Artagaveytia, Mr. Ramon
630  Barkworth, Mr. Algernon Henry Wilson
672           Mitchell, Mr. Henry Michael
745          Crosby, Capt. Edward Gifford
851                   Svensson, Mr. Johan
8


In [24]:
menores1 =  datos.loc[datos.Age<1, ['Name']]
print(menores1)
print (menores1.shape[0])

                                Name
78     Caldwell, Master. Alden Gates
305   Allison, Master. Hudson Trevor
469    Baclini, Miss. Helene Barbara
644           Baclini, Miss. Eugenie
755        Hamalainen, Master. Viljo
803  Thomas, Master. Assad Alexander
831  Richards, Master. George Sibley
7


In [25]:
mujeres1aNo =  datos.loc[(datos.Sex=='female')&(datos.Survived==0) & (datos.Pclass==1), ['Name']]
print(mujeres1aNo)
print (mujeres1aNo.shape[0])

                                                Name
177                       Isham, Miss. Ann Elizabeth
297                     Allison, Miss. Helen Loraine
498  Allison, Mrs. Hudson J C (Bessie Waldo Daniels)
3


In [27]:
hombres3ra = datos.loc[(datos.Sex=='male')&(datos.Pclass==3), ['Name', 'Age']]
print(hombres3ra)
print (hombres3ra.shape) # 347 filas x 2 columnas -> 347 hombres

                               Name   Age
0           Braund, Mr. Owen Harris  22.0
4          Allen, Mr. William Henry  35.0
5                  Moran, Mr. James   NaN
7    Palsson, Master. Gosta Leonard   2.0
12   Saundercock, Mr. William Henry  20.0
..                              ...   ...
877            Petroff, Mr. Nedelio  19.0
878              Laleff, Mr. Kristo   NaN
881              Markun, Mr. Johann  33.0
884          Sutehall, Mr. Henry Jr  25.0
890             Dooley, Mr. Patrick  32.0

[347 rows x 2 columns]
(347, 2)


---

### 3.5 Conectando los datos

Con la siguiente expresión lambda se pueden calcular los títulos honoríficos que acompaña a los nombres de los pasajeros.

- ¿Cuántos títulos diferentes se pueden encontrar?

In [28]:
titulos = pd.DataFrame(datos.apply(lambda x: x.Name.split(",")[1].split(".")[0], axis=1), columns=["Title"])
print(pd.Categorical(titulos.Title))

 #HECHO
  #titulos crea un data frame dónde el nombre viene con un dato anterior que es el titulo (mis, coronel), 
    # entonces separamos el nombre del titulo y el título lo mete en en una columna llamada titulos

[Mr, Mrs, Miss, Mrs, Mr, ..., Rev, Miss, Miss, Mr, Mr]
Length: 891
Categories (17, object): [Capt, Col, Don, Dr, ..., Ms, Rev, Sir, the Countess]


- Conectar (join) estos dos dataset (`datos` y `titulos`) para formar `datos_tit`  

In [29]:
datos_tit  =  datos.join(titulos)
datos_tit.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr


Respecto a los datos de los camarotes (`Cabin`), muchos de ellos están vacíos (`NaN`) y los que sí están presentes no se encuentra en un estado ideal ( pueden aparecer sin número o con datos múltiples). Aún así es posible obtener información acerca de la cubierta (`Deck`) que tenían asignada los pasajeros. 

- Conectar (join) estos datos con el dataset anterior (`datos_tit`) para formar `datos_cubiertas`. ¿Qué dimensiones tiene este dataset?

In [31]:
camarotes = pd.DataFrame ( datos[["Cabin"]] )
camarotes["Valid"] = camarotes["Cabin"].isnull().apply(lambda x: not x)
camarotes["Deck"] = camarotes["Cabin"].str.slice(0,1)
camarotes["Room"] = camarotes["Cabin"].str.slice(1,4).str.extract("([0-9]+)", expand=False).astype(float)

cubiertas = pd.get_dummies(camarotes['Deck'], prefix='Deck')

datos_cubiertas = datos_tit.join(cubiertas)
datos_cubiertas # TODO


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title,Deck_A,Deck_B,Deck_C,Deck_D,Deck_E,Deck_F,Deck_G,Deck_T
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,Mr,0,0,0,0,0,0,0,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs,0,0,1,0,0,0,0,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,Miss,0,0,0,0,0,0,0,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,Mrs,0,0,1,0,0,0,0,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,Mr,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,Rev,0,0,0,0,0,0,0,0
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,Miss,0,1,0,0,0,0,0,0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,Miss,0,0,0,0,0,0,0,0
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,Mr,0,0,1,0,0,0,0,0


---