# Titanic - Exploración de datos

El objetivo del siguiente notebook es hacer una exploración de los datos del Dataset del Titanic (`DS_Clase_05_titanic.csv`).

Pueden encontrar más información al respecto en el siguiente link:

https://www.kaggle.com/c/titanic

Más adelante hablaremos más acerca de Kaggle, pero por ahora les comentamos que es una página donde se suben Dataset y la gente los analiza. En general los datasets están bastante curados y la gente sube los "Kernels" (Notebooks) que usaron para analizarlos. La página está buenísima, recomendamos que exploren los kernels de análisis del Titanic - al menos los de mayor puntaje - y miren las competencias que hay.

## 1. Análisis Exploratorio de Datos

La idea del siguiente análisis es que sea lo menos guiado posible. De todas formas, dejamos una serie de preguntas y pistas que no deberían faltar:

1. ¿Qué forma tiene el dataset? Hacer una descripción rápida. Pista: `.describe()`
2. ¿De qué tipo son las variables y qué valores toman? Pista: `.info()`
3. ¿En qué columnas hay valores faltantes?¿Cuántos? Pista: `.info(), .isna(), sum()`
4. ¿Cómo son las distribuciones y las relaciones entre variables?¿Son informativos esos gráficos? Concentrarse en las variables más relevantes: género, edad, clase, etc. Pista: `pairplot()`
5. ¿Cómo están correlacionadas las variables?

## 2. Extrayendo información

"Mujeres y niños primero". ¿Será cierto? Intentemos fundamentar (o no) esa afirmación con la información disponible en el dataset. Para ello, responder las siguientes preguntas:

1. ¿Cuántos hombres y mujeres sobrevivieron a la tragedia?¿Alcanza con esa información para afirmar que las mujeres tenían mayor probabilidad de supervivencia o necesitamos algo más?
2. ¿Cuál era la distribución de edades en el Titanic?¿Es la misma para hombres y mujeres?
3. ¿Cuál era la distribución de edades en el Titanic?¿Es la misma para hombres y mujeres?

Recuerden, siempre que puedan, hacer un lindo gráfico. 


1.- Analisis exploratorio de datos

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [8]:
ds = pd.read_csv('DS_Clase_05_titanic.csv')
ds.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [3]:
ds.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [4]:
ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [7]:
ds.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

---
# Actividad alternativa (Recomendado)
En lugar de trabajar de manera individual con el dataset del Titanic, armar grupos de 3 ó 4 personas: 

1. Buscar en Kaggle ó en cualquier otro lugar (por ejemplo: datos abiertos de Argentina), datasets de su interés.
    * Por ejemplo: Si el grupo está formados por economistas, buscar datasets económicos.
2. Aplicar un `Análisis Exploratorio` de sus datos:
    1. ¿Qué forma tiene el dataset? Hacer una descripción rápida. Pista: `.describe()`
    2. ¿De qué tipo son las variables y qué valores toman? Pista: `.info()`
    3. ¿En qué columnas hay valores faltantes?¿Cuántos? Pista: `.info(), .isna(), sum()`
    4. ¿Cómo son las distribuciones y las relaciones entre variables?¿Son informativos esos gráficos? Concentrarse en las variables más relevantes. Pista: `pairplot()`
    5. ¿Cómo están correlacionadas las variables?
3. En base a su conocimiento previo del problema, formularse preguntas que luego deberán de responder en base a su dataset (`Extración de información`).
4. Sus análisis los subiremos al Trello, para que todos sus compañeros puedan ver los distinos análisis y enfoques.