# <font color='blue'>**Proyecto Final: Obtención, Preparación y Análisis de Datos**</font>

Normalmente, los proyectos de ciencia de datos, comienzan con estadísticas descriptivas para tener una idea de las propiedades del conjunto de datos que se está trabajando. Afortunadamente, es fácil obtener estas estadísticas con las estructuras de datos de **Pandas**.

# <font color='blue'>**Estadística Descriptiva con la Base de Datos Iris**</font>

En este proyecto, deberán implemnetar el cálculo de varias estadísticas descriptivas para el clásico <a href="https://en.wikipedia.org/wiki/Iris_flower_data_set">conjunto de datos de iris</a>.

El siguiente código, carga los paquetes necesarios y también el conjunto de datos iris.

**load_iris()** carga en un objeto que contiene el conjunto de datos de iris.

In [3]:
import pandas as pd
from pandas import DataFrame
from sklearn.datasets import load_iris   

iris_obj = load_iris()

# Descripción de iris_obj
print(iris_obj['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

## <font color='green'>**Parte 1: Generar el dataframe de Iris**</font>

Basado en la estructura del objeto **iris_obj**, convierta este en un dataframe.


In [4]:
# Convertir iris_obj a un DataFrame

import numpy as np
data = np.concatenate((iris_obj['data'], iris_obj['target'].reshape(-1,1)), axis = 1)
columns = np.concatenate((iris_obj['feature_names'], ['species']), axis = 0)

data = DataFrame(data, columns = columns)

data

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2.0
146,6.3,2.5,5.0,1.9,2.0
147,6.5,3.0,5.2,2.0,2.0
148,6.2,3.4,5.4,2.3,2.0


In [5]:
# Convertir iris_obj a un DataFrame (Otra forma)

df = pd.DataFrame(iris_obj['data'], columns=iris_obj['feature_names'])
df['target'] = iris_obj['target']
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


## <font color='green'>**Fin Parte 1**</font>

## <font color='green'>**Parte 2: Modificar y describir el dataframe de Iris**</font>

1. Reemplace los valores de la columna "species" por los siguientes valores:
  * "setosa" = 0
  * "versicolor" = 1
  * "virginica" = 2

2. Agrupe las muestras por especies
3. Sin usar el método **describe()**, calcule los estadísticos básicos de la muestra:
  * cantidad de elementos no nulos
  * media
  * varianza
  * Desviación estándar
  * Percentiles y cuartiles
  * Rango inter-cuartílico
  * Valores máximos y mínimos
  * Rango (diferencia entre el máximo y el mínimo)
4. Repita el análisis anterior, pero muestre sus resultados por columnas y especies.
5. Compare sus resultados usando el metodo **describe()** por columnas y por especies
6. Generar una tabla multi-indice por "especies" y "ancho del pétalo" y que de cuenta de la suma de los valores de cada clase



In [17]:
# 1 Reemplazar los valores de la columna species por estos valores
data['species'] = data['species'].map(lambda x: iris_obj['target_names'][int(x)])
#data['species'] = data['species'].map({0.0:'wena', 1.0:'2ewqads', 2.0:'aaaaaaaab'})

In [6]:
# 1 Reemplazar los valores de la columna species por estos valores (Otra solución)
data['species']=data['species'].map({0.0:'setosa',1.0:'versicolor',2.0:'virginica'})

data

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [7]:
data['species']

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: object

In [8]:
# Agrupar la muestra por especies
data.groupby('species').size()

species
setosa        50
versicolor    50
virginica     50
dtype: int64

In [9]:
# Sin usar describe, encontrar los sgts. estadísticos.
no_nulos = data.notnull().sum()
no_nulos

# R: Hay 150 elementos no nulos

sepal length (cm)    150
sepal width (cm)     150
petal length (cm)    150
petal width (cm)     150
species              150
dtype: int64

In [34]:
# R: Hay 0 elementos no nulos
data.isna().sum()

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
species              0
dtype: int64

In [108]:
# Obtener Promedio
data.mean()

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

In [118]:
data.var()
data.std() ** 2

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

In [119]:
data.std()

sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64

In [35]:
print("Mínimo")
print(data.quantile(0))
print(data.min())

print("25%")
print(data.quantile(0.25))

print("50%")
print(data.quantile(0.5))

print("75%")
print(data.quantile(0.75))

print("Máxima")
print(data.quantile(1))
print(data.max())

Mínimo
sepal length (cm)    4.3
sepal width (cm)     2.0
petal length (cm)    1.0
petal width (cm)     0.1
Name: 0, dtype: float64
sepal length (cm)       4.3
sepal width (cm)          2
petal length (cm)         1
petal width (cm)        0.1
species              setosa
dtype: object
25%
sepal length (cm)    5.1
sepal width (cm)     2.8
petal length (cm)    1.6
petal width (cm)     0.3
Name: 0.25, dtype: float64
50%
sepal length (cm)    5.80
sepal width (cm)     3.00
petal length (cm)    4.35
petal width (cm)     1.30
Name: 0.5, dtype: float64
75%
sepal length (cm)    6.4
sepal width (cm)     3.3
petal length (cm)    5.1
petal width (cm)     1.8
Name: 0.75, dtype: float64
Máxima
sepal length (cm)    7.9
sepal width (cm)     4.4
petal length (cm)    6.9
petal width (cm)     2.5
Name: 1, dtype: float64
sepal length (cm)          7.9
sepal width (cm)           4.4
petal length (cm)          6.9
petal width (cm)           2.5
species              virginica
dtype: object


In [137]:
print('Rango intercuartil Q3 - Q1')
data.quantile(0.75) - data.quantile(0.25)

Rango intercuartil Q3 - Q1


sepal length (cm)    1.3
sepal width (cm)     0.5
petal length (cm)    3.5
petal width (cm)     1.5
dtype: float64

In [10]:
print('Diferencia entre max y min')
print(data.quantile(1) - data.quantile(0))

# Se obtiene mínimo y máximo
maximo = data.max()
minimo = data.min()

# Se obtiene rango
rango = maximo[0:4] - minimo[0:4]
print(rango)

Diferencia entre max y min
sepal length (cm)    3.6
sepal width (cm)     2.4
petal length (cm)    5.9
petal width (cm)     2.4
dtype: float64
sepal length (cm)    3.6
sepal width (cm)     2.4
petal length (cm)    5.9
petal width (cm)     2.4
dtype: object


# Repita el análisis anterior, pero muestre sus resultados por columnas y especies.

In [16]:
df_iris1=data[data['species']=='setosa']
df_iris2=data[data['species']=='versicolor']
df_iris3=data[data['species']=='virginica']

# Para setosa

print("Datos no nulos")
print(df_iris1.notnull().sum())

print("Promedio")
print(df_iris1.mean())

print("Varianza")
print(df_iris1.var())

print("Desviación estándar")
print(df_iris1.std())

print("Mínimo")
print(df_iris1.min())

print("25%")
print(df_iris1.quantile(0.25))

print("50%")
print(df_iris1.quantile(0.5))

print("75%")
print(df_iris1.quantile(0.75))

print("Máxima")
print(df_iris1.max())

print('Rango intercuartil Q3 - Q1')
df_iris1.quantile(0.75) - df_iris1.quantile(0.25)

# Se obtiene mínimo y máximo
maximo = df_iris1.max()
minimo = df_iris1.min()
# Se obtiene rango
rango = maximo[0:4] - minimo[0:4]
print(rango)

Datos no nulos
sepal length (cm)    50
sepal width (cm)     50
petal length (cm)    50
petal width (cm)     50
species              50
dtype: int64
Promedio
sepal length (cm)    5.006
sepal width (cm)     3.428
petal length (cm)    1.462
petal width (cm)     0.246
dtype: float64
Varianza
sepal length (cm)    0.124249
sepal width (cm)     0.143690
petal length (cm)    0.030159
petal width (cm)     0.011106
dtype: float64
Desviación estándar
sepal length (cm)    0.352490
sepal width (cm)     0.379064
petal length (cm)    0.173664
petal width (cm)     0.105386
dtype: float64
Mínimo
sepal length (cm)       4.3
sepal width (cm)        2.3
petal length (cm)         1
petal width (cm)        0.1
species              setosa
dtype: object
25%
sepal length (cm)    4.8
sepal width (cm)     3.2
petal length (cm)    1.4
petal width (cm)     0.2
Name: 0.25, dtype: float64
50%
sepal length (cm)    5.0
sepal width (cm)     3.4
petal length (cm)    1.5
petal width (cm)     0.2
Name: 0.5, dtype: float64

In [17]:
# Para versicolor
print("Datos no nulos")
print(df_iris2.notnull().sum())

print("Promedio")
print(df_iris2.mean())

print("Varianza")
print(df_iris2.var())

print("Desviación estándar")
print(df_iris2.std())

print("Mínimo")
print(df_iris2.min())

print("25%")
print(df_iris2.quantile(0.25))

print("50%")
print(df_iris2.quantile(0.5))

print("75%")
print(df_iris2.quantile(0.75))

print("Máxima")
print(df_iris2.max())

print('Rango intercuartil Q3 - Q1')
df_iris2.quantile(0.75) - df_iris2.quantile(0.25)

# Se obtiene mínimo y máximo
maximo = df_iris2.max()
minimo = df_iris2.min()
# Se obtiene rango
rango = maximo[0:4] - minimo[0:4]
print(rango)

Datos no nulos
sepal length (cm)    50
sepal width (cm)     50
petal length (cm)    50
petal width (cm)     50
species              50
dtype: int64
Promedio
sepal length (cm)    5.936
sepal width (cm)     2.770
petal length (cm)    4.260
petal width (cm)     1.326
dtype: float64
Varianza
sepal length (cm)    0.266433
sepal width (cm)     0.098469
petal length (cm)    0.220816
petal width (cm)     0.039106
dtype: float64
Desviación estándar
sepal length (cm)    0.516171
sepal width (cm)     0.313798
petal length (cm)    0.469911
petal width (cm)     0.197753
dtype: float64
Mínimo
sepal length (cm)           4.9
sepal width (cm)              2
petal length (cm)             3
petal width (cm)              1
species              versicolor
dtype: object
25%
sepal length (cm)    5.600
sepal width (cm)     2.525
petal length (cm)    4.000
petal width (cm)     1.200
Name: 0.25, dtype: float64
50%
sepal length (cm)    5.90
sepal width (cm)     2.80
petal length (cm)    4.35
petal width (cm)   

In [18]:
# Para virginica
print("Datos no nulos")
print(df_iris3.notnull().sum())

print("Promedio")
print(df_iris3.mean())

print("Varianza")
print(df_iris3.var())

print("Desviación estándar")
print(df_iris3.std())

print("Mínimo")
print(df_iris3.min())

print("25%")
print(df_iris3.quantile(0.25))

print("50%")
print(df_iris3.quantile(0.5))

print("75%")
print(df_iris3.quantile(0.75))

print("Máxima")
print(df_iris3.max())

print('Rango intercuartil Q3 - Q1')
df_iris3.quantile(0.75) - df_iris3.quantile(0.25)

# Se obtiene mínimo y máximo
maximo = df_iris3.max()
minimo = df_iris3.min()
# Se obtiene rango
rango = maximo[0:4] - minimo[0:4]
print(rango)

Datos no nulos
sepal length (cm)    50
sepal width (cm)     50
petal length (cm)    50
petal width (cm)     50
species              50
dtype: int64
Promedio
sepal length (cm)    6.588
sepal width (cm)     2.974
petal length (cm)    5.552
petal width (cm)     2.026
dtype: float64
Varianza
sepal length (cm)    0.404343
sepal width (cm)     0.104004
petal length (cm)    0.304588
petal width (cm)     0.075433
dtype: float64
Desviación estándar
sepal length (cm)    0.635880
sepal width (cm)     0.322497
petal length (cm)    0.551895
petal width (cm)     0.274650
dtype: float64
Mínimo
sepal length (cm)          4.9
sepal width (cm)           2.2
petal length (cm)          4.5
petal width (cm)           1.4
species              virginica
dtype: object
25%
sepal length (cm)    6.225
sepal width (cm)     2.800
petal length (cm)    5.100
petal width (cm)     1.800
Name: 0.25, dtype: float64
50%
sepal length (cm)    6.50
sepal width (cm)     3.00
petal length (cm)    5.55
petal width (cm)     2.0

# Compare sus resultados usando el metodo describe() por columnas y por especies

Se muestra que los valores son los mismo obtenidos con los métodos anteriores

In [19]:
# Método 1
df_iris1.describe()
df_iris2.describe()
df_iris3.describe()

# Método 2
print(data.groupby(by = 'species').describe())


           sepal length (cm)                                              \
                       count   mean       std  min    25%  50%  75%  max   
species                                                                    
setosa                  50.0  5.006  0.352490  4.3  4.800  5.0  5.2  5.8   
versicolor              50.0  5.936  0.516171  4.9  5.600  5.9  6.3  7.0   
virginica               50.0  6.588  0.635880  4.9  6.225  6.5  6.9  7.9   

           sepal width (cm)         ... petal length (cm)       \
                      count   mean  ...               75%  max   
species                             ...                          
setosa                 50.0  3.428  ...             1.575  1.9   
versicolor             50.0  2.770  ...             4.600  5.1   
virginica              50.0  2.974  ...             5.875  6.9   

           petal width (cm)                                            
                      count   mean       std  min  25%  50%  75%  max  
sp

# Generar una tabla multi-indice por "especies" y "ancho del pétalo" y que de cuenta de la suma de los valores de cada clase

In [20]:
# Método 1
petalos = data[["species", "petal width (cm)"]]
petalos.groupby(by = "species").sum()

Unnamed: 0_level_0,petal width (cm)
species,Unnamed: 1_level_1
setosa,12.3
versicolor,66.3
virginica,101.3


In [21]:
# Método 2: Detallado
data.groupby(['species','petal width (cm)']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal length (cm),sepal width (cm),petal length (cm)
species,petal width (cm),Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.1,5,5,5
setosa,0.2,29,29,29
setosa,0.3,7,7,7
setosa,0.4,7,7,7
setosa,0.5,1,1,1
setosa,0.6,1,1,1
versicolor,1.0,7,7,7
versicolor,1.1,3,3,3
versicolor,1.2,5,5,5
versicolor,1.3,13,13,13


## <font color='green'>**Fin Parte 2**</font>

# <font color='blue'>**Análisis de Datos con Base de Datos Titanic**</font>

Para este probleme utilizaremos la base de datos "titanic". Para cargarla debe usar los siguientes comandos:

```
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)
```
Considere sólo las siguientes variables: survived, pclass, sex, age, fare y embarked.


## <font color='green'>**Parte 3: Limpieza de Datos**</font>

1. Reemplace los valores faltantes para la columna edad por el valor promedio de la muestra.
2. Elimine cualquier otra fila en la que falten datos

# Cargar base de datos de Titanic

In [36]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


# Considerar solo las variables: survived, pclass, sex, age, fare y embarked. 

In [37]:
titanic = titanic[['survived', 'pclass', 'sex', 'age', 'fare', 'embarked']]
titanic

Unnamed: 0,survived,pclass,sex,age,fare,embarked
0,0,3,male,22.0,7.2500,S
1,1,1,female,38.0,71.2833,C
2,1,3,female,26.0,7.9250,S
3,1,1,female,35.0,53.1000,S
4,0,3,male,35.0,8.0500,S
...,...,...,...,...,...,...
886,0,2,male,27.0,13.0000,S
887,1,1,female,19.0,30.0000,S
888,0,3,female,,23.4500,S
889,1,1,male,26.0,30.0000,C


# Reemplazar na con el promedio

In [38]:
titanic.fillna(value = titanic.mean())

Unnamed: 0,survived,pclass,sex,age,fare,embarked
0,0,3,male,22.000000,7.2500,S
1,1,1,female,38.000000,71.2833,C
2,1,3,female,26.000000,7.9250,S
3,1,1,female,35.000000,53.1000,S
4,0,3,male,35.000000,8.0500,S
...,...,...,...,...,...,...
886,0,2,male,27.000000,13.0000,S
887,1,1,female,19.000000,30.0000,S
888,0,3,female,29.699118,23.4500,S
889,1,1,male,26.000000,30.0000,C


# Quitar filas con datos faltantes

In [39]:
titanic = titanic.dropna()
titanic

Unnamed: 0,survived,pclass,sex,age,fare,embarked
0,0,3,male,22.0,7.2500,S
1,1,1,female,38.0,71.2833,C
2,1,3,female,26.0,7.9250,S
3,1,1,female,35.0,53.1000,S
4,0,3,male,35.0,8.0500,S
...,...,...,...,...,...,...
885,0,3,female,39.0,29.1250,Q
886,0,2,male,27.0,13.0000,S
887,1,1,female,19.0,30.0000,S
889,1,1,male,26.0,30.0000,C


# Verificar si hay valores faltantes en las diferentes columnas.

In [40]:
titanic.isna().any()

survived    False
pclass      False
sex         False
age         False
fare        False
embarked    False
dtype: bool

In [41]:
print(len(titanic.index)) # nos  quedamos con 712 casos

712


## <font color='green'>**Fin Parte 3**</font>

## <font color='green'>**Parte 4: Examinando y Entendiendo la Data**</font>

1. Entregar la información correspondiente a la la tasa de supervivencia promedio agrupada por sexo y clase del pasajero.
2. Genere una tabla que muestre la cantidad de personas agrupadas por sexo y clase.
3. Muestre la misma información del punto 1, pero la cantidad de sobrevivientes.
 


# Tasa de supervivencia promedio agrupada por sexo

In [42]:
titanic.groupby('sex').mean()['survived']

sex
female    0.752896
male      0.205298
Name: survived, dtype: float64

# Tasa de supervivencia promedio agrupada por sexo

In [43]:
titanic.groupby('pclass').mean()['survived']

pclass
1    0.652174
2    0.479769
3    0.239437
Name: survived, dtype: float64

# Genere una tabla que muestre la cantidad de personas agrupadas por sexo y clase.

In [44]:
titanic.pivot_table(index = 'sex', columns = 'pclass', aggfunc = 'size')

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,83,74,102
male,101,99,253


# Cantidad de sobrevivientes

In [45]:
titanic.groupby('sex').count()['survived']

sex
female    259
male      453
Name: survived, dtype: int64

Hasta ahora hemos examinado las tasas de supervivencia según el sexo y la clase de pasajeros. Otro factor que podría haber influido en la supervivencia es la edad. **¿Los niños varones tenían tanta probabilidad de morir como las mujeres en general?** Podemos investigar esta pregunta mediante la indexación múltiple, o pivotando en más de dos variables, agregando otro índice.

Divida la información de la columna "age" en intervalos, creando así una nueva categoría que se puede utilizar para agrupar. Divida el conjunto en intervalos de (0, 12], (12, 18] y (18, 80].

4. Genere la tabla que le ayude a responder la pregunta anterior (considerando los rangos definidos).
5. Para una mejor interpretación de la información anterior, genere una tabla con el número de entradas por cada grupo.






# Solución parte 4

In [46]:
titanic['age_interval'] = pd.cut(titanic['age'], bins=[0, 12, 28, 80])
titanic.groupby(['sex','age_interval']).mean()['survived']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


sex     age_interval
female  (0, 12]         0.593750
        (12, 28]        0.750000
        (28, 80]        0.798319
male    (0, 12]         0.567568
        (12, 28]        0.145946
        (28, 80]        0.194805
Name: survived, dtype: float64

# Cantidad de pasajeros por edad

In [47]:
def age_groups(series):
    if series <= 12:
        return "0-12 años"
    elif  12< series <= 18:
        return "13-18 años"
    elif 18 < series <= 80:
        return "19-80 años"

titanic['tramos_edad'] = titanic['age'].apply(age_groups)

print("Cantidad de pasajeros por edad")
print(titanic['tramos_edad'].value_counts(sort=False))

# Se obtiene tabla
supervivencia_niños = titanic[["survived", "sex", "tramos_edad"]]
supervivencia_niños = supervivencia_niños[supervivencia_niños.tramos_edad != "19-80 años"]
# Los niños varones tienen más probabilidad de morir que las mujeres sólo en el tramo de 0 a 12 años de edad
supervivencia_niños.groupby(['sex', 'tramos_edad']).mean()

Cantidad de pasajeros por edad
0-12 años      69
13-18 años     70
19-80 años    573
Name: tramos_edad, dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if __name__ == '__main__':


Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,tramos_edad,Unnamed: 2_level_1
female,0-12 años,0.59375
female,13-18 años,0.75
male,0-12 años,0.567568
male,13-18 años,0.088235


# Tasa de supervivencia por edad

In [48]:
def categoria(x):
    if x >= 0 and x < 12:
        return "(0, 12]"
    elif x >= 12 and x < 18:                                            
        return "(12, 18]"
    elif x >= 18 and x <80:
        return "(18, 80]"

titanic['age_interval'] = titanic['age'].apply(categoria)

titanic.pivot_table(index = 'sex', columns = 'age_interval', values = 'survived')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if __name__ == '__main__':


age_interval,"(0, 12]","(12, 18]","(18, 80]"
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.59375,0.826087,0.769608
male,0.555556,0.136364,0.175127


# Cantidad de pasajeros por edad y supervivencia

In [49]:
titanic.pivot_table(index = ['sex', 'age_interval'], columns = 'survived' , aggfunc = 'size')

Unnamed: 0_level_0,survived,0,1
sex,age_interval,Unnamed: 2_level_1,Unnamed: 3_level_1
female,"(0, 12]",13,19
female,"(12, 18]",4,19
female,"(18, 80]",47,157
male,"(0, 12]",16,20
male,"(12, 18]",19,3
male,"(18, 80]",325,69


In [213]:
titanic.pivot_table(index = 'age_interval', columns ='sex')['survived']

sex,female,male
age_interval,Unnamed: 1_level_1,Unnamed: 2_level_1
"(0, 12]",0.59375,0.555556
"(12, 18]",0.826087,0.136364
"(18, 80]",0.769608,0.175127


In [188]:
# 2. Generando df con el número que perteneces a este grupo
titanic.groupby(['sex','age_2']).size()

sex     age_2   
female  (0, 12]      32
        (12, 28]    108
        (28, 80]    119
male    (0, 12]      37
        (12, 28]    185
        (28, 80]    231
dtype: int64

Pandas también admite la indexación múltiple en las columnas. Como ejemplo, considere el precio de los boletos de un pasajero. Esta es otra característica continua que se puede discretizar. Divida los precios en 2 cuantiles iguales (baratos y caros). Algunos de los grupos resultantes podrían estar vacíos; para mejorar la legibilidad de la tabla use un guión en las casillas vacías.

6. Genere una tabla que nos permita ver el efecto del precio de los tickets.

# Genere una tabla que nos permita ver el efecto del precio de los tickets.

In [88]:
# La tasa de supervivencia es mayor para aquellos que pagaron un ticket más caro.

q = titanic['fare'].quantile(0.5)

titanic['precios'] = titanic['fare'].apply(lambda x: 'baratos' if x < q else 'caros')

titanic.groupby('precios').mean()

Unnamed: 0_level_0,survived,pclass,age,fare
precios,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
baratos,0.258427,2.733146,28.688455,9.331799
caros,0.550562,1.747191,30.59573,59.802704


## <font color='green'>**Fin Parte 4**</font>

## <font color='green'>**Parte 5: Análisis de una Hipótesis**</font>

Supongamos que alguien afirma que la ciudad desde la que se embarcó un pasajero tuvo una gran influencia en la tasa de supervivencia del pasajero. Investigue esta afirmación.

1. Verifique las tasas de supervivencia de los pasajeros según el lugar desde donde se embarcaron (indicadas en la columna "embarked").

2. Cree una tabla dinámica para examinar las tasas de supervivencia según el lugar de embarque y el género.

3. ¿Qué le sugieren estas tablas sobre la importancia de dónde se embarcaron las personas para influir en su tasa de supervivencia? Examine el contexto del problema y explique lo que cree que esto realmente significa.

4. Investigue la afirmación más a fondo con al menos dos tablas dinámicas más, explorando otros criterios (por ejemplo, clase, edad, etc.). Explique cuidadosamente sus conclusiones.

In [87]:
# Las ciudades son Southampton, Cherburgo, Queenstown 
titanic.groupby('embarked').mean()['survived']

embarked
C    0.607692
Q    0.285714
S    0.362816
Name: survived, dtype: float64

In [267]:
# Tabla dinámica de tasas de supervivencias según embarque y género.
titanic.pivot_table(index = 'embarked', columns = 'sex', values = 'survived')

sex,female,male
embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,0.901639,0.347826
Q,0.583333,0.0625
S,0.715054,0.184783


### Respuesta Pregunta 3
Sólo con estas 2 tablas se puede inferir que la supervivencia mas alta fue en mujeres embarcados en Cherburgo. Además, Cherburgo también tiene la mayor tasa de supervivencia sobre sus pasajeros. La menor tasa de supervivencia la tienen los hombres embarcados en Queenstown, además, esta ciudad posee la peor tasa de supervivencia de las 3.
Las mujeres tuvieron mejor tasa de supervivencia que hombres sin importar desde que ciudad embarcaron. 
A simple visa, se podría decir que si existe una relación entre la supervivencia y el lugar de embarcación. Sin embargo, en estas 2 tablas no existe suficiente información como para asegurar esto. Pueden existir otros factores como la edad o clase, que podría tener una influencia mucho mayor, y es necesario revisarlas.

Southampton 
Cherburgo
Queenstown 

In [89]:
titanic.pivot_table(index = 'embarked', columns = 'pclass', values = 'survived', aggfunc = 'mean')

pclass,1,2,3
embarked,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
C,0.716216,0.533333,0.439024
Q,0.5,0.5,0.25
S,0.611111,0.474359,0.210345


In [90]:
titanic.pivot_table(index = 'embarked', columns = 'age_interval', values = 'survived', aggfunc = 'mean')

age_interval,"(0, 12]","(12, 28]","(28, 80]"
embarked,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
C,0.818182,0.634615,0.552239
Q,0.0,0.5,0.214286
S,0.574074,0.30303,0.371747


In [288]:
titanic.pivot_table(index = 'embarked', columns = 'age_interval', values = 'survived', aggfunc = 'count')

age_interval,"(0, 12]","(12, 18]","(18, 80]"
embarked,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
C,10,14,106
Q,4,3,21
S,54,28,471


In [282]:
titanic.pivot_table(index = 'embarked', columns = 'sex', aggfunc = 'size')

sex,female,male
embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,61,69
Q,12,16
S,186,368


In [285]:
titanic.groupby('embarked').mean()

Unnamed: 0_level_0,survived,pclass,age,fare
embarked,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
C,0.607692,1.746154,30.814769,68.296767
Q,0.285714,2.785714,28.089286,18.265775
S,0.362816,2.32852,29.445397,27.476284


### Respuesta Pregunta 4
Dada las nuevas tablas, la supervivencia de los pasajeros embarcados en Cherburgo fue mayor sin importar la clase, y sin importar la edad. Esta supervivencia sólo fue superada por los pasajero de Queenstown de entre 12 y 18 años que tuvieron un 100% de supervivencia, sin embargos, estos fueron sólo 3 pasajeros.

## <font color='green'>**Fin Parte 5**</font>