---

<p align="center">
  <img src="https://raw.githubusercontent.com/lacamposm/Diplomado_Metodos_UCentral/main/data/images/imagen_ucentral.jpg" alt="logo_Ucentral" width="400px" height="300px">
</p>

# ___Diplomado: Métodos Estadísticos para el Análisis de Datos___

## ___Docente: Luis Andres Campos Maldonado.___

### ___Datos categóricos___

#### ***Ejemplo fin módulo 1.***

---

# ***SITUACIÓN PROBLEMA: TABLA DE DATOS EMBARCACIÓN TITANIC***

###  ANÁLISIS DESCRIPTIVO UNIVARIADO Y BIVARIADO

Hacia inicios del siglo 19 se buscaba realizar un viaje desde Europa hacia los EEUU, el cual lograra albergar gran cantidad de gente movilizada de continente a continente. Se presentó un desastre...
Más información [aquí](https://es.wikipedia.org/wiki/RMS_Titanic)

Se desea describir la mayor cantidad de informació en la tabla, para ello haremos uso de los conocimientos adquiridos en la parte conceptual del curso, junto al software de apoyo, en este caso, Python.


## ***INFORMACIÓN TABLA DE DATOS TITANIC.***


La información general de la tabla se encuentra consignada en el archivo
`Descripcion_tabla_titanic3.txt`. Vamos a abrir el archivo con la libreria [`request`](https://requests.readthedocs.io/en/latest/), para lograr leerlo he inspeccionar la información consignada.


In [None]:
url_base = 'https://raw.githubusercontent.com/lacamposm/Diplomado_Metodos_UCentral/main/data/'

In [None]:
## LECTURA DE INFORMACIÓN CONTENIDA EN LA TABLA ##
import requests

f = requests.get(url_base+"Descripcion_tabla_titanic3.txt","r")
f = f.text
print(f)


## ***NOTEBOOK EN PYTHON.***




## LIBRERIAS UTILIZADAS

Si desea más información sobre las librerias utilizadas, puede consultarlas en los siguientes enlaces.

1. [`numpy`](https://numpy.org/doc/stable/)
2. [`pandas`](https://pandas.pydata.org/docs/)
3. [`matplotlib`](https://matplotlib.org/)
4. [`seaborn`](https://seaborn.pydata.org/)

In [None]:
## Data cleaning y data wrangling
import numpy as np
import pandas as pd
## Visualización
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express  as px
##
sns.set_style("darkgrid") ## Estilo para los gráficos

In [None]:
url_base= 'https://raw.githubusercontent.com/lacamposm/Diplomado_Metodos_UCentral/main/data/'
titanic = pd.read_csv(url_base+ "titanic3.csv")
titanic.head()

In [None]:
## Dataset Titanic.
df_sns = sns.load_dataset("titanic")
df_sns.sample(5)

Se puede observar que la tabla ha sidio cargada mis porblemas.

In [None]:
## INFORMACIÓN DE LA TABLA CARGADA ##
titanic.info()

Se puede observar que:
 - Las variables `pclass`, `survived`, `name`, `sex`, `sibsp`, `parch` y `ticket` tiene los registros completos, 1309 en total.
 - Las demás variables tienen registos NaN.

In [None]:
for column in titanic.columns:
  print(f'La variable {column}, tiene ----> {sum(titanic[column].isna())} NaN.')

In [None]:
## Conteo valores nulos por columna (campo, feature, variables)
titanic.isna().sum().to_frame(name='cantidad_NaN').T

Las varibles se destribuyen así:

| **Tipo**               | **Columna**             |
|------------------------|-------------------------|
| **Continua**           | fare, age               |
| **Discreta**           | sibsp, parch            |
| **Nominal**            | survived, sex, embarked, body |
| **Ordinal**            | pclass.                   |
| **No estructurada**    | name, cabin, home.dest, boat,ticket                   |

El método `describe()` determina valores relevantes para variables númericas.

In [None]:
titanic.describe().T

De la tabla anteior podemos observar que:

1. El 75% de las edades son de 39 años o menos.
2. Dado que `survived` asigna 1 a quien sobrevivió, 38.19% de los pasajeros lo hicieron.
3. Solo el 25% tiene uno o mas `sibsp`.
4. El 75% de la muestra, no tiene `parch` entre sus familiares.
5. La varible `body` solo determina un número para el cuerpo muerto y encontrado.

In [None]:
titanic.describe(percentiles = [0.70, 0.75, 0.80,0.85,0.9,0.95, 0.99]).T

Vayamos más adentro, consideremos percentiles altos y observemos que información adicional se puede extraer.

1. Solo el 5% pagó más de $ 133.65 por su boleto.
2. Solo el 5% o menos eran personas de 57 años o más.

In [None]:
## Información relevante de las varibles tipo object
titanic.describe(include=['object']).T

En cuanto a las varibles categóricas y no-estructuradas podemos decir:

1. En la embarcación predominaba el sexo masculino (843 de 1309).
2. La mayor cantidad de pasajeros abordaron en Souphamtom.
3. El bote 13, fue quien más pasajeros rescató, 39 en total.
4. La cuidad donde se reportaron los destino con mayor frecuencia fué New York, NY, con tan solo 64 de 1309 encuestados.
5. La información correspondiente a cabin son solo 295 de 1306 solo un poco más del 20%.

## ***Manipulación del dataframe.***


_Observe que la información que se ha subido al sistema muestra que variables como `pclass`, `survived` ingresan al sistema de tipo entero y conocemos que son variables categóricas. Además, vamos a considerar todo el problema en el idioma español_

1. _Observaremos los nombre de las columnas y usaremos un [`diccionario`](https://docs.python.org/3/tutorial/datastructures.html) para cambiarlos al idioma español y de igual forma con los valores de cada columna._
2. _Vamos a reajustar las variables a su verdadero tipo de información._
3. _Definimos 2 grupos de variables : `features_categoric` para las variables categóricas y `features_numeric` para las de tipo numérico._

In [None]:
## Hacemos una copia del dataset original.
titanic_spa = titanic.copy()
titanic_spa.head()

In [None]:
## Nombre columnas tabla titanic3 ##
print(titanic_spa.columns.values)

In [None]:
## Edad en tipo categórico.
def edad_cate(value):
    """
    Categoriza la edad.
    Input: value(float)
    Output: (str) Es la categoría de la edad dependiendo del segmento
    """
    if value<18:
        return 'joven'
    elif value<50:
        return "adulto"
    else:
        return "adulto_mayor"

##
titanic_spa["age"].apply(edad_cate)

In [None]:
mapping = {"pclass":"CLASE","survived":"SUPERVIVENCIA","name":"NOMBRE","sex":"GÉNERO","age":"EDAD",
           "sibsp":"FAM_LEJA", "parch":"FAM_CERCA","ticket":"NUM_BOLETO","fare":"PRECIO_BOLETO",
           "cabin":"CABINA","embarked":"EMBARQUE","boat":"BOTE","body":"#_DE_MUERTO",
           "home.dest":"DESTINO"}
##
map_1 = {0:"MUERTO",1:"VIVO"}
map_2 = {"female":"MUJER","male":"HOMBRE"}
##
titanic_spa = titanic_spa.rename(columns=mapping)
titanic_spa["SUPERVIVENCIA"] = titanic_spa["SUPERVIVENCIA"].replace(map_1)
titanic_spa["GÉNERO"] = titanic_spa["GÉNERO"].replace(map_2)
titanic_spa.head()

In [None]:
titanic_spa.columns = [column.lower() for column in titanic_spa.columns]
titanic_spa['género'] = titanic_spa['género'].apply(lambda x: x.lower())
titanic_spa['género']

In [None]:
#write_path = '/content/drive/MyDrive/Ucentral Maestría/Año_2023/Funda_Esta_Analítica_2023-I_GR06/prueba.csv'
#write_path1 = '/content/drive/MyDrive/Ucentral Maestría/Año_2023/Funda_Esta_Analítica_2023-I_GR06/prueba.xlsx'
#titanic_spa.to_csv(write_path, index=False)
#titanic_spa.to_excel(write_path1, index=False)


In [None]:
titanic_spa.head()

Observe que el `#_DE_MUERTO` nos proporciona como información si el cuerpo fue encontrado. Es decir, en caso que este vivo o muerto pero su cuerpo no encontrato se tendrá un NaN, en caso que el cuerpo se haya logrado encontrar se le asiga un número.

El siguiente código logra asignar 1 si el tripulante muerto fué encontrado, en cuarlquier otro caso asigna 0.

In [None]:
titanic_spa['#_de_muerto'].isna() ## Observe esta salida.

In [None]:
titanic_spa["muerto_encontrado"] = [0 if x == True else 1 for x in titanic_spa['#_de_muerto'].isna()]
## Borrar columnas
titanic_spa.drop(columns=["#_de_muerto"], inplace = True)
##
titanic_spa

In [None]:
## Seleccionaos solo las variables de tipo numéricos.
titanic_spa.info()
titanic_spa.select_dtypes(include=np.number).head()

In [None]:
titanic_spa.info()

In [None]:
features_categoric = ['clase', 'supervivencia', 'género', 'embarque', 'muerto_encontrado']

In [None]:
for i in features_categoric:
  titanic_spa[i] = titanic_spa[i].astype("category")
titanic_spa.info()

Hemos creado 2 listas, seguido hemos transformado las variables en tipo `category`, para aquellas que son variables cualitativas.

In [None]:
print(f'{90*"-"}\n{90*"-"}\n VALORES QUE TOMAN LAS VARIABLES CATEGÓRICAS\n{90*"-"}')
##
for i in features_categoric:
   print(f'{90*"-"}\n{i} ---->{titanic_spa[i].unique()}\n')


## ***Descripción de cada una de las variables.***


### _Variables categóricas._

_La mejor manera de representar la información en este tipo de variables es una gráfica de barras, donde se puede tener en cuenta la frecuencia de cada categoría (No. de ocurrencias), o el porcentaje de participación de la misma. Es posible realizar otro tipos de gráficos, como los de pastel, aunque suelen no ser recomendados en muchas situaciones._

### ***Ejercicio 1.***

Construya una tabla de frecuencias de la variable `embarque`. Realice comentarios de los encontrado en la tabla.

In [None]:
## Celda de código para probar.
def tabla_frecuencias(df, column=None):
  '''
      Esta función proporciona la tabla de frecuencias de una variable cualitativa.
      Input: df: pd.DataFrame,  column (str): Nombre de la columna a la cual se le busca generar la tabla de frecuencias.
      Output: pd.DataFrame con las frecuencias por categoría.
  '''
  result = df[column].value_counts().to_frame(name='frecuencia_absoluta')
  #result = result.to_frame(name='frecuencia_absoluta')
  result['frecuencia_relativa'] =  df[column].value_counts(normalize=True)
  result['frecuencia_relativa_%'] = result['frecuencia_relativa']*100
  result.loc['Totales'] = result.sum().astype('Int64')
  return result.round(2)

tabla_frecuencias(titanic_spa, 'embarque')

In [None]:
tabla_frecuencias(titanic_spa, 'género')

### ***Ejercicio 2.***

Construya un barplot de la variable `EMBARQUE`

In [None]:
## Celda de código para probar.
sns.countplot(data=titanic_spa, x='embarque',)
plt.xticks(rotation=0)
plt.show()

#### _Ejercicio para semana santa: Construir los demás barplot._

**Comentarios:**

1. El 69.82% embarcaron en Souphatton, lugar de salida de la embarcación.
2. Los muertos fueron 809 de 1309, es decir  61.80% aproximadamente.
3. La gran mayoría de los viajeros eran de clase 3. Cerca del 54.16% eran de dicha clase.
4. Predominaba el género masculino en la embarcación.
5. _**La variable `SUPERVIVIENCIA`, es sin duda, una de las llamativas.**_



## ***Variables cuantitativas.***


### _Variables cuantitativas._

_Debe observar que aunque en una variable se tenga una información númerica, esta no siempre se debe interpretar como tal. Para las varibles que son numéricas, es posible obtener bastante información, tanto numérica como gráfica. Entre las gráficas se destacan los histogramas, box-plot y ojivas. Así mismo medidas numéricas como las medias de tendencia central, variabilidad y de posición._

In [None]:
titanic_numeric = titanic_spa.select_dtypes(np.number).head() ## Obtenemos un dataframe solo con estas
#                                                             ## variables, mostramos su cabeza.
titanic_numeric

In [None]:
## Medidas númericas relevantes ##
titanic_numeric.describe()[1:].transpose()

In [None]:
titanic_numeric.describe(percentiles=[0.80,0.85,0.9,0.95]).T

In [None]:
titanic_spa

In [None]:
titanic_spa.columns

In [None]:
fig, axes = plt.subplots(2,2, figsize=(20,8))
####
g = sns.histplot(x='edad', data=titanic_spa, ax=axes[0,0] , color='blue', )
g.set_title("edad",size=15)
g.set(xlabel=" ", ylabel = "Conteo")
####
sns.histplot(x='fam_leja', data=titanic_spa, ax=axes[0,1], bins=8, color='orange' )
sns.histplot(x='fam_cerca', data=titanic_spa, ax=axes[1,0], bins=9, color='grey')
sns.histplot(x='precio_boleto', data=titanic_spa, ax = axes[1,1], bins=22, color='red' )
plt.show()

In [None]:
fig, ax = plt.subplots(2,2,figsize=(15,6))
sns.kdeplot(x = 'EDAD', data = titanic_spa, ax = ax[0,0], common_norm = False, color ='Blue').set(title = "Kde plot")
sns.kdeplot(x = 'FAM_LEJA', data = titanic_spa, ax = ax[0,1],common_norm = True, color ='Red').set(title = "Kde plot")
sns.kdeplot(x = 'FAM_CERCA', data = titanic_spa, ax = ax[1,0],common_norm = True, color ='Orange').set(title = "Kde plot")
sns.kdeplot(x = 'PRECIO_BOLETO', data = titanic_spa, ax = ax[1,1], common_norm = True, color ='Grey').set(title = "Kde plot")
fig.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(1,1,figsize = (15,6))
sns.histplot(x='edad', data=titanic_spa, color='blue', bins=16, stat="density", kde=True)
plt.show()

In [None]:
## Box-Plots ##
#fig, ax = plt.subplots(2,2,figsize=(20,6))
#sns.boxplot(x = 'EDAD', orient = "h", data = titanic_spa, ax = ax[0,0], color = "blue")
#sns.boxplot(x = 'FAM_LEJA', data = titanic_spa, orient = "h", ax = ax[1,0], color = 'orange' )
#sns.boxplot(x = 'FAM_CERCA', data = titanic_spa, ax = ax[0,1], color = 'red')
#sns.boxplot(x = 'PRECIO_BOLETO', orient = "h", data = titanic_spa, ax = ax[1,1], color = "grey")
#plt.title('Box-plots', fontsize = 15)
#fig.tight_layout()
#plt.show()

## ***DATOS BIVARIADOS.***

_Es muy frecuente que en una investigación dos variables, ya sean ambas categóricas y/o numéricas, presenten información revelante en nuestro estudio. Vamos a analizar dichas relaciónes._

### ***TABLAS DE CONTINGENCIA.***

_Acá, vamos a considerar la relación entre dos variables categóticas, este tipo de tablas relacionan la ocurrencia de eventos simultaneos: `morir` y ser de clase alta, o la relación de `GÉNERO` con `EMBARQUE` por nombrar algunas. Para este tipo de presentaciones la librería `pandas` tiene un par de módulos: uno llamado [`crosstab`](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html) y el otro [`pivot_table`](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html), que serán de gran utilidad._

### ***Ejercicio 3.***

Construya tres tablas de contingencias.

1. Valores totales.
2. Distribución de filas por columnas.
3. Distribución de columnas por fila.

In [None]:
## Celda de código para probar.
pd.crosstab(titanic_spa['embarque'], titanic_spa.género)

In [None]:
## Celda de código para probar.
pd.crosstab(titanic_spa['embarque'], titanic_spa.género, normalize='all')

In [None]:
## Celda de código para probar.
pd.crosstab(titanic_spa['embarque'],titanic_spa.género, normalize='columns', margins=True,
            margins_name='%_zona_embarque')*100

In [None]:
## Celda de código para probar.
pd.crosstab(titanic_spa['embarque'],titanic_spa.género, normalize='index',
            margins=True, margins_name='%_genero')*100

In [None]:
round(pd.crosstab(titanic_spa['supervivencia'], titanic_spa['embarque'] , margins=True,
                  margins_name='% TOTAL', normalize='columns')*100,2)

In [None]:
round(pd.crosstab(titanic_spa['género'], titanic_spa['embarque'] , normalize = "all"),4)*100

In [None]:
round(pd.crosstab(titanic_spa['género'], titanic_spa['clase'] , normalize = "columns"),4)*100

In [None]:
### Tabla 3.
round(pd.crosstab(titanic_spa['embarque'], titanic_spa['clase'] , normalize = "index"),4)*100

In [None]:
## Tabla 4.
round(pd.crosstab(titanic_spa["supervivencia"], titanic_spa["embarque"] , normalize = "index"),4)*100

In [None]:
round(pd.crosstab(titanic_spa["supervivencia"], titanic_spa["embarque"] , normalize = "columns"),4)*100

In [None]:
## Tabla 5.
round(pd.crosstab(titanic_spa['supervivencia'], titanic_spa['género'] , margins=True,
                  margins_name= '% TOTAL', normalize = "columns")*100,2)

**Comentarios:**

1. En la variable clase, y en particular en la clase 3, se observa que hombre doblan a las mujeres.

2. En la clase 1, 61.92% sobrevivieron, en contraste en la clase 3 casi el 75% de los pasajeros murieron. En la clase 2 predomina la categoría de MUERTO, pero solo 57.04% vs. 42.96%.
3. En la tercer tabla se destaca que en su gran mayoria, en el puerto "Q", abordaron clase 3.
4. En la tabla 4 se observa que se concentra el 61.04% de los vivos en Souphanton, pero note además que también en Souphanton se encuentra el mayor % de muertos.
5. En la tabla 5 se observa que el 72.15% de los sobrevivientes son mujeres. Al parecer se le dió prioridad a salvar a las mujeres.

In [None]:
plt.figure(figsize=(15,6))
sns.countplot(data = titanic_spa, x ="supervivencia", hue = "clase")
plt.ylabel("CONTEO")
plt.xlabel("supervivencia")
plt.title("Barplot: Supervivencia vs. Clase", fontsize = 20)
plt.show()

In [None]:
plt.figure(figsize=(15,6))
#sns.countplot(data = titanic_spa, x = "SUPERVIVENCIA", hue = "CLASE")
#plt.ylabel("CONTEO")
#plt.xlabel("SUPERVIVENCIA")
#plt.title("Barplot: Supervivencia vs. Clase", fontsize = 20)
#plt.show()

In [None]:

tmp = titanic_spa[titanic_spa["género"] == "mujer"]
pd.crosstab(tmp["supervivencia"],tmp["clase"], normalize = "index")

In [None]:
tmp = titanic_spa[titanic_spa["GÉNERO"] == "MUJER"]
pd.crosstab(tmp["SUPERVIVENCIA"],tmp["CLASE"], normalize = "columns")

Observe que las gráficas refuerzan la idea anterior, la tasa de mortalidad es mucho más alta en la **clase 3** que en las demás, se observa una mayor frecuencia en los sobrevivientes de la **clase 1**. Recuerde además que la mayor cantidad de personajes en la embarcación eran de la **clase 3**.

In [None]:
round(pd.crosstab(titanic_spa['EMBARQUE'], titanic_spa['GÉNERO'] , normalize = "columns")*100,2)

En este caso los porcentajes se obtienen por columna, es decir, el 24.35% de las mujeres embarcaron en la ciudad C, el 12.93% lo hizo en la ciudad Q y el 62.72% en la ciudad S.

De manera gráfica podemos realizar lo siguiente

In [None]:
plt.figure(figsize=(15,6))
sns.countplot(data = titanic_spa, x = "EMBARQUE", hue = "GÉNERO")
plt.ylabel("CONTEO")
plt.xlabel("Lugar de embarcación")
plt.title("Embarcación vs. Género", fontsize = 20)
plt.show()

En la gráfica anterior vemos que aunque predomina el género masculino en todos los puertos, donde se destaca la casi paridad es el puerto Q.

Una variable de interés es sin duda `SUPERVIVENCIA`. Vamos a contrastarla con las demás categóricas.

In [None]:
plt.figure(figsize=(15,6))
sns.countplot(data = titanic_spa, x = "SUPERVIVENCIA", hue = "GÉNERO", palette="Set2")
plt.ylabel("CONTEO")
plt.xlabel("Supervivencia")
plt.title("Supervivencia vs. Género", fontsize = 20)
plt.show()

Al parecer se dió prioridad en la salvación a las mujeres, recuerde que en la embarcación predominada el género masculino (64.4%)

In [None]:
plt.figure(figsize=(15,6))
sns.countplot(data = titanic_spa, x = "SUPERVIVENCIA", hue = "EMBARQUE",
              palette= {"C":"red", "Q":"yellow", "S":"blue"})
plt.ylabel("Conteo")
plt.xlabel("Supervivencia")
plt.title("Supervivencia vs. Embarque", fontsize = 20)
plt.show()

Note que sobrevivieron más en el puerto C en comparación con quienes mueren. Note que en este puerto no predominaron las mujeres, para buscar atribuir esa situación dado el género. ¿Qué podría tener influencia para esta situación?

In [None]:
##### Vamos a realizar un stack bar char en valores de % #####
import matplotlib.patches as mpatches ## Para etiquetar
## dataframes de trabajo.
total=titanic_spa.groupby('embarque')['clase'].count().reset_index() # Obtenemos un dataframe por zona de embarque y conteo por clase.
#
vivos1=titanic_spa[titanic_spa['clase'] == 1].groupby('embarque').count().reset_index()
vivos1=vivos1[['embarque','clase']] # Obtenemos un dataframe donde está el conteo por zona de embarque y la clase 1.
#
vivos2=titanic_spa[titanic_spa.clase == 2].groupby('embarque').count().reset_index()
vivos2=vivos2[['embarque','clase']] # Obtenemos un dataframe donde está el conteo por zona de embarque y la clase 2.
## Configuramos en % las clases 1 y 2
vivos1['clase']=[i/j *100 for i,j in zip(vivos1['clase'],total['clase'])]
vivos2['clase']=[i/j *100 for i,j in zip(vivos2['clase'],total['clase'])] + vivos1['clase']
total['clase']=[i/j *100 for i,j in zip(total['clase'],total['clase'])]
## Plots
plt.figure(figsize=(14,8))
sns.barplot(x='embarque', y='clase', data=total, color='darkblue')
sns.barplot(x='embarque', y='clase', data=vivos2, color='red')
sns.barplot(x='embarque', y='clase', data=vivos1, color='lightblue')
## Etiquetas
top_bar=mpatches.Patch( color='darkblue', label='clase 3')
bottom_bar=mpatches.Patch (color='red', label='clase 2')
bottom_bar1=mpatches.Patch (color='lightblue', label='clase 1')
plt.legend(handles=[bottom_bar1, bottom_bar, top_bar ], bbox_to_anchor=(1.05, 1.0), loc='upper left')
plt.title('embarque vs clase', size=20)
plt.ylabel('')
ticks=[int(x)  for x in np.linspace(0,100,11)]
labels=[str(int(x)) + '%' for x in np.linspace(0,100,11)]
plt.yticks(ticks, labels)
plt.show()

El gráfico anterior da cuenta que en el **puerto C**, predominó la **clase 1**, es decir la clase que sabemos tuvo la mayor cantidad de sobrevivientes.


## ***Variables numéricas vs. Categóricas***

Se puede analizar numérica vs cada categórica y analizar el comportamiento de
cada segmento.

Podemos determinar el % de cuerpos encontrados.

In [None]:
titanic_spa['supervivencia'].head()

In [None]:
(titanic_spa.query("supervivencia=='MUERTO'")["muerto_encontrado"].value_counts(normalize=True)*100).round(2)

De los fallecidos en la embarcación, solo se encontró el cuerpo del 14.96%. Realice un gráfico de la situación.

In [None]:
pd.pivot_table(titanic_spa,                                                     ## dataframe
               values='edad',                                                   ## Columna con los valores a operar
               index = ['clase', 'género'],                                     ## Columnas de indice de fila
               columns = 'supervivencia',                                       ## Columna de índice para la columna.
               aggfunc={'edad': [np.size, np.mean, np.median, np.min, np.max,]} ## Funciones de agregación
               ).round(2)                                                       ## lambda x: np.percentile(x, 50)

Vamos a observar la distribución de la edad de aquellos que fueron sobrevivientes y aquellos que no.

In [None]:
plt.figure(figsize=(10,8))
sns.kdeplot(x = "EDAD", hue = "SUPERVIVENCIA", data = titanic_spa, common_norm = False, cut = 0, bw_adjust=0.8)
plt.ylim(0,0.04)
plt.show()

Las distribuciones de la edad son similares entre ambas categorías, pero se observa que una mayor cantidad de niños fueron salvados en contraste con los que no.

Aunque debería ser obvio, veamos la distribución de los precios según las clases.

### ***Ejercicio 4.***

Realice un box-plot del `PRECIO_BOLETO`, con las tres clases de la embarcación. Todo en un mismo plot.

In [None]:
## Celda de código para probar.
plt.figure(figsize=(15,6))
sns.boxplot(x="precio_boleto", # Valores en x (variable cuantitativa)
            y="clase", # Valores en y (Clases a comparar)
            data=titanic_spa, # Dataframe
            palette={1:"blue", 2:"green",3:"red"}, # Selección colores categorías.
            linewidth=0.8, # Grosor marco caja y bigotes.
            order=[3,2,1], # Selección orden de las categorías.
            fliersize=4 # Grosor outliers.
            )
plt.show()

¿Había alguna predominancia de grupo o grupos etarios dependiendo de las clases?

In [None]:
fig, ax = plt.subplots(1,2,figsize=(20,6))
sns.kdeplot(x='edad', hue='clase', data=titanic_spa, ax=ax[0], common_norm=False, cut=0, bw_adjust=0.9).set(title="Kde plot")
sns.kdeplot(x='edad', hue='clase', data=titanic_spa, cumulative=True, common_norm=False, ax=ax[1]).set(title="Ojiva", ylabel="Densidad")
plt.show()

Observe en la **clase 1** tiene una mayor densidad en las demás en edades altas, esta clase es menos puntiaguda que las demás y tiene forma de campana, los otros 2 segmentos están sesgados a la derecha.

Al parecer, vemos que la clase era un factor importante para aumentar la chance de estar vivo, se esperaría que al comparar los precios de los boletos según si sobrevivió o no, se marcara una diferencia.

In [None]:
## Box-Plot ##
fig, ax= plt.subplots(1,2,figsize=(20,6))
sns.kdeplot(x='PRECIO_BOLETO', hue='SUPERVIVENCIA', common_norm=False, data=titanic_spa, ax=ax[0]).set(title="Box-Plot")
sns.boxplot(x='PRECIO_BOLETO', y='SUPERVIVENCIA', orient="h", data=titanic_spa, ax=ax[1]).set(title="Box-Plot")
plt.show()

Claramente se observa la diferencia en el valor del boleto entre quienes sobrevivieron y quienes no.

In [None]:
## Box-Plot ##
fig, ax= plt.subplots(1,1,figsize=(20,6))
sns.kdeplot(x='fam_leja', hue='supervivencia', data=titanic_spa).set(title = "Box-Plot")
plt.show()

---
## Variable numérica vs variable numérica.
---

Observemos la matriz de correlación de las variables cuantivativas.

In [None]:
titanic_spa.select_dtypes(np.number).corr()

No se presenta una correlación alta entre ninguna variable , la correlación más descatada es estre `FAM_LEJA` y `FAM_CERCA`, veamos su comportamiento en un scatter plot.

In [None]:
plt.figure(figsize=(15,6))
sns.scatterplot(data = titanic_spa, x = "FAM_LEJA", y = "FAM_CERCA" )
plt.show()

Otro scatterplot.

In [None]:
plt.figure(figsize=(15,6))
sns.regplot(data = titanic_spa, x = "EDAD", y = "PRECIO_BOLETO",
            marker = "o" , # matplotlib marker code
            scatter_kws={"color": "black"}, # Color puntos
            line_kws={"color": "red"} ) # Color recta
plt.show()

In [None]:
g = sns.FacetGrid(titanic_spa, col="CLASE",  row="SUPERVIVENCIA", height=5, aspect=1)
g.map(sns.scatterplot, "EDAD", "PRECIO_BOLETO")
g.tight_layout()
plt.show()

In [None]:
titanic_spa.select_dtypes(np.number)

In [None]:
g = sns.pairplot(titanic_spa.select_dtypes(np.number),diag_kind="kde", height=4, aspect=0.8,
                 plot_kws= {"color": "black"}, corner = False, diag_kws = {"color":"red"})
g.tight_layout()
plt.show()

In [None]:
g = sns.PairGrid(titanic_spa.select_dtypes(np.number), diag_sharey=False,)
g.map_upper(sns.scatterplot, s=5, color = "red")
g.map_lower(sns.regplot, line_kws = {"color" : "black"})
g.map_diag(sns.kdeplot, lw=2, color = "green")
plt.show()

### ***Conclusión.***

Realizamos inspección, manipulación y estadísticos descriptivos sobre una tala de información, se presentaron resultados relevantes de esta tabla particular.