# **Introducción al Análisis Exploratorio de Datos**

### 0. Importar librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from tabulate import tabulate

### 1. Cargar conjunto de datos

In [None]:
#Al ejecutar esta celda, Google colab lo va a llevar a su cuenta de google,
#y le va a pedir que copie y pegue un código un código de acceso en un recuadro.

from google.colab import drive
drive.mount('/gdrive')

In [None]:
# Se va a utilizar el conjunto de datos titanic
# https://www.kaggle.com/c/titanic/data?select=train.csv

df = pd.read_csv('/gdrive/MyDrive/Programming/Datasets/titanic.csv')

In [None]:
print(type(df))

### 2. Análisis Exploratorio de Datos (EDA)

#### 2a. Conocimiento básico del dataset

Para lograr un conocimiento básico del dataset se puede plantear identificar lo siguiente:

*   a. ¿Qué representa cada uno de los atributos del dataset? Esto se puede realizar viendo la documentación del conujunto de datos.
*   b. Número de observaciones y Número de atributos.
*   c. Nombre y tipo de cada uno de los atributos.
*   d. ¿Cuáles atributos toman valores discretos y cuáles atributos toman valores continuos?
*   e. Visualizar un subconjunto de de observaciones del conjunto de datos.

In [None]:
df.shape

In [None]:
df

In [None]:
df.info()

In [None]:
# Cantidad de valores nulos por columna

df.isnull().sum()

In [None]:
# Porcentaje de valores nulos por columna
obs, _ = df.shape
df.isnull().sum()*100/obs

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.dtypes

#### 2b. Análisis Univariado

Incluye:
+ Medidas de tendencia central: media, mediana, moda.
+ Medidas de dispersión: rango, variance, valor máximo y mínimo, cuartiles (incluyendo rango intercuartil) y desviación estándar.
+ Para variables numéricas discretas y categóricas: cantidad de valores únicos, valor con mayor frecuencia, etc.

También se pueden se pueden usar gráficos como:
+ Histogramas.
+ Para variables numéricas discretas y categóricas: gráficos de barras, gráficos circulares.

In [None]:
df.describe()

In [None]:
df.describe(include='all')

In [None]:
# Histograma con matplotlib

variable = 'Age'
bins = 30

plt.hist(df[variable], bins = bins)
plt.show()

In [None]:
# Histograma

column = 'Pclass'
plt.figure(figsize=(6,6))
sns.histplot(data = df,
             x = column,
             bins = 30,
             color = 'red',
             fill = True,
             stat = 'count')    #'count' muestra el número de observaciones.
                                #'frequency' muestra el número de observaciones dividida por el ancho del bin.
                                #'density' normaliza las cuentas tal que el área del histograma es 1.
                                #'probability' normaliza las cuentas tal que la suma de la altura de las barras es 1.

plt.xlabel(column) #Texto en el eje x.
plt.ylabel('Cuentas')              #Texto en el eje y.
plt.title('Histograma')             #Título del gráfico.
plt.show()

In [None]:
# Función para calcular Outliers

def outliers(df, atributo):
    ax = sns.boxplot(x=df[atributo])
    plt.show()

    arr1 = df[atributo].values
    arr1 = arr1[~np.isnan(arr1)]

    # Encontrar el 1st quartil
    q1 = np.quantile(arr1, 0.25)

    # Encontrar el 3rd quartil
    q3 = np.quantile(arr1, 0.75)

    # Encontrar el 2nd quartil
    med = np.median(arr1)

    # Encontrar el rango inter quartil (iqr)
    iqr = q3-q1

    # Encontrar los bigotes superior e inferior
    upper_bound = q3+(1.5*iqr)
    lower_bound = q1-(1.5*iqr)

    outliers_l = arr1[(arr1 <= lower_bound)]
    outliers_u = arr1[(arr1 >= upper_bound)]
    print(f'The lower bound is {lower_bound}')
    print(f'The upper bound is {upper_bound}')
    print('The number of lower outliers is {}'.format(len(outliers_l)))
    print('The following are the lower outliers in {} : {}'.format(atributo,outliers_l))
    print('The number of upper outliers is {}'.format(len(outliers_u)))
    print('The following are the upper outliers in {} : {}'.format(atributo,outliers_u))

In [None]:
outliers(df, 'Fare')

#### 2c. Análisis Bivariado

Es una técnica estadística que se aplica a un par de variables (atributos o características) para determinar la relación empírica entre ellas.

In [None]:
# Matriz de correlación
# Vamos a crear un DataFrame solo con las columnas numéricas

df_num = df.select_dtypes(include='number')

df_num.corr()

# Vamos a graficar la matriz de correlación como un mapa de calor

sns.heatmap(df_num.corr(), annot=True, cmap='Blues')
plt.show()

In [None]:
# Histograma

column = 'Pclass'
plt.figure(figsize=(6,6))
sns.histplot(data = df,
             x = column,
             hue = 'Survived',
             bins = 30,
             color = 'red',
             fill = True,
             stat = 'count')    #'count' muestra el número de observaciones.
                                #'frequency' muestra el número de observaciones dividida por el ancho del bin.
                                #'density' normaliza las cuentas tal que el área del histograma es 1.
                                #'probability' normaliza las cuentas tal que la suma de la altura de las barras es 1.

plt.xlabel(column) #Texto en el eje x.
plt.ylabel('Cuentas')              #Texto en el eje y.
plt.title('Histograma')             #Título del gráfico.
plt.show()

### Pregunta 1:

¿Porcentaje de hombres y mujeres que sobrevivieron?

In [None]:
filtro_1 = df['Sex'] == 'male'
print(filtro_1)

In [None]:
df_male = df[filtro_1]

df_female = df[df['Sex'] == 'female']

In [None]:
df_male.shape

In [None]:
num_hombres = df_male.shape[0]
num_mujeres = df_female.shape[0]

print(f'El número de hombres es {num_hombres}')
print(f'El número de mujeres es {num_mujeres}')

In [None]:
df_male_survived = df_male[df_male['Survived'] == 1]
df_male_no_survived = df_male[df_male['Survived'] == 0]

df_female_survived = df_female[df_female['Survived'] == 1]
df_female_no_survived = df_female[df_female['Survived'] == 0]

In [None]:
num_hombres_survived = df_male_survived.shape[0]
num_mujeres_survived = df_female_survived.shape[0]

print(f'El porcentaje de hombres que sobrevivieron es {100*num_hombres_survived/num_hombres:.2f} %')
print(f'El número de mujeres que sobrevivieron es {100*num_mujeres_survived/num_mujeres:.2f} %')

Pregunta

¿Cuál es el promedio de edad de los hombres?
¿Cuál es el promedio de edad de las mujeres?
(En general, y de los que sobrevivieron y no sobrevivieron)

In [None]:
media_hombres = df_male['Age'].mean()

print(f'La media de la edad de los hombres es {media_hombres:.2f} años')

In [None]:
media_mujeres = df_female['Age'].mean()

print(f'La media de la edad de las mujeres es {media_mujeres:.2f} años')

In [None]:
media_hombres_survived = df_male_survived['Age'].mean()
media_hombres_no_survived = df_male_no_survived['Age'].mean()

print(f'El promedio de la edad de los hombres que sobrevivieron es {media_hombres_survived:.2f} años')
print(f'El promedio de la edad de los hombres que no sobrevivieron es {media_hombres_no_survived:.2f} años')

In [None]:
mediana_hombres_survived = df_male_survived['Age'].median()
mediana_hombres_no_survived = df_male_no_survived['Age'].median()

print(f'La mediana de la edad de los hombres que sobrevivieron es {mediana_hombres_survived:.2f} años')
print(f'La mediana de la edad de los hombres que no sobrevivieron es {mediana_hombres_no_survived:.2f} años')

In [None]:
mayor_edad = df_male['Age'].max()

print(mayor_edad)

In [None]:
hombre_mayor = df_male[df_male['Age']==mayor_edad]

print(hombre_mayor)

In [None]:
hombre_mayor = df_male.loc[df_male['Age']==mayor_edad]

print(hombre_mayor)

In [None]:
## Vamos a analizar lo que pasó con el hombre de menor edad

menor_edad = df_male['Age'].min()

print(menor_edad)

In [None]:
hombre_menor = df_male.loc[df_male['Age']==menor_edad]

print(hombre_menor)

In [None]:
## Vamos a hacer lo mismo para las mujeres

media_mujeres_survived = df_female_survived['Age'].mean()
media_mujeres_no_survived = df_female_no_survived['Age'].mean()

print(f'El promedio de la edad de las mujeres que sobrevivieron es {media_mujeres_survived:.2f} años')
print(f'El promedio de la edad de las mujeres que no sobrevivieron es {media_mujeres_no_survived:.2f} años')

In [None]:
## Vamos a analizar qué pasó con la mujer de mayor edad

mayor_edad_f = df_female['Age'].max()

print(mayor_edad_f)

mujer_mayor = df_female[df_female['Age']==mayor_edad_f]

print(mujer_mayor)

In [None]:
print(tabulate(mujer_mayor, headers = 'keys', tablefmt = 'fancy_grid'))

In [None]:
print(tabulate(df_male, headers = 'keys', tablefmt = 'fancy_grid'))

### Pregunta 2:

¿Porcentaje de hombres y mujeres que sobrevivieron por clase?

Paso a paso:

1. Obtener el número de los hombres y mujeres del conjunto de datos
2. Obtener el número de hombres que viajaban en cada clase.
3. Obtener el número de hombres que sobrevivieron y no sobrevivieron por cada clase.
4. Calcular el porcentaje por cada clase.
5. Obtener el número de mujeres que viajaban en cada clase.
3. Obtener el númer de mujeres que sobrevivieron y no sobrevivieron por cada clase.
4. Calcular el porcentaje por cada clase.

In [None]:
## Paso 1

num_hombres = df[df['Sex']=='male'].shape[0]
print(num_hombres)

In [None]:
df_male = df[df['Sex']=='male']
print(df_male.shape[0])

In [None]:
num_mujeres = df[df['Sex']=='female'].shape[0]
print(num_mujeres)

In [None]:
## Paso 2

filtro = (df['Sex']=='male') & (df['Pclass']==1)
num_hom_c1 = df[filtro].shape[0]
print(f'La cantidad de hommbres que viajaban en primera clase es {num_hom_c1}')

filtro = (df['Sex']=='male') & (df['Pclass']==2)
num_hom_c2 = df[filtro].shape[0]
print(f'La cantidad de hommbres que viajaban en segunda clase es {num_hom_c2}')

filtro = (df['Sex']=='male') & (df['Pclass']==3)
num_hom_c3 = df[filtro].shape[0]
print(f'La cantidad de hommbres que viajaban en tercera clase es {num_hom_c3}')

#print(num_hom_c1+num_hom_c2+num_hom_c3)

In [None]:
## Paso 3

filtro = (df['Sex']=='male') & (df['Pclass']==1) & (df['Survived']==1)
num_hom_c1_s = df[filtro].shape[0]
print(f'La cantidad de hombres que viajaban en primera clase y sobrevivió es {num_hom_c1_s}')

filtro = (df['Sex']=='male') & (df['Pclass']==2) & (df['Survived']==1)
num_hom_c2_s = df[filtro].shape[0]
print(f'La cantidad de hombres que viajaban en segunda clase y sobrevivió es {num_hom_c2_s}')

In [None]:
## Paso 4

porcentaje_h_c1_s = (100 *num_hom_c1_s)/num_hom_c1

print(f'El porcentaje de hombres que viajaban en primera clase y sobrevivió es {porcentaje_h_c1_s:.2f}')

porcentaje_h_c2_s = (100 *num_hom_c2_s)/num_hom_c2

print(f'El porcentaje de hombres que viajaban en segunda clase y sobrevivió es {porcentaje_h_c2_s:.2f}')

### Pregunta 3:

¿Cuál es la distribución de las edades de los hombres que sobrevivieron?

Paso a Paso

1. Crear un nuevo DataFrame con los hombres que sobrevivieron
2. Analizar la distribución de las edades: calcular estadísticas básicas, generar el histograma, construir el boxplot

In [None]:
## Paso 1

filtro = (df['Sex']=='male') &(df['Survived']==1)
df_male_s = df[filtro]

In [None]:
## Paso 2
# Histograma

column = 'Age'
plt.figure(figsize=(6,6))
sns.histplot(data = df_male_s,
             x = column,
             #hue = 'Survived',
             bins = 30,
             color = 'red',
             fill = True,
             stat = 'count')    #'count' muestra el número de observaciones.
                                #'frequency' muestra el número de observaciones dividida por el ancho del bin.
                                #'density' normaliza las cuentas tal que el área del histograma es 1.
                                #'probability' normaliza las cuentas tal que la suma de la altura de las barras es 1.

plt.xlabel(column) #Texto en el eje x.
plt.ylabel('Cuentas')              #Texto en el eje y.
plt.title('Histograma')             #Título del gráfico.
plt.show()

In [None]:
df_male_s['Age'].describe()

In [None]:
filtro = (df['Sex']=='female') &(df['Survived']==1)
df_female_s = df[filtro]

In [None]:
## Paso 2
# Histograma

column = 'Age'
plt.figure(figsize=(6,6))
sns.histplot(data = df_female_s,
             x = column,
             #hue = 'Survived',
             bins = 30,
             color = 'red',
             fill = True,
             stat = 'count')    #'count' muestra el número de observaciones.
                                #'frequency' muestra el número de observaciones dividida por el ancho del bin.
                                #'density' normaliza las cuentas tal que el área del histograma es 1.
                                #'probability' normaliza las cuentas tal que la suma de la altura de las barras es 1.

plt.xlabel(column) #Texto en el eje x.
plt.ylabel('Cuentas')              #Texto en el eje y.
plt.title('Histograma')             #Título del gráfico.
plt.show()

### Pregunta 4:

¿Tiene alguna influencia el puerto dónde embarcó en sobrevivir o no?

In [None]:
## Paso 2
# Histograma

column = 'Embarked'
plt.figure(figsize=(6,6))
sns.histplot(data = df,
             x = column,
             hue = 'Survived',
             bins = 30,
             color = 'red',
             fill = True,
             stat = 'count')    #'count' muestra el número de observaciones.
                                #'frequency' muestra el número de observaciones dividida por el ancho del bin.
                                #'density' normaliza las cuentas tal que el área del histograma es 1.
                                #'probability' normaliza las cuentas tal que la suma de la altura de las barras es 1.

plt.xlabel(column) #Texto en el eje x.
plt.ylabel('Cuentas')              #Texto en el eje y.
plt.title('Histograma')             #Título del gráfico.
plt.show()

### Pregunta 5:

Hagan una pregunta que les parezca interesante contestar con los datos.

Vamos a graficar los nombres y la cabina

In [None]:
df

In [None]:
plt.bar(df['Name'],df['Pclass'])
plt.show()

In [None]:
Deporte = df.groupby(['Survived','Sex'])['Age'].mean()
Deporte

In [None]:
Deporte.index[0]

In [None]:
valores = []
for i in range(len(Deporte)):
    if Deporte.index[i][1] == 'female':
        print(i)
        valores.append(Deporte[Deporte.index[i]])
valores

In [None]:
Deporte[(0, 'female')]

In [None]:
# Vamos a tomar los valores del índice Sex = female

a = Deporte[:,'Sex']
a