<a href="https://colab.research.google.com/github/dtoralg/INESDI_Data-Science_ML_IA/blob/main/%5B01%5D%20-%20Preparaci%C3%B3n%20de%20datos%20y%20EDA/EDA_Ejercicio_1_Exploraci%C3%B3n_completa_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# EDA - Ejercicio 1: Exploración completa de datos (I do)

**Contexto:** vamos a realizar una exploración detallada del dataset Titanic, uno de los más utilizados para introducir técnicas básicas de ciencia de datos.

## 1) Introducción

El objetivo de este ejercicio es entender cómo abordar la primera fase del análisis de datos: la exploración inicial. Trabajaremos con un dataset clásico (Titanic) para identificar los tipos de variables, comprender su distribución, detectar nulos, duplicados, outliers y realizar algunas visualizaciones clave. Este análisis es fundamental antes de cualquier tarea de modelado o predicción, ya que permite detectar problemas y oportunidades en los datos.

## 2) Objetivos

- Comprender la estructura general de un dataset y los distintos tipos de variables.
- Detectar problemas comunes en los datos: nulos, duplicados, tipos erróneos y outliers.
- Aplicar visualizaciones básicas para entender distribuciones y relaciones entre variables.

## 3) Descripción breve de los datos

- **Origen:** Dataset Titanic (Kaggle / seaborn). Datos reales de pasajeros del Titanic.
- **Filas:** 891
- **Columnas:** 12 columnas (edad, clase, sexo, tarifa, puerto de embarque, etc.)
- **Variable objetivo (en otras tareas):** `Survived` (0 = no sobrevivió, 1 = sí sobrevivió)
- Este ejercicio se centrará en la exploración, no en la predicción.

## 4) Bloques del ejercicio

### 4.1 Preparación del entorno

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

sns.set(style='whitegrid')
pd.set_option('display.max_columns', None)  # mostrar todas las columnas
print('Entorno preparado.')

### 4.2 Carga del dataset

Usaremos la versión integrada del dataset Titanic de seaborn.

In [None]:
df = sns.load_dataset('titanic')
df.head()

### 4.3 EDA: Dimensiones, tipos y muestra aleatoria

In [None]:
print('Filas y columnas:', df.shape)
print('\nTipos de datos:')
print(df.dtypes)
print('\n \n ------------------- \n \n')
df.sample(5)

### 4.4 Nulos y duplicados

In [None]:
print('Porcentaje de valores nulos:')
display(round(df.isna().mean().sort_values(ascending=False)*100, 2))

print('\nFilas duplicadas:', df.duplicated().sum())

### 4.5 Estadísticos básicos y cardinalidad de columnas categóricas

In [None]:
# Numéricas
print('Descripción de variables numéricas:')
display(df.describe())

# Categóricas
print('\nCardinalidad de variables categóricas:')
for col in df.select_dtypes(include='object').columns:
    print(f"{col}: {df[col].nunique()} valores únicos")

### 4.6 Distribuciones y outliers

In [None]:
# Histogramas para todas las numéricas
df.select_dtypes(include='number').hist(bins=20, figsize=(12,8))
plt.suptitle('Distribuciones de variables numéricas')
plt.show()

In [None]:
# Boxplots para outliers
for col in ['age', 'fare']:
    sns.boxplot(x=df[col])
    plt.title(f'Distribución de {col}')
    plt.show()

### 4.7 Visualizaciones de relaciones y correlaciones

In [None]:
sns.countplot(x='class', hue='survived', data=df)
plt.title('Supervivencia según clase')
plt.show()

In [None]:
sns.countplot(x='sex', hue='survived', data=df)
plt.title('Supervivencia según sexo')
plt.show()

In [None]:
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')
plt.title('Matriz de correlación')
plt.show()

## 5) Conclusiones

- El dataset contiene varias variables con valores nulos (`age`, `embark_town`, `deck`).
- Hay 107 filas duplicadas.
- Existen outliers especialmente en la tarifa (`fare`).
- La clase (`class`) y el sexo (`sex`) parecen influir fuertemente en la supervivencia.

> Este análisis sienta las bases para tomar decisiones informadas sobre limpieza, preprocesamiento y diseño de modelos en etapas futuras.