<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/reto_002.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reto 2. Carga directa desde URL y análisis exploratorio**
- Carga Titanic desde URL con Pandas
- Verifica con `.shape` y `.head()`
- Explora tipos de datos con `.dtypes`, valores nulos con `.isnull().sum()` y estadísticas descriptivas con `.describe()`



# **Resolución del Reto 2**

## **Paso 1: Cargar dataset Titanic desde URL**
Para la descarga del Dataset se elige la web de **DataScienceDojo**. Motivos:
- Es una Organización educativa reconocida en data science
- GitHub raw: Formato directo para pandas (pd.read_csv)
- Estabilidad: URL activa por años, muy confiable
- Formato limpio: Dataset listo para usar sin preprocesamiento

In [1]:
# EJECUTA ESTE CÓDIGO PARA CARGAR DESDE URL
import pandas as pd
import numpy as np

print("🌐 Paso 1: Cargando dataset Titanic desde URL...")
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)
print("✅ Dataset cargado correctamente desde URL")

🌐 Paso 1: Cargando dataset Titanic desde URL...
✅ Dataset cargado correctamente desde URL


## **Paso 2: Verificar dimensiones y primeras filas**
`df.shape` devuelve la tupla (891, 12) lo que indica que el Dataset tiene:
- 891 filas
- 12 columnas.

In [2]:
# EJECUTA ESTE CÓDIGO PARA VERIFICAR DATOS
print("📏 Paso 2: Verificando dimensiones del dataset...")
print(f"Dimensiones del dataset: {df.shape}")
print(f"- Filas: {df.shape[0]}")
print(f"- Columnas: {df.shape[1]}")

print("\n👀 Primeras 5 filas del dataset:")
df.head()

📏 Paso 2: Verificando dimensiones del dataset...
Dimensiones del dataset: (891, 12)
- Filas: 891
- Columnas: 12

👀 Primeras 5 filas del dataset:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## **Paso 3: Explorar tipos de datos**


In [5]:
# EJECUTAR ESTE CÓDIGO PARA VER TIPOS DE DATOS
print("🔍 Paso 3: Explorando tipos de datos...")
print("Tipos de datos por columna:")
print(df.dtypes)

print("\n📊 Resumen de tipos de datos:")
print(f"- Columnas numéricas: {len(df.select_dtypes(include=[np.number]).columns)}")
print(f"- Columnas categóricas: {len(df.select_dtypes(include=['object']).columns)}")

🔍 Paso 3: Explorando tipos de datos...
Tipos de datos por columna:
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

📊 Resumen de tipos de datos:
- Columnas numéricas: 7
- Columnas categóricas: 5


## **Paso 4: Identificar valores nulos**

In [6]:
# EJECUTAR ESTE CÓDIGO PARA VALORES NULOS
print("❓ Paso 4: Identificando valores nulos...")
valores_nulos = df.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)

print(f"\n📈 Total de valores nulos en el dataset: {df.isnull().sum().sum()}")
print(f"📊 Porcentaje de valores nulos: {(df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100):.2f}%")

# Columnas con valores nulos
columnas_con_nulos = valores_nulos[valores_nulos > 0]
print(f"\n🚨 Columnas con valores nulos: {len(columnas_con_nulos)}")
for columna, nulos in columnas_con_nulos.items():
    print(f"   - {columna}: {nulos} nulos ({nulos/df.shape[0]*100:.1f}%)")

❓ Paso 4: Identificando valores nulos...
Valores nulos por columna:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

📈 Total de valores nulos en el dataset: 866
📊 Porcentaje de valores nulos: 8.10%

🚨 Columnas con valores nulos: 3
   - Age: 177 nulos (19.9%)
   - Cabin: 687 nulos (77.1%)
   - Embarked: 2 nulos (0.2%)


## **Paso 5: Estadísticas descriptivas**

In [10]:
# EJECUTA ESTE CÓDIGO PARA ESTADÍSTICAS DESCRIPTIVAS
print("📊 Paso 5: Estadísticas descriptivas...")

print("🔢 Estadísticas para variables numéricas:")
df.describe()

📊 Paso 5: Estadísticas descriptivas...
🔢 Estadísticas para variables numéricas:


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [11]:
print("\n📝 Estadísticas para variables categóricas:")
df.describe(include=['object'])


📝 Estadísticas para variables categóricas:


Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Dooley, Mr. Patrick",male,347082,G6,S
freq,1,577,7,4,644


## **Paso 6: Análisis exploratorio adicional**

In [12]:
# EJECUTA ESTE CÓDIGO PARA ANÁLISIS ADICIONAL
print("🎯 Paso 6: Análisis exploratorio adicional...")

# Información general del dataset
print("📋 Información general del dataset:")
df.info()

# Valores únicos por columna categórica
print("\n🎲 Valores únicos en columnas categóricas:")
categoricas = df.select_dtypes(include=['object']).columns
for col in categoricas:
    print(f"   - {col}: {df[col].nunique()} valores únicos")
    if df[col].nunique() <= 10:  # Mostrar valores si son pocos
        print(f"     Valores: {list(df[col].unique())}")

🎯 Paso 6: Análisis exploratorio adicional...
📋 Información general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

🎲 Valores únicos en columnas categóricas:
   - Name: 891 valores únicos
   - Sex: 2 valores únicos
     Valores: ['male', 'female']
   - Ticket: 681 valores únicos

## **Paso 7: Resumen ejecutivo del análisis**

In [13]:
# EJECUTA ESTE CÓDIGO PARA RESUMEN EJECUTIVO
print("📈 Paso 7: Resumen ejecutivo del análisis exploratorio")

print("\n" + "="*50)
print("         RESUMEN EJECUTIVO - DATASET TITANIC")
print("="*50)

print(f"📊 DIMENSIONES: {df.shape[0]} pasajeros × {df.shape[1]} características")

print(f"🔍 TIPOS DE DATOS:")
print(f"   - Numéricas: {len(df.select_dtypes(include=[np.number]).columns)} columnas")
print(f"   - Categóricas: {len(df.select_dtypes(include=['object']).columns)} columnas")

nulos_totales = df.isnull().sum().sum()
print(f"❓ VALORES NULOS: {nulos_totales} ({nulos_totales/(df.shape[0]*df.shape[1])*100:.1f}% del dataset)")

# Principales hallazgos
print(f"🎯 PRINCIPALES HALLAZGOS:")
print(f"   - Tasa de supervivencia: {df['Survived'].mean()*100:.1f}%")
print(f"   - Edad promedio: {df['Age'].mean():.1f} años")
print(f"   - Tarifa promedio: ${df['Fare'].mean():.2f}")

print(f"\n✅ Columnas disponibles:")
for i, col in enumerate(df.columns, 1):
    print(f"   {i:2d}. {col}")

print("\n🎉 ¡Reto 2 completado! Análisis exploratorio finalizado")
print("="*50)

📈 Paso 7: Resumen ejecutivo del análisis exploratorio

         RESUMEN EJECUTIVO - DATASET TITANIC
📊 DIMENSIONES: 891 pasajeros × 12 características
🔍 TIPOS DE DATOS:
   - Numéricas: 7 columnas
   - Categóricas: 5 columnas
❓ VALORES NULOS: 866 (8.1% del dataset)
🎯 PRINCIPALES HALLAZGOS:
   - Tasa de supervivencia: 38.4%
   - Edad promedio: 29.7 años
   - Tarifa promedio: $32.20

✅ Columnas disponibles:
    1. PassengerId
    2. Survived
    3. Pclass
    4. Name
    5. Sex
    6. Age
    7. SibSp
    8. Parch
    9. Ticket
   10. Fare
   11. Cabin
   12. Embarked

🎉 ¡Reto 2 completado! Análisis exploratorio finalizado


## **🎯 Puntos clave del Reto 2**

1. **Carga desde URL**: Más eficiente que subir archivos manualmente
2. **Dimensiones**: Entender el tamaño del dataset
3. **Tipos de datos**: Fundamental para análisis posteriores
4. **Valores nulos**: Identificar problemas de calidad de datos
5. **Estadísticas descriptivas**: Primer vistazo a la distribución de los datos
6. **Resumen ejecutivo**: Sintetizar hallazgos importantes

**📚 Valor educativo**: Este reto enseña las operaciones básicas del EDA (Exploratory Data Analysis) que todo data scientist utiliza en sus primeros pasos con cualquier dataset nuevo.
