<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/reto_001.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reto 1. Gestión de archivos en Google Colab**
- Objetivo: Familiarizarse con la interfaz de Colab y la gestión básica de archivos
- Descarga manualmente el dataset `Titanic` desde Kaggle
- Sube el archivo manualmente a Google Colab
- Carga el dataset usando Pandas
- Visualiza las primeras 5 filas con `.head()`
- Monta Google Drive y verifica persistencia

# **Resolución del Reto 1**
El dataset _Titanic_ contiene **891 registros** de pasajeros con **12 características** que incluyen clase, sexo, edad, tarifa y puerto de embarque, donde la variable objetivo es la **supervivencia** (sobrevivió = 1, no sobrevivió = 0). Es el dataset clásico para problemas de clasificación binaria y análisis de supervivencia.

## **Paso 1: Descargar dataset Titanic desde Kaggle**
Obtenemos el dataset clásico de supervivencia de pasajeros desde la plataforma de Kaggle.


*(Esto lo haces manualmente fuera de Colab)*
- Ve a: https://www.kaggle.com/c/titanic/data
- Descarga `train.csv` a tu computadora

## **Paso 2: Subir archivo manualmente a Google Colab**
Utilizamos la interfaz de Colab para cargar el archivo CSV desde nuestro equipo local.


**Acción requerida:** Ejecuta la celda y selecciona el archivo `train.csv` desde tu computadora.

In [None]:
# EJECUTA ESTE CÓDIGO PARA SUBIR EL ARCHIVO
from google.colab import files
import pandas as pd

print("📤 Paso 2: Subiendo archivo train.csv...")
uploaded = files.upload()
print("✅ Archivo subido correctamente")

📤 Paso 2: Subiendo archivo train.csv...


Saving train.csv to train (1).csv
✅ Archivo subido correctamente


## **Paso 3: Cargar dataset usando Pandas**
Importamos los datos con Pandas para comenzar el análisis exploratorio.

In [None]:
# EJECUTA ESTE CÓDIGO PARA CARGAR LOS DATOS
print("📊 Paso 3: Cargando dataset con Pandas...")
df = pd.read_csv('train.csv')
print(f"✅ Dataset cargado - Dimensiones: {df.shape}")

📊 Paso 3: Cargando dataset con Pandas...
✅ Dataset cargado - Dimensiones: (891, 12)


## **Paso 4: Visualizar primeras 5 filas con `.head()`**
Exploramos visualmente la estructura y los primeros registros del dataset.

In [None]:
# EJECUTA ESTE CÓDIGO PARA VER LAS PRIMERAS FILAS
print("👀 Paso 4: Primeras 5 filas del dataset:")
df.head()

👀 Paso 4: Primeras 5 filas del dataset:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## **Paso 5: Entender que los archivos se pierden al cerrar sesión**
Tomamos conciencia de la naturaleza temporal de los archivos subidos manualmente.

In [None]:
# EJECUTA ESTE CÓDIGO PARA VERIFICAR TEMPORALIDAD
print("⚠️  Paso 5: Los archivos subidos manualmente se pierden al cerrar Colab")
print("Por eso necesitamos montar Google Drive para persistencia")

⚠️  Paso 5: Los archivos subidos manualmente se pierden al cerrar Colab
Por eso necesitamos montar Google Drive para persistencia


## **Paso 6: Montar Google Drive en Colab**
Conectamos Colab con Google Drive para garantizar persistencia de los datos.


**Acción requerida:** Sigue las instrucciones de autorización que aparecerán.

In [None]:
# EJECUTA ESTE CÓDIGO PARA MONTAR GOOGLE DRIVE
print("🗂️  Paso 6: Montando Google Drive...")
from google.colab import drive
drive.mount('/content/drive')
print("✅ Google Drive montado correctamente")

🗂️  Paso 6: Montando Google Drive...
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
✅ Google Drive montado correctamente


## **Paso 7: Guardar copia del dataset en Drive**
Almacenamos el dataset en la nube para acceso futuro y seguridad.

In [None]:
# EJECUTA ESTE CÓDIGO PARA GUARDAR EN DRIVE
print("💾 Paso 7: Guardando copia en Google Drive...")
import os

# Crear carpeta si no existe
os.makedirs('/content/drive/MyDrive/curso_data', exist_ok=True)

# Guardar el dataset
df.to_csv('/content/drive/MyDrive/curso_data/titanic.csv', index=False)
print("✅ Dataset guardado en Google Drive")

💾 Paso 7: Guardando copia en Google Drive...
✅ Dataset guardado en Google Drive


## **Paso 8: Cargar archivo desde Drive y verificar persistencia**
Confirmamos que los datos se conservan correctamente entre sesiones.

In [None]:
# EJECUTA ESTE CÓDIGO PARA VERIFICAR PERSISTENCIA
print("🔍 Paso 8: Cargando desde Drive para verificar persistencia...")
df_drive = pd.read_csv('/content/drive/MyDrive/curso_data/titanic.csv')

print(f"📊 Dataset desde Drive - Dimensiones: {df_drive.shape}")
print("¿Los datos son idénticos?", df.equals(df_drive))

print("\n🎉 ¡Reto 1 completado! El dataset ahora persiste en Google Drive")

🔍 Paso 8: Cargando desde Drive para verificar persistencia...
📊 Dataset desde Drive - Dimensiones: (891, 12)
¿Los datos son idénticos? True

🎉 ¡Reto 1 completado! El dataset ahora persiste en Google Drive


## 🎯 **Puntos clave del Reto 1**
Dominamos la gestión básica de archivos en Colab, la carga de datos con Pandas y la integración con Google Drive para asegurar la persistencia de nuestro trabajo.

### **Competencias técnicas adquiridas**
1. **Gestión de archivos en Colab**: Subida manual y manejo de archivos temporales
2. **Carga de datos con Pandas**: Uso de `pd.read_csv()` para importar datasets
3. **Inspección básica de datos**: Uso de `.shape` y `.head()` para exploración inicial
4. **Integración con Google Drive**: Montaje y persistencia de datos en la nube
5. **Verificación de datos**: Comparación de datasets para confirmar integridad