Entrar en Kaggle por primera vez puede ser desalentador. Nuestras competiciones suelen tener grandes premios en efectivo, tablas de clasificación públicas, e implican datos complejos. Sin embargo, realmente creemos que todos los científicos de datos pueden aprender rápidamente de las competiciones de aprendizaje automático y contribuir significativamente a nuestra comunidad. Para darle una clara comprensión de cómo funciona nuestra plataforma y un modelo mental del tipo de aprendizaje que podría hacer en Kaggle, hemos creado un tutorial de "Cómo empezar" para la competición del Titanic. Te guía a través de los pasos iniciales requeridos para obtener tu primera presentación decente en la tabla de clasificación. Al final del tutorial, también tendrás una sólida comprensión de cómo utilizar el entorno de codificación online de Kaggle, donde habrás entrenado tu propio modelo de aprendizaje de máquina.

Así que si esta es la primera vez que participas en una competición de Kaggle, independientemente de si:
- tienes experiencia en el manejo de grandes conjuntos de datos,
- no han hecho mucha codificación,
- son más recientes en la ciencia de los datos, o
- son relativamente experimentados (pero no están familiarizados con la plataforma de Kaggle),

¡Estás en el lugar correcto! 


# Parte 1: Empieza

En esta sección, aprenderá más sobre el concurso y hará su primera presentación. 

## ¡Únete al concurso!

¡Lo primero que hay que hacer es unirse al concurso!  Abre una nueva ventana con ****[the competition page](https://www.kaggle.com/c/titanic)**, y haz clic en el botón **"Join Competition "**, si no lo has hecho ya.  (_Si ves un botón "Enviar Predicciones" en lugar de un botón "Unirse a la Competición", ya te has unido a la competición, y no necesitas hacerlo de nuevo._)

![](https://i.imgur.com/rRFchA8.png)

Esto te lleva a la página de aceptación de las reglas.  Debes aceptar las reglas del concurso para poder participar.  Estas reglas determinan cuántas presentaciones puedes hacer por día, el tamaño máximo del equipo y otros detalles específicos de la competencia.   Luego, haga clic en **"Entiendo y acepto "** para indicar que se atendrá a las reglas de la competencia.

## El desafío

La competencia es simple: queremos que uses los datos de los pasajeros del Titanic (nombre, edad, precio del billete, etc.) para intentar predecir quién sobrevivirá y quién morirá.

## Los datos

Para ver los datos de la competición, haz clic en **<a href="https://www.kaggle.com/c/titanic/data" target="_blank" rel="noopener noreferrer"><b>Data tab</b></a>** en la parte superior de la página de la competición.  Luego, desplácese hacia abajo para encontrar la lista de archivos.  

### (1) train.csv


**train.csv** contiene los detalles de un subconjunto de los pasajeros a bordo (891 pasajeros, para ser exactos - donde cada pasajero obtiene una fila diferente en la tabla).  Para investigar estos datos, haga clic en el nombre del archivo bajo la columna **"Fuentes de datos "** (a la izquierda de la pantalla).  Una vez hecho esto, todos los nombres de las columnas (junto con una breve descripción de lo que contienen) se enumeran a la derecha de la pantalla, bajo el encabezado **"Columnas "**.  

![](https://i.imgur.com/w5HFxp8.png)

Puedes ver todos los datos en la misma ventana.  

![](https://i.imgur.com/CEPZi6z.png)

Los valores de la segunda columna (**"Sobrevivido "**) pueden utilizarse para determinar si cada pasajero sobrevivió o no: 
- si es un "1", el pasajero sobrevivió.
- si es un "0", el pasajero murió.

Por ejemplo, el primer pasajero que aparece en **train.csv** es el Sr. Owen Harris Braund.  Tenía 22 años cuando murió en el Titanic.

**Train.csv** (2) test.csv

Usando los patrones que encuentras en **train.csv**, tienes que predecir si los otros 418 pasajeros a bordo (en **test.csv**) sobrevivieron.  

Haz clic en **test.csv** (bajo la columna **"Fuentes de datos "**) para examinar su contenido.  Ten en cuenta que **test.csv** no tiene una columna **"Sobrevivido "** - esta información está oculta para ti, y lo bien que hagas en la predicción de estos valores ocultos determinará la puntuación que obtengas en la competición! 

### (3) gender_submission.csv

El archivo **gender_submission.csv** se proporciona como un ejemplo que muestra cómo debe estructurar sus predicciones.  Predice que todas las pasajeras sobrevivieron y que todos los pasajeros masculinos murieron.  Sus hipótesis sobre la supervivencia probablemente serán diferentes, lo que llevará a un archivo de presentación diferente.  Pero, al igual que este archivo, su presentación debería tener:
- una columna de **"PassengerId "** que contenga las identificaciones de cada pasajero de **test.csv**.
- una columna **"Sobrevivido "** (¡que tú crearás!) con un "1" para las filas donde crees que el pasajero sobrevivió, y un "0" donde predices que el pasajero murió.



## Su primera presentación

Como referencia, descargará el archivo **gender_submission.csv** y lo presentará al concurso.  Comienza haciendo clic en el enlace de descarga a la derecha del nombre del archivo.  

![](https://i.imgur.com/Pl1DIA8.png)

Esto descarga el archivo a tu ordenador.  Luego:
- Haga clic en el botón azul **"Enviar predicciones "** en la esquina superior derecha de la página del concurso.  (Este botón aparece ahora donde estaba el botón **"Unirse a la competición "**.)
- Desplácese hacia abajo hasta **"Paso 1: Subir el archivo de presentación "**.  Suba el archivo que acaba de descargar.  Luego, haga clic en el botón azul **"Hacer presentación "**.  

En unos segundos, su presentación será puntuada, y recibirá un lugar en la tabla de clasificación.  A continuación, te explicaremos cómo superar esta presentación inicial.

# Parte 2: Su entorno de codificación

En esta sección, entrenarás tu propio modelo de aprendizaje de máquinas para mejorar tus predicciones.  Si nunca has escrito código antes o no tienes experiencia en aprendizaje de máquinas, ¡no te preocupes!  No asumimos ninguna experiencia previa en este tutorial.

## El cuaderno

Lo primero que hay que hacer es crear un Cuaderno Kaggle donde almacenar todo el código.  Puedes usar los Cuadernos Kaggle para ponerte a trabajar con la escritura de código rápidamente, y sin tener que instalar nada en tu ordenador.  (¡Si estás interesado en aprender en profundidad, también ofrecemos acceso gratuito a la GPU!_) 

Comienza haciendo clic en la pestaña **<a href="https://www.kaggle.com/c/titanic/kernels" target="_blank">Notebooks tab</a>** en la página del concurso.  Luego, haz clic en **"New Notebook "**.

![](https://i.imgur.com/DHPyh7s.png)

A continuación, haga clic en **"Crear "**.  (No cambie la configuración por defecto: así, **"Python "** debería aparecer en "Seleccionar idioma", y debería tener **"Cuaderno "** seleccionado en "Seleccionar tipo"._)

![](https://i.imgur.com/qUVvr8k.png)

Su portátil tardará unos segundos en cargarse.  En la esquina superior izquierda, puedes ver el nombre de tu cuaderno... algo así como **"kernel2daed3cd79"**.

![](https://i.imgur.com/64ZFT1L.png)

Puedes editar el nombre haciendo clic en él.  Cámbialo por algo más descriptivo, como **"Getting Started with Titanic "**.  

![](https://i.imgur.com/uwyvzXq.png)

## Tus primeras líneas de código

Cuando empiezas un nuevo cuaderno, tiene dos cajas grises para almacenar el código.  Nos referimos a estas cajas grises como "celdas de código".

![](https://i.imgur.com/q9mwkZM.png)

La primera célula de código ya tiene algún código.  Para ejecutar este código, pon el cursor en la celda de código.  (Si tu cursor está en el lugar correcto, notarás una línea vertical azul a la izquierda del cuadro gris.)  Luego, o bien presiona el botón de reproducción (que aparece a la izquierda de la línea azul), o bien presiona **[Shift] + [Enter]** en tu teclado.

Si el código se ejecuta con éxito, se devuelven tres líneas de salida.  A continuación, puedes ver el mismo código que acabas de ejecutar, junto con la salida que deberías ver en tu cuaderno. 

In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

This shows us where the competition data is stored, so that we can load the files into the notebook.  We'll do that next.

## Load the data

The second code cell in your notebook now appears below the three lines of output with the file locations.

![](https://i.imgur.com/OQBax9n.png)

Type the two lines of code below into your second code cell.  Then, once you're done, either click on the blue play button, or hit **[Shift] + [Enter]**.  

In [4]:
#train_data = pd.read_csv("/kaggle/input/titanic/train.csv")
train_data = pd.read_csv("train.csv")
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Su código debería devolver la salida de arriba, que corresponde a las cinco primeras filas de la tabla en **train.csv**.  Es muy importante que veas esta salida **en tu cuaderno** antes de continuar con el tutorial!
> _Si tu código no produce esta salida_, comprueba que tu código es idéntico a las dos líneas de arriba.  Y, asegúrate de que tu cursor está en la celda del código antes de pulsar **[Shift] + [Enter]**.

El código que acabas de escribir está en el lenguaje de programación Python. Utiliza un "módulo" Python llamado **pandas** (abreviado como `pd`) para cargar la tabla del archivo **train.csv** en el cuaderno. Para hacer esto, necesitábamos conectar la ubicación del archivo (que vimos era `/kaggle/input/titanic/train.csv`).  
> Si no estás ya familiarizado con Python (y pandas), el código no debería tener sentido para ti -- ¡pero no te preocupes!  El objetivo de este tutorial es (¡rápido!) hacer tu primer envío a la competencia.  Al final del tutorial, sugerimos recursos para continuar tu aprendizaje.

En este punto, deberías tener al menos tres celdas de código en tu cuaderno.  
![](https://i.imgur.com/ReLhYca.png)

Copie el código de abajo en la tercera celda de código de su cuaderno para cargar el contenido del archivo **test.csv**.  No olvides pulsar el botón de reproducción (o pulsa **[Shift] + [Enter]**)!

In [14]:
#test_data = pd.read_csv("/kaggle/input/titanic/test.csv")
test_data = pd.read_csv("test.csv")
test_data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


Como antes, asegúrate de que ves la salida de arriba en tu cuaderno antes de continuar.  

Una vez que todo el código se ejecuta con éxito, todos los datos (en **train.csv** y **test.csv**) se cargan en el cuaderno.  (_El código de arriba muestra sólo las 5 primeras filas de cada tabla, pero todos los datos están ahí -- las 891 filas de **train.csv** y las 418 filas de **test.csv**!_)

# Parte 3: Mejora tu puntuación

Recuerda nuestro objetivo: queremos encontrar patrones en **train.csv** que nos ayuden a predecir si los pasajeros en **test.csv** sobrevivieron.

Inicialmente puede parecer abrumador buscar patrones, cuando hay tantos datos que clasificar.  Así que, empezaremos de forma sencilla.

## Explorar un patrón

Recuerde que el archivo de presentación de muestras en **gender_submission.csv** asume que todas las pasajeras sobrevivieron (y todos los pasajeros masculinos murieron).  

¿Es esta una primera suposición razonable?  Comprobaremos si este patrón se mantiene en los datos (en **train.csv**).

Copia el código de abajo en una nueva celda de código.  Luego, ejecute la celda.

In [15]:
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women)/len(women)

print("% of women who survived:", rate_women)

% of women who survived: 0.7420382165605095


Antes de seguir adelante, asegúrate de que tu código devuelva la salida anterior.  El código de arriba calcula el porcentaje de pasajeras (en **train.csv**) que sobrevivieron.

Entonces, ejecuta el código de abajo en otra celda de código:

In [16]:
men = train_data.loc[train_data.Sex == 'male']["Survived"]
rate_men = sum(men)/len(men)

print("% of men who survived:", rate_men)

% of men who survived: 0.18890814558058924


El código anterior calcula el porcentaje de pasajeros varones (en **train.csv**) que sobrevivieron.

De esto se puede ver que casi el 75% de las mujeres a bordo sobrevivieron, mientras que sólo el 19% de los hombres vivieron para contarlo. Dado que el género parece ser un fuerte indicador de supervivencia, el archivo de presentación en **gender_submission.csv** no es una mala primera suposición, y tiene sentido que funcionó razonablemente bien!

Pero al final del día, esta presentación basada en el género basa sus predicciones en una sola columna.  Como pueden imaginar, al considerar múltiples columnas, podemos descubrir patrones más complejos que potencialmente pueden producir predicciones mejor informadas.  Dado que es bastante difícil considerar varias columnas a la vez (o, llevaría mucho tiempo considerar todos los posibles patrones en muchas columnas diferentes simultáneamente), utilizaremos el aprendizaje automático para automatizar esto para nosotros.

## Su primer modelo de aprendizaje automático

Construiremos lo que se conoce como un **modelo de bosque aleatorio**.  Este modelo se construye con varios "árboles" (hay tres árboles en la foto de abajo, ¡pero construiremos 100!) que considerarán individualmente los datos de cada pasajero y votarán sobre si el individuo sobrevivió.  Entonces, el modelo de bosque aleatorio toma una decisión democrática: ¡el resultado con más votos gana!

![](https://i.imgur.com/AC9Bq63.png)

La celda de código de abajo busca patrones en cuatro columnas diferentes (**"Pclass "**, **"Sex "**, **"SibSp "**, y **"Parch "**) de los datos.  Construye los árboles en el modelo de bosque aleatorio basado en los patrones del archivo **train.csv**, antes de generar predicciones para los pasajeros en **test.csv**.  El código también guarda estas nuevas predicciones en un archivo CSV **mi_sumisión.csv**.
Copy this code into your notebook, and run it in a new code cell.

In [17]:
from sklearn.ensemble import RandomForestClassifier

y = train_data["Survived"]

features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)

output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('my_submission.csv', index=False)
print("Your submission was successfully saved!")

Your submission was successfully saved!


Asegúrate de que tu cuaderno de notas diga el mismo mensaje de arriba (¡tu envío se ha guardado con éxito!) antes de seguir adelante.
> De nuevo, ¡no te preocupes si este código no tiene sentido para ti!  Por ahora, nos centraremos en cómo generar y enviar predicciones.

Una vez que estés listo, haz clic en el botón azul **"Guardar versión "** en la esquina superior derecha de tu cuaderno.  Esto generará una ventana emergente.  
- Asegúrense de que la opción **"Guardar y Ejecutar Todo "** esté seleccionada, y luego hagan clic en el botón azul **"Guardar "**.
- Esto genera una ventana en la esquina inferior izquierda del cuaderno.  Cuando termine de ejecutarse, haga clic en el número a la derecha del botón **"Guardar versión "**.  Esto despliega una lista de versiones a la derecha de la pantalla.  Haga clic en la elipsis **(...)** a la derecha de la versión más reciente, y seleccione **Abrir en el visor**.  
- Haga clic en la pestaña **Salir** a la derecha de la pantalla.  Luego, haga clic en el botón **"Someter a concurso "** para enviar sus resultados.

![](https://i.imgur.com/kKKnHpx.png)

Una vez que su archivo sea enviado con éxito, debería recibir un mensaje diciendo que ha subido en la tabla de clasificación.  ¡Gran trabajo!

# Part 4: Learn more!

If you're interested in learning more, we strongly suggest our (3-hour) **[Intro to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning)** course, which will help you fully understand all of the code that we've presented here.  You'll also know enough to generate even better predictions!