<a href="https://colab.research.google.com/github/Gman80/nlp-aprendizaje/blob/main/Getting_started_with_NLP_for_absolute_beginners.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# IMPORTANT: SOME KAGGLE DATA SOURCES ARE PRIVATE
# RUN THIS CELL IN ORDER TO IMPORT YOUR KAGGLE DATA SOURCES.
import kagglehub
kagglehub.login()


VBox(children=(HTML(value='<center> <img\nsrc=https://www.kaggle.com/static/images/site-logo.png\nalt=\'Kaggle…

Kaggle credentials set.
Kaggle credentials successfully validated.


In [2]:
# IMPORTANT: RUN THIS CELL IN ORDER TO IMPORT YOUR KAGGLE DATA SOURCES,
# THEN FEEL FREE TO DELETE THIS CELL.
# NOTE: THIS NOTEBOOK ENVIRONMENT DIFFERS FROM KAGGLE'S PYTHON
# ENVIRONMENT SO THERE MAY BE MISSING LIBRARIES USED BY YOUR
# NOTEBOOK.

us_patent_phrase_to_phrase_matching_path = kagglehub.competition_download('us-patent-phrase-to-phrase-matching')

print('Data source import complete.')


Downloading from https://www.kaggle.com/api/v1/competitions/data/download-all/us-patent-phrase-to-phrase-matching...


100%|██████████| 682k/682k [00:00<00:00, 30.5MB/s]

Extracting files...
Data source import complete.





* Kaggle link: https://www.kaggle.com/code/prasanth07/getting-started-with-nlp-for-absolute-beginners/
* GitHub link: https://github.com/prasanth-ntu/fastai-course22/blob/master/kaggle_notebooks/getting-started-with-nlp-for-absolute-beginners.ipynb

*Note*: Using kaggle notebook as we need GPU to train the model

## Introduction

One area where deep learning has dramatically improved in the last couple of years is natural language processing (NLP). Computers can now generate text, translate automatically from one language to another, analyze comments, label words in sentences, and much more.

Perhaps the most widely practically useful application of NLP is *classification* -- that is, classifying a document automatically into some category. This can be used, for instance, for:

- Sentiment analysis (e.g are people saying *positive* or *negative* things about your product)
- Author identification (what author most likely wrote some document)
- Legal discovery (which documents are in scope for a trial)
- Organizing documents by topic
- Triaging inbound emails
- ...and much more!

Classification models can also be used to solve problems that are not, at first, obviously appropriate. For instance, consider the Kaggle [U.S. Patent Phrase to Phrase Matching](https://www.kaggle.com/competitions/us-patent-phrase-to-phrase-matching/) competition. In this, we are tasked with comparing two words or short phrases, and scoring them based on whether they're similar or not, based on which patent class they were used in. With a score of `1` it is considered that the two inputs have identical meaning, and `0` means they have totally different meaning. For instance, *abatement* and *eliminating process* have a score of `0.5`, meaning they're somewhat similar, but not identical.

It turns out that this can be represented as a classification problem. How? By representing the question like this:

> For the following text...: "TEXT1: abatement; TEXT2: eliminating process" ...chose a category of meaning similarity: "Different; Similar; Identical".

In this notebook we'll see how to solve the Patent Phrase Matching problem by treating it as a classification task, by representing it in a very similar way to that shown above.

Traducción:

En esto, tenemos la tarea de comparar dos palabras o frases cortas y calificarlas en función de si son similares o no, según la clase de patente en la que se usaron.

Por ejemplo, *reducción* y *proceso de eliminación* tienen una puntuación de "0,5", lo que significa que son algo similares, pero no idénticos.

Resulta que esto puede representarse como un problema de clasificación. ¿Cómo? Representando la pregunta de esta manera:

> Para el siguiente texto...: "TEXTO1: abatimiento; TEXTO2: proceso de eliminación" ...seleccionó una categoría de similitud de significado: "Diferente; Similar; Idéntico".

### On Kaggle

Kaggle is an awesome resource for aspiring data scientists or anyone looking to improve their machine learning skills. There is nothing like being able to get hands-on practice and receiving real-time feedback to help you improve your skills. It provides:

1. Interesting data sets
1. Feedback on how you're doing
1. A leader board to see what's good, what's possible, and what's state-of-art
1. Notebooks and blog posts by winning contestants share useful tips and techniques.

The dataset we will be using here is only available from Kaggle. Therefore, you will need to register on the site, then go to the [page for the competition](https://www.kaggle.com/c/us-patent-phrase-to-phrase-matching). On that page click "Rules," then "I Understand and Accept." (Although the competition has finished, and you will not be entering it, you still have to agree to the rules to be allowed to download the data.)

There are two ways to then use this data:

- Easiest: run this notebook directly on Kaggle, or
- Most flexible: download the data locally and run it on your PC or GPU server

If you are running this on Kaggle.com, you can skip the next section. Just make sure that on Kaggle you've selected to use a GPU during your session, by clicking on the hamburger menu (3 dots in the top right) and clicking "Accelerator" -- it should look like this:

Traducción:

Kaggle es un recurso increíble para los aspirantes a científicos de datos o cualquiera que busque mejorar sus habilidades de aprendizaje automático. No hay nada como poder practicar y recibir comentarios en tiempo real para ayudarlo a mejorar sus habilidades. Proporciona:

1 Conjuntos de datos interesantes
2 Comentarios sobre cómo te va
3 Una tabla de clasificación para ver qué es bueno, qué es posible y qué es lo último en tecnología
4 Los cuadernos y publicaciones de blogs de los concursantes ganadores comparten consejos y técnicas útiles.

El conjunto de datos que usaremos aquí solo está disponible en Kaggle. Por lo tanto, deberá registrarse en el sitio y luego ir a la página del concurso. En esa página, haga clic en "Reglas" y luego en "Entiendo y acepto". (Aunque la competencia ha finalizado y usted no participará, aún debe aceptar las reglas para poder descargar los datos).

Hay dos formas de utilizar estos datos:
- Más fácil: ejecute este cuaderno directamente en Kaggle, o
- Más flexible: descargue los datos localmente y ejecútelos en su PC o servidor GPU



Si está ejecutando esto en Kaggle.com, puede omitir la siguiente sección. Solo asegúrate de que en Kaggle hayas seleccionado usar una GPU durante tu sesión, haciendo clic en el menú de hamburguesas (3 puntos en la parte superior derecha) y haciendo clic en "Acelerador". Debería verse así:

![image.png](attachment:9af4e875-1f2a-468c-b233-8c91531e4c40.png)!

We'll need slightly different code depending on whether we're running on Kaggle or not, so we'll use this variable to track where we are:

Traduccion:
Necesitaremos un código ligeramente diferente dependiendo de si estamos ejecutando Kaggle o no, por lo que usaremos esta variable para rastrear dónde estamos:

In [3]:
import os
iskaggle = os.environ.get('KAGGLE_KERNEL_RUN_TYPE', '')

### Using Kaggle data on your own machine

Kaggle limits your weekly time using a GPU machine. The limits are very generous, but you may well still find it's not enough! In that case, you'll want to use your own GPU server, or a cloud server such as Colab, Paperspace Gradient, or SageMaker Studio Lab (all of which have free options). To do so, you'll need to be able to download Kaggle datasets.

The easiest way to download Kaggle datasets is to use the Kaggle API. You can install this using `pip` by running this in a notebook cell:

    !pip install kaggle

You need an API key to use the Kaggle API; to get one, click on your profile picture on the Kaggle website, and choose My Account, then click Create New API Token. This will save a file called *kaggle.json* to your PC. You need to copy this key on your GPU server. To do so, open the file you downloaded, copy the contents, and paste them in the following cell (e.g., `creds = '{"username":"xxx","key":"xxx"}'`):

Traduccion:

Kaggle limita su tiempo semanal usando una máquina GPU. Los límites son muy generosos, ¡pero es posible que aun así descubras que no son suficientes! En ese caso, querrás utilizar tu propio servidor GPU o un servidor en la nube como Colab, Paperspace Gradient o SageMaker Studio Lab (todos los cuales tienen opciones gratuitas). Para hacerlo, deberá poder descargar conjuntos de datos de Kaggle.

La forma más sencilla de descargar conjuntos de datos de Kaggle es utilizar la API de Kaggle. Puedes instalar esto usando pip ejecutando esto en una celda de notebook:

!pip install kaggle

Necesita una clave API para utilizar la API de Kaggle; Para obtener uno, haga clic en su foto de perfil en el sitio web de Kaggle, elija Mi cuenta y luego haga clic en Crear nuevo token API. Esto guardará un archivo llamado *kaggle.json* en su PC. Debe copiar esta clave en su servidor GPU. Para hacerlo, abra el archivo que descargó, copie el contenido y péguelo en la siguiente celda(e.g., `creds = '{"username":"xxx","key":"xxx"}'`):

In [4]:
creds = '{"username":"gmanricamerordoez","key":"a2221b674be1cf5765d715f95a09e0c0"}'

Then execute this cell (this only needs to be run once):

In [5]:
# for working with paths in Python, I recommend using `pathlib.Path`
from pathlib import Path

cred_path = Path('~/.kaggle/kaggle.json').expanduser()
if not cred_path.exists():
    cred_path.parent.mkdir(exist_ok=True)
    cred_path.write_text(creds)
    cred_path.chmod(0o600)

Now you can download datasets from Kaggle.

In [6]:
path = Path('us-patent-phrase-to-phrase-matching')

And use the Kaggle API to download the dataset to that path, and extract it:

In [7]:
if not iskaggle and not path.exists():
    import zipfile,kaggle
    kaggle.api.competition_download_cli(str(path))
    zipfile.ZipFile(f'{path}.zip').extractall(path)

Downloading us-patent-phrase-to-phrase-matching.zip to /content


100%|██████████| 682k/682k [00:00<00:00, 557MB/s]







Note that you can easily download notebooks from Kaggle and upload them to other cloud services. So if you're low on Kaggle GPU credits, give this a try!

Traducción:
Tenga en cuenta que puede descargar fácilmente cuadernos de Kaggle y cargarlos en otros servicios en la nube. Entonces, si tienes pocos créditos de GPU Kaggle, ¡pruébalo!

## Import and EDA

In [8]:
if iskaggle:
    path = Path('../input/us-patent-phrase-to-phrase-matching')
    ! pip install -q datasets

Documents in NLP datasets are generally in one of two main forms:

- **Larger documents**: One text file per document, often organised into one folder per category
- **Smaller documents**: One document (or document pair, optionally with metadata) per row in a [CSV file](https://realpython.com/python-csv/).

Let's look at our data and see what we've got. In Jupyter you can use any bash/shell command by starting a line with a `!`, and use `{}` to include python variables, like so:

Traduccion:
Los documentos en los conjuntos de datos de PNL generalmente se encuentran en una de dos formas principales:

- **Documentos más grandes**: un archivo de texto por documento, a menudo organizado en una carpeta por categoría
- **Documentos más pequeños**: un documento (o par de documentos, opcionalmente con metadatos) por fila en un [archivo CSV](https://realpython.com/python-csv/).

Miremos nuestros datos y veamos qué tenemos. En Jupyter puedes usar cualquier comando bash/shell comenzando una línea con `!` y usar `{}` para incluir variables de Python, así:

In [9]:
!ls {path}

sample_submission.csv  test.csv  train.csv


It looks like this competition uses CSV files. For opening, manipulating, and viewing CSV files, it's generally best to use the Pandas library, which is explained brilliantly in [this book](https://wesmckinney.com/book/) by the lead developer (it's also an excellent introduction to matplotlib and numpy, both of which I use in this notebook). Generally it's imported as the abbreviation `pd`.

Traduccion:

Parece que este concurso utiliza archivos CSV. Para abrir, manipular y ver archivos CSV, generalmente es mejor usar la biblioteca Pandas, que el desarrollador principal explica brillantemente en [este libro](https://wesmckinney.com/book/) (también es una excelente introducción). a matplotlib y numpy, los cuales uso en este cuaderno). Generalmente se importa como la abreviatura "pd".

In [10]:
import pandas as pd

Let's set a path to our data:

In [13]:
df = pd.read_csv(path/'train.csv')

In [None]:
df.info()

This creates a [DataFrame](https://pandas.pydata.org/docs/user_guide/10min.html), which is a table of named columns, a bit like a database table. To view the first and last rows, and row count of a DataFrame, just type its name:

Traducción:

Esto crea un [DataFrame](https://pandas.pydata.org/docs/user_guide/10min.html), que es una tabla de columnas con nombre, un poco como una tabla de base de datos. Para ver la primera y la última fila, y el recuento de filas de un DataFrame, simplemente escriba su nombre:

In [None]:
df

It's important to carefully read the [dataset description](https://www.kaggle.com/competitions/us-patent-phrase-to-phrase-matching/data) to understand how each of these columns is used.

One of the most useful features of `DataFrame` is the `describe()` method:

In [None]:
df.describe(include='object')

We can see that in the 36473 rows, there are 733 unique anchors, 106 contexts, and nearly 30000 targets. Some anchors are very common, with "component composite coating" for instance appearing 152 times.

Earlier, I suggested we could represent the input to the model as something like "*TEXT1: abatement; TEXT2: eliminating process*". We'll need to add the context to this too. In Pandas, we just use `+` to concatenate, like so:

Traducción:

Podemos ver que en las 36473 filas, hay 733 anclajes únicos, 106 contextos y casi 30000 objetivos. Algunos anclajes son muy comunes; por ejemplo, el "revestimiento compuesto de componentes" aparece 152 veces.

Anteriormente, sugerí que podríamos representar la entrada al modelo como algo así como "*TEXTO1: reducción; TEXTO2: proceso de eliminación*". También necesitaremos agregar el contexto a esto. En Pandas, simplemente usamos `+` para concatenar, así:

In [None]:
df['input'] = 'TEXT1: ' + df.context + '; TEXT2: ' + df.target + '; ANC1: ' + df.anchor

<span style="color:blue">**Why do we concatenate the `input` from multiple columns with headers?**</span>
* Otherwise, it would not know where the `context` ended and `target` started. Likewise, it would also not know where the `target` ended and `anchor` started
* Instead of `TEXTX`, we could have also used other delimiters to help NN differentiate them.

<span style="color:blue">**¿Por qué concatenamos la `entrada` de varias columnas con encabezados?**</span>
* De lo contrario, no sabría dónde termina el "contexto" y dónde comienza el "objetivo". Del mismo modo, tampoco sabría dónde termina el "objetivo" y comienza el "ancla".
* En lugar de `TEXTX`, también podríamos haber usado otros delimitadores para ayudar a NN a diferenciarlos.

We can refer to a column (also known as a *series*) either using regular python "dotted" notation, or access it like a dictionary. To get the first few rows, use `head()`:

Podemos referirnos a una columna (también conocida como *serie*) ya sea usando la notación "punteada" normal de Python o accediendo a ella como un diccionario. Para obtener las primeras filas, use `head()`:

In [None]:
df.input.head()

In [None]:
df.input.iloc[0]

## Tokenization

Transformers uses a `Dataset` object for storing a... well a dataset, of course! We can create one like so:

Transformers usa un objeto `Dataset` para almacenar un... bueno, un conjunto de datos, ¡por supuesto! Podemos crear uno así

In [None]:
from datasets import Dataset,DatasetDict # From Hugging Face, and is different from fastai datasets

ds = Dataset.from_pandas(df)

Here's how it's displayed in a notebook:

In [None]:
ds

In [None]:
print(dir(ds))

In [None]:
ds.shape

In [None]:
ds.info

But <span  style="color:red">we can't pass the texts directly into a model</span>. **A deep learning model expects numbers as inputs, not English sentences**! So we need to do two things:

- <span style="color:blue"><b>*Tokenization*:</b> Split each text up into words (or actually, as we'll see, into *tokens*)</span>
- <span style="color:blue"><b>*Numericalization*</b>: Convert each word (or token) into a number.</span>

**The details about how this is done actually depend on the particular model we use**. So first we'll need to pick a model. <span style="color:blue">There are thousands of models available, but a reasonable starting point for nearly any NLP problem is to use this (replace "small" with "large" for a slower but more accurate model, once you've finished exploring)</span>:

Pero <span style="color:red">no podemos pasar los textos directamente a un modelo</span>. **¡Un modelo de aprendizaje profundo espera números como entradas, no oraciones en inglés**! Entonces necesitamos hacer dos cosas:

- <span style="color:blue"><b>*Tokenización*:</b> Divide cada texto en palabras (o en realidad, como veremos, en *tokens*)</span>
- <span style="color:blue"><b>*Numericalización*</b>: convierte cada palabra (o token) en un número.</span>

**Los detalles sobre cómo se hace esto en realidad dependen del modelo particular que usemos**. Entonces, primero tendremos que elegir un modelo. <span style="color:blue">Hay miles de modelos disponibles, pero un punto de partida razonable para casi cualquier problema de PNL es utilizar este (reemplace "pequeño" por "grande" para obtener un modelo más lento pero más preciso, una vez que He terminado de explorar)</span>:



Hugging face has 1000s of pretrained models. Even for patents, there are 150 models (https://huggingface.co/models?sort=downloads&search=patent) as of Jun 2023. So, we can even quickly start with pretrained models.

However, we will use a generic model `microsoft/deberta-v2-small` ([link](https://huggingface.co/models?sort=downloads&search=deberta-v3-small)), which are generally good for broad range of things.

In [None]:
model_nm = 'microsoft/deberta-v3-small'

`AutoTokenizer` will create a tokenizer appropriate for a given model:
- To tell Transformers that we want to tokenize the same way that people built the model did



`AutoTokenizer` creará un tokenizador apropiado para un modelo determinado:
- Para decirle a Transformers que queremos tokenizar de la misma manera que la gente construyó el modelo.

In [None]:
from transformers import AutoModelForSequenceClassification,AutoTokenizer
tokz = AutoTokenizer.from_pretrained(model_nm)

Here's an example of how the <span style="color:blue">tokenizer splits a text into "tokens" (which are like words, but can be sub-word pieces)</span>, as you see below:
- Kind of putting into words, kind of not
- e.g.,
    - `G'day` - 3 tokens
    - `I'm` - 3 tokens

A continuación se muestra un ejemplo de cómo el <span style="color:blue">tokenizador divide un texto en "tokens" (que son como palabras, pero pueden ser partes de subpalabras)</span>, como se ve a continuación:
- Más o menos expresado en palabras, más o menos no.
- e.g.,
    - `G'day` - 3 tokens
    - `I'm` - 3 tokens

In [None]:
tokz.tokenize("G'day folks, I'm Jeremy from fast.ai!")

Uncommon words will be split into pieces. <span style="color:blue">The start of a new word is represented by `▁`:</span>

Las palabras poco comunes se dividirán en pedazos. <span style="color:blue">El comienzo de una nueva palabra está representado por `_`:</span>

In [None]:
tokz.tokenize("A platypus is an ornithorhynchus anatinus.")

Here's a simple function which tokenizes our inputs:

In [None]:
def tok_func(x): return tokz(x["input"])

To run this quickly in parallel on every row in our dataset, use `map`:

Para ejecutar esto rápidamente en paralelo en cada fila de nuestro conjunto de datos, use `map`:

In [None]:
tok_ds = ds.map(tok_func, batched=True)

This adds a new item to our dataset called `input_ids`. For instance, here is the input and IDs for the first row of our data:

Esto agrega un nuevo elemento a nuestro conjunto de datos llamado `input_ids`. Por ejemplo, aquí están la entrada y los ID de la primera fila de nuestros datos:

In [None]:
print (ds.shape)
ds

In [None]:
print (tok_ds.shape)
tok_ds

In [None]:
row = tok_ds[0]
row['input'], row['input_ids']

In [None]:
for x,y in row.items():
    print (f"row[{x:>20s}]: {y}")
print ("-"*20)
print (len(row["input_ids"]), len(row["token_type_ids"]), len(row["attention_mask"]))

In [None]:
tokz.tokenize(row["input"]), len(tokz.tokenize(row["input"]))

So, what are those IDs and where do they come from? The secret is that there's a list called `vocab` in the tokenizer which contains a unique integer for every possible token string. We can look them up like this, for instance to find the token for the word "of":

Entonces, ¿qué son esas identificaciones y de dónde vienen? El secreto es que hay una lista llamada "vocab" en el tokenizador que contiene un número entero único para cada cadena de token posible. Podemos buscarlos así, por ejemplo para encontrar el token de la palabra "of":

In [None]:
tokz.vocab['▁of'], tokz.vocab['▁TEXT']

Looking above at our input IDs, we do indeed see that `265` appears as expected.

Finally, we need to prepare our labels. **Transformers always assumes that your labels has the column name `labels`**, but in our dataset it's currently `score`. Therefore, we need to rename it:

Al mirar arriba nuestros ID de entrada, vemos que "265" aparece como se esperaba.

Finalmente, necesitamos preparar nuestras etiquetas. **Transformers siempre asume que sus etiquetas tienen el nombre de columna "labels" **, pero en nuestro conjunto de datos actualmente es "score". Por lo tanto, debemos cambiarle el nombre:

In [None]:
tok_ds = tok_ds.rename_columns({'score':'labels'})

Now that we've prepared our tokens and labels, we need to create our validation set.

## Test and validation sets

You may have noticed that our directory contained another file:

In [None]:
eval_df = pd.read_csv(path/'test.csv')
eval_df.describe()

This is the *test set*. Possibly the most important idea in machine learning is that of having separate training, validation, and test data sets.

Este es el *conjunto de prueba*. Posiblemente la idea más importante en el aprendizaje automático es la de tener conjuntos de datos de prueba, validación y entrenamiento separados.

### Validation set

To explain the motivation, let's start simple, and imagine we're trying to fit a model where the true relationship is this quadratic:

Para explicar la motivación, comencemos de manera simple e imaginemos que estamos tratando de ajustar un modelo donde la verdadera relación es esta cuadrática:

In [None]:
def f(x): return -3*x**2 + 2*x + 20

Unfortunately matplotlib (the most common library for plotting in Python) doesn't come with a way to visualize a function, so we'll write something to do this ourselves:

Desafortunadamente, matplotlib (la biblioteca más común para trazar en Python) no viene con una forma de visualizar una función, por lo que escribiremos algo para hacerlo nosotros mismos:

In [None]:
import numpy as np, matplotlib.pyplot as plt

def plot_function(f, min=-2.1, max=2.1, color='r'):
    x = np.linspace(min,max, 100)[:,None]
    plt.plot(x, f(x), color)

Here's what our function looks like:

In [None]:
plot_function(f)

For instance, perhaps we've measured the height above ground of an object before and after some event. The measurements will have some random error. We can use numpy's random number generator to simulate that. I like to use `seed` when writing about simulations like this so that I know you'll see the same thing I do:

Por ejemplo, quizás hayamos medido la altura sobre el suelo de un objeto antes y después de algún evento. Las medidas tendrán algún error aleatorio. Podemos usar el generador de números aleatorios de numpy para simular eso. Me gusta usar "semilla" cuando escribo sobre simulaciones como esta para saber que verás lo mismo que yo:

In [None]:
from numpy.random import normal,seed,uniform
np.random.seed(42)

Here's a function `add_noise` that adds some random variation to an array:

Aquí hay una función `add_noise` que agrega alguna variación aleatoria a una matriz:

In [None]:
def noise(x, scale): return normal(scale=scale, size=x.shape)
def add_noise(x, mult, add): return x * (1+noise(x,mult)) + noise(x,add)

Let's use it to simulate some measurements evenly distributed over time:

Usémoslo para simular algunas medidas distribuidas uniformemente en el tiempo:

In [None]:
x = np.linspace(-2, 2, num=20)[:,None]
y = add_noise(f(x), 0.2, 1.3)
plt.scatter(x,y);

Now <b>let's see what happens if we *underfit* or *overfit* these predictions</b>. To do that, we'll create a function that fits a polynomial of some degree (e.g. a line is degree 1, quadratic is degree 2, cubic is degree 3, etc). The details of how this function works don't matter too much so feel free to skip over it if you like!  (PS: if you're not sure about the jargon around polynomials, here's a [great video](https://www.youtube.com/watch?v=ffLLmV4mZwU) which teaches you what you'll need to know.)

Ahora <b>veamos qué sucede si *subajustamos* o *sobreajustamos* estas predicciones</b>. Para hacer eso, crearemos una función que se ajuste a un polinomio de algún grado (por ejemplo, una línea es de grado 1, una cuadrática es de grado 2, una cúbica es de grado 3, etc.). Los detalles de cómo funciona esta función no importan demasiado, así que siéntete libre de omitirlos si lo deseas. (PD: si no estás seguro de la jerga relacionada con los polinomios, aquí tienes un [excelente vídeo](https://www.youtube.com/watch?v=ffLLmV4mZwU) que te enseña lo que necesitas saber).

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

def plot_poly(degree):
    model = make_pipeline(PolynomialFeatures(degree), LinearRegression())
    model.fit(x, y)
    plt.scatter(x,y)
    plot_function(model.predict)

So, what happens if we fit a line (a "degree 1 polynomial") to our measurements?

In [None]:
plot_poly(1)

As you see, <span style="color:red">the points on the red line (the line we fitted) aren't very close at all. This is <b>*under-fit* -- there's not enough detail in our function to match our data.</b></span>

And what happens if we fit a degree 10 polynomial to our measurements?

Como puedes ver, <span style="color:red">los puntos en la línea roja (la línea que ajustamos) no están muy cerca. Esto es <b>*under-fit*: no hay suficientes detalles en nuestra función para coincidir con nuestros datos.</b></span>



In [None]:
plot_poly(10)

Well now it fits our data better, <span style="color:red">but it doesn't look like it'll do a great job predicting points other than those we measured -- especially those in earlier or later time periods. <b>This is *over-fit* -- there's too much detail such that the model fits our points, but not the underlying process we really care about.</b></span>

Let's try a degree 2 polynomial (a quadratic), and compare it to our "true" function (in blue):

Bueno, ahora se ajusta mejor a nuestros datos, <span style="color:red">pero no parece que vaya a hacer un gran trabajo al predecir puntos distintos a los que medimos, especialmente aquellos en períodos de tiempo anteriores o posteriores. <b>Esto es *sobreajuste*: hay demasiados detalles como para que el modelo se ajuste a nuestros puntos, pero no al proceso subyacente que realmente nos importa.</b></span>

Probemos con un polinomio de grado 2 (un cuadrático) y compárelo con nuestra función "verdadera" (en azul):

In [None]:
plot_poly(2)
plot_function(f, color='b')

That's not bad at all!

<span style="color:blue">So, how do we recognise whether our models are under-fit, over-fit, or "just right"? We use a <b>*validation set*</b>. This is a set of data that we "hold out" from training -- we don't let our model see it at all</span>. If you use the fastai library, it automatically creates a validation set for you if you don't have one, and will always report metrics (measurements of the accuracy of a model) using the validation set.

The validation set is *only* ever used to see how we're doing. It's *never* used as inputs to training the model.

Transformers uses a `DatasetDict` for holding your training and validation sets. To create one that contains 25% of our data for the validation set, and 75% for the training set, use `train_test_split`:

¡Eso no está nada mal!

<span style="color:blue">Entonces, ¿cómo reconocemos si nuestros modelos no están bien ajustados, demasiado ajustados o son "perfectos"? Usamos un <b>*conjunto de validación*</b>. Este es un conjunto de datos que "ocultamos" del entrenamiento; no dejamos que nuestro modelo los vea en absoluto</span>. Si usa la biblioteca fastai, crea automáticamente un conjunto de validación si no tiene uno, y siempre informará métricas (medidas de la precisión de un modelo) utilizando el conjunto de validación.

El conjunto de validación *sólo* se utiliza para ver cómo lo estamos haciendo. *Nunca* se utiliza como entrada para entrenar el modelo.

Transformers utiliza un `DatasetDict` para guardar sus conjuntos de entrenamiento y validación. Para crear uno que contenga el 25% de nuestros datos para el conjunto de validación y el 75% para el conjunto de entrenamiento, use `train_test_split`:

In [None]:
dds = tok_ds.train_test_split(0.25, seed=42)
dds

<b>As you see above, the validation set here is called `test` and not `validate`, so be careful!</b>

<span style="color:red">In practice, a random split like we've used here might not be a good idea</span> -- here's what Dr Rachel Thomas has to say about it:

> <i>"<span style="color:red">One of the most likely culprits for this disconnect between results in development vs results in production is a poorly chosen validation set (or even worse, no validation set at all)</span>. Depending on the nature of your data, choosing a validation set can be the most important step. <span style="color:red">Although sklearn offers a `train_test_split` method, this method takes a random subset of the data, which is a poor choice for many real-world problems.</span>"</i>

<b>I strongly recommend reading her article [How (and why) to create a good validation set](https://www.fast.ai/2017/11/13/validation-sets/) to more fully understand this critical topic.</b>

<b>Como puede ver arriba, la validación configurada aquí se llama `prueba` y no `validación`, ¡así que tenga cuidado!</b>

<span style="color:red">En la práctica, una división aleatoria como la que hemos usado aquí podría no ser una buena idea</span>. Esto es lo que la Dra. Rachel Thomas tiene que decir al respecto:

> <i>"<span style="color:red">Uno de los culpables más probables de esta desconexión entre los resultados en desarrollo y los resultados en producción es un conjunto de validación mal elegido (o peor aún, ningún conjunto de validación) </span>. Dependiendo de la naturaleza de sus datos, elegir un conjunto de validación puede ser el paso más importante. <span style="color:red">Aunque sklearn ofrece un método `train_test_split`, este método toma un subconjunto aleatorio de los datos, lo cual es una mala elección para muchos problemas del mundo real.</span>"</i>

<b>Recomiendo encarecidamente leer su artículo [Cómo (y por qué) crear un buen conjunto de validación](https://www.fast.ai/2017/11/13/validation-sets/) para comprender mejor esta cuestión crítica. tema.</b>

### Test set

So that's the validation set explained, and created. What about the "test set" then -- what's that for?

<span style="color:blue"><b>The *test set* is yet another dataset that's held out from training. But it's held out from reporting metrics too! The accuracy of your model on the test set is only ever checked after you've completed your entire training process, including trying different models, training methods, data processing, etc.</b></span>

You see, as you try all these different things, to see their impact on the metrics on the validation set, you might just accidentally find a few things that entirely coincidentally improve your validation set metrics, but aren't really better in practice. Given enough time and experiments, you'll find lots of these coincidental improvements. That means you're actually over-fitting to your validation set!

That's why we keep a test set held back. Kaggle's public leaderboard is like a test set that you can check from time to time. But don't check too often, or you'll be even over-fitting to the test set!

Kaggle has a *second* test set, which is yet another held-out dataset that's only used at the *end* of the competition to assess your predictions. That's called the "private leaderboard". Here's a [great post](https://gregpark.io/blog/Kaggle-Psychopathy-Postmortem/) about what can happen if you overfit to the public leaderboard.

<b>We'll use `eval` as our name for the test set, to avoid confusion with the `test` dataset that was created above.</b>

Así que ese es el conjunto de validación explicado y creado. ¿Qué pasa entonces con el "conjunto de prueba"? ¿Para qué sirve?

<span style="color:blue"><b>El *conjunto de prueba* es otro conjunto de datos que no se incluye en el entrenamiento. ¡Pero también queda fuera de las métricas de informes! La precisión de su modelo en el conjunto de prueba solo se verifica después de haber completado todo el proceso de capacitación, incluida la prueba de diferentes modelos, métodos de capacitación, procesamiento de datos, etc.</b></span>

Verá, a medida que prueba todas estas cosas diferentes, para ver su impacto en las métricas del conjunto de validación, es posible que accidentalmente encuentre algunas cosas que mejoren por coincidencia las métricas de su conjunto de validación, pero que en realidad no son mejores en la práctica. Con suficiente tiempo y experimentos, encontrará muchas de estas mejoras coincidentes. ¡Eso significa que en realidad te estás adaptando demasiado a tu conjunto de validación!

Por eso mantenemos un equipo de prueba retenido. La tabla de clasificación pública de Kaggle es como un conjunto de pruebas que puedes consultar de vez en cuando. ¡Pero no lo revises con demasiada frecuencia, o incluso te sobreajustarás al equipo de prueba!

Kaggle tiene un *segundo* conjunto de pruebas, que es otro conjunto de datos retenido que solo se utiliza al *final* de la competencia para evaluar sus predicciones. Eso se llama "clasificación privada". Aquí hay una [excelente publicación](https://gregpark.io/blog/Kaggle-Psychopathy-Postmortem/) sobre lo que puede suceder si sobrepasas la clasificación pública.

<b>Usaremos `eval` como nombre para el conjunto de prueba, para evitar confusiones con el conjunto de datos `test` que se creó anteriormente.</b>

In [None]:
eval_df['input'] = 'TEXT1: ' + eval_df.context + '; TEXT2: ' + eval_df.target + '; ANC1: ' + eval_df.anchor
eval_ds = Dataset.from_pandas(eval_df).map(tok_func, batched=True)

## Metrics and correlation

<span style="color:blue">When we're training a model, there will be one or more *metrics* that we're interested in maximising or minimising. These are the measurements that should, hopefully, represent how well our model will works for us.</span>

<span style="color:red">In real life, outside of Kaggle, things not easy... As my partner Dr Rachel Thomas notes in [The problem with metrics is a big problem for AI](https://www.fast.ai/2019/09/24/metrics/)</span>:

>  At their heart, what most current AI approaches do is to optimize metrics. The practice of optimizing metrics is not new nor unique to AI, yet AI can be particularly efficient (even too efficient!) at doing so. This is important to understand, <span style="color:red">because any risks of optimizing metrics are heightened by AI</span>. While metrics can be useful in their proper place, <span style="color:red">there are harms when they are unthinkingly applied. Some of the scariest instances of algorithms run amok all result from over-emphasizing metrics</span>. <span style="color:blue">We have to understand this dynamic in order to understand the urgent risks we are facing due to misuse of AI</span>.

In Kaggle, however, it's very straightforward to know what metric to use: Kaggle will tell you! According to this competition's [evaluation page](https://www.kaggle.com/competitions/us-patent-phrase-to-phrase-matching/overview/evaluation), "*submissions are evaluated on the [Pearson correlation coefficient](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient) between the predicted and actual similarity scores*." This coefficient is usually abbreviated using the single letter *r*. It is the most widely used measure of the degree of relationship between two variables.

r can vary between `-1`, which means perfect inverse correlation, and `+1`, which means perfect positive correlation. <span style="color:blue">The mathematical formula for it is much less important than <b>getting a good intuition</b> for what the different values look like</span>. To start to get that intuition, let's look at some examples using the [California Housing](https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset) dataset, which shows "*is the median house value for California districts, expressed in hundreds of thousands of dollars*". This dataset is provided by the excellent [scikit-learn](https://scikit-learn.org/stable/) library, which is the most widely used library for machine learning outside of deep learning.

<span style="color:blue">Cuando entrenamos un modelo, habrá una o más *métricas* que nos interesará maximizar o minimizar. Estas son las medidas que, con suerte, deberían representar qué tan bien funcionará nuestro modelo para nosotros.</span>

<span style="color:red">En la vida real, fuera de Kaggle, las cosas no son fáciles... Como señala mi socia, la Dra. Rachel Thomas, en [El problema con las métricas es un gran problema para la IA](https://www.fast.ai/2019/09/24/metrics/)</span>:

> En esencia, lo que hacen la mayoría de los enfoques actuales de IA es optimizar las métricas. La práctica de optimizar métricas no es nueva ni exclusiva de la IA, pero la IA puede ser particularmente eficiente (¡incluso demasiado eficiente!) al hacerlo. Es importante comprender esto, <span style="color:red">porque la IA aumenta los riesgos de optimizar las métricas</span>. Si bien las métricas pueden ser útiles en el lugar que les corresponde, <span style="color:red">hay daños cuando se aplican sin pensar. Algunos de los casos más aterradores de algoritmos que se vuelven locos son el resultado de poner demasiado énfasis en las métricas. <span style="color:blue">Tenemos que comprender esta dinámica para comprender los riesgos urgentes a los que nos enfrentamos debido al uso indebido de la IA</span>.

En Kaggle, sin embargo, es muy sencillo saber qué métrica usar: ¡Kaggle te lo dirá! Según la [página de evaluación] de este concurso (https://www.kaggle.com/competitions/us-patent-phrase-to-phrase-matching/overview/evaluación), "*las presentaciones se evalúan según el [coeficiente de correlación de Pearson] (https://en.wikipedia.org/wiki/Pearson_correlation_coficient) entre las puntuaciones de similitud previstas y reales*." Este coeficiente suele abreviarse utilizando la letra *r*. Es la medida más utilizada del grado de relación entre dos variables.

r puede variar entre "-1", que significa correlación inversa perfecta, y "+1", que significa correlación positiva perfecta. <span style="color:blue">La fórmula matemática es mucho menos importante que <b>tener una buena intuición</b> de cómo se ven los diferentes valores</span>. Para comenzar a tener esa intuición, veamos algunos ejemplos usando el conjunto de datos [California Housing](https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset), que muestra "*is el valor medio de una vivienda en los distritos de California, expresado en cientos de miles de dólares*". Este conjunto de datos lo proporciona la excelente biblioteca [scikit-learn](https://scikit-learn.org/stable/), que es la biblioteca más utilizada para el aprendizaje automático fuera del aprendizaje profundo.

<span style="color:blue"><b>Whatever we observe with 1000 random points will be the same with 1 million points. So, no need to plot the entire data for visualization</b></span>.

<span style="color:blue"><b>Lo que observemos con 1000 puntos aleatorios será lo mismo con 1 millón de puntos. Por lo tanto, no es necesario trazar todos los datos para su visualización</b></span>.

In [None]:
# Each row is a demographic info about different district and median house value
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing(as_frame=True)
housing = housing['data'].join(housing['target']).sample(1000, random_state=52)
housing.head()

We can see all the correlation coefficients for every combination of columns in this dataset by calling `np.corrcoef`:

Podemos ver todos los coeficientes de correlación para cada combinación de columnas en este conjunto de datos llamando a `np.corrcoef`:

In [None]:
np.set_printoptions(precision=2, suppress=True)

np.corrcoef(housing, rowvar=False)

This works well when we're getting a bunch of values at once, but it's overkill when we want a single coefficient:

Esto funciona bien cuando obtenemos varios valores a la vez, pero es excesivo cuando queremos un solo coeficiente:

In [None]:
np.corrcoef(housing.MedInc, housing.MedHouseVal)

Therefore, we'll create this little function to just return the single number we need given a pair of variables:

Por lo tanto, crearemos esta pequeña función para devolver simplemente el número que necesitamos dado un par de variables:

In [None]:
def corr(x,y): return np.corrcoef(x,y)[0][1]

corr(housing.MedInc, housing.MedHouseVal)

Now we'll look at a few examples of correlations, using this function (the details of the function don't matter too much):

Ahora veremos algunos ejemplos de correlaciones usando esta función (los detalles de la función no importan demasiado):

In [None]:
def show_corr(df, a, b):
    x,y = df[a],df[b]
    plt.scatter(x,y, alpha=0.5, s=4)
    plt.title(f'{a} vs {b}; r: {corr(x, y):.2f}')

OK, let's check out the correlation between income and house value:

Bien, veamos la correlación entre los ingresos y el valor de la vivienda:

In [None]:
show_corr(housing, 'MedInc', 'MedHouseVal')

So that's what a correlation of 0.68 looks like. It's quite a close relationship, but there's still a lot of variation. (Incidentally, <span style="color:blue">this also shows why looking at your data is so important -- <span style="color:red">we can see clearly in this plot that house prices above $500,000 seem to have been truncated to that maximum value)</span></span>.

Let's take a look at another pair:

Así es como se ve una correlación de 0,68. Es una relación bastante estrecha, pero todavía hay mucha variación. (Por cierto, <span style="color:blue">esto también muestra por qué es tan importante mirar sus datos: <span style="color:red">podemos ver claramente en este gráfico que los precios de las viviendas por encima de $500,000 parecen se han truncado a ese valor máximo)</span></span>.

Echemos un vistazo a otro par:

In [None]:
show_corr(housing, 'MedInc', 'AveRooms')

The relationship looks like it is similarly close to the previous example, but <span style="color:blue">r is much lower than the income vs valuation case. Why is that? The reason is that there are a <b>lot of *outliers* -- values of `AveRooms` well outside the mean</b>.</span>

<span style="color:red">r is very sensitive to outliers. <b>If there's outliers in your data, then the relationship between them will dominate the metric</b>. In this case, the houses with a very high number of rooms don't tend to be that valuable, so it's decreasing r from where it would otherwise be.</span>

<span style="color:blue"><b>Let's remove the outliers</b> and try again:</span>

***Note***
- <span style="color:blue">Removing the outliers in practice may not be the best way to approach it</span>
    - <span style="color:blue">Never delete an outlier without investigating where/why they come from</span>
- <span style="color:blue">Rather, clearly from looking at this dataset, these 2 different groups cannot be treated the same way. Probably, we split them into two separate analysis. The concept of outlier exists in statistical sense, but may not be in real sense.</span>

La relación parece similar al ejemplo anterior, pero <span style="color:blue">r es mucho menor que en el caso de ingresos versus valoración. ¿Porqué es eso? La razón es que hay <b>muchos *valores atípicos*: valores de `AveRooms` muy fuera de la media</b>.</span>

<span style="color:red">r es muy sensible a los valores atípicos. <b>Si hay valores atípicos en sus datos, la relación entre ellos dominará la métrica</b>. En este caso, las casas con un número muy elevado de habitaciones no suelen ser tan valiosas, por lo que r está disminuyendo desde donde sería de otro modo.</span>

<span style="color:blue"><b>Eliminemos los valores atípicos</b> e intentemos de nuevo:</span>

***Nota***
- <span style="color:blue">Eliminar los valores atípicos en la práctica puede no ser la mejor manera de abordarlo</span>
    - <span style="color:blue">Nunca elimines un valor atípico sin investigar de dónde y por qué proviene</span>
- <span style="color:blue">Más bien, claramente al observar este conjunto de datos, estos 2 grupos diferentes no pueden tratarse de la misma manera. Probablemente los dividimos en dos análisis separados. El concepto de valor atípico existe en un sentido estadístico, pero puede no existir en un sentido real.</span>

In [None]:
subset = housing[housing.AveRooms<15]
show_corr(subset, 'MedInc', 'AveRooms')

As we expected, now the correlation is very similar to our first comparison. <span style="color:blue">Just by removing the outliers (few data points), our r went up from 0.43 to 0.68.

Here's another relationship using `AveRooms` on the subset:

Como esperábamos, ahora la correlación es muy similar a nuestra primera comparación. <span style="color:blue">Con solo eliminar los valores atípicos (algunos puntos de datos), nuestra r aumentó de 0,43 a 0,68.

Aquí hay otra relación que usa `AveRooms` en el subconjunto:

In [None]:
show_corr(subset, 'MedHouseVal', 'AveRooms')

At this level, with r of 0.34, the relationship is becoming quite weak.

Let's look at one more:

En este nivel, con r de 0,34, la relación se está volviendo bastante débil.

Veamos uno más:

In [None]:
show_corr(subset, 'HouseAge', 'AveRooms')

As you see here, a correlation of -0.2 shows a very weak negative trend.

We've seen now examples of a variety of levels of correlation coefficient, so hopefully you're getting a good sense of what this metric means.

<b>Transformers (in hugging face) expects metrics to be returned as a `dict`, since that way the trainer knows what label to use</b>, so let's create a function to do that:



Como puede ver aquí, una correlación de -0,2 muestra una tendencia negativa muy débil.

Hemos visto ejemplos de una variedad de niveles de coeficiente de correlación, por lo que esperamos que tenga una buena idea de lo que significa esta métrica.

<b>Transformers (en hugging face) espera que las métricas se devuelvan como un `dict`, ya que de esa manera el entrenador sabe qué etiqueta usar</b>, así que creemos una función para hacer eso:

In [None]:
def corr_d(eval_pred): return {'pearson': corr(*eval_pred)}

## Training

## Training our model

To train a model in Transformers we'll need this:

In [None]:
from transformers import TrainingArguments,Trainer

We pick a batch size that fits our GPU, and small number of epochs so we can run experiments quickly:

In general, larger batch size means faster computations, but also would need larger GPU memory

Elegimos un tamaño de lote que se ajuste a nuestra GPU y una pequeña cantidad de épocas para poder ejecutar experimentos rápidamente:

En general, un tamaño de lote mayor significa cálculos más rápidos, pero también necesitaría mayor memoria de GPU.

In [None]:
bs = 128
epochs = 4

<span style="color:blue">The most important hyperparameter is the <b>learning rate</b></span>. fastai provides a learning rate finder to help you figure this out, but Transformers doesn't, so you'll just have to use trial and error. <span style="color:blue">The idea is to find the largest value you can (start with some small value, and keep doubling it), but which doesn't result in training failing.</span>

<span style="color:blue">El hiperparámetro más importante es la <b>tasa de aprendizaje</b></span>. fastai proporciona un buscador de tasas de aprendizaje para ayudarte a resolver esto, pero Transformers no, por lo que solo tendrás que usar prueba y error. <span style="color:blue">La idea es encontrar el valor más grande que puedas (comienza con un valor pequeño y sigue duplicándolo), pero que no resulte en que el entrenamiento falle.</span>

In [None]:
lr = 8e-5

Transformers uses the `TrainingArguments` class to set up arguments. Don't worry too much about the values we're using here -- they should generally work fine in most cases. It's just the 3 parameters above that you may need to change for different models.

Transformers usa la clase `TrainingArguments` para configurar argumentos. No se preocupe demasiado por los valores que estamos usando aquí; generalmente deberían funcionar bien en la mayoría de los casos. Es posible que deba cambiar solo los 3 parámetros anteriores para diferentes modelos.

In [None]:
args = TrainingArguments('outputs', learning_rate=lr, warmup_ratio=0.1, lr_scheduler_type='cosine', fp16=True,
    evaluation_strategy="epoch", per_device_train_batch_size=bs, per_device_eval_batch_size=bs*2,
    num_train_epochs=epochs, weight_decay=0.01, report_to='none')

We can now create our model, and `Trainer`, which is a class which combines the data and model together (just like `Learner` in fastai):

Ahora podemos crear nuestro modelo y "Entrenador", que es una clase que combina los datos y el modelo (al igual que "Aprendiz" en fastai):

In [None]:
print (model_nm)

We are trying to do classification of sequences. Using `AutoModelForSequenceClassification` will help us to create classification that's appropriate for sequences.

Estamos intentando hacer una clasificación de secuencias. Usar `AutoModelForSequenceClassification` nos ayudará a crear una clasificación apropiada para secuencias.

In [None]:
model = AutoModelForSequenceClassification.from_pretrained(model_nm, num_labels=1)
trainer = Trainer(model, args, train_dataset=dds['train'], eval_dataset=dds['test'],
                  tokenizer=tokz, compute_metrics=corr_d)

As you see, Transformers spits out lots of warnings. You can safely ignore them.

Let's train our model!

Como puede ver, Transformers lanza muchas advertencias. Puedes ignorarlos con seguridad.

¡Entrenemos a nuestro modelo!

In [None]:
trainer.train();

Lots more warning from Transformers again -- you can ignore these as before.

The key thing to <b>look at is the "Pearson" value in table above. As you see, it's increasing, and is already above 0.8. That's great news!</b> We can now submit our predictions to Kaggle if we want them to be scored on the official leaderboard. Let's get some predictions on the test set:



Muchas más advertencias de Transformers nuevamente: puedes ignorarlas como antes.

La clave a tener en cuenta es el valor "Pearson" en la tabla anterior. Como veis, está aumentando y ya está por encima de 0,8. ¡Es una gran noticia!</b> Ahora podemos enviar nuestras predicciones a Kaggle si queremos que se puntúen en la clasificación oficial. Consigamos algunas predicciones sobre el conjunto de prueba:

In [None]:
print (eval_ds.shape)

In [None]:
preds = trainer.predict(eval_ds).predictions.astype(float)
preds

<span style="color:red">Look out - some of our predictions are <0, or >1! </span><span style="color:blue">This once again shows the value of remember to <b>actually *look* at your data</b>. Let's fix those out-of-bounds predictions:</span>

<span style="color:red">Cuidado: ¡algunas de nuestras predicciones son <0 o >1! </span><span style="color:blue">Esto muestra una vez más el valor de recordar <b>realmente *mira* tus datos</b>. Arreglemos esas predicciones fuera de límites:</span>

In [None]:
preds = np.clip(preds, 0, 1) # However, there are better ways to do it than "clip"

Besides, we should have predicted categories instead of a continuous value, which was the requirement for the competition. This can be achieved using `sigmoid` function and few other techniques which will be covered in the following modules

Además, deberíamos haber predicho categorías en lugar de un valor continuo, que era el requisito para la competición. Esto se puede lograr usando la función "sigmoidea" y algunas otras técnicas que se cubrirán en los siguientes módulos.

In [None]:
preds

OK, now we're ready to create our submission file. If you save a CSV in your notebook, you will get the option to submit it later.

Bien, ahora estamos listos para crear nuestro archivo de envío. Si guarda un CSV en su cuaderno, tendrá la opción de enviarlo más tarde.



In [None]:
import datasets

submission = datasets.Dataset.from_dict({
    'id': eval_ds['id'],
    'score': preds
})

submission.to_csv('submission.csv', index=False)

Unfortunately this is a *code competition* and internet access is disabled. That means the `pip install datasets` command we used above won't work if you want to submit to Kaggle. To fix this, you'll need to download the pip installers to Kaggle first, as [described here](https://www.kaggle.com/c/severstal-steel-defect-detection/discussion/113195). Once you've done that, disable internet in your notebook, go to the Kaggle leaderboards page, and click the *Submission* button.

Lamentablemente, esta es una *competencia de códigos* y el acceso a Internet está deshabilitado. Eso significa que el comando `pip install datasets` que usamos anteriormente no funcionará si desea enviarlo a Kaggle. Para solucionar este problema, primero deberá descargar los instaladores de pip en Kaggle, como [se describe aquí] (https://www.kaggle.com/c/severstal-steel-defect-detection/discussion/113195). Una vez que haya hecho eso, desactive Internet en su computadora portátil, vaya a la página de tablas de clasificación de Kaggle y haga clic en el botón *Enviar*

## The end

Once you're ready to go deeper, take a look at my [Iterate Like a Grandmaster](https://www.kaggle.com/code/jhoward/iterate-like-a-grandmaster/) notebook.

Thanks for reading! This has been a bit of an experiment for me -- I've never done an "absolute beginners" guide before on Kaggle. I hope you like it! If you do, I'd greatly appreciate an upvote. Don't hesitate to add a comment if you have any questions or thoughts to add.

Una vez que esté listo para profundizar, eche un vistazo a mi cuaderno [Iterar como un gran maestro](https://www.kaggle.com/code/jhoward/iterate-like-a-grandmaster/).

¡Gracias por leer! Esto ha sido una especie de experimento para mí: nunca antes había hecho una guía para "principiantes absolutos" en Kaggle. ¡Espero que te guste! Si es así, agradecería mucho un voto a favor. No dude en agregar un comentario si tiene alguna pregunta o idea que agregar.

# Further readups and clarifications
## Readups and Practicies
- Once you're ready to go deeper, take a look at my [Iterate Like a Grandmaster](https://www.kaggle.com/code/jhoward/iterate-like-a-grandmaster/) notebook.
- [Researching public comments for FCC Proceeding 17-108 (Net Neutrality Repeal)](https://github.com/j2kao/fcc_nn_research) notebook and data.
- [How (and why) to create a good validation set](https://www.fast.ai/posts/2017-11-13-validation-sets.html)
- [The problem with metrics is a big problem for AI](https://www.fast.ai/posts/2019-09-24-metrics.html)
- [The dangers of overfitting: a Kaggle postmortem](https://gregpark.io/blog/Kaggle-Psychopathy-Postmortem/)

## Clarifications
- What does `AutoModelForSequenceClassification` do?

# Más lecturas y aclaraciones.
## Lecturas y prácticas
- Una vez que estés listo para profundizar, echa un vistazo a mi cuaderno [Iterate Like a Grandmaster](https://www.kaggle.com/code/jhoward/iterate-like-a-grandmaster/).
- [Investigación de comentarios públicos para el Procedimiento 17-108 de la FCC (Derogación de la Neutralidad de la Red)](https://github.com/j2kao/fcc_nn_research) cuaderno y datos.
- [Cómo (y por qué) crear un buen conjunto de validación](https://www.fast.ai/posts/2017-11-13-validation-sets.html)
- [El problema de las métricas es un gran problema para la IA](https://www.fast.ai/posts/2019-09-24-metrics.html)
- [Los peligros del sobreajuste: una autopsia de Kaggle](https://gregpark.io/blog/Kaggle-Psychopathy-Postmortem/)

## Aclaraciones
- ¿Qué hace `AutoModelForSequenceClassification`?