In [None]:
#hide
!pip install -Uqq fastbook
import fastbook
fastbook.setup_book()

[K     |████████████████████████████████| 727kB 15.9MB/s 
[K     |████████████████████████████████| 51kB 6.9MB/s 
[K     |████████████████████████████████| 1.2MB 54.3MB/s 
[K     |████████████████████████████████| 194kB 51.8MB/s 
[K     |████████████████████████████████| 61kB 9.8MB/s 
[?25h

In [None]:
#hide
from fastbook import *

[[chapter_intro]]

# Your Deep Learning Journey

Здравствуйте, и спасибо за то, что позволили нам присоединиться к вам в вашем путешествии по глубокому обучению, как бы далеко вы ни зашли! В этой главе мы расскажем вам немного больше о том, чего ожидать от этой книги, познакомим с ключевыми концепциями глубокого обучения и обучим наши первые модели различным задачам. Неважно, имеете ли вы образование не в технической или математической сфере (хотя это нормально, если вы тоже!); мы написали эту книгу, чтобы сделать глубокое обучение доступным как можно большему количеству людей.

## Глубокое обучение для всех

A lot of people assume that you need all kinds of hard-to-find stuff to get great results with deep learning, but as you'll see in this book, those people are wrong. <<myths>> is a list of a few thing you *absolutely don't need* to do world-class deep learning.

```asciidoc
[[myths]]
.What you don't need to do deep learning
[options="header"]
|======
| Myth (don't need) | Truth
| Lots of math | Just high school math is sufficient
| Lots of data | We've seen record-breaking results with <50 items of data
| Lots of expensive computers | You can get what you need for state of the art work for free
|======
```

Deep learning is a computer technique to extract and transform data–-with use cases ranging from human speech recognition to animal imagery classification–-by using multiple layers of neural networks. Each of these layers takes its inputs from previous layers and progressively refines them. The layers are trained by algorithms that minimize their errors and improve their accuracy. In this way, the network learns to perform a specified task. We will discuss training algorithms in detail in the next section.

Deep learning has power, flexibility, and simplicity. That's why we believe it should be applied across many disciplines. These include the social and physical sciences, the arts, medicine, finance, scientific research, and many more. To give a personal example, despite having no background in medicine, Jeremy started Enlitic, a company that uses deep learning algorithms to diagnose illness and disease. Within months of starting the company, it was announced that its algorithm could identify malignant tumors [more accurately than radiologists](https://www.nytimes.com/2016/02/29/technology/the-promise-of-artificial-intelligence-unfolds-in-small-steps.html).

Here's a list of some of the thousands of tasks in different areas at which deep learning, or methods heavily using deep learning, is now the best in the world:

- Natural language processing (NLP):: Answering questions; speech recognition; summarizing documents; classifying documents; finding names, dates, etc. in documents; searching for articles mentioning a concept
- Computer vision:: Satellite and drone imagery interpretation (e.g., for disaster resilience); face recognition; image captioning; reading traffic signs; locating pedestrians and vehicles in autonomous vehicles
- Medicine:: Finding anomalies in radiology images, including CT, MRI, and X-ray images; counting features in pathology slides; measuring features in ultrasounds; diagnosing diabetic retinopathy
- Biology:: Folding proteins; classifying proteins; many genomics tasks, such as tumor-normal sequencing and classifying clinically actionable genetic mutations; cell classification; analyzing protein/protein interactions
- Image generation:: Colorizing images; increasing image resolution; removing noise from images; converting images to art in the style of famous artists
- Recommendation systems:: Web search; product recommendations; home page layout
- Playing games:: Chess, Go, most Atari video games, and many real-time strategy games
- Robotics:: Handling objects that are challenging to locate (e.g., transparent, shiny, lacking texture) or hard to pick up
- Other applications:: Financial and logistical forecasting, text to speech, and much more...

What is remarkable is that deep learning has such varied application yet nearly all of deep learning is based on a single type of model, the neural network.

But neural networks are not in fact completely new. In order to have a wider perspective on the field, it is worth it to start with a bit of history.

## Neural Networks: A Brief History

In 1943 Warren McCulloch, a neurophysiologist, and Walter Pitts, a logician, teamed up to develop a mathematical model of an artificial neuron. In their [paper](https://link.springer.com/article/10.1007/BF02478259) "A Logical Calculus of the Ideas Immanent in Nervous Activity" they declared that:

> : Because of the “all-or-none” character of nervous activity, neural events and the relations among them can be treated by means of propositional logic. It is found that the behavior of every net can be described in these terms.

McCulloch and Pitts realized that a simplified model of a real neuron could be represented using simple addition and thresholding, as shown in <<neuron>>. Pitts was self-taught, and by age 12, had received an offer to study at Cambridge University with the great Bertrand Russell. He did not take up this invitation, and indeed throughout his life did not accept any offers of advanced degrees or positions of authority. Most of his famous work was done while he was homeless. Despite his lack of an officially recognized position and increasing social isolation, his work with McCulloch was influential, and was taken up by a psychologist named Frank Rosenblatt.

<img alt="Natural and artificial neurons" width="500" caption="Natural and artificial neurons" src="https://github.com/fastai/fastbook/blob/master/images/chapter7_neuron.png?raw=1" id="neuron"/>

Rosenblatt further developed the artificial neuron to give it the ability to learn. Even more importantly, he worked on building the first device that actually used these principles, the Mark I Perceptron. In "The Design of an Intelligent Automaton" Rosenblatt wrote about this work: "We are now about to witness the birth of such a machine–-a machine capable of perceiving, recognizing and identifying its surroundings without any human training or control." The perceptron was built, and was able to successfully recognize simple shapes.

An MIT professor named Marvin Minsky (who was a grade behind Rosenblatt at the same high school!), along with Seymour Papert, wrote a book called _Perceptrons_ (MIT Press), about Rosenblatt's invention. They showed that a single layer of these devices was unable to learn some simple but critical mathematical functions (such as XOR). In the same book, they also showed that using multiple layers of the devices would allow these limitations to be addressed. Unfortunately, only the first of these insights was widely recognized. As a result, the global academic community nearly entirely gave up on neural networks for the next two decades.

Perhaps the most pivotal work in neural networks in the last 50 years was the multi-volume *Parallel Distributed Processing* (PDP) by David Rumelhart, James McClellan, and the PDP Research Group, released in 1986 by MIT Press. Chapter 1 lays out a similar hope to that shown by Rosenblatt:

> : People are smarter than today's computers because the brain employs a basic computational architecture that is more suited to deal with a central aspect of the natural information processing tasks that people are so good at. ...We will introduce a computational framework for modeling cognitive processes that seems… closer than other frameworks to the style of computation as it might be done by the brain.

The premise that PDP is using here is that traditional computer programs work very differently to brains, and that might be why computer programs had been (at that point) so bad at doing things that brains find easy (such as recognizing objects in pictures). The authors claimed that the PDP approach was "closer 
than other frameworks" to how the brain works, and therefore it might be better able to handle these kinds of tasks.

In fact, the approach laid out in PDP is very similar to the approach used in today's neural networks. The book defined parallel distributed processing as requiring:

1. A set of *processing units*
1. A *state of activation*
1. An *output function* for each unit 
1. A *pattern of connectivity* among units 
1. A *propagation rule* for propagating patterns of activities through the network of connectivities 
1. An *activation rule* for combining the inputs impinging on a unit with the current state of that unit to produce an output for the unit
1. A *learning rule* whereby patterns of connectivity are modified by experience 
1. An *environment* within which the system must operate

We will see in this book that modern neural networks handle each of these requirements.

In the 1980's most models were built with a second layer of neurons, thus avoiding the problem that had been identified by Minsky and Papert (this was their "pattern of connectivity among units," to use the framework above). And indeed, neural networks were widely used during the '80s and '90s for real, practical projects. However, again a misunderstanding of the theoretical issues held back the field. In theory, adding just one extra layer of neurons was enough to allow any mathematical function to be approximated with these neural networks, but in practice such networks were often too big and too slow to be useful.

Although researchers showed 30 years ago that to get practical good performance you need to use even more layers of neurons, it is only in the last decade that this principle has been more widely appreciated and applied. Neural networks are now finally living up to their potential, thanks to the use of more layers, coupled with the capacity to do so due to improvements in computer hardware, increases in data availability, and algorithmic tweaks that allow neural networks to be trained faster and more easily. We now have what Rosenblatt promised: "a machine capable of perceiving, recognizing, and identifying its surroundings without any human training or control."

This is what you will learn how to build in this book. But first, since we are going to be spending a lot of time together, let's get to know each other a bit… 

## Who We Are

We are Sylvain and Jeremy, your guides on this journey. We hope that you will find us well suited for this position.

Jeremy has been using and teaching machine learning for around 30 years. He started using neural networks 25 years ago. During this time, he has led many companies and projects that have machine learning at their core, including founding the first company to focus on deep learning and medicine, Enlitic, and taking on the role of President and Chief Scientist of the world's largest machine learning community, Kaggle. He is the co-founder, along with Dr. Rachel Thomas, of fast.ai, the organization that built the course this book is based on.

From time to time you will hear directly from us, in sidebars like this one from Jeremy:

> J: Hi everybody, I'm Jeremy! You might be interested to know that I do not have any formal technical education. I completed a BA, with a major in philosophy, and didn't have great grades. I was much more interested in doing real projects, rather than theoretical studies, so I worked full time at a management consulting firm called McKinsey and Company throughout my university years. If you're somebody who would rather get their hands dirty building stuff than spend years learning abstract concepts, then you will understand where I am coming from! Look out for sidebars from me to find information most suited to people with a less mathematical or formal technical background—that is, people like me…

Sylvain, on the other hand, knows a lot about formal technical education. In fact, he has written 10 math textbooks, covering the entire advanced French maths curriculum!

> S: Unlike Jeremy, I have not spent many years coding and applying machine learning algorithms. Rather, I recently came to the machine learning world, by watching Jeremy's fast.ai course videos. So, if you are somebody who has not opened a terminal and written commands at the command line, then you will understand where I am coming from! Look out for sidebars from me to find information most suited to people with a more mathematical or formal technical background, but less real-world coding experience—that is, people like me…

The fast.ai course has been studied by hundreds of thousands of students, from all walks of life, from all parts of the world. Sylvain stood out as the most impressive student of the course that Jeremy had ever seen, which led to him joining fast.ai, and then becoming the coauthor, along with Jeremy, of the fastai software library.

All this means that between us you have the best of both worlds: the people who know more about the software than anybody else, because they wrote it; an expert on math, and an expert on coding and machine learning; and also people who understand both what it feels like to be a relative outsider in math, and a relative outsider in coding and machine learning.

Anybody who has watched sports knows that if you have a two-person commentary team then you also need a third person to do "special comments." Our special commentator is Alexis Gallagher. Alexis has a very diverse background: he has been a researcher in mathematical biology, a screenplay writer, an improv performer, a McKinsey consultant (like Jeremy!), a Swift coder, and a CTO.

> A: I've decided it's time for me to learn about this AI stuff! After all, I've tried pretty much everything else… But I don't really have a background in building machine learning models. Still… how hard can it be? I'm going to be learning throughout this book, just like you are. Look out for my sidebars for learning tips that I found helpful on my journey, and hopefully you will find helpful too.

## How to Learn Deep Learning

Harvard professor David Perkins, who wrote _Making Learning Whole_ (Jossey-Bass), has much to say about teaching. The basic idea is to teach the *whole game*. That means that if you're teaching baseball, you first take people to a baseball game or get them to play it. You don't teach them how to wind twine to make a baseball from scratch, the physics of a parabola, or the coefficient of friction of a ball on a bat.

Paul Lockhart, a Columbia math PhD, former Brown professor, and K-12 math teacher, imagines in the influential [essay](https://www.maa.org/external_archive/devlin/LockhartsLament.pdf) "A Mathematician's Lament" a nightmare world where music and art are taught the way math is taught. Children are not allowed to listen to or play music until they have spent over a decade mastering music notation and theory, spending classes transposing sheet music into a different key. In art class, students study colors and applicators, but aren't allowed to actually paint until college. Sound absurd? This is how math is taught–-we require students to spend years doing rote memorization and learning dry, disconnected *fundamentals* that we claim will pay off later, long after most of them quit the subject.

Unfortunately, this is where many teaching resources on deep learning begin–-asking learners to follow along with the definition of the Hessian and theorems for the Taylor approximation of your loss functions, without ever giving examples of actual working code. We're not knocking calculus. We love calculus, and Sylvain has even taught it at the college level, but we don't think it's the best place to start when learning deep learning!

In deep learning, it really helps if you have the motivation to fix your model to get it to do better. That's when you start learning the relevant theory. But you need to have the model in the first place. We teach almost everything through real examples. As we build out those examples, we go deeper and deeper, and we'll show you how to make your projects better and better. This means that you'll be gradually learning all the theoretical foundations you need, in context, in such a way that you'll see why it matters and how it works.

So, here's our commitment to you. Throughout this book, we will follow these principles:

- Teaching the *whole game*. We'll start by showing how to use a complete, working, very usable, state-of-the-art deep learning network to solve real-world problems, using simple, expressive tools. And then we'll gradually dig deeper and deeper into understanding how those tools are made, and how the tools that make those tools are made, and so on…
- Always teaching through examples. We'll ensure that there is a context and a purpose that you can understand intuitively, rather than starting with algebraic symbol manipulation.
- Simplifying as much as possible. We've spent years building tools and teaching methods that make previously complex topics very simple.
- Removing barriers. Deep learning has, until now, been a very exclusive game. We're breaking it open, and ensuring that everyone can play.

The hardest part of deep learning is artisanal: how do you know if you've got enough data, whether it is in the right format, if your model is training properly, and, if it's not, what you should do about it? That is why we believe in learning by doing. As with basic data science skills, with deep learning you only get better through practical experience. Trying to spend too much time on the theory can be counterproductive. The key is to just code and try to solve problems: the theory can come later, when you have context and motivation.

There will be times when the journey will feel hard. Times where you feel stuck. Don't give up! Rewind through the book to find the last bit where you definitely weren't stuck, and then read slowly through from there to find the first thing that isn't clear. Then try some code experiments yourself, and Google around for more tutorials on whatever the issue you're stuck with is—often you'll find some different angle on the material might help it to click. Also, it's expected and normal to not understand everything (especially the code) on first reading. Trying to understand the material serially before proceeding can sometimes be hard. Sometimes things click into place after you get more context from parts down the road, from having a bigger picture. So if you do get stuck on a section, try moving on anyway and make a note to come back to it later.

Remember, you don't need any particular academic background to succeed at deep learning. Many important breakthroughs are made in research and industry by folks without a PhD, such as ["Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks"](https://arxiv.org/abs/1511.06434)—one of the most influential papers of the last decade—with over 5,000 citations, which was written by Alec Radford when he was an undergraduate. Even at Tesla, where they're trying to solve the extremely tough challenge of making a self-driving car, CEO [Elon Musk says](https://twitter.com/elonmusk/status/1224089444963311616):

> : A PhD is definitely not required. All that matters is a deep understanding of AI & ability to implement NNs in a way that is actually useful (latter point is what’s truly hard). Don’t care if you even graduated high school.

What you will need to do to succeed however is to apply what you learn in this book to a personal project, and always persevere.

### Your Projects and Your Mindset

Whether you're excited to identify if plants are diseased from pictures of their leaves, auto-generate knitting patterns, diagnose TB from X-rays, or determine when a raccoon is using your cat door, we will get you using deep learning on your own problems (via pre-trained models from others) as quickly as possible, and then will progressively drill into more details. You'll learn how to use deep learning to solve your own problems at state-of-the-art accuracy within the first 30 minutes of the next chapter! (And feel free to skip straight there now if you're dying to get coding right away.) There is a pernicious myth out there that you need to have computing resources and datasets the size of those at Google to be able to do deep learning, but it's not true.

So, what sorts of tasks make for good test cases? You could train your model to distinguish between Picasso and Monet paintings or to pick out pictures of your daughter instead of pictures of your son. It helps to focus on your hobbies and passions–-setting yourself four or five little projects rather than striving to solve a big, grand problem tends to work better when you're getting started. Since it is easy to get stuck, trying to be too ambitious too early can often backfire. Then, once you've got the basics mastered, aim to complete something you're really proud of!

> J: Deep learning can be set to work on almost any problem. For instance, my first startup was a company called FastMail, which provided enhanced email services when it launched in 1999 (and still does to this day). In 2002 I set it up to use a primitive form of deep learning, single-layer neural networks, to help categorize emails and stop customers from receiving spam.

Common character traits in the people that do well at deep learning include playfulness and curiosity. The late physicist Richard Feynman is an example of someone who we'd expect to be great at deep learning: his development of an understanding of the movement of subatomic particles came from his amusement at how plates wobble when they spin in the air.

Let's now focus on what you will learn, starting with the software.

## The Software: PyTorch, fastai, and Jupyter

(And Why It Doesn't Matter)

We've completed hundreds of machine learning projects using dozens of different packages, and many different programming languages. At fast.ai, we have written courses using most of the main deep learning and machine learning packages used today. After PyTorch came out in 2017 we spent over a thousand hours testing it before deciding that we would use it for future courses, software development, and research. Since that time PyTorch has become the world's fastest-growing deep learning library and is already used for most research papers at top conferences. This is generally a leading indicator of usage in industry, because these are the papers that end up getting used in products and services commercially. We have found that PyTorch is the most flexible and expressive library for deep learning. It does not trade off speed for simplicity, but provides both.

PyTorch works best as a low-level foundation library, providing the basic operations for higher-level functionality. The fastai library is the most popular library for adding this higher-level functionality on top of PyTorch. It's also particularly well suited to the purposes of this book, because it is unique in providing a deeply layered software architecture (there's even a [peer-reviewed academic paper](https://arxiv.org/abs/2002.04688) about this layered API). In this book, as we go deeper and deeper into the foundations of deep learning, we will also go deeper and deeper into the layers of fastai. This book covers version 2 of the fastai library, which is a from-scratch rewrite providing many unique features.

However, it doesn't really matter what software you learn, because it takes only a few days to learn to switch from one library to another. What really matters is learning the deep learning foundations and techniques properly. Our focus will be on using code that clearly expresses the concepts that you need to learn. Where we are teaching high-level concepts, we will use high-level fastai code. Where we are teaching low-level concepts, we will use low-level PyTorch, or even pure Python code.

If it feels like new deep learning libraries are appearing at a rapid pace nowadays, then you need to be prepared for a much faster rate of change in the coming months and years. As more people enter the field, they will bring more skills and ideas, and try more things. You should assume that whatever specific libraries and software you learn today will be obsolete in a year or two. Just think about the number of changes in libraries and technology stacks that occur all the time in the world of web programming—a much more mature and slow-growing area than deep learning. We strongly believe that the focus in learning needs to be on understanding the underlying techniques and how to apply them in practice, and how to quickly build expertise in new tools and techniques as they are released.

By the end of the book, you'll understand nearly all the code that's inside fastai (and much of PyTorch too), because in each chapter we'll be digging a level deeper to show you exactly what's going on as we build and train our models. This means that you'll have learned the most important best practices used in modern deep learning—not just how to use them, but how they really work and are implemented. If you want to use those approaches in another framework, you'll have the knowledge you need to do so if needed.

Since the most important thing for learning deep learning is writing code and experimenting, it's important that you have a great platform for experimenting with code. The most popular programming experimentation platform is called Jupyter. This is what we will be using throughout this book. We will show you how you can use Jupyter to train and experiment with models and introspect every stage of the data pre-processing and model development pipeline. [Jupyter Notebook](https://jupyter.org/) is the most popular tool for doing data science in Python, for good reason. It is powerful, flexible, and easy to use. We think you will love it!

Let's see it in practice and train our first model.

## Your First Model

As we said before, we will teach you how to do things before we explain why they work. Following this top-down approach, we will begin by actually training an image classifier to recognize dogs and cats with almost 100% accuracy. To train this model and run our experiments, you will need to do some initial setup. Don't worry, it's not as hard as it looks.

> s: Do not skip the setup part even if it looks intimidating at first, especially if you have little or no experience using things like a terminal or the command line. Most of that is actually not necessary and you will find that the easiest servers can be set up with just your usual web browser. It is crucial that you run your own experiments in parallel with this book in order to learn.

### Getting a GPU Deep Learning Server

To do nearly everything in this book, you'll need access to a computer with an NVIDIA GPU (unfortunately other brands of GPU are not fully supported by the main deep learning libraries). However, we don't recommend you buy one; in fact, even if you already have one, we don't suggest you use it just yet! Setting up a computer takes time and energy, and you want all your energy to focus on deep learning right now. Therefore, we instead suggest you rent access to a computer that already has everything you need preinstalled and ready to go. Costs can be as little as US$0.25 per hour while you're using it, and some options are even free.

> jargon: Graphics Processing Unit (GPU): Also known as a _graphics card_. A special kind of processor in your computer that can handle thousands of single tasks at the same time, especially designed for displaying 3D environments on a computer for playing games. These same basic tasks are very similar to what neural networks do, such that GPUs can run neural networks hundreds of times faster than regular CPUs. All modern computers contain a GPU, but few contain the right kind of GPU necessary for deep learning.

The best choice of GPU servers to use with this book will change over time, as companies come and go and prices change. We maintain a list of our recommended options on the [book's website](https://book.fast.ai/), so go there now and follow the instructions to get connected to a GPU deep learning server. Don't worry, it only takes about two minutes to get set up on most platforms, and many don't even require any payment, or even a credit card, to get started.

> A: My two cents: heed this advice! If you like computers you will be tempted to set up your own box. Beware! It is feasible but surprisingly involved and distracting. There is a good reason this book is not titled, _Everything You Ever Wanted to Know About Ubuntu System Administration, NVIDIA Driver Installation, apt-get, conda, pip, and Jupyter Notebook Configuration_. That would be a book of its own. Having designed and deployed our production machine learning infrastructure at work, I can testify it has its satisfactions, but it is as unrelated to modeling as maintaining an airplane is to flying one.

Each option shown on the website includes a tutorial; after completing the tutorial, you will end up with a screen looking like <<notebook_init>>.

<img alt="Initial view of Jupyter Notebook" width="658" caption="Initial view of Jupyter Notebook" id="notebook_init" src="https://github.com/fastai/fastbook/blob/master/images/att_00057.png?raw=1">

You are now ready to run your first Jupyter notebook!

> jargon: Jupyter Notebook: A piece of software that allows you to include formatted text, code, images, videos, and much more, all within a single interactive document. Jupyter received the highest honor for software, the ACM Software System Award, thanks to its wide use and enormous impact in many academic fields and in industry. Jupyter Notebook is the software most widely used by data scientists for developing and interacting with deep learning models.

### Running Your First Notebook

The notebooks are labeled by chapter and then by notebook number, so that they are in the same order as they are presented in this book. So, the very first notebook you will see listed is the notebook that you need to use now. You will be using this notebook to train a model that can recognize dog and cat photos. To do this, you'll be downloading a _dataset_ of dog and cat photos, and using that to _train a model_. A dataset is simply a bunch of data—it could be images, emails, financial indicators, sounds, or anything else. There are many datasets made freely available that are suitable for training models. Many of these datasets are created by academics to help advance research, many are made available for competitions (there are competitions where data scientists can compete to see who has the most accurate model!), and some are by-products of other processes (such as financial filings).

> note: Full and Stripped Notebooks: There are two folders containing different versions of the notebooks. The _full_ folder contains the exact notebooks used to create the book you're reading now, with all the prose and outputs. The _stripped_ version has the same headings and code cells, but all outputs and prose have been removed. After reading a section of the book, we recommend working through the stripped notebooks, with the book closed, and seeing if you can figure out what each cell will show before you execute it. Also try to recall what the code is demonstrating.

To open a notebook, just click on it. The notebook will open, and it will look something like <<jupyter>> (note that there may be slight differences in details across different platforms; you can ignore those differences).

<img alt="An example of notebook" width="700" caption="A Jupyter notebook" src="https://github.com/fastai/fastbook/blob/master/images/0_jupyter.png?raw=1" id="jupyter"/>

A notebook consists of _cells_. There are two main types of cell:

- Cells containing formatted text, images, and so forth. These use a format called *markdown*, which you will learn about soon.
- Cells containing code that can be executed, and outputs will appear immediately underneath (which could be plain text, tables, images, animations, sounds, or even interactive applications).

Jupyter notebooks can be in one of two modes: edit mode or command mode. In edit mode typing on your keyboard enters the letters into the cell in the usual way. However, in command mode, you will not see any flashing cursor, and the keys on your keyboard will each have a special function.

Before continuing, press the Escape key on your keyboard to switch to command mode (if you are already in command mode, this does nothing, so press it now just in case). To see a complete list of all of the functions available, press H; press Escape to remove this help screen. Notice that in command mode, unlike most programs, commands do not require you to hold down Control, Alt, or similar—you simply press the required letter key.

You can make a copy of a cell by pressing C (the cell needs to be selected first, indicated with an outline around it; if it is not already selected, click on it once). Then press V to paste a copy of it.

Click on the cell that begins with the line "# CLICK ME" to select it. The first character in that line indicates that what follows is a comment in Python, so it is ignored when executing the cell. The rest of the cell is, believe it or not, a complete system for creating and training a state-of-the-art model for recognizing cats versus dogs. So, let's train it now! To do so, just press Shift-Enter on your keyboard, or press the Play button on the toolbar. Then wait a few minutes while the following things happen:

1. A dataset called the [Oxford-IIIT Pet Dataset](http://www.robots.ox.ac.uk/~vgg/data/pets/) that contains 7,349 images of cats and dogs from 37 different breeds will be downloaded from the fast.ai datasets collection to the GPU server you are using, and will then be extracted.
2. A *pretrained model* that has already been trained on 1.3 million images, using a competition-winning model will be downloaded from the internet.
3. The pretrained model will be *fine-tuned* using the latest advances in transfer learning, to create a model that is specially customized for recognizing dogs and cats.

The first two steps only need to be run once on your GPU server. If you run the cell again, it will use the dataset and model that have already been downloaded, rather than downloading them again. Let's take a look at the contents of the cell, and the results (<<first_training>>):

In [None]:
#id first_training
#caption Results from the first training
# CLICK ME
from fastai.vision.all import *
path = untar_data(URLs.PETS)/'images'

def is_cat(x): return x[0].isupper()
dls = ImageDataLoaders.from_name_func(
    path, get_image_files(path), valid_pct=0.2, seed=42,
    label_func=is_cat, item_tfms=Resize(224))

learn = cnn_learner(dls, resnet34, metrics=error_rate)
learn.fine_tune(1)

You will probably not see exactly the same results that are in the book. There are a lot of sources of small random variation involved in training models. We generally see an error rate of well less than 0.02 in this example, however.

> important: Training Time: Depending on your network speed, it might take a few minutes to download the pretrained model and dataset. Running `fine_tune` might take a minute or so. Often models in this book take a few minutes to train, as will your own models, so it's a good idea to come up with good techniques to make the most of this time. For instance, keep reading the next section while your model trains, or open up another notebook and use it for some coding experiments.

### Sidebar: This Book Was Written in Jupyter Notebooks

We wrote this book using Jupyter notebooks, so for nearly every chart, table, and calculation in this book, we'll be showing you the exact code required to replicate it yourself. That's why very often in this book, you will see some code immediately followed by a table, a picture or just some text. If you go on the [book's website](https://book.fast.ai) you will find all the code, and you can try running and modifying every example yourself.

You just saw how a cell that outputs a table looks inside the book. Here is an example of a cell that outputs text:

In [None]:
1+1

Jupyter will always print or show the result of the last line (if there is one). For instance, here is an example of a cell that outputs an image:

In [None]:
img = PILImage.create(image_cat())
img.to_thumb(192)

### End sidebar

So, how do we know if this model is any good? In the last column of the table you can see the error rate, which is the proportion of images that were incorrectly identified. The error rate serves as our metric—our measure of model quality, chosen to be intuitive and comprehensible. As you can see, the model is nearly perfect, even though the training time was only a few seconds (not including the one-time downloading of the dataset and the pretrained model). In fact, the accuracy you've achieved already is far better than anybody had ever achieved just 10 years ago!

Finally, let's check that this model actually works. Go and get a photo of a dog, or a cat; if you don't have one handy, just search Google Images and download an image that you find there. Now execute the cell with `uploader` defined. It will output a button you can click, so you can select the image you want to classify:

In [None]:
#hide_output
uploader = widgets.FileUpload()
uploader

<img alt="An upload button" width="159" id="upload" src="https://github.com/fastai/fastbook/blob/master/images/att_00008.png?raw=1">

Now you can pass the uploaded file to the model. Make sure that it is a clear photo of a single dog or a cat, and not a line drawing, cartoon, or similar. The notebook will tell you whether it thinks it is a dog or a cat, and how confident it is. Hopefully, you'll find that your model did a great job:

In [None]:
#hide
# For the book, we can't actually click an upload button, so we fake it
uploader = SimpleNamespace(data = ['images/chapter1_cat_example.jpg'])

In [None]:
img = PILImage.create(uploader.data[0])
is_cat,_,probs = learn.predict(img)
print(f"Is this a cat?: {is_cat}.")
print(f"Probability it's a cat: {probs[1].item():.6f}")

Congratulations on your first classifier!

But what does this mean? What did you actually do? In order to explain this, let's zoom out again to take in the big picture. 

### What Is Machine Learning?

Your classifier is a deep learning model. As was already mentioned, deep learning models use neural networks, which originally date from the 1950s and have become powerful very recently thanks to recent advancements.

Another key piece of context is that deep learning is just a modern area in the more general discipline of *machine learning*. To understand the essence of what you did when you trained your own classification model, you don't need to understand deep learning. It is enough to see how your model and your training process are examples of the concepts that apply to machine learning in general.

So in this section, we will describe what machine learning is. We will look at the key concepts, and show how they can be traced back to the original essay that introduced them.

*Machine learning* is, like regular programming, a way to get computers to complete a specific task. But how would we use regular programming to do what we just did in the last section: recognize dogs versus cats in photos? We would have to write down for the computer the exact steps necessary to complete the task.

Normally, it's easy enough for us to write down the steps to complete a task when we're writing a program. We just think about the steps we'd take if we had to do the task by hand, and then we translate them into code. For instance, we can write a function that sorts a list. In general, we'd write a function that looks something like <<basic_program>> (where *inputs* might be an unsorted list, and *results* a sorted list).

In [None]:
#hide_input
#caption A traditional program
#id basic_program
#alt Pipeline inputs, program, results
gv('''program[shape=box3d width=1 height=0.7]
inputs->program->results''')

But for recognizing objects in a photo that's a bit tricky; what *are* the steps we take when we recognize an object in a picture? We really don't know, since it all happens in our brain without us being consciously aware of it!

Right back at the dawn of computing, in 1949, an IBM researcher named Arthur Samuel started working on a different way to get computers to complete tasks, which he called *machine learning*. In his classic 1962 essay "Artificial Intelligence: A Frontier of Automation", he wrote:

> : Programming a computer for such computations is, at best, a difficult task, not primarily because of any inherent complexity in the computer itself but, rather, because of the need to spell out every minute step of the process in the most exasperating detail. Computers, as any programmer will tell you, are giant morons, not giant brains.

His basic idea was this: instead of telling the computer the exact steps required to solve a problem, show it examples of the problem to solve, and let it figure out how to solve it itself. This turned out to be very effective: by 1961 his checkers-playing program had learned so much that it beat the Connecticut state champion! Here's how he described his idea (from the same essay as above):

> : Suppose we arrange for some automatic means of testing the effectiveness of any current weight assignment in terms of actual performance and provide a mechanism for altering the weight assignment so as to maximize the performance. We need not go into the details of such a procedure to see that it could be made entirely automatic and to see that a machine so programmed would "learn" from its experience.

There are a number of powerful concepts embedded in this short statement: 

- The idea of a "weight assignment" 
- The fact that every weight assignment has some "actual performance"
- The requirement that there be an "automatic means" of testing that performance,  
- The need for a "mechanism" (i.e., another automatic process) for improving the performance by changing the weight assignments

Let us take these concepts one by one, in order to understand how they fit together in practice. First, we need to understand what Samuel means by a *weight assignment*.

Weights are just variables, and a weight assignment is a particular choice of values for those variables. The program's inputs are values that it processes in order to produce its results—for instance, taking image pixels as inputs, and returning the classification "dog" as a result. The program's weight assignments are other values that define how the program will operate.

Since they will affect the program they are in a sense another kind of input, so we will update our basic picture in <<basic_program>> and replace it with <<weight_assignment>> in order to take this into account.

In [None]:
#hide_input
#caption A program using weight assignment
#id weight_assignment
gv('''model[shape=box3d width=1 height=0.7]
inputs->model->results; weights->model''')

We've changed the name of our box from *program* to *model*. This is to follow modern terminology and to reflect that the *model* is a special kind of program: it's one that can do *many different things*, depending on the *weights*. It can be implemented in many different ways. For instance, in Samuel's checkers program, different values of the weights would result in different checkers-playing strategies. 

(By the way, what Samuel called "weights" are most generally referred to as model *parameters* these days, in case you have encountered that term. The term *weights* is reserved for a particular type of model parameter.)

Next, Samuel said we need an *automatic means of testing the effectiveness of any current weight assignment in terms of actual performance*. In the case of his checkers program, the "actual performance" of a model would be how well it plays. And you could automatically test the performance of two models by setting them to play against each other, and seeing which one usually wins.

Finally, he says we need *a mechanism for altering the weight assignment so as to maximize the performance*. For instance, we could look at the difference in weights between the winning model and the losing model, and adjust the weights a little further in the winning direction.

We can now see why he said that such a procedure *could be made entirely automatic and... a machine so programmed would "learn" from its experience*. Learning would become entirely automatic when the adjustment of the weights was also automatic—when instead of us improving a model by adjusting its weights manually, we relied on an automated mechanism that produced adjustments based on performance.

<<training_loop>> shows the full picture of Samuel's idea of training a machine learning model.

In [None]:
#hide_input
#caption Training a machine learning model
#id training_loop
#alt The basic training loop
gv('''ordering=in
model[shape=box3d width=1 height=0.7]
inputs->model->results; weights->model; results->performance
performance->weights[constraint=false label=update]''')

Notice the distinction between the model's *results*  (e.g., the moves in a checkers game) and its *performance* (e.g., whether it wins the game, or how quickly it wins). 

Also note that once the model is trained—that is, once we've chosen our final, best, favorite weight assignment—then we can think of the weights as being *part of the model*, since we're not varying them any more.

Therefore, actually *using* a model after it's trained looks like <<using_model>>.

In [None]:
#hide_input
#caption Using a trained model as a program
#id using_model
gv('''model[shape=box3d width=1 height=0.7]
inputs->model->results''')

This looks identical to our original diagram in <<basic_program>>, just with the word *program* replaced with *model*. This is an important insight: *a trained model can be treated just like a regular computer program*.

> jargon: Machine Learning: The training of programs developed by allowing a computer to learn from its experience, rather than through manually coding the individual steps.

### What Is a Neural Network?

It's not too hard to imagine what the model might look like for a checkers program. There might be a range of checkers strategies encoded, and some kind of search mechanism, and then the weights could vary how strategies are selected, what parts of the board are focused on during a search, and so forth. But it's not at all obvious what the model might look like for an image recognition program, or for understanding text, or for many other interesting problems we might imagine.

What we would like is some kind of function that is so flexible that it could be used to solve any given problem, just by varying its weights. Amazingly enough, this function actually exists! It's the neural network, which we already discussed. That is, if you regard a neural network as a mathematical function, it turns out to be a function which is extremely flexible depending on its weights. A mathematical proof called the *universal approximation theorem* shows that this function can solve any problem to any level of accuracy, in theory. The fact that neural networks are so flexible means that, in practice, they are often a suitable kind of model, and you can focus your effort on the process of training them—that is, of finding good weight assignments.

But what about that process?  One could imagine that you might need to find a new "mechanism" for automatically updating weights for every problem. This would be laborious. What we'd like here as well is a completely general way to update the weights of a neural network, to make it improve at any given task. Conveniently, this also exists!

This is called *stochastic gradient descent* (SGD). We'll see how neural networks and SGD work in detail in <<chapter_mnist_basics>>, as well as explaining the universal approximation theorem. For now, however, we will instead use Samuel's own words: *We need not go into the details of such a procedure to see that it could be made entirely automatic and to see that a machine so programmed would "learn" from its experience.*

> J: Don't worry, neither SGD nor neural nets are mathematically complex. Both nearly entirely rely on addition and multiplication to do their work (but they do a _lot_ of addition and multiplication!). The main reaction we hear from students when they see the details is: "Is that all it is?"

In other words, to recap, a neural network is a particular kind of machine learning model, which fits right in to Samuel's original conception. Neural networks are special because they are highly flexible, which means they can solve an unusually wide range of problems just by finding the right weights. This is powerful, because stochastic gradient descent provides us a way to find those weight values automatically.

Having zoomed out, let's now zoom back in and revisit our image classification problem using Samuel's framework.

Our inputs are the images. Our weights are the weights in the neural net. Our model is a neural net. Our results are the values that are calculated by the neural net, like "dog" or "cat."

What about the next piece, an *automatic means of testing the effectiveness of any current weight assignment in terms of actual performance*? Determining "actual performance" is easy enough: we can simply define our model's performance as its accuracy at predicting the correct answers.

Putting this all together, and assuming that SGD is our mechanism for updating the weight assignments, we can see how our image classifier is a machine learning model, much like Samuel envisioned.

### A Bit of Deep Learning Jargon

Самуэль работал в 1960-х годах, и с тех пор терминология изменилась. Вот современная терминология глубокого обучения для всех частей, которые мы обсуждали: - Функциональная форма * модели * называется ее * архитектурой * (но будьте осторожны - иногда люди используют * модель * как синоним * архитектуры *, так что это может запутать). - * веса * называются * параметрами *. - Прогнозы * рассчитываются на основе * независимой переменной *, которая представляет собой * данные * без * меток *. - * результаты * модели называются * прогнозами *. - Показатель * производительности * называется * потерями *. - Убыток зависит не только от прогнозов, но и от правильных * меток * (также известных как * цели * или * зависимая переменная *); например, «собака» или «кошка». После внесения этих изменений наша диаграмма в <<training_loop>> выглядит так:

In [None]:
#hide_input
#caption Detailed training loop
#id detailed_loop
gv('''ordering=in
model[shape=box3d width=1 height=0.7 label=architecture]
inputs->model->predictions; parameters->model; labels->loss; predictions->loss
loss->parameters[constraint=false label=update]''')

### Ограничения, присущие машинному обучению

 Из этого изображения мы можем теперь увидеть некоторые фундаментальные вещи об обучении модели глубокого обучения: - Модель не может быть создана без данных. - Модель может научиться работать только с шаблонами, которые видны во входных данных, используемых для ее обучения. - Такой подход к обучению создает только * прогнозы *, а не рекомендуемые * действия *. - Недостаточно просто иметь примеры входных данных; нам также нужны * метки * для этих данных (например, изображений собак и кошек недостаточно для обучения модели; нам нужна метка для каждого, говорящая, какие из них собаки, а какие кошки).

Вообще говоря, мы видели, что большинство организаций, которые говорят, что у них недостаточно данных, на самом деле имеют в виду, что у них недостаточно данных с пометкой *. Если какая-либо организация заинтересована в практических действиях с моделью, то, вероятно, у нее есть некоторые исходные данные, которые они планируют использовать для своей модели. И, по-видимому, они какое-то время делали это каким-то другим способом (например, вручную или с помощью какой-то эвристической программы), поэтому у них есть данные из этих процессов! Например, в радиологической практике почти наверняка будет архив медицинских снимков (поскольку они должны иметь возможность проверять, как прогрессируют их пациенты с течением времени), но эти снимки могут не иметь структурированных ярлыков, содержащих список диагнозов или вмешательств (поскольку радиологи обычно создают отчеты с произвольным текстом на естественном языке, а не структурированные данные). В этой книге мы будем много обсуждать подходы к маркировке, потому что на практике это очень важный вопрос.

Поскольку такие модели машинного обучения могут делать только * прогнозы * (т. Е. Пытаться воспроизвести метки), это может привести к значительному разрыву между целями организации и возможностями модели. Например, из этой книги вы узнаете, как создать * систему рекомендаций *, которая может предсказать, какие продукты может приобрести пользователь. Это часто используется в электронной коммерции, например, для настройки продуктов, отображаемых на домашней странице, путем отображения элементов с наивысшим рейтингом. Но такая модель, как правило, создается с учетом… пользователя и его истории покупок (* исходные данные *), а также того, что они собирались покупать или на что смотрели (* ярлыки *), что означает, что модель, вероятно, расскажет вам о продуктах, которые пользователь уже имеет или уже знает, а не о новых продуктах, о которых он, скорее всего, будет заинтересован. Это сильно отличается от того, что, скажем, может сделать эксперт в вашем местном книготорговле, когда они задают вопросы, чтобы выяснить ваш вкус, а затем рассказывают вам об авторах или сериалах, о которых вы никогда раньше не слышали.

Еще одна важная идея заключается в рассмотрении того, как модель взаимодействует с окружающей средой. Это может создать * петли обратной связи *, как описано здесь: - Модель * прогнозируемого полицейского надзора * создается на основе того, где в прошлом производились аресты. На практике это фактически не предсказание преступности, а предсказание арестов, и поэтому частично просто отражает предвзятость в существующих полицейских процессах. - Затем сотрудники правоохранительных органов могут использовать эту модель, чтобы решить, на чем сосредоточить свою полицейскую деятельность, что приведет к увеличению количества арестов в этих областях. - Данные об этих дополнительных арестах затем будут возвращены для переобучения будущих версий модели.

Это * цикл положительной обратной связи *, где чем больше используется модель, тем более смещенными становятся данные, что делает модель еще более смещенной и т. Д. Петли обратной связи также могут создавать проблемы в коммерческих условиях. Например, система рекомендаций по видео может быть смещена в сторону рекомендации контента, потребляемого крупнейшими зрителями видео (например, сторонники теории заговора и экстремисты, как правило, смотрят больше онлайн-видеоконтента, чем в среднем), в результате чего эти пользователи увеличивают потребление видео, что приводит к рекомендуется больше таких видео. Подробнее мы рассмотрим эту тему в <<chapter_ethics>>.

Теперь, когда вы ознакомились с основами теории, давайте вернемся к нашему примеру кода и подробно рассмотрим, как код соответствует только что описанному процессу.

### Как работает наш распознаватель изображений

Давайте посмотрим, как наш код распознавателя изображений соответствует этим идеям. Мы поместим каждую строку в отдельную ячейку и посмотрим, что делает каждая из них (мы пока не будем объяснять каждую деталь каждого параметра, но дадим описание важных битов; подробности будут позже в книге. ).

The first line imports all of the fastai.vision library.

```python
from fastai.vision.all import *
```
Это дает нам все функции и классы, которые нам понадобятся для создания самых разнообразных моделей компьютерного зрения.

Многие программисты Python рекомендуют избегать импорта такой библиотеки целиком (с использованием синтаксиса `import *`), потому что в крупных программных проектах это может вызвать проблемы. Однако для интерактивной работы, такой как блокнот Jupyter, он отлично работает. Библиотека fastai специально разработана для поддержки такого рода интерактивного использования, и она импортирует в вашу среду только необходимые части.

Вторая строка загружает стандартный набор данных из [коллекции наборов данных fast.ai] (https://course.fast.ai/datasets) (если не загружен ранее) на ваш сервер, извлекает его (если не извлекался ранее) и возвращает объект Path с извлеченным местоположением:

```python
path = untar_data(URLs.PETS)/'images'
```

> S: За время обучения на fast.ai и даже сегодня я много узнал о продуктивных методах программирования. Библиотека fastai и блокноты fast.ai содержат множество замечательных советов, которые помогли мне стать лучшим программистом. Например, обратите внимание, что библиотека fastai не просто возвращает строку, содержащую путь к набору данных, но и объект `Path`. Это действительно полезный класс из стандартной библиотеки Python 3, который значительно упрощает доступ к файлам и каталогам. Если вы не сталкивались с этим раньше, обязательно ознакомьтесь с его документацией или учебным пособием и попробуйте его. Обратите внимание, что https://book.fast.ai [веб-сайт] содержит ссылки на рекомендуемые руководства для каждой главы. Я буду продолжать сообщать вам о небольших советах по программированию, которые я нашел полезными, когда мы с ними столкнемся.

В третьей строке мы определяем функцию is_cat, которая маркирует кошек на основе правила имени файла, предоставленного создателями набора данных:
```python
def is_cat(x): return x[0].isupper()
```

Мы используем эту функцию в четвертой строке, которая сообщает fastai, какой у нас набор данных и как он структурирован:

```python
dls = ImageDataLoaders.from_name_func(
    path, get_image_files(path), valid_pct=0.2, seed=42,
    label_func=is_cat, item_tfms=Resize(224))
```

Существуют различные классы для разных типов наборов данных и задач глубокого обучения - здесь мы используем ImageDataLoaders. Первая часть имени класса обычно будет типом данных, которые у вас есть, например изображением или текстом. Другая важная информация, которую мы должны сообщить fastai, - это то, как получить метки из набора данных. Наборы данных компьютерного зрения обычно структурированы таким образом, что метка изображения является частью имени файла или пути - чаще всего имени родительской папки. fastai поставляется с рядом стандартизированных методов маркировки и способов написания собственных. Здесь мы говорим fastai использовать только что определенную функцию `is_cat`.

Наконец, мы определяем `Transform`s, которые нам нужны. Преобразование содержит код, который автоматически применяется во время обучения; fastai включает множество предопределенных `Transform`s, а добавление новых так же просто, как создание функции Python. Есть два вида: item_tfms применяется к каждому элементу (в этом случае размер каждого элемента изменяется до квадрата размером 224 пикселя), а batch_tfms применяется к * пакету * элементов за раз с использованием графического процессора, поэтому они особенно быстрые (в этой книге мы увидим множество таких примеров).
Почему 224 пикселя? Это стандартный размер по историческим причинам (старые предварительно обученные модели требуют именно этого размера), но вы можете пройти практически все, что угодно. Если вы увеличите размер, вы часто получите модель с лучшими результатами (поскольку она сможет сосредоточиться на более деталях), но за счет скорости и потребления памяти; обратное верно, если вы уменьшите размер. 

> Note: Классификация и регрессия: _classification_ и _regression_ имеют очень специфические значения в машинном обучении. Это два основных типа моделей, которые мы будем исследовать в этой книге. Модель классификации - это модель, которая пытается предсказать класс или категорию. То есть это предсказание на основе ряда дискретных возможностей, таких как «собака» или «кошка». Регрессионная модель - это модель, которая пытается предсказать одну или несколько числовых величин, например температуру или местоположение. Иногда люди используют слово «регрессия» для обозначения определенного типа модели, называемой «моделью линейной регрессии»; это плохая практика, и мы не будем использовать эту терминологию в этой книге!

Набор данных Pet содержит 7390 изображений собак и кошек 37 различных пород. Каждое изображение помечено своим именем файла: например, файл * great \ _pyrenees \ _173.jpg * - это 173-й пример изображения собаки породы Великие Пиренеи в наборе данных. Имена файлов начинаются с заглавной буквы, если изображение представляет собой кошку, и строчной буквы в противном случае. Мы должны сообщить fastai, как получать метки из имен файлов, что мы делаем, вызывая `from_name_func` (что означает, что метки можно извлекать с помощью функции, применяемой к имени файла) и передавая` x [0] .isupper () ` , который оценивается как «Истина», если первая буква в верхнем регистре (т. е. это кошка).

Самый важный параметр, который следует здесь упомянуть, - это `valid_pct = 0.2`. Это говорит fastai хранить 20% данных и * вообще не использовать их для обучения модели *. Эти 20% данных называются * набором проверки *; остальные 80% называются * обучающей выборкой *. Набор для проверки используется для измерения точности модели. По умолчанию оставшиеся 20% выбираются случайным образом. Параметр seed = 42 устанавливает * random seed * в одно и то же значение каждый раз, когда мы запускаем этот код, что означает, что мы получаем один и тот же набор проверки каждый раз, когда запускаем его - таким образом, если мы изменим нашу модель и переобучаем ее, мы знаем, что любые различия связаны с изменениями в модели, а не с использованием другого набора случайных проверок.

fastai * всегда * будет показывать вам точность вашей модели, используя * только * проверочный набор, * никогда * обучающий набор. Это абсолютно важно, потому что если вы тренируете достаточно большую модель в течение достаточно длительного времени, она в конечном итоге запомнит метку каждого элемента в вашем наборе данных! Результат на самом деле не будет полезной моделью, потому что нас волнует, насколько хорошо наша модель работает с * ранее невидимыми изображениями *. Это всегда наша цель при создании модели: чтобы она была полезной для данных, которые модель видит только в будущем, после того, как она была обучена.

Даже если ваша модель не полностью запомнила все ваши данные, на ранних этапах обучения она могла запомнить определенные их части. В результате, чем дольше вы тренируетесь, тем выше ваша точность на тренировочном наборе; точность набора проверки также улучшится на некоторое время, но в конечном итоге она начнет ухудшаться, поскольку модель начнет запоминать обучающий набор, а не находить в данных обобщаемые базовые закономерности. Когда это происходит, мы говорим, что модель * переобучена *..

<<img_overfit>> показывает, что происходит, когда вы переобучаете, используя упрощенный пример, где у нас есть только один параметр и некоторые случайно сгенерированные данные на основе функции `x ** 2`. Как вы можете видеть, хотя прогнозы в модели переобучения точны для данных, близких к наблюдаемым точкам данных, они ошибаются, когда находятся за пределами этого диапазона.

<img src="https://github.com/fastai/fastbook/blob/master/images/att_00000.png?raw=1" alt="Example of overfitting" caption="Example of overfitting" id="img_overfit" width="700">

**Переоснащение - самая важная и сложная проблема ** при обучении всех практиков машинного обучения и всех алгоритмов. Как вы увидите, очень легко создать модель, которая отлично справляется с прогнозированием точных данных, на которых она была обучена, но гораздо сложнее делать точные прогнозы на данных, которые модель никогда раньше не видела. И, конечно же, именно эти данные будут иметь практическое значение. Например, если вы создаете рукописный классификатор цифр (… написания, с которым нужно иметь дело. В этой книге вы изучите множество методов, позволяющих избежать переобучения. Однако вам следует использовать эти методы только после того, как вы убедитесь, что переобучение действительно происходит (т. Е. , вы действительно наблюдаете, как точность валидации ухудшается во время обучения). Мы часто видим, как практикующие практикующие используют методы избегания чрезмерной подгонки, даже если у них достаточно данных, которые им не нужны, в результате чего получается модель, которая может быть менее точной чем то, чего они могли бы достичь.

> Важно: набор для проверки: при обучении модели вы должны _всегда_ иметь как обучающий набор, так и набор для проверки, и должны измерять точность вашей модели только на проверочном наборе. Если вы тренируетесь слишком долго и недостаточно данных, вы увидите, что точность вашей модели начнет ухудшаться; это называется переоборудованием. fastai по умолчанию имеет значение «valid_pct» равным «0.2», поэтому, даже если вы забудете, fastai создаст для вас набор проверки!

Пятая строка кода, обучающего наш распознаватель изображений, говорит fastai создать * сверточную нейронную сеть * (CNN) и указывает, какую * архитектуру * использовать (т.е. какую модель создать), на каких данных мы хотим ее обучить, и какую * метрику * использовать:

```python
learn = cnn_learner(dls, resnet34, metrics=error_rate)
```

Почему CNN? Это современный подход к созданию моделей компьютерного зрения. В этой книге мы узнаем все о том, как работают CNN. Их структура вдохновлена ​​тем, как работает система человеческого зрения.

В fastai есть много разных архитектур, которые мы представим в этой книге (а также обсудим, как создать свою собственную). Однако в большинстве случаев выбор архитектуры не является очень важной частью процесса глубокого обучения. Ученые любят об этом говорить, но на практике вряд ли вам нужно тратить много времени на это. Есть несколько стандартных архитектур, которые работают большую часть времени, и в этом случае мы используем одну под названием _ResNet_, которую мы… рассмотрим; он быстр и точен для многих наборов данных и проблем. «34» в «resnet34» относится к количеству уровней в этом варианте архитектуры (другие варианты: «18», «50», «101» и «152»). Модели, использующие архитектуры с большим количеством слоев, требуют больше времени для обучения и более склонны к переобучению (то есть вы не можете обучать их столько эпох, прежде чем точность набора проверки начнет ухудшаться). С другой стороны, при использовании большего количества данных они могут быть немного более точными.
Что такое метрика? * Метрика * - это функция, которая измеряет качество прогнозов модели с использованием набора для проверки и печатается в конце каждой * эпохи *. В этом случае мы используем error_rate, функцию, предоставляемую fastai, которая делает именно то, что говорит: сообщает вам, какой процент изображений в наборе проверки классифицируется неправильно. Другой распространенный показатель классификации - это «точность» (это просто «1.0 - error_rate»). fastai предоставляет гораздо больше, о чем будет рассказано в этой книге.

Концепция метрики может напоминать вам о * убытках *, но есть важное отличие. Вся цель потерь - определить «показатель эффективности», который система обучения может использовать для автоматического обновления весов. Другими словами, хороший выбор для потерь - это выбор, который легко использовать для стохастического градиентного спуска. Но метрика определяется для человеческого потребления, поэтому хорошая метрика - это такая, которую вам легко понять и которая максимально приближена к тому, что вы хотите от модели. Иногда вы можете решить, что функция потерь является подходящей метрикой, но это не всегда так.

`cnn_learner` также имеет параметр pretrained, который по умолчанию имеет значение True (поэтому он используется в этом случае, хотя мы его не указали), который устанавливает веса в вашей модели на значения, которые уже были обучены экспертами распознавать тысячи различных категорий в 1,3 миллиона фотографий (с использованием известного набора данных [*ImageNet*] (http://www.image-net.org/)). Модель с весами, которые уже были обучены на каком-то другом наборе данных, называется * предварительно обученной моделью *. Вы почти всегда должны использовать предварительно обученную модель, потому что это означает, что ваша модель, прежде чем вы даже покажете ей какие-либо свои данные, уже очень способна. И, как вы увидите, в модели глубокого обучения многие из этих возможностей вам понадобятся практически независимо от деталей вашего проекта. Например, части предварительно обученных моделей будут обрабатывать обнаружение краев, градиента и цвета, которые необходимы для многих задач.

При использовании предварительно обученной модели cnn_learner удалит последний слой, поскольку он всегда специально настроен для исходной задачи обучения (например, классификация набора данных ImageNet), и заменит его одним или несколькими новыми слоями со случайными весами подходящего размера. для набора данных, с которым вы работаете. Эта последняя часть модели известна как * голова *.

Использование предварительно обученных моделей - это * самый * важный метод, который у нас есть, позволяющий нам обучать более точные модели, быстрее, с меньшим объемом данных и меньшими затратами времени и денег. Вы можете подумать, что это будет означать, что использование предварительно обученных моделей будет наиболее изученной областью академического глубокого обучения ... но вы очень, очень ошибаетесь! Важность предварительно обученных моделей обычно не признается и не обсуждается в большинстве курсов, книг или функций библиотеки программного обеспечения и редко рассматривается в научных статьях. Пока мы пишем это в начале 2020 года, все только начинает меняться, но, вероятно, это займет некоторое время. Так что будьте осторожны: большинство людей, с которыми вы разговариваете, вероятно, будут сильно недооценивать то, что вы можете сделать в глубоком обучении с небольшими ресурсами, потому что они, вероятно, не будут глубоко понимать, как использовать предварительно обученные модели.

Использование предварительно обученной модели для задачи, отличной от той, для которой она была изначально обучена, называется «трансферным обучением». К сожалению, из-за того, что трансферное обучение недостаточно изучено, в некоторых областях доступны предварительно обученные модели. Например, в настоящее время в медицине доступно несколько предварительно обученных моделей, что затрудняет использование трансферного обучения в этой области. Кроме того, еще не совсем понятно, как использовать трансферное обучение для таких задач, как анализ временных рядов.


> jargon: Трансферное обучение: использование предварительно обученной модели для задачи, отличной от той, для которой она была изначально обучена.

Шестая строка нашего кода сообщает fastai, как *подогнать* модель:

```python
learn.fine_tune(1)
```

Как мы уже обсуждали, архитектура описывает только * шаблон * для математической функции; на самом деле он ничего не делает, пока мы не предоставим значения для миллионов содержащихся в нем параметров.

Это ключ к глубокому обучению - определение того, как подобрать параметры модели, чтобы заставить ее решить вашу проблему. Чтобы соответствовать модели, мы должны предоставить по крайней мере одну часть информации: сколько раз смотреть на каждое изображение (известное как количество * эпох *). Количество выбранных вами эпох будет во многом зависеть от того, сколько времени у вас есть в наличии и сколько времени потребуется на практике, чтобы соответствовать вашей модели. Если вы выберете слишком маленькое число, вы всегда сможете тренироваться для большего количества эпох позже.

Но почему метод называется «fine_tune», а не «fit»? fastai на самом деле * действительно * имеет метод под названием `fit`, который действительно соответствует модели (то есть просматривайте изображения в обучающем наборе несколько раз, каждый раз обновляя параметры, чтобы сделать прогнозы все ближе и ближе к целевым меткам). Но в данном случае мы начали с предварительно обученной модели и не хотим отказываться от всех тех возможностей, которые у нее уже есть. Как вы узнаете из этой книги, есть несколько важных приемов адаптации предварительно обученной модели к новому набору данных - процесс, называемый * точной настройкой *.

> jargon: Fine-tuning: Метод передачи обучения, при котором параметры предварительно обученной модели обновляются путем обучения для дополнительных эпох с использованием задачи, отличной от той, которая использовалась для предварительного обучения.

Когда вы используете метод `fine_tune`, fastai будет использовать эти приемы за вас. Вы можете установить несколько параметров (о которых мы поговорим позже), но в показанной здесь форме по умолчанию он выполняет два шага:

1. Используйте одну эпоху, чтобы подогнать только те части модели, которые необходимы, чтобы новая случайная голова правильно работала с вашим набором данных. 
1. Используйте количество эпох, запрошенных при вызове метода, чтобы соответствовать всей модели, обновляя веса более поздних слоев (особенно головы) быстрее, чем более ранних слоев (что, как мы увидим, обычно не требует много изменения от предварительно тренированных весов).

The *head* модели - это недавно добавленная часть, специфичная для нового набора данных. * Эпоха * - это одно полное прохождение набора данных. После вызова `fit` результаты после каждой эпохи печатаются, показывая номер эпохи, потери набора для обучения и проверки (« мера производительности », используемая для обучения модели) и любые * метрики *, которые вы запрашивали (ошибка скорость, в данном случае).

Итак, с помощью всего этого кода наша модель научилась распознавать кошек и собак только по размеченным примерам. Но как ему это удалось?

### Что узнал наш Image Recognizer

На этом этапе у нас есть распознаватель изображений, который работает очень хорошо, но мы понятия не имеем, что он на самом деле делает! Хотя многие люди жалуются, что глубокое обучение приводит к созданию непостижимых моделей «черного ящика» (то есть чего-то, что дает прогнозы, но что никто не может понять), это действительно далеко от истины. Существует огромное количество исследований, показывающих, как глубоко изучать модели глубокого обучения и извлекать из них ценные сведения. При этом все виды моделей машинного обучения (включая глубокое обучение и традиционные статистические модели) могут быть сложными для полного понимания, особенно если учесть, как они будут себя вести при обнаружении данных, которые сильно отличаются от данных, используемых для их обучения. Мы будем обсуждать этот вопрос на протяжении всей книги.

В 2013 году аспирант Мэтт Цайлер и его научный руководитель Роб Фергус опубликовали статью [«Визуализация и понимание сверточных сетей»] (https://arxiv.org/pdf/1311.2901.pdf), в которой показано, как визуализировать веса нейронной сети, полученные на каждом уровне модели. Они тщательно проанализировали модель, победившую в конкурсе ImageNet в 2012 году, и использовали этот анализ для значительного улучшения модели, так что они смогли выиграть конкурс 2013 года! <<img_layer1>> - это опубликованное ими изображение весов первого слоя.

<img src="https://github.com/fastai/fastbook/blob/master/images/layer1.png?raw=1" alt="Activations of the first layer of a CNN" width="300" caption="Activations of the first layer of a CNN (courtesy of Matthew D. Zeiler and Rob Fergus)" id="img_layer1">

Эта картина требует пояснений. Для каждого слоя часть изображения со светло-серым фоном показывает восстановленные изображения весов, а большая часть внизу показывает части тренировочных изображений, которые наиболее точно соответствуют каждому набору весов. Для слоя 1 мы видим, что модель обнаружила веса, которые представляют диагональные, горизонтальные и вертикальные края, а также различные градиенты. (Обратите внимание, что для каждого слоя отображается только подмножество функций… на практике их тысячи на всех уровнях.) Это основные строительные блоки, которые модель усвоила для компьютерного зрения. Они были широко проанализированы нейробиологами и исследователями компьютерного зрения, и оказалось, что эти выученные строительные блоки очень похожи на базовый зрительный механизм человеческого глаза, а также на созданные вручную функции компьютерного зрения, которые были разработаны до времен глубокое обучение. Следующий слой представлен в <<img_layer2>>.

<img src="https://github.com/fastai/fastbook/blob/master/images/layer2.png?raw=1" alt="Activations of the second layer of a CNN" width="800" caption="Activations of the second layer of a CNN (courtesy of Matthew D. Zeiler and Rob Fergus)" id="img_layer2">

Для слоя 2 есть девять примеров реконструкций веса для каждой из функций, найденных моделью. Мы видим, что модель научилась создавать детекторы объектов, которые ищут углы, повторяющиеся линии, круги и другие простые шаблоны. Они построены из основных строительных блоков, разработанных на первом уровне. Для каждого из них в правой части изображения показаны небольшие участки реальных изображений, которые наиболее точно соответствуют этим характеристикам. Например, конкретный образец в строке 2, столбце 1 соответствует градиентам и текстурам, связанным с закатами. <<img_layer3>> показывает изображение с бумаги, показывающее результаты восстановления характеристик слоя 3.

<img src="https://github.com/fastai/fastbook/blob/master/images/chapter2_layer3.PNG?raw=1" alt="Activations of the third layer of a CNN" width="800" caption="Activations of the third layer of a CNN (courtesy of Matthew D. Zeiler and Rob Fergus)" id="img_layer3">

Как вы можете видеть, посмотрев на правую часть этого изображения, теперь функции могут идентифицироваться и сопоставляться с семантическими компонентами более высокого уровня, такими как автомобильные колеса, текст и лепестки цветов. Используя эти компоненты, четвертый и пятый уровни могут идентифицировать концепции даже более высокого уровня, как показано в <<img_layer4>>.

<img src="https://github.com/fastai/fastbook/blob/master/images/chapter2_layer4and5.PNG?raw=1" alt="Activations of layers 4 and 5 of a CNN" width="800" caption="Activations of layers 4 and 5 of a CNN (courtesy of Matthew D. Zeiler and Rob Fergus)" id="img_layer4">

В этой статье изучалась старая модель под названием * AlexNet *, которая содержала только пять уровней. Сети, разработанные с тех пор, могут иметь сотни слоев - так что вы можете представить, насколько богатыми могут быть функции, разработанные этими моделями! Когда мы ранее настраивали нашу предварительно обученную модель, мы адаптировали то, на чем сосредоточены эти последние слои (цветы, люди, животные), чтобы специализироваться на проблеме кошек и собак. В более общем плане мы могли бы специализировать такую ​​предварительно обученную модель на множестве различных задач. Давайте посмотрим на несколько примеров.

### Распознаватели изображений могут решать задачи, не связанные с изображениями

Как следует из названия, распознаватель изображений может распознавать только изображения. Но многие вещи можно представить в виде изображений, а это значит, что распознаватель изображений может научиться выполнять множество задач. Например, звук можно преобразовать в спектрограмму, которая представляет собой диаграмму, которая показывает количество каждой частоты в каждый момент времени в аудиофайле. Студент Fast.ai Итан Сутин использовал этот подход, чтобы легко превзойти опубликованную точность современной [модели обнаружения звуков окружающей среды] (https://medium.com/@etown/great-results-on-audio- классификации-with-fastai-library-ccaf906c5f52) с использованием набора данных из 8732 городских звуков. `show_batch` fastai ясно показывает, как каждый звук имеет довольно отличительную спектрограмму, как вы можете видеть на<<img_spect>>.

<img alt="show_batch with spectrograms of sounds" width="400" caption="show_batch with spectrograms of sounds" id="img_spect" src="https://github.com/fastai/fastbook/blob/master/images/att_00012.png?raw=1">

Временной ряд можно легко преобразовать в изображение, просто построив временной ряд на графике. Однако часто бывает полезно попытаться представить данные таким образом, чтобы максимально упростить извлечение наиболее важных компонентов. Во временных рядах, скорее всего, будут интересны такие вещи, как сезонность и аномалии. Для данных временных рядов доступны различные преобразования. Например, студент fast.ai Игнасио Огуиса создал изображения из набора данных временных рядов для классификации оливкового масла, используя метод, называемый полем грамианских угловых разностей (GADF); вы можете увидеть результат в <<ts_image>>. Затем он отправил эти изображения в модель классификации изображений, подобную той, которую вы видите в этой главе. Его результаты, несмотря на то, что у него было всего 30 изображений обучающей выборки, были более чем на 90% точными и близкими к современным.

<img alt="Converting a time series into an image" width="700" caption="Converting a time series into an image" id="ts_image" src="https://github.com/fastai/fastbook/blob/master/images/att_00013.png?raw=1">

Еще один интересный пример студенческого проекта fast.ai принадлежит Глебу Есману. Он работал над обнаружением мошенничества в Splunk, используя набор данных о движениях и щелчках мыши пользователей. Он превратил их в изображения, нарисовав изображение, на котором положение, скорость и ускорение указателя мыши отображались цветными линиями, а щелчки отображались в виде [маленьких цветных кружков] (https://www.splunk.com/en_us /blog/security/deep-learning-with-splunk-and-tensorflow-for-security-catching-the-fraudster-in-neural-networks-with-behavioral-biometrics.html), как показано в <<splunk>> . Затем он ввел это в модель распознавания изображений, подобную той, которую мы использовали в этой главе, и она работала настолько хорошо, что привела к патенту на этот подход к аналитике мошенничества!

<img alt="Converting computer mouse behavior to an image" width="450" caption="Converting computer mouse behavior to an image" id="splunk" src="https://github.com/fastai/fastbook/blob/master/images/att_00014.png?raw=1">

Другой пример взят из статьи Махмуда Калаша и др. [«Классификация вредоносных программ с помощью глубоких сверточных нейронных сетей»] (https://ieeexplore.ieee.org/abstract/document/8328749), в которой объясняется, что «двоичный файл вредоносного ПО является разделены на 8-битные последовательности, которые затем преобразуются в эквивалентные десятичные значения. Этот десятичный вектор изменяется, и создается полутоновое изображение, представляющее образец вредоносной программы, как в <<malware_proc>>.

<img alt="Malware classification process" width="623" caption="Malware classification process" id="malware_proc" src="https://github.com/fastai/fastbook/blob/master/images/att_00055.png?raw=1">

Затем авторы показывают «изображения», созданные в результате этого процесса вредоносного ПО в различных категориях, как показано в <<malware_eg>>.

<img alt="Malware examples" width="650" caption="Malware examples" id="malware_eg" src="https://github.com/fastai/fastbook/blob/master/images/att_00056.png?raw=1">

Как видите, разные типы вредоносных программ выглядят очень по-разному для человеческого глаза. Модель, которую исследователи обучили на основе этого представления изображения, была более точной при классификации вредоносных программ, чем любой предыдущий подход, представленный в академической литературе. Это предлагает хорошее практическое правило для преобразования набора данных в представление изображения: если человеческий глаз может распознавать категории из изображений, то модель глубокого обучения тоже должна это делать. В общем, вы обнаружите, что небольшое количество общих подходов к глубокому обучению может иметь большое значение, если вы немного креативны в том, как вы представляете свои данные! Вы не должны думать о подходах, подобных описанным здесь, как о «хитрых обходных путях», потому что на самом деле они часто (как здесь) превосходят ранее достигнутые результаты. Это действительно правильный способ думать об этих проблемных областях.

### Jargon Recap

Мы только что рассмотрели много информации, так что давайте кратко резюмируем, <<dljargon>> предоставляет удобный словарь.

```asciidoc
[[dljargon]]
.Deep learning vocabulary
[options="header"]
|=====
| Term | Meaning
|Label | Данные, которые мы пытаемся предсказать, например "собака" или "кошка".
|Architecture | _Шаблон_ модели, которую мы пытаемся подогнать; фактическая математическая функция, в которую мы передаем входные данные и параметры
|Model | Сочетание архитектуры с определенным набором параметров
|Parameters | Значения в модели, которые изменяют то, какую задачу она может выполнять, и обновляются посредством обучения модели.
|Fit | Обновите параметры модели, чтобы прогнозы модели с использованием входных данных соответствовали целевым меткам.
|Train |Синоним для _fit_
|Pretrained model | Модель, которая уже была обучена, обычно с использованием большого набора данных, и будет доработана.
|Fine-tune | Обновите предварительно обученную модель для другой задачи
|Epoch | Один полный проход по входным данным
|Loss | Мера того, насколько хороша модель, выбранная для обучения через SGD
|Metric | Измерение того, насколько хороша модель, с использованием набора для проверки, выбранного для потребления человеком.
|Validation set | Набор данных, полученных в результате обучения, используется только для измерения того, насколько хороша модель.
|Training set | Данные, используемые для подгонки модели; не включает данные из набора для проверки
|Overfitting | Обучение модели таким образом, чтобы она _ запоминала_ определенные особенности входных данных, а не обобщала данные, которые не были видны во время обучения
|CNN | Сверточная нейронная сеть; тип нейронной сети, которая особенно хорошо работает для задач компьютерного зрения
|=====
```

Имея в своем распоряжении этот словарь, мы теперь в состоянии объединить все ключевые концепции, представленные на данный момент. Найдите минутку, чтобы просмотреть эти определения и прочитать следующее резюме. Если вы можете следовать объяснениям, значит, вы хорошо подготовлены для понимания предстоящих дискуссий. * Машинное обучение * - это дисциплина, в которой мы определяем программу не путем написания ее полностью самостоятельно, а путем обучения на основе данных. * Глубокое обучение * - это специальность машинного обучения, в которой используются * нейронные сети * с несколькими * слоями *. * Классификация изображений * является типичным примером (также известна как * распознавание изображений *). Начнем с * помеченных данных *; то есть набор изображений, где мы присвоили каждому изображению * метку *, указывающую, что оно представляет. Наша цель - создать программу, называемую * моделью *, которая, учитывая новое изображение, будет делать точный * прогноз * относительно того, что представляет собой это новое изображение.


Каждая модель начинается с выбора * архитектуры *, общего шаблона того, как такая модель работает внутри. Процесс * обучения * (или * подбора *) модели - это процесс поиска набора * значений параметров * (или * весов *), которые превращают эту общую архитектуру в модель, которая хорошо работает для нашего конкретного типа данных. Чтобы определить, насколько хорошо модель справляется с одним прогнозом, нам нужно определить * функцию потерь *, которая определяет, как мы оцениваем прогноз как хороший или плохой. Чтобы ускорить процесс обучения, мы могли бы начать с * предварительно обученной модели * - модели, которая уже была обучена на чужих данных. Затем мы можем адаптировать его к нашим данным, обучив его немного больше на наших данных, процесс, называемый * точной настройкой *.

Когда мы обучаем модель, ключевой задачей является обеспечение того, чтобы наша модель * обобщала * - то есть, чтобы она извлекала общие уроки из наших данных, которые также ... модель делает на всем валидационном наборе в целом, мы определяем * метрику *. В процессе обучения, когда модель увидела каждый элемент обучающего набора, мы называем это * эпохой *.

Все эти концепции применимы к машинному обучению в целом. То есть они применяются ко всевозможным схемам определения модели путем обучения ее на данных. Отличительной особенностью глубокого обучения является особый класс архитектур: архитектуры, основанные на * нейронных сетях *. В частности, такие задачи, как классификация изображений, в значительной степени зависят от * сверточных нейронных сетей *, о которых мы вскоре поговорим.

## Глубокое обучение не только для классификации изображений

Эффективность глубокого обучения для классификации изображений широко обсуждалась в последние годы, и даже были показаны «сверхчеловеческие» результаты при выполнении сложных задач, таких как распознавание злокачественных опухолей при компьютерной томографии. Но он может намного больше, как мы покажем здесь

Например, давайте поговорим о том, что критически важно для автономных транспортных средств: о локализации объектов на картинке. Если беспилотный автомобиль не знает, где находится пешеход, значит, он не знает, как его избежать! Создание модели, которая может распознавать содержимое каждого отдельного пикселя изображения, называется * сегментацией *. Вот как мы можем обучить модель сегментации с помощью fastai, используя подмножество [* Camvid * dataset] (http://www0.cs.ucl.ac.uk/staff/G.Brostow/papers/Brostow_2009-PRL. pdf) из статьи Габруэля Дж. Бростоу, Жюльена Фокера и Роберто Чиполлы «Классы семантических объектов в видео: наземная база данных высокого разрешения»:

In [None]:
path = untar_data(URLs.CAMVID_TINY)
dls = SegmentationDataLoaders.from_label_func(
    path, bs=8, fnames = get_image_files(path/"images"),
    label_func = lambda o: path/'labels'/f'{o.stem}_P{o.suffix}',
    codes = np.loadtxt(path/'codes.txt', dtype=str)
)

learn = unet_learner(dls, resnet34)
learn.fine_tune(8)

Мы даже не будем рассматривать этот код построчно, потому что он почти идентичен нашему предыдущему примеру! (Хотя мы подробно рассмотрим модели сегментации в <<chapter_arch_details>>, вместе со всеми другими моделями, которые мы кратко представляем в этой главе, и многими, многими другими.) Мы можем визуализировать, насколько хорошо он выполнил свою задачу, попросив модель закодировать каждый пиксель изображения цветом. Как видите, он почти идеально классифицирует каждый пиксель в каждом объекте. Например, обратите внимание, что все автомобили наложены одинаковым цветом, а все деревья наложены одним цветом (в каждой паре изображений левое изображение является меткой наземной истины, а правое - предсказанием модели. ):


In [None]:
learn.show_results(max_n=6, figsize=(7,8))

Еще одна область, в которой глубокое обучение значительно улучшилось за последние пару лет, - это обработка естественного языка (NLP). Теперь компьютеры могут генерировать текст, автоматически переводить с одного языка на другой, анализировать комментарии, маркировать слова в предложениях и многое другое. Вот весь код, необходимый для обучения модели, которая может классифицировать тональность обзора фильма лучше, чем все, что существовало в мире всего пять лет назад:

In [None]:
from fastai.text.all import *

dls = TextDataLoaders.from_folder(untar_data(URLs.IMDB), valid='test')
learn = text_classifier_learner(dls, AWD_LSTM, drop_mult=0.5, metrics=accuracy)
learn.fine_tune(4, 1e-2)

#чистый 

Если после запуска этой ячейки вы получили сообщение «Ошибка нехватки памяти CUDA», щелкните меню «Ядро» и перезапустите. Вместо выполнения приведенной выше ячейки скопируйте и вставьте в нее следующий код:

```
from fastai.text.all import *

dls = TextDataLoaders.from_folder(untar_data(URLs.IMDB), valid='test', bs=32)
learn = text_classifier_learner(dls, AWD_LSTM, drop_mult=0.5, metrics=accuracy)
learn.fine_tune(4, 1e-2)
```

Это уменьшает размер пакета до 32 (мы объясним это позже). Если вы продолжаете получать ту же ошибку, измените 32 на 16.

В этой модели используется [«Набор данных IMDb Large Movie Review»] (https://ai.stanford.edu/~ang/papers/acl11-WordVectorsSentimentAnalysis.pdf) из статьи Эндрю Мааса «Изучение векторов слов для анализа настроений» и другие. Он хорошо работает с обзорами фильмов, состоящих из многих тысяч слов, но давайте проверим его на очень коротком, чтобы увидеть, как он работает:

In [None]:
learn.predict("Мне очень понравился этот фильм!")


# Здесь мы видим, что модель посчитала отзыв положительным. 
# Вторая часть результата - это индекс «pos» в нашем словаре данных, 
# а последняя часть - это вероятности, приписываемые каждому классу (99,6% для «pos» и 0,4% для «neg»). 
# Теперь твоя очередь! Напишите свой собственный мини-обзор фильма или скопируйте его из Интернета, 
# и вы увидите, что эта модель думает по этому поводу.

### Боковая панель: порядок имеет значение

В блокноте Jupyter очень важен порядок, в котором вы выполняете каждую ячейку. Это не похоже на Excel, где все обновляется, как только вы что-то где-то вводите - у него есть внутреннее состояние, которое обновляется каждый раз, когда вы выполняете ячейку. Например, когда вы запускаете первую ячейку записной книжки (с комментарием «НАЖМИТЕ МЕНЯ»), вы создаете объект с именем «learn», который содержит модель и данные для проблемы классификации изображений. Если бы мы сразу после этого запустили ячейку, только что показанную в тексте (ту, которая предсказывает, хороша рецензия или нет), мы бы получили ошибку, поскольку этот объект `learn` не содержит модели классификации текста. Эту ячейку необходимо запустить после ячейки, содержащей:

```python
from fastai.text.all import *

dls = TextDataLoaders.from_folder(untar_data(URLs.IMDB), valid='test')
learn = text_classifier_learner(dls, AWD_LSTM, drop_mult=0.5, 
                                metrics=accuracy)
learn.fine_tune(4, 1e-2)
```

Сами выходные данные могут быть обманчивыми, потому что они включают результаты последнего выполнения ячейки; если вы измените код внутри ячейки, не выполняя его, старые (вводящие в заблуждение) результаты останутся. За исключением случаев, когда мы упоминаем об этом явно, записные книжки, представленные на [веб-сайте книги] (https://book.fast.ai/), предназначены для работы по порядку, сверху вниз. В общем, при экспериментировании вы обнаружите, что выполняете ячейки в любом порядке, чтобы работать быстро (что является очень интересной функцией Jupyter Notebook), но как только вы изучите и придете к окончательной версии своего кода, убедитесь, что вы можете запустить ячейки ваших записных книжек по порядку (ваше будущее не обязательно будет помнить запутанный путь, который вы выбрали в противном случае!). 

В командном режиме двойное нажатие «0» перезапускает * ядро ​​* (которое является движком вашего ноутбука). Это очистит ваше состояние и сделает его так, как будто вы только что начали работу с записной книжкой. Выберите «Выполнить все выше» в меню «Ячейка», чтобы запустить все ячейки выше точки, в которой вы находитесь. Мы обнаружили, что это очень полезно при разработке библиотеки fastai.

### Конечная боковая панель

In [None]:
doc(SegmentationDataLoaders)

Если у вас возникнут какие-либо вопросы о методе fastai, вы должны использовать функцию `doc`, передав ей имя метода:

```python
doc(learn.predict)
```

Появится небольшое окно с таким содержимым:

<img src="https://github.com/fastai/fastbook/blob/master/images/doc_ex.png?raw=1" width="600">

Краткое однострочное объяснение предоставлено `doc`. Ссылка «Показать в документации» приведет вас к полной документации, где вы найдете все подробности и множество примеров. Кроме того, большинство методов fastai - это всего лишь несколько строк, поэтому вы можете щелкнуть ссылку «источник», чтобы точно увидеть, что происходит за кулисами. Давайте перейдем к чему-то гораздо менее интересному, но, возможно, значительно более коммерчески полезному: построению моделей из простых * табличных * данных.

> jargon: Табличные: данные в виде таблицы, например из электронной таблицы, базы данных или файла CSV. Табличная модель - это модель, которая пытается предсказать один столбец таблицы на основе информации в других столбцах таблицы.

Оказывается, это тоже очень похоже. Вот код, необходимый для обучения модели, которая предсказывает, является ли человек высокооплачиваемым, на основе его социально-экономического фона:

In [None]:
from fastai.tabular.all import *
path = untar_data(URLs.ADULT_SAMPLE)

dls = TabularDataLoaders.from_csv(path/'adult.csv', path=path, y_names="salary",
    cat_names = ['workclass', 'education', 'marital-status', 'occupation',
                 'relationship', 'race'],
    cont_names = ['age', 'fnlwgt', 'education-num'],
    procs = [Categorify, FillMissing, Normalize])

learn = tabular_learner(dls, metrics=accuracy)

Как видите, мы должны были указать fastai, какие столбцы являются * категориальными * (то есть содержат значения, которые являются одним из дискретного набора вариантов, например, «занятие»), а какие - * непрерывными * (то есть содержат число который представляет собой количество, например "возраст"). Для этой задачи нет предварительно обученной модели (как правило, предварительно обученные модели не широко доступны для любых задач табличного моделирования, хотя некоторые организации создали их для внутреннего использования), поэтому мы не используем `fine_tune` в этом случае. Вместо этого мы используем `fit_one_cycle`, наиболее часто используемый метод для обучения моделей fastai * с нуля * (т.е. без передачи обучения):

In [None]:
learn.fit_one_cycle(3)

В этой модели используется [* набор данных для взрослых *] (http://robotics.stanford.edu/~ronnyk/nbtree.pdf) из статьи «Повышение точности наивно-байесовских классификаторов: гибрид дерева решений» Роба Кохави, который содержит некоторые демографические данные об отдельных лицах (например, об их образовании, семейном положении, расе, поле, а также о том, имеют ли они годовой доход более 50 тысяч долларов). Модель имеет точность более 80%, и ее обучение заняло около 30 секунд.

Посмотрим еще на один. Системы рекомендаций очень важны, особенно в электронной коммерции. Такие компании, как Amazon и Netflix, очень стараются рекомендовать продукты или фильмы, которые могут понравиться пользователям. Вот как с помощью [набора данных MovieLens] (https://doi.org/10.1145/2827872) обучить модель, которая будет предсказывать фильмы, которые могут понравиться людям, на основе их предыдущих привычек просмотра:

In [None]:
from fastai.collab import *
path = untar_data(URLs.ML_SAMPLE)
dls = CollabDataLoaders.from_csv(path/'ratings.csv')
learn = collab_learner(dls, y_range=(0.5,5.5))
learn.fine_tune(10)

Эта модель прогнозирует рейтинги фильмов по шкале от 0,5 до 5,0 с точностью около 0,6 средней ошибки. Поскольку мы прогнозируем непрерывное число, а не категорию, мы должны сообщить fastai, какой диапазон имеет наша цель, используя параметр y_range. Хотя мы на самом деле не используем предварительно обученную модель (по той же причине, что и для табличной модели), этот пример показывает, что fastai все равно позволяет нам использовать `fine_tune` в этом случае (вы узнаете, как и почему это работает в <<chapter_pet_breeds>>). Иногда лучше поэкспериментировать с `fine_tune` вместо` fit_one_cycle`, чтобы увидеть, что лучше всего подходит для вашего набора данных. Мы можем использовать тот же вызов `show_results`, который мы видели ранее, чтобы просмотреть несколько примеров идентификаторов пользователей и фильмов, фактических оценок и прогнозов:

In [None]:
learn.show_results()

### Sidebar: Наборы данных: еда для моделей

В этом разделе вы уже видели довольно много моделей, каждая из которых обучена с использованием разных наборов данных для выполнения разных задач. В машинном обучении и глубоком обучении мы ничего не можем сделать без данных. Итак, люди, которые создают наборы данных для нас для обучения наших моделей, являются (часто недооцененными) героями. Некоторые из наиболее полезных и важных наборов данных становятся важными * академической базой *; то есть наборы данных, которые широко изучаются исследователями и используются для сравнения алгоритмических изменений. Некоторые из них стали нарицательными (по крайней мере, среди домохозяйств, обучающих моделей!), Например MNIST, CIFAR-10 и ImageNet.

Наборы данных, используемые в этой книге, были выбраны потому, что они предоставляют отличные примеры типов данных, с которыми вы, вероятно, столкнетесь, а в академической литературе есть много примеров результатов моделирования с использованием этих наборов данных, с которыми вы можете сравнить свою работу. Создание большинства наборов данных, используемых в этой книге, потребовало от создателей много труда. Например, позже в книге мы покажем вам, как создать модель, которая может переводить с французского на английский. Ключевым материалом для этого является корпус параллельных текстов на французском и английском языках, подготовленный еще в 2009 году профессором Крисом Каллисон-Берч из Университета Пенсильвании. Этот набор данных содержит более 20 миллионов пар предложений на французском и английском языках. Он построил набор данных очень умным способом: просканировав миллионы канадских веб-страниц (которые часто многоязычны), а затем с помощью набора простых эвристик преобразовал URL-адреса французского контента в URL-адреса, указывающие на тот же контент на английском языке.

Просматривая наборы данных в этой книге, подумайте, откуда они могли взяться и как они могли быть обработаны. Затем подумайте, какие интересные наборы данных вы могли бы создать для своих собственных проектов. (Скоро мы даже шаг за шагом проведем вас через процесс создания вашего собственного набора данных изображений.) fast.ai потратил много времени на создание урезанных версий популярных наборов данных, специально разработанных для поддержки быстрого прототипирования и экспериментов и упрощающих освоение. В этой книге мы часто начинаем с использования одной из урезанных версий, а затем увеличиваем ее до полноразмерной версии (точно так же, как мы это делаем в этой главе!). Фактически, именно так ведущие мировые практики моделируют на практике; они проводят большую часть своих экспериментов и создания прототипов с подмножествами своих данных и используют полный набор данных только тогда, когда хорошо понимают, что им нужно делать.

### End sidebar

Каждая из обученных нами моделей показала потерю при обучении и проверке. Хороший набор для проверки - одна из важнейших частей тренировочного процесса. Давайте посмотрим, почему, и узнаем, как его создать.

## Наборы для валидации и наборы тестов

Как мы уже говорили, цель модели - делать прогнозы относительно данных. Но процесс обучения модели в корне тупой. Если бы мы обучили модель со всеми нашими данными, а затем оценили модель, используя те же самые данные, мы не смогли бы сказать, насколько хорошо наша модель может работать с данными, которые она не видела. Без этой очень ценной информации, которая поможет нам в обучении нашей модели, есть очень хороший шанс, что она сможет хорошо делать прогнозы на основе этих данных, но будет плохо работать с новыми данными. Чтобы избежать этого, нашим первым шагом было разделение нашего набора данных на два набора: * обучающий набор * (который наша модель видит при обучении) и * проверочный набор *, также известный как * набор для разработки * (который используется только для оценка). Это позволяет нам проверить, извлекает ли модель уроки из обучающих данных, которые обобщаются на новые данные, данные проверки.

Один из способов понять эту ситуацию состоит в том, что в некотором смысле мы не хотим, чтобы наша модель добивалась хороших результатов за счет «мошенничества». Если он делает точный прогноз для элемента данных, это должно быть связано с тем, что он изучил характеристики этого типа элемента, а не потому, что модель была сформирована благодаря * фактическому просмотру этого конкретного элемента *. Разделение наших данных проверки означает, что наша модель никогда не видит их при обучении, поэтому полностью не запятнана ими и никоим образом не обманывает. Правильно?

На самом деле не обязательно. Ситуация более тонкая. Это связано с тем, что в реалистичных сценариях мы редко строим модель, просто тренируя ее весовые параметры один раз. Вместо этого мы, вероятно, изучим множество версий модели с помощью различных вариантов моделирования, касающихся сетевой архитектуры, скорости обучения, стратегий увеличения данных и других факторов, которые мы обсудим в следующих главах. Многие из этих вариантов можно описать как выбор * гиперпараметров *. Это слово отражает то, что они являются параметрами по отношению к параметрам, поскольку они являются вариантами более высокого уровня, которые определяют значение параметров веса.

Проблема в том, что даже несмотря на то, что обычный тренировочный процесс смотрит только на прогнозы на тренировочных данных, когда он изучает значения для весовых параметров, это не относится к нам. Мы, как разработчики моделей, оцениваем модель, глядя на прогнозы по данным проверки, когда мы решаем исследовать новые значения гиперпараметров! Таким образом, последующие версии модели косвенно сформированы тем, что мы увидели данные валидации. Подобно тому, как автоматический процесс обучения находится под угрозой переобучения обучающих данных, мы рискуем переобучить проверочные данные путем проб и ошибок человека и исследования.

Решением этой головоломки является введение еще одного уровня данных с более высоким уровнем резервирования, * тестового набора *. Точно так же, как мы удерживаем данные валидации от процесса обучения, мы должны удерживать данные тестового набора даже от самих себя. Его нельзя использовать для улучшения модели; его можно использовать только для оценки модели в самом конце наших усилий. Фактически, мы определяем иерархию разрезов наших данных в зависимости от того, насколько полностью мы хотим скрыть их от процессов обучения и моделирования: данные обучения полностью доступны, данные проверки менее доступны, а данные тестирования полностью скрыты. Эта иерархия параллельна различным видам процессов моделирования и оценки - автоматическому процессу обучения с обратным распространением, более ручному процессу проверки различных гиперпараметров между тренировками и оценке нашего конечного результата.


Наборы для тестирования и проверки должны содержать достаточно данных, чтобы вы могли получить хорошую оценку своей точности. Например, если вы создаете детектор кошек, вам обычно нужно как минимум 30 кошек в вашем наборе для проверки. Это означает, что если у вас есть набор данных с тысячами элементов, использование размера набора проверки по умолчанию 20% может быть больше, чем вам нужно. С другой стороны, если у вас много данных, использование некоторых из них для проверки, вероятно, не имеет никаких недостатков.

Наличие двух уровней «зарезервированных данных» - набора для проверки и набора тестов, при этом один уровень представляет данные, которые вы фактически скрываете от себя, - может показаться немного экстремальным. Но причина, по которой это часто необходимо, заключается в том, что модели имеют тенденцию тяготеть к простейшему способу делать хорошие прогнозы (запоминание), а мы, как люди, подверженные ошибкам, склонны обмануть себя относительно того, насколько хорошо наши модели работают. Дисциплина набора тестов помогает нам сохранять интеллектуальную честность. Это не означает, что нам * всегда * нужен отдельный набор тестов - если у вас очень мало данных, вам может потребоваться просто набор для проверки - но в целом лучше использовать его, если это вообще возможно.

Эта же дисциплина может иметь решающее значение, если вы собираетесь нанять третье лицо для выполнения работы по моделированию от вашего имени. Третья сторона может неточно понимать ваши требования, или их стимулы могут даже побудить их неправильно их понять. Хороший набор тестов может значительно снизить эти риски и позволить вам оценить, решает ли их работа вашу реальную проблему..

Проще говоря, если вы являетесь руководителем высшего звена в своей организации (или консультируете лиц, принимающих решения), наиболее важный вывод заключается в следующем: если вы убедитесь, что действительно понимаете, что такое наборы тестов и валидации и почему они важны, тогда вы избежите единственного крупнейшего источника неудач, который мы видели, когда организации решают использовать ИИ. Например, если вы подумываете о привлечении внешнего поставщика или услуги, убедитесь, что вы храните некоторые тестовые данные, которые поставщик * никогда не сможет увидеть *. Затем * вы * проверяете их модель на своих тестовых данных, используя метрику, которую * вы * выбираете на основе того, что действительно важно для вас на практике, и * вы * решаете, какой уровень производительности является адекватным. (Также неплохо, если вы сами попробуете простую базовую линию, чтобы вы знали, чего может достичь действительно простая модель. Часто оказывается, что ваша простая модель работает так же хорошо, как и модель, созданная внешним «экспертом». !)

### Используйте суждение при определении наборов тестов

Чтобы правильно определить набор проверки (и, возможно, набор тестов), вам иногда может потребоваться нечто большее, чем просто случайное получение части исходного набора данных. Помните: ключевым свойством наборов для проверки и тестирования является то, что они должны представлять новые данные, которые вы увидите в будущем. Это может показаться невозможным! По определению, вы еще не видели этих данных. Но обычно вы кое-что все же знаете.

Поучительно взглянуть на несколько примеров. Многие из этих примеров взяты из соревнований по прогнозному моделированию на платформе [Kaggle] (https://www.kaggle.com/), что хорошо отражает проблемы и методы, которые вы можете увидеть на практике.

Один случай может быть, если вы просматриваете данные временных рядов. Для временных рядов выбор случайного подмножества данных будет слишком простым (вы можете просматривать данные как до, так и после дат, которые вы пытаетесь предсказать), и не будет репрезентативным для большинства бизнес-сценариев (когда вы используете исторические данные). данные для построения модели для использования в будущем). Если ваши данные включают дату, и вы создаете модель для использования в будущем, вы захотите выбрать непрерывный раздел с последними датами в качестве набора для проверки (например, последние две недели или последний месяц доступных данных).

Предположим, вы хотите разделить данные временных рядов в <<timeseries1>> на обучающий и проверочный наборы.

<img src="https://github.com/fastai/fastbook/blob/master/images/timeseries1.png?raw=1" width="400" id="timeseries1" caption="A time series" alt="A serie of values">

Случайное подмножество - плохой выбор (слишком легко заполнить пробелы и не указывает на то, что вам понадобится в производственной среде), как мы видим в <<timeseries2>>

<img src="https://github.com/fastai/fastbook/blob/master/images/timeseries2.png?raw=1" width="400" id="timeseries2" caption="A poor training subset" alt="Random training subset">

Вместо этого используйте более ранние данные в качестве обучающего набора (и более поздние данные для набора проверки), как показано в <<timeseries3>>.

<img src="https://github.com/fastai/fastbook/blob/master/images/timeseries3.png?raw=1" width="400" id="timeseries3" caption="A good training subset" alt="Training subset using the data up to a certain timestamp">

Например, у Kaggle было соревнование [прогнозировать продажи в сети эквадорских продуктовых магазинов] (https://www.kaggle.com/c/favorita-grocery-sales-forecasting). Данные обучения Kaggle обрабатывались с 1 января 2013 года по 15 августа 2017 года, а тестовые данные охватывали период с 16 августа 2017 года по 31 августа 2017 года. Таким образом, организатор конкурса гарантировал, что участники делали прогнозы на период времени, который был * в будущем *, с точки зрения их модели. Это похоже на то, как трейдеры количественных хедж-фондов проводят * бэк-тестирование *, чтобы проверить, предсказывают ли их модели будущие периоды на основе прошлых данных.

Второй распространенный случай - это когда вы можете легко предвидеть, как данные, для которых вы будете делать прогнозы в производственной среде, могут * качественно отличаться * от данных, с которыми вы должны тренировать свою модель.

В Kaggle [соревнование отвлеченных водителей] (https://www.kaggle.com/c/state-farm-distracted-driver-detection) независимые переменные - это изображения водителей за рулем автомобиля, а зависимые переменные - это такие категории, как текстовые сообщения, еда или безопасный взгляд в будущее. Как видно из <<img_driver>>, на многих изображениях изображены одни и те же драйверы в разных положениях. Если бы вы были страховой компанией, строящей модель на основе этих данных, обратите внимание, что вас больше всего заинтересует, как модель работает с драйверами, которых она раньше не видела (поскольку у вас, вероятно, будут данные обучения только для небольшой группы людей). Учитывая это, тестовые данные для конкурса состоят из изображений людей, которых нет в обучающей выборке.

<img src="https://github.com/fastai/fastbook/blob/master/images/driver.PNG?raw=1" width="600" id="img_driver" caption="Two pictures from the training data" alt="Two pictures from the training data, showing the same driver">

Если вы поместите одно из изображений в <<img_driver>> в свой обучающий набор, а другое - в набор для проверки, ваша модель легко сможет сделать прогноз для изображения из набора для проверки, поэтому будет казаться, что она работает лучше чем на новых людях. Другая точка зрения заключается в том, что если вы использовали всех людей для обучения своей модели, ваша модель могла бы переоснастить особенности этих конкретных людей, а не только изучение состояний (текстовые.

Похожая динамика наблюдалась в [соревновании по рыболовству Kaggle] (https://www.kaggle.com/c/the-nature-conservancy-fisheries-monitoring) для определения видов рыбы, пойманной рыбацкими лодками, чтобы незаконный промысел исчезающих популяций. Набор для тестирования состоял из лодок, которых не было в тренировочных данных. Это означает, что вы хотите, чтобы ваш набор проверки включал лодки, которых нет в обучающем наборе.

Иногда может быть неясно, чем будут отличаться ваши данные проверки. Например, для задачи с использованием спутниковых изображений вам нужно будет собрать больше информации о том, содержит ли обучающий набор только определенные географические местоположения или он был получен из географически разрозненных данных.

[Текст ссылки] (https: //) Теперь, когда вы получили представление о том, как построить модель, вы можете решить, что вы хотите изучить дальше.

## Момент _Choose Your Own Adventure_

Если вы хотите узнать больше о том, как использовать модели глубокого обучения на практике, в том числе о том, как выявлять и исправлять ошибки, создавать реальное работающее веб-приложение и избегать причинения вашей моделью неожиданного вреда вашей организации или обществу в целом, продолжайте читать следующие две главы. Если вы хотите начать изучать основы того, как глубокое обучение работает под капотом, перейдите к <<chapter_mnist_basics>>. (Вы когда-нибудь читали книги «Выбери свое собственное приключение» в детстве? Ну, это вроде как… за исключением более глубокого обучения, чем в той серии книг.)

Вам нужно будет прочитать все эти главы, чтобы продвигаться дальше по книге, но это полностью зависит от вас, в каком порядке вы их читаете. Они не зависят друг от друга. Если вы перейдете к <<chapter_mnist_basics>>, мы напомним вам в конце вернуться и прочитать пропущенные вами главы, прежде чем идти дальше.

## Опросный лист

На страницах и страницах прозы бывает трудно понять, на каких ключевых вещах вам действительно нужно сосредоточиться и запомнить. Итак, мы подготовили список вопросов и предлагаемые шаги для выполнения в конце каждой главы. Все ответы находятся в тексте главы, поэтому, если вы ни в чем не уверены, перечитайте эту часть текста и убедитесь, что вы ее понимаете. Ответы на все эти вопросы также доступны на [сайте книги] (https://book.fast.ai). Вы также можете посетить [форумы] (https://forums.fast.ai), если вы застряли, чтобы получить помощь от других людей, изучающих этот материал.

Дополнительные вопросы, включая подробные ответы и ссылки на хронологию видео, можно найти в [aiquizzes] Радека Осмульски (http://aiquizzes.com/howto).

1. Вам это нужно для глубокого обучения?

   - Lots of math T / F
   - Lots of data T / F
   - Lots of expensive computers T / F
   - A PhD T / F
   
1. Name five areas where deep learning is now the best in the world.
1. What was the name of the first device that was based on the principle of the artificial neuron?
1. Based on the book of the same name, what are the requirements for parallel distributed processing (PDP)?
1. What were the two theoretical misunderstandings that held back the field of neural networks?
1. What is a GPU?
1. Open a notebook and execute a cell containing: `1+1`. What happens?
1. Follow through each cell of the stripped version of the notebook for this chapter. Before executing each cell, guess what will happen.
1. Complete the Jupyter Notebook online appendix.
1. Why is it hard to use a traditional computer program to recognize images in a photo?
1. What did Samuel mean by "weight assignment"?
1. What term do we normally use in deep learning for what Samuel called "weights"?
1. Draw a picture that summarizes Samuel's view of a machine learning model.
1. Why is it hard to understand why a deep learning model makes a particular prediction?
1. What is the name of the theorem that shows that a neural network can solve any mathematical problem to any level of accuracy?
1. What do you need in order to train a model?
1. How could a feedback loop impact the rollout of a predictive policing model?
1. Do we always have to use 224×224-pixel images with the cat recognition model?
1. What is the difference between classification and regression?
1. What is a validation set? What is a test set? Why do we need them?
1. What will fastai do if you don't provide a validation set?
1. Can we always use a random sample for a validation set? Why or why not?
1. What is overfitting? Provide an example.
1. What is a metric? How does it differ from "loss"?
1. How can pretrained models help?
1. What is the "head" of a model?
1. What kinds of features do the early layers of a CNN find? How about the later layers?
1. Are image models only useful for photos?
1. What is an "architecture"?
1. What is segmentation?
1. What is `y_range` used for? When do we need it?
1. What are "hyperparameters"?
1. What's the best way to avoid failures when using AI in an organization?

### Дальнейшие исследования

В каждой главе также есть раздел «Дальнейшие исследования», в котором ставятся вопросы, на которые нет полного ответа в тексте, или даются более сложные задания. Ответов на эти вопросы нет на сайте книги; вам нужно будет провести собственное исследование!

1. Почему графический процессор полезен для глубокого обучения? Чем отличается ЦП и почему он менее эффективен для глубокого обучения?
1. Постарайтесь придумать три области, в которых петли обратной связи могут повлиять на использование машинного обучения. Посмотрите, сможете ли вы найти задокументированные примеры того, как это происходит на практике.