# Introducción a scikit-learn

scikit-learn es una biblioteca de aprendizaje automático que se integra con la distribución de software científico y de análisis de datos SciPy.

Hay muchas bibliotecas de aprendizaje automático en diferentes lenguajes, y varias en Python. Por eso es importante entender qué es scikit-learn para poder diferenciarlo de otras bibliotecas.

## ¿Qué es un scikit?
Son paquetes especializados que se añaden a la distribución científica de Python [SciPy](http://www.scipy.org). Puede consultarse una lista de estos paquetes en este [enlace](https://scikits.appspot.com).

## ¿Qué es scikit-learn?
Un scikit especializado en aprendizaje automático (machine learning). Hay muchos otros paquetes de machine learning en diferentes lenguajes, [aquí hay una lista](https://github.com/josephmisiti/awesome-machine-learning). scikit-learn tiene las siguientes características:

* Integrado en SciPy.
* Una comunidad fuerte de usuarios.
* La política es incluir algoritmos de **propósito general** y que se utilicen de manera **generalizada.**

Hay otras bibliotecas más específicas que incluyen alguna forma de integración con scikit-learn. Por ejemplo:

* [NLTK](http://www.nltk.org) especializada en procesamiento del lenguaje natural.
* [Theano](http://deeplearning.net/software/theano/index.html) especializada en depp learning.

## ¿Qué dependencias tiene?
Está basado lógicamente en SciPy, concretamente, las siguientes dependencias son necesarias siempre que lo utilicemos. Es importante ver las versiones porque a veces la documentación que encontramos en la Web puede ser de una versión diferente.

In [1]:
# Arrays homogéneos eficientes con NumPy:
import numpy as np
print 'numpy version:', np.__version__

# Plotting 2D con matplotlib:
import matplotlib
print 'matplotlib version:', matplotlib.__version__

# Indica que se incrusten los gráficos en el Notebook.
%matplotlib inline 

numpy version: 1.9.2
matplotlib version: 1.4.3


Aunque scikit-learn no tiene una dependencia con él, es decir, no lo utiliza, el paquete **pandas** es muy útil para leer datos tabulares y manipularlos. Es decir, para las tareas de preparación de datos que incluyan limpieza, transformación o selección.

In [2]:
import pandas as pd
print 'pandas version:', pd.__version__

pandas version: 0.16.2


Finalmente, es importante también tener presente la versión de scikit-learn, para estar seguros cuando veamos ejemplos o documentación en Internet.

In [3]:
import sklearn
print 'scikit-learn version:', sklearn.__version__

scikit-learn version: 0.15.2


## ¿Dónde encuentro documentación?

* Documentación oficial de scikit_learn: http://scikit-learn.org/stable/documentation.html 
* El tutorial de SciPy "Python Scientific Lecture Notes" incluye una sección de scikit-learn: https://scipy-lectures.github.io/

## ¿Hay alguna visión general rápida?

Además de la introducción de la documentación oficial, hay muchos tutoriales en la Web que describen la forma de uso básica de scikit-learn.

Una visión general y sencilla de los principios de scikit-learn se puede encontrar en este video.

In [4]:
from IPython.display import YouTubeVideo
YouTubeVideo('zVPfVkC5qDk')