# Reconocimiento de patrones: Introducción
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
![ ](images/blank.png)
![agents](images/binary_data_under_a_magnifying.jpg)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Intro%202.%20Bases%20matem%C3%A1ticas.ipynb)

## Definición. Bases matemáticas

El reconocimiento de patrones es una habilidad de los seres vivos. 

![](images/plant.jpg)
![ ](images/blank.png)Las técnicas artificiales de reconocimiento de patrones buscan reproducir las estrategias naturales. 

Una estrategia natural de reconocimiento de patrones que parece obvia es la **clasificación**: Los seres vivos 'distinguimos' entre *clases* de objetos, en función de la *semejanza* que existe entre ellos. 

La calidad de la clasificación depende de la cantidad de *atributos* que tenemos disponibles para 'representar' los diferentes objetos. En las imágenes a continución, utilizamos los colores para distinguir animales peligrosos. Esta propiedad, llamada *aposematismo*, sirve como señal de peligro a los depredadores. El *mimetismo*, por otra parte, permite a algunos seres vivos imitar a otros seres para ser confundidos con ellos. Gracias a estos mecanismos la *coral ratonera*, evaluada sólo en base a su color y confundida con la coralillo, es considerada falsamente como un animal venenoso. 
![](images/classes01.jpg)
### Atributos y características
Un **atributo** es una propiedad simbólica o numérica de una *propiedad* de un objeto, que puede ser útil para clasificarlo en una clase. Los diferentes objetos en un problema son descritos mediante diferentes *conjuntos de atributos*: En una clasificación de animales, por ejemplo, la descripción de las aves incluye atributos como el tipo de plumaje o la longitud del pico, atributos que no tiene sentido para otras clases de animales. 

Una manera de sistematizar y homogenizar la descripción de elementos en un problema es utilizando el mismo conjunto de propiedades para todos ellos, sean útiles o no para la clasificación de un objeto en particular, organizadas en lo que se denomina **vector de características**, 

Cada 'caso' representado mediante un vector de carcterísticas en el conjunto de datos se denomina **instancia** (o *ejemplo*, particularmente en el contexto de entrenamiento supervisado). 



#### Ejemplo 1.intro: Diabetes 

* **Conjunto de datos**: *Pima Indians Diabetes* 

* **Fuente**: Lichman, M. (2013). UCI Machine Learning Repository [https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes]. Irvine, CA: University of California, School of Information and Computer Science. 

* **Descripción**: El conjunto de datos *Pima Indian Diabetes Data Set* se ha convertido en un estándar para el análisis en el desempeño y precisión de métodos de diagnóstico de la diabetes, debido a que es la más amplia sistematización de observaciones de este problema. Esta base de datos reune información de mujeres indígenas proveniente de la tribu Pima residentes en Arizona y con edades igual o mayores a 21 años. La base de datos está compuesta por 768 instancias, formadas por 8 variables o atributos de entrada, además de una columna adicional que establece si la paciente tien diabetes (1) o no (0): 

Variable | Atributos de predicción | Etiqueta 
---------| ----- | 
1 | Número de embarazos | *emb* 
2 | Concentración plasmática de glucosa a las 2 horas de una prueba de tolerancia a la glucosa oral | *gl2h* 
3 | Presión diastólica de la sangre | *pad* 
4 | Espesor de la piel del tríceps | *ept* 
5 | Cantidad de insulina en suero en dos horas | *is2h* 
6 | Índice de Masa Corporal | *imc* 
7 | Antecedentes Familiares | *fpd* 
8 | Edad | *edad* 
9 | Estado diabético | *clase* 

* **Vector de características**:  *v* = {*emb, gl2h, pad, ept, is2h, imc, fpd, edad*} 

Podemos leer y estos datos en Python, de la siguiente manera: 


In [1]:
"""
Reconocimiento de patrones: Introducción
"""

import pandas as pd
import os

os.chdir('Data sets/Pima Indian Data Set') 
#Lectura simple de datos
df = pd.read_csv("pima-indians-diabetes.data")

print(df.head(3))

   6  148  72  35   0  33.6  0.627  50  1
0  1   85  66  29   0  26.6  0.351  31  0
1  8  183  64   0   0  23.3  0.672  32  1
2  1   89  66  23  94  28.1  0.167  21  0


Al desplegar los datos, vemos que al no tener encabezados, el Dataframe toma como encabezados la primera línea de valores. Agregamos entonces las etiquetas como encabezados de las columnas:

In [2]:
#Lectura de los datos, agregando nombres de las columnas
df = pd.read_csv("pima-indians-diabetes.data", 
                 names = ['emb', 'gl2h', 'pad', 'ept', 'is2h', 'imc', 'fpd', 'edad', 'class'])
print(df.head(3))

   emb  gl2h  pad  ept  is2h   imc    fpd  edad  class
0    6   148   72   35     0  33.6  0.627    50      1
1    1    85   66   29     0  26.6  0.351    31      0
2    8   183   64    0     0  23.3  0.672    32      1


Para concluir la discusión de este primer ejemplo, damos un vistazo preliminar a los datos:

In [3]:
print( df.info())
print( df.describe() )

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
emb      768 non-null int64
gl2h     768 non-null int64
pad      768 non-null int64
ept      768 non-null int64
is2h     768 non-null int64
imc      768 non-null float64
fpd      768 non-null float64
edad     768 non-null int64
class    768 non-null int64
dtypes: float64(2), int64(7)
memory usage: 54.1 KB
None
              emb        gl2h         pad         ept        is2h         imc  \
count  768.000000  768.000000  768.000000  768.000000  768.000000  768.000000   
mean     3.845052  120.894531   69.105469   20.536458   79.799479   31.992578   
std      3.369578   31.972618   19.355807   15.952218  115.244002    7.884160   
min      0.000000    0.000000    0.000000    0.000000    0.000000    0.000000   
25%      1.000000   99.000000   62.000000    0.000000    0.000000   27.300000   
50%      3.000000  117.000000   72.000000   23.000000   30.500000   32.000000   
75%      6.000000

El método *info()* ofrece una primera información muy general, sobre el conjunto de datos; en este caso, básicamente que se trata de variables numérica y que el conjunto de datos contiene 768 vectores. 
El método *describe()* es más interesante: *count* nos dice cuantos registros hay de cada variable... en este caso 768 para todas las variables. *mean* es el valor promedio; por ejemplo, el promedio de embarazos en este grupo de 768 mujeres es de 3.845052. El mínimo de embarazos es 0 y el máximo 17. La cuarta parte de las mujeres han tenido 1 embarazo o menos, el 50% ha tenido 3 embarazos o menos y el 25% ha tenido 6 o más embarazos. 
Analizados con más cuidado, vemos que el índice de masa corporal (*imc*), definido como la masa del individuo entre el cuadrado de su altura, muestra como valor mínimo 0, lo cual es imposible. Esto significa que debe haber valores faltantes que en el conjunto de datos fueron registrados como 0; es decir, tenemos un problema de *datos sucios*. 

#### Ejemplo 2.intro: Rendimiento de combustible 

* **Conjunto de datos**: *Auto MPG Data Set* 

* **Fuente**: Lichman, M. (2013). UCI Machine Learning Repository [https://archive.ics.uci.edu/ml/datasets/Auto+MPG]. Irvine, CA: University of California, School of Information and Computer Science. 

 Tabla obtenida: 
              mpg   cylinders  displacement       weight  acceleration  
count  398.000000  398.000000    398.000000   398.000000    398.000000   
mean    23.514573    5.454774    193.425879  2970.424623     15.568090   
std      7.815984    1.701004    104.269838   846.841774      2.757689   
min      9.000000    3.000000     68.000000  1613.000000      8.000000   
25%     17.500000    4.000000    104.250000  2223.750000     13.825000   
50%     23.000000    4.000000    148.500000  2803.500000     15.500000   
75%     29.000000    8.000000    262.000000  3608.000000     17.175000   
max     46.600000    8.000000    455.000000  5140.000000     24.800000   

       model year      origin  
count  398.000000  398.000000  
mean    76.010050    1.572864  
std      3.697627    0.802055  
min     70.000000    1.000000  
25%     73.000000    1.000000  
50%     76.000000    1.000000  
75%     79.000000    2.000000  
max     82.000000    3.000000  
Características que encontré: Se ve todo muy normal, no encontré nada fuera de lo común, es una base de datos bonita. Tuve que modificar un poco los datos para que funcionase con el pandas, aunque mientras los modificaba noté que faltaban algunos datos pero no se refleja aquí.


#### Ejemplo 3.intro: Taxonomís de flores 

* **Conjunto de datos**: *Iris Plants Database* 

* **Fuente**: Lichman, M. (2013). UCI Machine Learning Repository [https://archive.ics.uci.edu/ml/datasets/Iris]. Irvine, CA: University of California, School of Information and Computer Science. 

 Tabla obtenida: 
           sepal length in cm  sepal width in cm  petal length in cm  
count          150.000000         150.000000          150.000000   
mean             5.843333           3.057333            3.758000   
std              0.828066           0.435866            1.765298   
min              4.300000           2.000000            1.000000   
25%              5.100000           2.800000            1.600000   
50%              5.800000           3.000000            4.350000   
75%              6.400000           3.300000            5.100000   
max              7.900000           4.400000            6.900000   

              petal width in cm   
count          150.000000  
mean             1.199333  
std              0.762238  
min              0.100000  
25%              0.300000  
50%              1.300000  
75%              1.800000  
max              2.500000  
Características que encontré: Igual que la anterior se ve muy bien


#### Otras fuentes de Bases de datos

* [Scientific Data at Nature](http://www.nature.com/sdata/policies/repositories)

* [Magic ;-)](https://www.kaggle.com/mylesoneill/magic-the-gathering-cards)

<hr style="border-width: 3px;">

### Tarea 2

Analice los conjuntos de datos de los ejemplos 2 y 3 anteriores, con los mismos puntos que se presentaron para el Ejemplo 1. 

**Fecha de entrega**: Martes 24 de enero.