# Reconocimiento de Patrones

## Investigación I

## Tutorial - Pre-procesado de datos usando PANDAS

### Estudiante: Fabricio Quirós Corella

#### Febrero 2019

***

El objetivo del presente documento consiste en exponer y explorar los comandos más relevantes con respecto a una útil herramienta en el pre-procesado de datos como lo es __PANDAS__. Seguidamente, se muestra un conjunto de pasos guiados o instrucciones, organizados en las próximas sub-secciones, que permiten ejecutar operaciones relativas a la preparación de información, tales como análisis exploratorio de los datos, valores faltantes, *outliers*, datos no-balanceados, transformación de datos, así como la reducción de dimensiones.

## Consideraciones iniciales

* Incluir las librerías necesarias

In [None]:
%matplotlib
import numpy as np
import pandas as pd

## Análisis Exploratorio de los Datos (EDA)

* Leer el set de datos (archivo extensión *csv*) de interés con información sobre los planetas. Crear el **DataFrame** a procesar.

In [None]:
planets = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv')

* Desplegar de las dimensiones (filas y columnas) del set de datos.

In [None]:
planets.shape

* Número de filas con cada valor único de la variable dada.

In [None]:
planets['year'].value_counts()

* Cantidad de valores distintos en una columna en particular.

In [None]:
planets['year'].nunique()

* Obtener el número de filas en el conjunto de datos.

In [None]:
len(planets)

* Despliegue del nombre de las columnas

In [None]:
planets.columns

* Estadísticas descriptivas básicas por cada columna del set de datos.

In [None]:
planets.describe()

* Valores totales de cada objeto. 

**Nota:** En este caso, omitiendo la primera columna con información cualitativa.

In [None]:
planets.sum()[1:]

* Conteo de los valores no-NA/nulos de cada objeto.

In [None]:
planets.count()

* Mediana de cada objeto del *dataframe*. 

**Nota:** la mediana es el valor de la variable de la posición central en un conjunto de datos ordenados.

In [None]:
planets.median()

* Valor mínimo en cada uno de los objetos del *dataframe*.

**Nota:** En el caso de *strings* considera la mínima cantidad de conjunto de caracteres.

In [None]:
planets.min()

* Valor máximo en cada objeto del set de datos.

**Nota:** En el caso de *strings* considera la máxima cantidad de conjunto de caracteres.

In [None]:
planets.max()

* Media de cada objeto del *dataframe*.

In [None]:
planets.mean()

* Cálculo de la varianza asociada a cada categoría del set de datos.

In [None]:
planets.var()

* Obtención de la desviación estándar para cada uno de los objetos del *dataset*.

In [None]:
planets.std()

* Histograma de cada una de las columnas (o la columna definida).

In [None]:
planets['year'].plot.hist()

* Diagrama de dispersión usando un par de objetos.

In [None]:
planets.plot.scatter(x='distance', y='mass')

* Graficar la cantidad de datos en un objeto en particular.

In [None]:
planets['year'].value_counts().plot(kind = 'barh') #Horizontal

* Despliegue del gráfico de barras relativo a la mediana. En otras palabras, el gráfico correspondiente a la mediana de la masa de los planetas agrupados por año.

**Nota:** Dicho ejemplo considera comandos de agrupamiento de datos (*Group Data*), por ende remitase a la sección de **Datos No-Balanceados**.

In [None]:
planets.groupby('year')['mass'].agg(np.median).plot(kind = 'bar') #Vertical

## Manejo de valores faltantes

* Descartar filas con algún columna que tenga valores NA/nulos.

In [None]:
planets.dropna()

* Remplazar todos los datos NA/nulos con algún valor definido.

In [None]:
planets.fillna(planets.max())

## Outliers

* En ocasiones, resulta importante eliminarlos mediante el uso de percentiles (*quantiles*) de cada uno de los objectos del *dataset*. Este criterio se basa en una división en cuatro partes de la distribución de probabilidad, los percentiles corresponden a 0,25; 0,50 y 0,75.

**Nota:** es recomendado efectuar un análisis previo de la naturaleza de los datos, con el fin de determinar la necesidad de remover *outliers*.

In [None]:
planets.quantile([0.25,0.75])

## Datos No-Balanceados

* Clustering de grupo abundante.

In [None]:
planets.groupby('year').agg(np.max)

* Tamaño del objecto agrupado (*GroupBy*).

In [None]:
planets.groupby('year').size()

* Remove datos duplicados del set de datos.

In [None]:
planets.drop_duplicates()

* Obtener los primeros elementos de las filas de una columna en particular.

In [None]:
planets['mass'][:10]

* Extraer las filas que cumplan con el criterio lógico de su argumento.

In [None]:
planets[planets['method'] != 'Transit']

* Seleccionar múltiples columnas con nombres específicos.

In [None]:
planets[['method', 'year', 'mass']]

* Mostrar las primeras muestras del *dataset* según el valor dado.

In [None]:
planets.head(10) #Primeros 10 elementos del dataframe

* Desplegar las últimas muestras del *dataset* según el valor dado.

In [None]:
planets.tail(10) #Últimos 10 elementos del dataframe

* Seleccionar de forma aleatoria una cantidad establecida de filas.

In [None]:
planets.sample(10) #Random

* Seleccionar todas las columnas entre los objetos dados (inclusive) del *dataframe*.

In [None]:
planets.loc[:, 'number': 'distance']

* Seleccionar todas las columnas en las posiciones establecidas.

In [None]:
planets.iloc[:,[1,2,5]]

* Seleccionar filas por posición.

In [None]:
planets.iloc[10:20] #Filas de la 10 a la 20

* Seleccionar y ordernar una cierta cantidad de las muestras de mayor valor del objeto dado, correspondiente al *dataframe*.

In [None]:
planets.nlargest(10, 'orbital_period')

* Seleccionar y ordernar una cierta cantidad de muestras de menor valor del objeto dado, correspondiente al *dataframe*.

In [None]:
planets.nsmallest(10, 'orbital_period')

## Transformación de los datos

* Ordernar de forma ascendente los primeros 10 datos según la columna (categoría) especificada

In [None]:
planets.sort_values('mass')[:10] # plantes.sort_values('mass', ascending=False) - ordenamiento descendente

* Ordenar según los índices del *DataFrame*.

In [None]:
planets.sort_index()

* Renombrar las columnas de un set de datos.

In [None]:
planets.rename(columns = {'mass':'m'})

* Reiniciar el índice del *dataframe* con el número de filas, moviendo el índice a las columnas.

In [None]:
planets.reset_index()

* Descartar columnas del set de datos.

In [None]:
planets.drop(columns=['method','number'])

* Organizar filas en columnas.

In [None]:
planets.pivot(columns='year', values='distance')

## Referencias

* http://wavedatalab.github.io/datawithpython/index.html

* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf