<a href="https://colab.research.google.com/github/al34n1x/DataScience/blob/master/5.Data_Cleaning/Data_Cleaning_and_Preparation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

>[Preparación de datos](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=DO_6nBOY5ZcN)

>>[Filtrando datos faltantes/NA](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=eTw8759X9lwK)

>>[Completando datos faltantes](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=n6ilPNx0_zFp)

>[Transformación de datos](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=pMzyv6zODVNP)

>>[Remover duplicados](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=hVrJUcXqDs0Q)

>>[Transformar datos usando funciones o mapeos](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=pnfXMh75WtYP)

>>[Discretización y Binning](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=yw6PTz2gYWd8)

>>[Detectando y filtrando outliers](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=M2JbTtlZqqmo)

>[Manipulación de cadenas](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=RD8se-KqsERd)

>>[Métodos Python Built-in](#updateTitle=true&folderId=1hYY6URNFLa2w5I3uQbpDlwOox_am-5cM&scrollTo=tszbFhZbuRTO)



# Preparación de datos
Se dedica una cantidad significativa de tiempo a la preparación de datos: carga, limpieza, transformación y reorganización.
Con frecuencia tales tareas ocupan el 80% o más del tiempo de un analista. A veces, la forma en que los datos se almacenan en archivos o bases de datos no está en el formato correcto para una tarea en particular.
Muchos investigadores eligen hacer un procesamiento ad hoc de datos de una forma a otra utilizando un lenguaje de programación de propósito general, como Python, Perl, R o Java, o herramientas de procesamiento de texto Unix como sed o awk.

<img src = "https://i.pinimg.com/564x/6b/ab/6c/6bab6c9bfb8b1efd560b51400ac946ec.jpg">


Afortunadamente, Pandas, junto con las características incorporadas del lenguaje Python, le brindan un conjunto de herramientas de alto nivel, flexible y rápido para permitirle manipular los datos en la forma correcta.

In [None]:
import pandas as pd
import numpy as np
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

In [None]:
string_data.isnull() # Método para saber si en el arreglo existe un nulo

Estos son algunos de los métodos para manejar Nulos


Argumento | Descripción
--- | ---
dropna | Filtra labels de los ejes basado en si esos valores para cada label se encuentra perdido, con diferentes thresholds para trabajar con dichos valores perdidos
fillna | Rellena valores perdidos con algún valor o usando una interpolación de métodos como **ffill** o **bfill**
isnull | Devuelve valores booleanos indicando donde existe un valor perdido/NA
notnull| A contra partida del método **isnull**, nos devuelve aquellos que no son nulos




## Filtrando datos faltantes/NA

Hay algunas formas de filtrar los datos faltantes. Si bien siempre tiene la opción de hacerlo a mano con **pandas.isnull** e indexación booleana, **dropna** puede ser útil. En una serie, devuelve la serie solo con los datos no nulos y los valores de índice:



In [None]:
from numpy import nan as NA
datos = pd.Series([1, NA, 3.5, NA, 7])
datos

In [None]:
datos.dropna()

In [None]:
datos[datos.notnull()] #Equivalente

In [None]:
datos

Con los objetos DataFrame, las cosas son un poco más complejas. Es posible que desees eliminar filas o columnas que sean todas NA o solo aquellas que contengan NA. **dropna** por defecto descarta cualquier fila que contenga un valor faltante:

In [None]:
datos = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
        [NA, NA, NA], [NA, 6.5, 3.]])
datos

In [None]:
datos_limpios = datos.dropna()
datos_limpios

Podemos querer solo eliminar filas en las cuales son todos los valores NA, para ello pasamos el parámetro **how=all**


In [None]:
datos.dropna(how="all")

Podemos hacer lo mismo con columnas pasando el parámetro **axis=1**. Agreguemos una columna con Valores Nulos

In [None]:
datos[4]=NA
datos

In [None]:
datos.dropna(axis=1, how='all') #Pasamos el parámetro axis=1 con how=all

## Completando datos faltantes

En lugar de filtrar los datos faltantes (y potencialmente descartar otros datos junto con ellos), es posible que desee completar los "agujeros" de muchas maneras. Para la mayoría de los propósitos, el método **fillna** es la función de caballo de batalla a utilizar.

<img src = "https://www.gmcrafts.co.uk/wp-content/uploads/2018/11/Unicorn-And-Rainbow-Main-Product-Image.jpg" width = "300" height = "300">


Llamar a **fillna** con una constante reemplaza los valores faltantes con ese valor:


In [None]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

In [None]:
df.fillna(0)

Con **fillna** en conjunto con un dict podemos darle diferente valores a cada columna


In [None]:
df.fillna({1: 0.5,
           2: 0}) # IMPORTANTE! Lo usarán bastante durante la ejercitación

**fillna** devuelve un nuevo objeto, pero puedes modificar el objeto existente.


In [None]:
df = df.fillna(0) #Recuerdan esto de la primera clase?
df

Los mismos métodos disponibles para reindexing se pueden usar con **fillna**

In [None]:
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
df

In [None]:
df.fillna(method='ffill', limit=2)

In [None]:
serie = pd.Series([1., NA, 3.5, NA, 7])
serie

In [None]:
serie.fillna(serie.mean()) # Qué estamos haciendo aquí?

# Transformación de datos

Hasta aquí hemos trabajando con el ordenamiento de datos, filtrado, limpieza. Ahora veremos algunas transformaciones importantes que serán de utilidad durante el análisis de datos

## Remover duplicados

Filas duplicadas pueden ser encontradas en un DataFrame for diferentes razones. Como parte del proceso de preparación de datos, debes eliminar dichas duplicaciones que afectan al análisis final.


In [None]:
df = pd.DataFrame({'k1': ['Deadpool', 'Wolverine'] * 3 + ['Wolverine'],
            'k2': [1, 1, 2, 3, 3, 4, 4]})
df

El metodo DataFrame **duplicated** devuelve serie booleana indicando aquellas filas que poseen valores duplicados, identificados con filas previamente leidas.


In [None]:
df.duplicated()

Puedes eliminar los duplicados utilizando el método **drop_duplicates**

In [None]:
df.drop_duplicates()

## Transformar datos usando funciones o mapeos

Para muchos conjuntos de datos, es posible que desees realizar alguna transformación en función de los valores de una matriz, serie o columna en un DataFrame. Considere los siguientes datos hipotéticos recopilados sobre varios tipos de carne:

In [None]:
datos = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon',
                              'Pastrami', 'corned beef', 'Bacon',
                              'pastrami', 'honey ham', 'nova lox'],
                     'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
datos

In [None]:
'''
Supongamos que deseamos agregar una columna indicando el tipo
de animal de donde proviene el alimento
'''
carne_a_animal = {
  'bacon': 'pig',
  'pulled pork': 'pig',
  'pastrami': 'cow',
  'corned beef': 'cow',
  'honey ham': 'pig',
  'nova lox': 'salmon'
}

In [None]:
lowercased = datos['food'].str.lower()
lowercased

In [None]:
datos['animal'] = lowercased.map(carne_a_animal) #Realizamos el mapping. Por qué realizamos el Lowercase?
datos

Veamos un ejemplo con función Lambda.

Ayudamemoria:

In [None]:
def sumar(a,b):
  return a+b

print(sumar(1,2))

In [None]:
sumar_lambda = lambda a,b: a+b

print(sumar_lambda(1,2))

In [None]:
'''
También podemos usar una función que haga todo lo anterior
'''
datos['animal'] = datos['food'].map(lambda x: carne_a_animal[x.lower()])
datos

## Discretización y Binning

Los datos continuos a menudo se discretizan o se separan en "contenedores" para su análisis. Supongamos que tiene datos sobre un grupo de individuos en un estudio y desea agruparlos en grupos de edad discretos:

In [None]:
edad = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
edad

Dividamos estos valores en diferentes bins de 18 a 25, 26 a 35, 36 a 60, y 61 y mayor.
Para ello usamos la función **cut** en Pandas


In [None]:
bins = [18, 25, 35, 60, 100]
gatos = pd.cut(edad, bins)
gatos

In [None]:
gatos.codes

In [None]:
gatos.categories

In [None]:
pd.value_counts(gatos)

In [None]:
import pandas as pd
perros = pd.cut(edad, [18, 26, 36, 61, 100], right=False)
perros

In [None]:
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior'] #You can also pass your own bin names by passing a list or array to the labels option:
pd.cut(edad, bins, labels=group_names)

Si pasa un número entero de bins para cortar en lugar de bordes explícitos, calculará bins de igual longitud en función de los valores mínimos y máximos en los datos. Considere el caso de algunos datos distribuidos uniformemente cortados en cuartos:

In [None]:
import numpy as np
datos = np.random.rand(100)
datos

In [None]:
cut_en_4 = pd.cut(datos, 4, precision=2) # The precision=2 option limits the decimal precision to two digits.

In [None]:
pd.value_counts(cut_en_4)

Una función estrechamente relacionada, **qcut**, agrupa los datos en base a cuantiles de muestra. Dependiendo de la distribución de los datos, el uso de cortar generalmente no dará como resultado que cada contenedor tenga el mismo número de puntos de datos. Dado que **qcut** usa cuantiles de muestra en su lugar, por definición obtendrá contenedores de aproximadamente el mismo tamaño:

In [None]:
datos = np.random.randn(200)  # Normally distributed
datos

In [None]:
gatos = pd.qcut(datos, 4)  # Cut into quartiles
gatos

In [None]:
pd.value_counts(gatos)

In [None]:
qcut_cuantiles = pd.qcut(datos, [0, 0.1, 0.5, 0.9, 1.]) # Similar to cut you can pass your own quantiles

In [None]:
pd.value_counts(qcut_cuantiles, sort=False)

## Pregunta de examen

Donde usarías cut vs qcut?



## Detectando y filtrando outliers

Filtrar o transformar valores atípicos es en gran medida una cuestión de aplicar operaciones de matriz. Considere un DataFrame con algunos datos distribuidos normalmente:

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4))
df

In [None]:
df.describe() # Función importante

Supongamos que deseas encontrar valores en una columna que exceda en 3 valor absoluto

In [None]:
col = df[2]
col[np.abs(col) > 3]

Para ubicar todas las filas que exceden en 3 o -3 **para cualquier columna**, puedes usar el método **any** en un DataFrame Booleano


In [None]:
df[(np.abs(df) > 3).any(1)]

# Manipulación de cadenas

Python ha sido durante mucho tiempo un lenguaje popular de manipulación de datos sin procesar en parte debido a su facilidad de uso para el procesamiento de cadenas y texto. La mayoría de las operaciones de texto se simplifican con los métodos integrados del objeto de cadena. Para la coincidencia de patrones más complejos y las manipulaciones de texto, pueden ser necesarias expresiones regulares. pandas se suma a la mezcla al permitirle aplicar cadenas y expresiones regulares de manera concisa en conjuntos completos de datos, además de gestionar de forma eficiente la molestia de los datos faltantes.

In [None]:
val = 'a,b,  patito'
val

Podemos utilizar el método **split** que nos permite separar cadenas que posean algún tipo de separador. **split** generalmente se combina con **strip** que permite eliminar espacios en blanco

In [None]:
val.split(',')

In [None]:
partes = [x.strip() for x in val.split(',')]
partes

Una forma de unir partes de cadenas es usar el método **join**

In [None]:
'::'.join(partes)

Otros métodos que puedes utilizar para la búsqueda de subcadenas son **index** y **find**

In [None]:
'patito' in val

In [None]:
val.index(',') # Devuelve un excepción si no encuentra la cadena

In [None]:
val.find(':') #Devuelve un -1 si no encuentra la cadena

**replace** sustituye ocurrencias de un patrón a otro. Es comunmente utilizado para eliminar patrones, o también, pasar cadenas vacías

In [None]:
val.replace(',', '::')

In [None]:
val.replace(',', '')

## Métodos Python Built-in

A continuación se detallan algunos métodos Python para el manejo de cadenas.

Argumento | Descripción
---|---
count | Devuelve el número de ocurrencias no superpuestas de subcadena en la cadena.
endswith | Devuelve True si la cadena termina con sufijo.
startswith | Devuelve verdadero si la cadena comienza con el prefijo.
join | usa una cadena como delimitador para concatenar una secuencia de otras cadenas.
index |  Devuelve la posición del primer carácter en la subcadena si se encuentra en la cadena; aumenta ValueError si no se encuentra.
find| Devuelve posición de retorno del primer carácter de la primera aparición de subcadena en la cadena; como índice, pero devuelve –1 si no se encuentra.
rfind | Devuelve la posición del primer carácter de la última aparición de la subcadena en la cadena; devuelve –1 si no se encuentra.
replace | Reemplazar ocurrencias de cadena con otra cadena.
strip, rstrip, lstrip |  Recortar espacios en blanco, incluidas las nuevas líneas; equivalente a x.strip () (y rstrip, lstrip, respectivamente) para cada elemento.
split |  Divide la cadena de ruptura en la lista de subcadenas usando delimitador pasado.
lower |  Convierte caracteres del alfabeto a minúsculas.
upper | Convierte los caracteres del alfabeto en mayúsculas.
casefold | Convierte caracteres en minúsculas y convierte cualquier combinación de caracteres variables específica de la región en una forma comparable común.
just, rjust | Justificación izquierda o justificación derecha, respectivamente; rellena el lado opuesto de la cadena con espacios (o algún otro carácter de relleno) para devolver una cadena con un ancho mínimo.
