# Carga de datos y trabajo con valores perdidos

En este notebook estudiaremos en mayor profundidad dos secciones del análisis exploratorio de datos: la carga y detección y gestión de datos no disponibles.

Los módulos usados en este cuaderno son:

In [None]:
import numpy as np
import pandas as pd

Profundicemos primero en la carga de datos:

## Carga de datos

En el notebook anterior vimos una manera sencilla de leer archivos csv pero los archivos csv no siempre vendrán limpios y preparados para la lectura por eso es interesante ver algunos de los parámetros más usados del método `pd.read_csv()` así como la posibilidad de leer dataframes de otros tipos de archivos como archivos .txt u hojas de Excel.

A la hora de leer un csv es interesante abrir el archivo con un editor de textos para comprobar cómo se presenta información.

El parámetro delimiter separa los elementos según el delimitador indicado:

In [None]:
data_cine = pd.read_csv('./data/cine.csv', delimiter='::')
data_cine

El parámetro header indica si existe o no cabecero para la tabla:

In [None]:
data_cine = pd.read_csv('./data/cine.csv', delimiter='::', header = None)
data_cine

El parámetro names nos permite dar nombre a nuestras columnas:

In [None]:
data_cine = pd.read_csv('./data/cine.csv', delimiter='::', header = None, names=['Index', 'Film', 'Genre'])
data_cine

El parámetro index_col nos permite indicar que una de las columnas del csv debe usarse como índice del dataframe. Esta columna no puede tener valores repetidos pues el índice asigna un valor único a cada fila:

In [None]:
data_cine = pd.read_csv('./data/cine.csv', delimiter='::', header = None, names=['Index', 'Film', 'Genre'], index_col=['Index'], engine='python')
data_cine

Otra situación muy habitual es que algunas de las primeras líneas del archivo vengan ocupadas por información relevante (no debe ser borrada) pero que no forma parte de nuestra tabla. En estos casos es útil el parámetro skiprows que indica el número de líneas al principio del csv a ignorar:

In [None]:
data_peli = pd.read_csv('./data/peliculas.csv', skiprows=6)
data_peli

### Archivos .txt

A la hora de leer arrays de archivos .txt usamos el método de numpy `np.loadtxt()`. Comprobamos el archivo y observamos que se emplea la coma como separador de datos. Esto será util cuando queramos cargar vectores o archivos con una sola columna:

In [None]:
tips =  np.loadtxt('./data/tips.txt', delimiter=',') 
tips

### Hojas de excel

Pandas también nos permite mediante el método `read_excel` leer tablas almacenadas en hojas de Excel. Veamos un ejemplo:

In [None]:
!pip install xlrd

Empleamos el parámetro sheet_name para indicar la hoja que deseamos que lea:

In [None]:
dfexcel = pd.read_excel('./data/clientes.xlsx', sheet_name = "Hoja2") 
dfexcel



Estos son las principales fuentes de datos y los parámetros más relevantes del método de pandas `read_csv()`. Existen otros muchos parámetros menos utilizados pero que en caso de que necesites puedes consultar en la [documentación de la función](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

***

## Trabajo con valores perdidos

Como se comentó en el notebook anterior no siempre se dispone de toda la información y en nuestro dataframe pueden aparecer casillas vacías con las que debemos trabajar. Existen cuatro técnicas a la hora de enfrentar esta situación:

* __Trabajar con los valores perdidos.__
* __Eliminar registros__
* __Eliminar variables__
* __Imputar valores__

A continuación analizaremos las cuatro opciones, comenzamos cargando unos datos con bastantes huecos:

In [None]:
nan_data = pd.read_csv('./data/nan_data.csv')
nan_data.head()

Observamos el tamaño del dataframe:

In [None]:
nan_data.shape

Comprobamos cómo se distribuyen los valores perdidos:

In [None]:
nan_data.info()

### Trabajar con valores perdidos

Multitud de algoritmos y modelos están diseñados para funcionar con datos vacíos o NaN's. Se puede trabajar con ellos sin pérdida de precisión y sin más dificultades. Es una opción perfectamente válida y que nos ahorra tiempo en el preprocesamiento.

### Eliminar registros

En ocasiones los NA's se concentran en algunos registros, en este caso puede ser útil eliminar las filas con NA's para lo que empleamos el método `dropna()`:


In [None]:
clean_registers = nan_data.dropna()

In [None]:
clean_registers.shape

In [None]:
clean_registers.head()

En este caso nos quedaríamos sin filas por lo que no parece una buena idea.

### Eliminar variables

Mediante el mismo método podemos probar a eliminar columnas:

In [None]:
clean_variables = nan_data.dropna(axis='columns')

In [None]:
clean_variables.shape

In [None]:
clean_variables.head()

En este caso nos quedaríamos con una única columna. Tampoco parece muy buena idea.

### Imputar valores

En ocasiones si supone una gran pérdida de información se procede a la imputación de valores. Existen distintas técnicas pero la más utilizada con diferencia es el empleo de la mediana. El método es sencillo:

* Seleccionamos la variable en la que queremos sustituir los valores vacíos por valores estimados.
* Calculamos la mediana de los valores disponibles.
* "Rellenamos" todos los valores perdidos con la mediana

Para ello podemos emplear el método `fillna()`:

In [None]:
nan_data.Variable_E.isna().sum()

En la Variable_E tenemos 3167 observaciones perdidas. Por lo que:

In [None]:
nan_data.shape[0] - 3167

Disponemos de 78 observaciones. Calculamos la mediana de dichas observaciones:

In [None]:
median_e = nan_data.Variable_E.median()
median_e

Finalmente mediante el método `fillna()` reemplazamos los valores perdidos por ese valor:

In [None]:
cleaned_E = nan_data

In [None]:
cleaned_E['Variable_E'] =nan_data.Variable_E.fillna(median_e)

In [None]:
cleaned_E.shape

In [None]:
cleaned_E.head()

Observamos que la Variable_E no tiene ningún valor perdido:

In [None]:
cleaned_E.info()

Según el problema que enfoquemos y la densidad de valores perdidos de nuestra tabla nos decantaremos por una u otra opción, no existen reglas para decidirlo a priori.