# Preparación de datos.

Problemas comunes al leer datos.

## Leer el archivo. 

Las formas mas comunes de archivos son:
- csv
- Tab separated values
- xlsx 
- zip
- .txt
- json
- html

El primer paso es importar las librerías que nos ayudarán en todo el proceso de limpieza de datos.

In [2]:
import pandas as pd
import numpy as np
import json

En el caso de cada uno de los tipos de dato, tiene diferentes maneras de mandarlo a llamar.


In [None]:
Csv:
df = pd.read_csv("file.csv")

Text:
df_tab = pd.read_table("file.txt")

Excel:
df_excel = pd.read_excel("examplefileexcel.xlsx")

ZIP:
import zipfile as zp
archive = zp.ZipFile("examplefile.zip","r")
df_zip = archive.read("examplefile.csv")

Read a text
txt_file = open("examplefile.txt","r")
txt_file.read()

Json:
df_json = pd.read_json("myvalidjsonfile.json")

Html:
url = 'http://www.fdic.gov/bank/individual/failed/banklist.html'
df_html = pd.read_html(url)
df_html_table = pd.read_html("examplehtml.html")

En la mayoría de los casos cuando se trabaja con Excel, o si el archivo contiene simbolos que la computadora no reconoce (acentos, letras que pertenecen a otro lenguaje que no sea el inglés estandar) nos marcará un error de ejecución. Para esto se utiliza el encoding.

In [None]:
df = pd.read_csv("unclean_data1.csv",encoding='utf8')

El utf8 se utiliza generalmente para simbolos extraños.

## Visualización de los datos.

Una vez que ya tenemos cargada nuestra base de datos al notebook, podemos empezar a manipularla. Para poder fijar el objetivo de nuestra limpieza, primero tenemos que revisar cuales son los datos que conforman la base de datos.

In [None]:
data_frame.shape

Con esta instrucción de shape nos enteramos de cuantas columnas y cuantas filas cuenta nuestra base de datos.

In [None]:
data_frame.head()

Con el comando de head podemos ver los primeros cinco elementos de cada una de las columnas. En caso de que se quieran ver más datos que el default de 5, dentro del parentesis se anota el numero de elementos que queremos mostrar. Esto es especialmente importante para datos csv o json, ya que al no tener el formato natural de un xlsx en tabla, cuando mandamos a llamar la base de datos, nos aparecen todos los datos separados por comas, o parentesis, lo que no lo hace visualmente sencillo de entender y sacar conclusiones.


El contrario de head es tail, y nos muestra los últimos valores del dataset, y de igual manera, por default nos muestra 5, pero podemos especificarle cuantos datos queremos ver en realidad.

In [None]:
data_frame.tail()

Otra manera de ver los datos es por medio del comando de columnas.

In [None]:
df.columns

En este caso los nombres de las columnas apareceran en una lista, tal y como aparecen en la base de datos. Aqui debemos tener en cuenta que python no es muy amigable con titulos con espacios o palabras con caracteres extraños, por lo que utilizando esta misma instrucción, podemos cambiar el nombre de la columna a uno que nos facilite la extracción de su información.

In [None]:
df.rename(columns = {'Nombre de la columna':'Nuevo_nombre'})

Si se quiere saber el tipo de dato que contiene cada columna, usamos el comando

In [None]:
data_frame.dtypes

Y si queremos saber el tipo de datos que contiene una columna en especifico, cambiamos la instrucción a:

In [None]:
data_frame['Nombre_columna'].dtype

En caso de que en una columna existan varios tipos de elementos numericos, puedes normalizarlo con la siguiente instrucción.

In [None]:
data_frame.Nombre_columna.astype("float")

En donde todos los valores dentor de la columna Nombre_columna se convertiran a flotantes.


### Nota:
Se tiene que tener cuidado con este comando, ya que si se requiere cambiar de flotante a enteros, y lo que queremos es una predicción segura, podemos estar perdiendo datos importantes al momento de convertirlos. Lo que nos lleva al problema de datos nulos que veremos mas adelante.

Saber el nombre de las columnas tambien nos ayuda para localizar elementos dentro de ellas. Con el comando unique podemos extraer los valores unicos de la columna. En caso de que nosotros queramos hacer un clasificador, con esta instrucción podemos darnos cuenta de las etiquetas de salida que tiene cada columna.

In [None]:
data_frame.Nombre_columna.unique()

Ahora que sabemos los valores de nuestra columna Nombre_columna, podemos hacer agrupaciones de datos. Por ejemplo, si en la columna Nombre_columna tengo como datos unicos lo siguiente:

- Clase_1
- Clase_2
- Clase_3

Yo puedo agrupar todos los valores dentro de la clase en la que estan etiquetados.



In [None]:
clase_1 = data_frame[data_frame['Nombre_columna']=='Clase_1']

clase_1.to_csv('Solo_clase1.csv', index=False)

Si se quiere encontrar un valor dentro de un data frame, dependiendo de los valores de otra columna se utiliza:

In [None]:
clase_1_vs_fecha = data_frame.loc[data_frame.Nombre_columna == 'Clase_1'].Fecha

En el ejemplo de arriba, en la variable de clase_1_vs_fecha se van a guardar los valores de la columna Fecha que coincidan con los valores de 'Clase_1' en la columna de Nombre_columna.

Suponiendo ahora que solo tengo dos tipos de clase en la columna Nombre_columna, y quiero cambiar los nombres dentro de los datos unicos para poder realizar una clasificacion binaria, puedo hacer lo siguente:

In [None]:
data_frame.Nombre_columna.replace(to_replace = dict(Clase_1 = 1, Clase_2 = 0), inplace = True)

En caso de que quiera deshacerme de una columna que no necesito, como por ejemplo, si mi base de datos cuenta con el nombre del cliente en la columna Nombre, dentro del data_frame.


In [None]:
data_frame.drop('Nombre',axis = 1 )

PREGUNTAS DE INTERES:

- ¿Para que me puede servir estas agrupaciones para la práctica siguiente?

## Datos nulos.

Para estos casos, primero se tiene que hacer un análisis de los valores faltantes. Para esto utilizamos los siguientes comandos.

In [None]:
data_frame.isnull()

Que nos da como resultado la base de datos, pero en cada celda esta un valor boleano de True o False para indicarnos cuales son los valores nulos (True). Esto puede servirnos para visualizar una base de datos pequeña, pero en caso de tener muchos datos, es necesario dar un resumen del comportamiento de los datos nulos.



In [None]:
df.isnull().any()

Al agregar el any a la sentencia, nos va a dar como resultado la lista de los nombres de las columnas, y a un lado los valores boleanos de True o False, para decirnos si en esa columna hay valores nulos (True) o no los hay (False).

Esto nos da una idea de donde debemos buscar para resolver nuestros valores nulos. Para tener una idea más acertada de cuantos valores nulos tenemos por columna, podemos usar:

In [None]:
df.isnull().sum()

Que nos dará como salida la suma de los valores nulos que existen en cada columna.

Ahora, para poder rellenar los valores nulos, es importante hacer una nueva variable que pueda contener tu dataframe, en caso de que te equivoques al modificar datos. Tambien puede ser una opcion buena el hacer una copia de tus datos en caso de que quieras volver a manejarlos desde cero.

### Preguntas de interes:
- Importancia del analisis previo de los datos antes de iniciar las modificaciones.

In [None]:
data_frame_0 = data_frame.fillna(0)

Con esa instrucción, todos los valores que tengan celdas nulas, se llenaran con ceros. Esto también es una desisión que se tiene que deliberar, ya que si tus datos si reportan valores de cero, puedes afectar el resultado de tus pruebas estadisticas.

In [None]:
df_drop = df.dropna()


Con el comando de arriba lo que le estas indicando es que quieres que te elimine todas las filas que contengan datos nulos. En la parte de abajo tenemos que quieres eliminar todas las columnas que tengan datos nulos dentro de tu base de datos.

In [None]:
df_drop_column = df.dropna(axis=1)

# Tarea:

Dada una base de datos en grupo, realizar las diferentes técnicas de pre procesamiento de datos. Pueden ser las mencionadas en esta práctica, o pueden agregar nuevas. Los temas que tienen que tocar de manera obligatoria:

- Importar librerias y base de datos.
- Visualizar los datos.
- Descrpcion básica de columnas (tipo, elementos, celdas vacias, etc.)
- El objetivo es una clasificación con los datos, asi que hay que acomodar los datos de manera que se nos facilite esta tarea.
- Cambiar nombres de columnas.
- Guardar otros archivos con agrupaciones.
- Responder las preguntas de interes.

Tareas extras:
(Puntos extras)
- Investigar los siguientes comandos:
?df.dropna()
?df.astype

- Realizar una tarea de preprocesamiento no mencionada en esta práctica.

In [None]:
df=df.replace('\*','',regex=True).astype(float)

df.dropna(thresh=int(df.shape[0] * .9), axis=1)