# Reconciliación de datos

Los datos generalmente presentan muchos tipos de problemas:
- A veces faltan datos (NA) quizá por que los encuestados no respondieron algunas preguntas.
- Algunas ocasiones los datos están mal codificados, haciendo que, por ejeplo, una fecha aparezca en el lugar del peso de un jugador de la NFL
- Otras ocasiones los encuestadores tienen límites máximos respecto a los valores que pueden codificar, así, personas de más de 100 años se les pone 99.
- A veces en un conjunto de datos se usa el sistema métrico decimal y en otros el sistema inglés.

Arreglar estos problemas se le conoce como reconsiliación de datos o *limpieza de datos*.

## 1. Lenguajes y software para ciencia de datos
- [Python](https://youtu.be/fk8ATuMUltU). Es básicamente el estándar, y sigue ganando popularidad.
- [R](https://cran.r-project.org/). Fue el lenguaje dominante para hacer estadística hasta hace poco.
- [Microsoft Excel](https://products.office.com/es-MX/). Es el caballito de batalla para limpiar datos.

**Menciones honoríficas**
- [SAS](https://www.sas.com/es_mx/home.html). Líder en la industria de Analítica (según ellos). Es un software con su propio lenguaje de dominio.
- [SPSS](https://www.ibm.com/analytics/mx/es/technology/spss/index.html). Es una interfaz gráfica para usar métodos de estadística y aprendizaje automático.
- [Matlab](https://www.mathworks.com/products/matlab.html). Entorno de desarrollo para cómputo científico.
- [Mathematica](https://www.wolfram.com/mathematica/). Un sistema de álgebra computacional con esteroides. Hace de todo, pero no es específico de ciencia de datos.


## Tecnologías para almacenar datos
Se le da preferencia a las tecnologías opensource sobre los formatos propietarios.
- CSV. Significa valores separados por comas por sus siglas en inglés. Está regido por https://tools.ietf.org/html/rfc4180
- JSON. Es la manera en que se transportan estructuras de datos de JavaScript a través de Internet. Especificación: https://tools.ietf.org/html/rfc4627
- XML. Inspirado en HTML y popular en Java. Sumamente verbal. 
- SQLite. Es un sistema de base de datos de cero configuración, se usa en Android, aplicaciones de escritorio, y es recomendado como estándar por el gobierno de USA.

In [1]:
import random
import sqlite3

import numpy as np
import pandas as pd

In [2]:
con = sqlite3.connect('Datos/ejemplo.db')

In [3]:
con.execute('''
    CREATE TABLE ejemplo (
        campo1 INTEGER ,
        campo2 REAL,
        campo3 TEXT,
    PRIMARY KEY (campo1)) 
''')

campo1 = range(1, 101)
campo2 = [random.random() for k in range(100)]
campo3 = ['Hola' for k in range(100)]

for renglon in zip(campo1, campo2, campo3):
    con.execute(
        '''
        INSERT INTO ejemplo
        VALUES (?, ?, ?)
        ''',
        renglon)
con.commit()

OperationalError: table ejemplo already exists

In [None]:
list(con.execute('SELECT * FROM ejemplo WHERE campo2 > 0.9'))

## Detección de errores y artefactos en los datos

- **Errores**: datos que están permanentemente inaccesibles.
- **Artefactos**: datos que presentan problemas sistemáticos que surgen de del procesamiento, codificación, etc.