[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/efviodo/idatha-data-science-course/blob/master/notebooks/04%20-%20DS%20-%20Comprension%20de%20los%20Datos%20-%20Python.ipynb)

<img src="https://github.com/efviodo/idatha-data-science-course/raw/master/notebooks/figures/idatha-logo.jpeg" width="100px" height="100px" style="float:left"/>

# Comprensión de los Datos

## Objetivos

- Presentar una guía para familiarizarse con los datos
- Explicar que es el análisis de la calidad en ciencia de datos
- Comprender la importancia de la calidad en ciencia de datos
- Presentar algunas herramientas para hacer un perfil de datos

<a id='Indice'></a>
## Índice
[Inicio ▲](#Indice)

1. [Dependencias](#Dependencias)
1. [Comprensión de los Datos](#Comprension-Datos)
    1. [Objetivos](#Comprension-Objetivos)
    1. [Recopilación de los Datos](#Recopilacion-Datos)
    1. [Exploracion de los datos](#Exploracion-Datos)
        1. [Ejemplo Censo de Arbolado](#Ejemplo-Censo-Arbolado)
    1. [Verificación de la Calidad](#Verificacion-Calidad)
1. [Data Profiling](#Data-Profiling)
1. [Calidad de Datos (OPCIONAL)](#Calidad-Datos)
    1. [Definición](#Definicion)
1. [Bibliografia](#Bibliografia)

## Dependencias

In [7]:
!pip3 install requests
!pip3 install pandas
!pip3 install pandas-profiling

Collecting requests
  Using cached https://files.pythonhosted.org/packages/51/bd/23c926cd341ea6b7dd0b2a00aba99ae0f828be89d72b2190f27c11d4b7fb/requests-2.22.0-py2.py3-none-any.whl
Collecting chardet<3.1.0,>=3.0.2 (from requests)
  Using cached https://files.pythonhosted.org/packages/bc/a9/01ffebfb562e4274b6487b4bb1ddec7ca55ec7510b22e4c51f14098443b8/chardet-3.0.4-py2.py3-none-any.whl
Collecting idna<2.9,>=2.5 (from requests)
  Using cached https://files.pythonhosted.org/packages/14/2c/cd551d81dbe15200be1cf41cd03869a46fe7226e7450af7a6545bfc474c9/idna-2.8-py2.py3-none-any.whl
Collecting certifi>=2017.4.17 (from requests)
  Using cached https://files.pythonhosted.org/packages/18/b0/8146a4f8dd402f60744fa380bc73ca47303cccf8b9190fd16a827281eac2/certifi-2019.9.11-py2.py3-none-any.whl
Collecting urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 (from requests)
  Using cached https://files.pythonhosted.org/packages/e0/da/55f51ea951e1b7c63a579c09dd7db825bb730ec1fe9c0180fc77bfb31448/urllib3-1.25.6-py2.py3-no

  Using cached https://files.pythonhosted.org/packages/f6/d2/40b3fa882147719744e6aa50ac39cf7a22a913cbcba86a0371176c425a3b/importlib_metadata-0.23-py2.py3-none-any.whl
Collecting atomicwrites>=1.0 (from pytest>=4.0.2->phik>=0.9.8->pandas-profiling)
  Using cached https://files.pythonhosted.org/packages/52/90/6155aa926f43f2b2a22b01be7241be3bfd1ceaf7d0b3267213e8127d41f4/atomicwrites-1.3.0-py2.py3-none-any.whl
Collecting attrs>=17.4.0 (from pytest>=4.0.2->phik>=0.9.8->pandas-profiling)
  Using cached https://files.pythonhosted.org/packages/6b/e8/2ecaf86b128a34e225807f03b22664302937ab826bd3b7eccab6754d29ea/attrs-19.2.0-py2.py3-none-any.whl
Collecting packaging (from pytest>=4.0.2->phik>=0.9.8->pandas-profiling)
  Using cached https://files.pythonhosted.org/packages/cf/94/9672c2d4b126e74c4496c6b3c58a8b51d6419267be9e70660ba23374c875/packaging-19.2-py2.py3-none-any.whl
Collecting wcwidth (from pytest>=4.0.2->phik>=0.9.8->pandas-profiling)
  Using cached https://files.pythonhosted.org/packages/

In [57]:
import requests  # para descargar archivos
import io
import pandas as pd  # Para manejo de data frames
import pandas_profiling  # Para data profiling

<a id='Comprension-Datos'></a>
## Comprensión de los Datos
[Inicio ▲](#Indice)

<a id='Comprension-Objetivos'></a>
### Objetivos
Trabajar con los datos del cliente lo más cerca posible, comprendiéndolos, formulando y validando hipótesis (sobre los datos y sobre que podemos hacer con ellos), validando requerimientos de negocio y ajustando expectativas del cliente.

**Etapas**
- Recopilar datos disponibles.
- Explorar y describir los datos con tablas y gráficos.
- Verificar calidad de los datos.

<a id='Recopilacion-Datos'></a>
### Recopilacion de los Datos
Recolección inicial de datos, disponibilizando los datos al equipo de analístas y científicos de datos, para comenzar a trabajar. Vimos técnicas para la recopilación de datos en el módulo anterior, cuando estudiamos la etapa de ingesta de datos y estudiamos ejemplos para la adquisición de datos a través de web services, lectura de archivos CSV, XML, etc.

**Lineamientos generales**
- Obtener datos para su exploración y análisis.
- Contar con acceso a los mismos (credenciales base de datos, APIs, etc), o tener una copia local.
- Contar con meta-data o documentación sobre los datos.

**Checklist**:
- Atributos relevantes o “prometedores”.
- Atributos no relevantes.
- Data matching y data fusion.
- Valores faltantes.


<a id='Exploracion-Datos'></a>
### Exploración de los datos
Una vez que tenemos acceso a los datos, comenzamos a familiarizarnos con los mismos, analizando propiedades generales del cojunto de datos como el volúmen y la estructura general: 

- **¿Cuántos datos tenemos?** Por ejemplo cuantos datasets, cuantos registros en cada uno.
- **¿Qué atributos hay?** Por ejemplo, cuantas columnas tiene un archivo CSV
- **¿Cuál es la semántica de cada atributo?** Revisamos metadatos o documentación para entender la semántica (también podemos consultar/validar con el cliente).
- **¿Cual es el tipo de datos de cada atributo y que codificación se utiliza?** Estudiamos el tipo de cada atributo, si es ```String```, ```int```, ```float```, etc. En algunas fuentes podemos inferir el tipo de la propia fuente (ej: DB relacional) y en otros debemos recurrir a documentación o analizando los valores de los propios datos (ej: archivos de texto plano). 

En esta etapa nos apoyamos en las herramientas que tenemos. Por ejemplo, explorar los datos mediantes tablas, tomando una muestra pequeña (10, 20, 50) de los primeros registros o de forma aleatoria. Investigar para los atributos más prometedores los valores promedios, mínimos máximos, ver gráficos con la distribución de cada variable, gráficos de correlación, etc.

Otro recurso muy útil es hacer gráficos con visualizaciones que nos permitan comprender mejor la naturaleza de los datos. Por último tabién es bueno hacer consultas sobre los datos que nos permitan contestar supuestos como determinar cual es el atributo que identifica a un dato (estudio de unicidad), o analizar la consistencia.

**Librerías útiles**

Cada lenguaje tiene herramientas que nos facilitan esta tarea.

- **Python**
    - [Pandas Profiling](https://pypi.org/project/pandas-profiling/) Muy últil para esta etapa y para hacer un perfil de los datos.

<a id='Ejemplo-Censo-Arbolado'></a>
#### Ejemplo: Censo de Arbolado
Vamos a descargar y analizar datos del censo de arboladoo público de la ciudad de Montevideo. Estos datos se encuentran públicos en el catálogo de datos abiertos del estado, y nos ayudarán a entender como acercanos a un dataset.

https://catalogodatos.gub.uy/dataset/censo-de-arbolado-2008

**1. Descarga de los datos**

In [58]:
# URL del dataset
url = "https://raw.githubusercontent.com/efviodo/idatha-data-science-course/master/notebooks/datasets/censo-arbolado-mvdo/archivo_comunal1.csv"

# Descargo el dataset a un archivo temporal y lo abro en un dataframe
response = requests.get(url)
data = requests.get(url).content

# Cargo el resultado en un data frame
df = pd.read_csv(io.StringIO(data.decode('utf-8')), sep=',')

df.head()

Unnamed: 0,Arbol,Cod_calle,Calle,Cod_Entre,Entre,Cod_Y,Y,Numero,Ajuste,Acera,...,Distancia,CAP,Altura,Diametro Copa,EV,Int.Aerea,Int.Sub,Genero,Especie,Nombre científico
0,1833,7572,18 DE JULIO AVENIDA,4800,HERRERA Y OBES JULIO,6012,RIO NEGRO,,S/N,P,...,0,14,2,,2,N,N,28,1,Enterolobium contortisiliquum
1,1834,7572,18 DE JULIO AVENIDA,4800,HERRERA Y OBES JULIO,6012,RIO NEGRO,,S/N,P,...,0,14,2,,2,N,N,28,1,Enterolobium contortisiliquum
2,1835,7572,18 DE JULIO AVENIDA,4800,HERRERA Y OBES JULIO,6012,RIO NEGRO,,S/N,P,...,0,15,2,,2,N,N,28,1,Enterolobium contortisiliquum
3,4780,7572,18 DE JULIO AVENIDA,3492,PLAZA INDEPENDENCIA,354,ANDES,839.0,,I,...,5,250,7,3.0,2,N,N,63,2,Platanus occidentalis
4,4781,7572,18 DE JULIO AVENIDA,3492,PLAZA INDEPENDENCIA,354,ANDES,843.0,,I,...,5,200,4,2.0,2,N,N,63,2,Platanus occidentalis


**2. Familiarizandonos con los datos**

¿Que columnas tenemos en el CSV que cargamos?

In [59]:
df.columns

Index(['Arbol', 'Cod_calle', 'Calle', 'Cod_Entre', 'Entre', 'Cod_Y', 'Y',
       ' Numero', 'Ajuste', 'Acera', 'Alineacion', 'Ordinal', 'Ancho Vereda',
       'Distancia', 'CAP', 'Altura', 'Diametro Copa', 'EV', 'Int.Aerea',
       'Int.Sub', 'Genero', 'Especie', 'Nombre científico'],
      dtype='object')

Quiero ver algunas filas de datos para ver algunos ejemplos...

In [60]:
# Devuelve los primeros 10 registros en el dataframe
df.head(10)

Unnamed: 0,Arbol,Cod_calle,Calle,Cod_Entre,Entre,Cod_Y,Y,Numero,Ajuste,Acera,...,Distancia,CAP,Altura,Diametro Copa,EV,Int.Aerea,Int.Sub,Genero,Especie,Nombre científico
0,1833,7572,18 DE JULIO AVENIDA,4800,HERRERA Y OBES JULIO,6012,RIO NEGRO,,S/N,P,...,0,14,2,,2,N,N,28,1,Enterolobium contortisiliquum
1,1834,7572,18 DE JULIO AVENIDA,4800,HERRERA Y OBES JULIO,6012,RIO NEGRO,,S/N,P,...,0,14,2,,2,N,N,28,1,Enterolobium contortisiliquum
2,1835,7572,18 DE JULIO AVENIDA,4800,HERRERA Y OBES JULIO,6012,RIO NEGRO,,S/N,P,...,0,15,2,,2,N,N,28,1,Enterolobium contortisiliquum
3,4780,7572,18 DE JULIO AVENIDA,3492,PLAZA INDEPENDENCIA,354,ANDES,839.0,,I,...,5,250,7,3,2,N,N,63,2,Platanus occidentalis
4,4781,7572,18 DE JULIO AVENIDA,3492,PLAZA INDEPENDENCIA,354,ANDES,843.0,,I,...,5,200,4,2,2,N,N,63,2,Platanus occidentalis
5,4783,7572,18 DE JULIO AVENIDA,3492,PLAZA INDEPENDENCIA,354,ANDES,0.0,s/n,P,...,5,22,5,2,2,N,N,63,2,Platanus occidentalis
6,4785,7572,18 DE JULIO AVENIDA,354,ANDES,3852,CONVENCION,857.0,,I,...,5,18,5,3,2,N,N,63,2,Platanus occidentalis
7,4786,7572,18 DE JULIO AVENIDA,354,ANDES,3852,CONVENCION,857.0,,I,...,5,25,5,03/05/10,2,N,N,63,2,Platanus occidentalis
8,4788,7572,18 DE JULIO AVENIDA,354,ANDES,3852,CONVENCION,885.0,,I,...,5,36,6,3,2,S,N,63,2,Platanus occidentalis
9,4789,7572,18 DE JULIO AVENIDA,354,ANDES,3852,CONVENCION,891.0,,I,...,5,35,6,3,2,N,N,63,2,Platanus occidentalis


En términos generales, que valores toman cada columna del dataframe: mínimos, máximos, promedios, ¿Hay valores repetidos?

In [61]:
# Cantidad de valores, valores únicos por columna, top, freq
df.describe()

Unnamed: 0,Arbol,Cod_calle,Calle,Cod_Entre,Entre,Cod_Y,Y,Numero,Ajuste,Acera,...,Distancia,CAP,Altura,Diametro Copa,EV,Int.Aerea,Int.Sub,Genero,Especie,Nombre científico
count,4910,4909,4908,4909,4869,4909,4869,4744,1259,4909,...,4909,4909,4909,4662,4909,4909,4909,4909,4909,4908
unique,4910,80,79,96,94,92,90,1189,191,3,...,39,348,76,52,8,3,3,46,8,55
top,2852,5115,PARAGUAY,5115,PARAGUAY,2265,CUAREIM,0,S/N,I,...,2,150,18,12,2,S,N,63,1,Platanus x acerifolia
freq,1,277,277,281,281,235,235,875,659,2481,...,1584,80,453,462,2590,2796,2520,2919,3555,2775


Existen infinidad de librerias que implementan análisis estadísticos básicos sobre un dataset. Un buen ejercicio es probar varias e investigar que ventajas y desventajas tiene cada una.

<a id='Verificacion-Calidad'></a>
### Verificación de la Calidad

Inmediatamente después de familiarizamos con los datos, lo segundo que hacemos (pero no por ello menos importante) es analizar la calidad de los datos. No vamos a hacer un estudio exhaustio de la calidad, simplemente vamos a prestar atención a algunos problemas comúnes y que pueden complicar nuestro análisis. 

- Datos perdidos: valores vacíos o “sin respuesta” (significado de nulo).
- Errores en datos: errores tipográficos por acción humana.
- Error de mediciones: sistema de medidas incongruente.
- Incoherencias en codificación: diferente representación para valores iguales.
- Metadatos erróneos: significado aparente y definición real.

Algunas veces contamos con herramientas que verifican estos puntos como parte del data profiling, y algunas veces tenemos que hacer consultas sobre el dataframe, para sacar las estadísticas de cada caso. 

### Data Profiling
[Inicio ▲](#Indice)

Un perfil de datos o también conocido como *"data profiling"* es una primera aproximación al estado de calidad en un dataset. Generalmente se realiza en la etapa de comprensión de los datos para otener información relevante como mínimos, máximos, promedios de atributos, cantidad de valores nulos o inválidos, determinar los valores más comunes etc.

Usualmente, se utilizan herramientas que realizan un reporte de forma automática, midiendo determinadas variables de calidad y que permiten conocer de forma aproximada el estado de algunas dimensiones de calidad.

Podemos obtener datos brutos sobre el dataframe:

In [62]:
df.profile_report(style={'full_width':True})

(using `df.profile_report(correlations={"cramers": False}`)
If this is problematic for your use case, please report this as an issue:
https://github.com/pandas-profiling/pandas-profiling/issues
(include the error message: 'The internally computed table of expected frequencies has a zero element at (0, 3).')
  correlation_name=correlation_name, error=error




Tambien podemos discriminar los atributos del dataframe en variables **continuas** y **discretas**, lo cual será muy útil para diseñar consultas y gráficas que nos permitan conocer mejor los datos sobre estas variables.

#### ATENTOS!
Siempre, cuando se realiza un profiling, es importante investigar que interpreta la libreria que estoy utilizando, como un "missing value". Por ejemplo:

- ¿Que pasa con los strings vacíos ""? Es un missing value?
- También podría pasar que en mi fuente de datos "-1" se considera como un missing value para una columna de tipo numérica.

Puede ser útil hacer algunas consultas para contar cantidad de valores "" en algunas columnas que nos parezcan interesantes de analizar y corroborar si se está considerando como un "missing value" o no.

In [63]:
# Recordemos que columnas tiene el dataset
df.columns

Index(['Arbol', 'Cod_calle', 'Calle', 'Cod_Entre', 'Entre', 'Cod_Y', 'Y',
       '_Numero', 'Ajuste', 'Acera', 'Alineacion', 'Ordinal', 'Ancho_Vereda',
       'Distancia', 'CAP', 'Altura', 'Diametro_Copa', 'EV', 'Int.Aerea',
       'Int.Sub', 'Genero', 'Especie', 'Nombre_científico'],
      dtype='object')

In [65]:
# Filtro filas con Diametro_Copa ''
dfCopaVacia = df[['Diametro_Copa']][df['Diametro_Copa'] == '']
# Imprimo cantidad
print("Cantidad de Valores Vacios: " + str(dfCopaVacia.shape[0]))

# Filtro filas con Diametro_Copa Null
dfDiametroCopaNaN = df[['Diametro_Copa']][df['Diametro_Copa'].isnull()]
# Imprimo cantidad
print("Cantidad de Valores Null: " + str(dfDiametroCopaNaN.shape[0]))

Cantidad de Valores Vacios: 0
Cantidad de Valores Null: 248


Bien, parecería que No hay filas '' en el data frame y todos los missing values son tratados como NULL. ¿Qué pasa con valores negativos? ¿Existirán valores de diámetro de copa negativos? 

Si existen quizás no tengan sentido y para PandasProfiling son un valor no faltante. Analicemos con una consulta entonces cuantos valores negativos tenemos.

In [66]:
# Filtro filas con Diametro_Copa Negativo
dfDiametroCopaNegative = df[['Diametro_Copa']][df.Diametro_Copa < 0]
# Imprimo cantidad
print("Cantidad de Valores Negativos: " + str(dfDiametroCopaNegative.shape[0]))

TypeError: '<' not supported between instances of 'str' and 'int'

**ERROR**

El error que tenemos es porque por defecto, el tipo para la columna Diametro_Copa es ```str``` y no un tipo numérico como ```int``` o ```float```. 

Revisemos cuales son los tipos que Pandas infirió para cada columna, cuando cargamos los datos. Para esto contamos con la función ```dtypes```.

In [67]:
df.dtypes

Arbol                object
Cod_calle            object
Calle                object
Cod_Entre            object
Entre                object
Cod_Y                object
Y                    object
_Numero              object
Ajuste               object
Acera                object
Alineacion           object
Ordinal              object
Ancho_Vereda         object
Distancia            object
CAP                  object
Altura               object
Diametro_Copa        object
EV                   object
Int.Aerea            object
Int.Sub              object
Genero               object
Especie              object
Nombre_científico    object
dtype: object

Por defecto todas las columnas del data frame se cargaron como un objeto (tipo ```object```). Esto es así por defecto cuando se carga el csv. Podríamos haberle indicado a ```pandas``` que tipos utilizar para cada una de las columnas. Para ello primero deberíamos conocer cuales son las columnas y el tipo de datos de cada una. Esta información suele encontrarse en archivos de metadatos.

Si no le indicamos los tipos de datos para cada columna en el momento de la carga, igualmente podemos convertirlos luego de haber cargado el data frame. A su vez, si lo hacemos luego de cargar el data frame, tenemos más control sobre como convertir cada columna y como manejar los casos de errores.

Veamos como convertir el tipo de una columna usando a función ```astype``` de Pandas.

In [68]:
# Convertimos la columna 'Diametro Copa'
df.astype({'Diametro_Copa': 'int32'})

ValueError: cannot convert float NaN to integer

Pandas no puede convertir todos los valores de la columna, porque hay valores que no pueden ser convertidos a tipo numérico. Esto puede suceder cuando hay valores erroneos en el CSV. Una forma de forzar la converción es utilizando la función ```to_numeric``` con la opción ```coerce``` convierte a nulos (NaN internamente) aquellos valores que no se pueden convertir a un tipo numérico. 

In [69]:
df['Diametro_Copa'] = pd.to_numeric(df['Diametro_Copa'], errors='coerce')

In [70]:
dfDiametroCopaNegative = df[['Diametro_Copa']][df.Diametro_Copa < 0]
# Imprimo cantidad
print("Cantidad de Valores Negativos: " + str(dfDiametroCopaNegative.shape[0]))

Cantidad de Valores Negativos: 0


Este procedimiento se puede repetir para todas las columnas numéricas del dataset. Podemos utilziar los [metadatos](https://catalogodatos.gub.uy/dataset/censo-de-arbolado-2008/resource/c799548d-e9bb-492b-9179-53de2b748d43) del dataset, para inferir cuales son las columnas que son numéricas. De esta forma puedo castearlas en el dataframe como numéricas y ejecutar el profiling nuevamente.

<a id='Calidad-Datos'></a>
## Calidad de Datos (OPCIONAL) 
[Inicio ▲](#Indice)

<a id='Definicion'></a>
### Definición

Es muy difiícil dar una definición simple y concisa de que entendemos por "Calidad de un Dato". Es un concepto multi-facético, donde existen diferentes dimensiones.

> "Even though quality cannot be defined, you know what it
is” – Robert Pirsig (filósofo, define la “metafísica de la calidad”)

<br />

**Algunas dimensiones**
- **Exactitud**: Cuán **preciso** es un dato, por ejemplo un precio, $10 ó $10,90, o que tan **correcto** por ejemplo un apellido "Martnez" ó "Martínez"  
- **Completitud**: Cuan representativo son mis datos, contienen todos los valores de mi realidad, cuantos NULOS tengo.
- **Frescura**: Que tan viejos son mis datos, cuando fueron actualizados por ultima vez.
- **Consistencia**: Son consistentes mis datos en relación al dominio y sus restricciones, por ejemplo una venta sobre un producto que no existe en la base de datos. 
- **Unicidad**: Hay datos duplicados, información contradictoria entre ellos, por ejemplo el mismo usuario dos veces con diferente teléfono.

Más información sobre dimensiones de calidad [aquí](https://eva.fing.edu.uy/pluginfile.php/177507/mod_resource/content/1/2-Dimensiones%20de%20calidad.pdf)

**Ejemplo**

La mejor forma de entender problemas de calidad de un dato es ver un ejemplo y para ello veamos un caso de diferentes dimensiones de la calidad, en una Tabla de Peliculas:

![CalidadDatosEjemplo](https://github.com/efviodo/data-science/raw/master/courses/utec/figures/calidad_datos_ejemplo.png)

*Fuente*: Diapositiva de presentación Curso de Calidad de Datos[1], Facultad de Ingeniería, UdelaR

La Calidad de Datos es una área entera en si misma y existen infinidad de cursos y libros disponibles para introducirse en él. En caso de etar interesado en profunidzar en alguno de los temas mencionados puede recurrir a la Bibliografía recomendada.

<a id='Bibliografia'></a>
## Bibliografía
[Inicio ▲](#Indice)

<ol>
    <li> Curso Calidad de Datos, Facultad de Ingeniería, Universidad de la República. <br />
        <a href="https://eva.fing.edu.uy/course/view.php?id=1073">https://eva.fing.edu.uy/course/view.php?id=1073</a>
    </li>
    <li>
        Data Quality, Concepts, Methodologies and Techniques - Batini, Carlo, Scannapieco, Monica <br /><a href="https://www.springer.com/us/book/9783540331728">https://www.springer.com/us/book/9783540331728</a>
    </li>
</ol>
    