
**Almacenamiento, Identificación, Curaduría y Mantenimiento De
Grandes Volúmenes De Datos**

**Edición 2022**

---
# Aplicaciones en Python

La idea de esta notebook es poder introducir algunos conceptos básicos de estadistica descriptiva y sus aplicaciones en Python. Intentaremos familiarizarnos con algunos 
conceptos (librerias, paquetes y funciones) que nos facilitaran el camino hacia la manipulacion y procesamiento de los datos. 

---
# Algunos temas a tratar
- El proceso ETL (extracción, transformación y carga)
- Procesos y pasos a seguir para la identificación, recolección e importación de
datos.
- Integración de datos de diversas fuentes
- Detección de anomalías y herramientas para la limpieza y depuración de los
datos como paso preparatorio del análisis.


## ¿Que es "EDA"? 

En sus siglas en inglés hace referencia al **Análisis Exploratorio de Datos**. Este es el primer paso que debemos realizar como Data Scientists y consta de una primera revisión del estado de los datos y los consecuentes pasos necesarios para una correcta transformación.

La ciencia de datos es una disciplina que te permite convertir datos crudos en entendimiento, comprensión y conocimiento.

<center>
<img src="https://i.imgur.com/jclXnDS.png" height="200" />
</center>

## Importación de librerías

El concepto correcto en español es "biblioteca". Una biblioteca es básicamente un componente de software que nos brinda acceso a distintas funcionalidades.
Existen librerías con funciones para leer un archivo excel o csv y trabajar los datos como tablas (librería Pandas, por ejemplo), otras con funciones para graficar nuestros datos (como Seaborn), para trabajar con cálculo numérico (como Numpy).
Cualquiera sea el lenguaje con el que se decida programar, será útil conocer mediante la página oficial del lenguaje cuáles son las librerías disponibles, que nos facilitarán, en éste caso, el análisis de datos.

In [1]:
# Importaciones pertinentes 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Guias de usuario
A continuación dejamos algunos links correspondientes a las guia de usuario o introducciones al uso de las librerias que importamos anteriormrente.
- Pandas: https://pandas.pydata.org/docs/user_guide/index.html
- NumPy: https://numpy.org/doc/stable/user/absolute_beginners.html
- Matplotlib: https://matplotlib.org/stable/tutorials/introductory/usage.html
- Seaborn: https://seaborn.pydata.org/introduction.html


## Lectura de datos:

En esta primera parte, aprendemos cómo cargar un conjunto de datos utilizando pandas y cómo ver su contenido.

Como ejemplo para trabajar, cargaremos un dataset con la información de movimientos de caja de ahorro.
El archivo a cargar será el siguiente 
- movimientos_CAh.tab

https://drive.google.com/file/d/14413kavdE_ge3qcHexlDU0-ZtTv2EaN0/view?usp=sharing



In [2]:
# cargar con pandas el archivo .tab 
df = pd.read_csv('movimientos_CAh.tab', sep='\t')

In [6]:
df_new = df[df['fecha']<20180501]
np.sort(df_new.movimientos.unique())

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 35,
       36, 37, 38, 40, 41, 42, 44, 45, 46, 47, 51, 54, 72])

Con esta operación hemos creado un DataFrame de pandas con el archivo de movimientos de la caja de ahorro. Un DataFrame no es más que una tabla sobre la cual podemos aplicar un montón de operaciones similares a las de Excel o a las SQL.

Podemos revisar con más detalle todo el set de funciones de lectura (y escritura) de Pandas en el siguiente link:

https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

## Exploración de los datos

A continuación vamos a comenzar con la exploración, visualización y transformación del DataFrame para el análisis de los datos a manera de ejemplos.

### Visualización del DataFrame
Comencemos viendo que tiene la variable `df`.

In [None]:
# visualizar el DataFrame con estilo de tabla
display(df)

In [None]:
# visualizar sólo las primeras filas
df.head() # df.head(n) con default n=5
# tambien podría ser con df[:n]

### Renombrar columnas
Para trabajar más cómodamente, renombraremos las columnas de DataFrame. Tengan cuidado de que el orden de los nombres nuevos se corresponda con el contenido de cada columna.

In [None]:
# veamos las columnas actuales
df.columns

In [None]:
# definamos los nombres de las nuevas columnas
new_names = ['idFacu','fecha','idMoneda','signo','grupo','importe','movimientos','totalCuentasConMov']

In [None]:
# renombramos las columnas
df.columns = new_names

In [None]:
display(df[:5])
display(df[-5:])

## Tipos de variables y valores faltantes

Como paso siguiente podemos tratar de identificar que tipos de variables constituyen las columnas del DataFrame, por ejemplo,  ¿qué tipo de datos hay en la columna de ID?, ¿la columna de fecha que contiene?, ¿los número en cantidad de movimientos tienen el mismo formato que los números en la columna de importes? 

In [None]:
# podemos ver que tipo de datos tenemos en las columnas 
df.dtypes

In [None]:
# para obtener además del tipo de datos, se puede usar la función .info()
df.info()

In [None]:
# en caso de tener un dataset muy grande y usando las función .info() no nos 
# llegue a decir la cantidad de elementos no nulos podemos hacer la suma de 
# de los elemntos nulos, por ejemplos
print('Cantindad de elemento nulos en la columna "fecha" ')
print(df.fecha.isnull().sum())

print('')

print('Cantindad de elemento nulos en la columna "importe" ')
print(df.importe.isnull().sum())

Vemos que en la columnas de "importe", por ejemple, hay un valor nulo. Nos podemos preguntar cosas tales como ¿qué problemas podrían ocurrir? o ¿qué decisión podemos tomar al respecto?

In [None]:
# eliminar las columnas que tengan algún valor nulo
df.dropna(how="any", inplace=True)
display(df)

### Algo más de visualización y algunos gráficos

Dado que ya tenemos información sobre los tipos de variables, podriamos llevar a cabo algunos gráficos y análisis mediante estadística descriptiva.


Veamos con mas detalle la columnas de "grupo" e "importe"

In [None]:
# veamos cuantas categorias en la columna grupo hay
num_grupo = df.grupo.nunique()
print(num_grupo)

In [None]:
# veamos gráfico de frecuencia sobre que grupo de acciones 
# para monedas del tipo 1
sns.set(rc={"figure.figsize":(10, 5)})
sns.histplot(df[df['idMoneda']==1], x='grupo')
plt.xticks(rotation=90)

In [None]:
# podemos ver específicamente para las acciones del usuario con id=1
sns.histplot(df[(df['idMoneda']==1)&(df['idFacu']==1)], x='grupo')
plt.xticks(rotation=90)

En la columna "importe" parece ser que todos los valores son positivos, pero sin revisarlos manualmente a todos, ¿podemos verificarlo de manera más eficiente?

Podríamos verificar que la cantidad de elementos positivos es igual a la longitud total del dataset

In [None]:
# los montos de los movientos están en "importe", son todos >0
# comparamos que valores de esta columna son valores positivos, lo que nos 
# devuelve una serie con valores booleanos
df['importe']>0

In [None]:
# Luego podemos comparar la suma de los elementos que cumplen True con la longitud de la columna
(df['importe']>0).sum() == len(df['importe'])

Ahora podemos calcular algunas métricas sobre la variable "importe". 

In [None]:
df.importe.describe().apply(lambda s: '{0:.2f}'.format(s))

¿Qué información brindan estas métricas y cómo usarlas? o ¿era incorrecto calcularlas para el análisis que buscamos hacer?

### Fechas
Ya que tenemos una serie temporal, podemos analizar como fue la carga de datos y que tenemos en la columna "fecha"

Las fechas representan la variable tiempo, que no es trivial de representar en un conjunto de datos. Algunas consideraciones que podemos tener en cuenta son:

- ¿Cómo afecta el tiempo al fenómeno que quiero estudiar?
- ¿Es importante de manera absoluta o de manera relativa?
- ¿Con qué nivel de precisión (o con qué escala) es relevante? ¿Años, días, minutos? ¿Importa la zona horaria?

Además de estas preguntas conceptuales, tenemos que tener en cuenta con qué tipo de datos (de Python) están representadas estas fechas:

In [None]:
# recordemos que tipo de datos tenemos en la columa "fecha"
df.fecha.dtypes

¿Con qué nos encontraríamos en caso de querer graficar las fechas vs los importes con los datos sin trasnformarlos?

En algunos casos al momento de querer comunicar algo, una mejor manera de presentar los datos relacionados a una serie temporal que mostrar directamente el DataFrame es presentar un lineplot

In [None]:
sns.lineplot(data=df, x='fecha', y='importe')

Claramente existe un problema. Al leer el dataset, las fechas fueron reconocidas como números enteros. Podemos cambiar el tipo de datos a `datetime`, que es una estructura de datos diseñada para trabajar con fechas hasta una precisión de milisegundos.

In [None]:
df['fecha']=pd.to_datetime(df['fecha'].astype(str),format='%Y%m%d')

In [None]:
# veamos como queda el tipo de dato y algunos ejemplos
print('Tipo de datos de fecha:')
print(df.fecha.dtypes)
print('')

display(df.head())

Ahora podemos analizar algunas métricas sobre las fechas

In [None]:
print('Fecha inicial de los movimientos:', df.fecha.min())
print('Fecha final de los movimientos:', df.fecha.max())
print('Cantidad de días en los que se registraron movimientos:',df.fecha.nunique())

In [None]:
sns.lineplot(data=df, x='fecha', y='importe')
plt.xticks(rotation=90)

Dada la cantidad de días con movimientos, ¿podemos analizar si hay fechas faltantes?

In [None]:
# creamos un array con todas las fechas día a día desde las fechas inicial
# y final para comparar su longitud con la cantidad de días con movimientos

days = pd.date_range(df['fecha'].min(),df['fecha'].max())
array_days = pd.DataFrame(days)
array_days.columns=['fecha']

display(array_days)


Podemos evaluar si es igual la cantidad de días entre 02/01/2018 a 30/12/2019 es igual a la cantidad de días con movimientos 

In [None]:
len(array_days)==df.fecha.nunique()

### Más funciones para aplicar al dataset

Otros ejemplos de funciones para aplicarle al dataset que podemos hacer como ejemplo podrían ser:
- Ver cantidad de usuarios por id
- Ver cantindad de monedas 
- Ver información de un cliente específico por id

### Serie temporal de movimientos

Plantearemos ahora el problema que queremos conocer el balance diario de un cliente específico para una moneda especíafica

Tal vez para facilitar algunas de las operaciones que vamos a relizar podemos agregar una nueva variable en la que tengamos los importes de los movientos con el signo, para esto podemos definir una nueva columna del DataFrame

In [None]:
df['importeSigno']=df['signo']*df['importe']
df.head()

Supongamos ahora que nos interesa entonces la infromación de la caja de ahorro del cliente 1 en la moneda 1, para esto podemos generar un subgrupo de datos en un nuevo DataFrame

In [None]:
# creamos DataFrame para cliente 1 y moneda 1
df_cliente1 = df[(df['idFacu']==1)&(df['idMoneda']==1)]
df_cliente1.head()

Como vemos en la visualización del DataFrame es posible tener más de una operación por día, como sólo nos interesa el balance al día ¿podemos sumar los importes con signos de un mismo día?

Para esto podemos usar las funciones .groupby() y .agg()

In [None]:
df_dia = df_cliente1.groupby('fecha').agg(sum).reset_index()
df_dia.head()

Ahora tenemos los datos agrupados y sumados por día, ¿tienen sentido las variables que había en el DataFrame?, ¿qué pasó con va variable "grupo"?

Con el objetivo de ver el balance diario de un cliente como una serie temporal, podríamos generar un nuevo DataFrame uniendo por fechas el balance diario calculado con el DataFrame que generamos anteriormente de todos los días entre 02/01/2018 y 30/12/2019. 

Una manera de hacer esto sería definir un nuevo DataFrame mediente la función .merge()

In [None]:
df_balance = pd.merge(array_days,df_dia[['fecha','importeSigno']], left_on='fecha', right_on='fecha', how='left')
df_balance.head()

Podemos intentar hacer algún plot de este dataframe para visualizar que tenemos

In [None]:
fig, ax = plt.subplots(figsize=(20, 5))
plt.plot(df_balance.fecha,df_balance.importeSigno)
plt.xticks(rotation=90)

Con vista a nuestor objetivo, deberíamos completar con 0 los valore en los días que no se registraron movimientos

In [None]:
df_balance.fillna(0, inplace=True)

In [None]:
fig, ax = plt.subplots(figsize=(20, 5))
plt.plot(df_balance.fecha,df_balance.importeSigno)
plt.xticks(rotation=90)

### Finalizando con el balance diario
Con lo que hicimos hasta el momento tenemos ya un DataFrame con el registro de las actividades en la caja de ahorro diario. 

Para obtener el balance diario de la caja, ¿qué operaciones o transformaciones nos quedan por hacerle al conjunto de datos?

In [None]:
import datetime

In [None]:
df_balance = pd.DataFrame(np.insert(df_balance.values, 0, values=[datetime.datetime.strptime('2018-01-01','%Y-%m-%d'), 100000], axis=0))
df_balance.columns = ['fecha','importeSigno']
df_balance.head()

In [None]:
df_balance['balance'] = df_balance['importeSigno'].cumsum()

In [None]:
df_balance[10:20]

In [None]:
# plt.figure(figsize=(20,5))
fig, ax = plt.subplots(figsize=(20, 5))

plt.plot(df_balance.fecha,df_balance.balance)
plt.xticks(rotation=90)

In [None]:
fig, ax = plt.subplots(figsize=(20, 5))
sns.lineplot(data=df_balance[df_balance['fecha']<'2018-04-01'], x='fecha', y='balance')
plt.xticks(rotation=90)