In [1]:
#Habilitar intellisense
%config IPCompleter.greedy = True

# Sistemas de soporte a la toma de decisiones


- [Fundamentos de los sistemas de soporte a la toma de decisiones](http://mindwaresrl.com/2015/01/11/fundamento-sistemas-soporte-toma-decisiones/)




# Transformación de datos


En el ciclo de vida de los datos, la fase de transformación consiste en cambiar la forma original de los datos a una forma útil para casos de uso en las siguientes fases del ciclo. 

Sin las transformaciones adecuadas, los datos permanecerán inertes, y no servirán como insumo para desarrollo de informes, análisis o aprendizaje automático. Típicamente, es en la etapa de transformación donde los datos comienzan a crear valor para la organización porque **las transformaciones responden a necesidades del negocio**.


<img src="02_data-eng-lifecycle.png">

Algunas de las transformaciones típicas en esta fase son:

- Conversión de tipo de datos
- Limpieza de datos inválidos o faltantes
- Combinación de datos relacionados pero provenientes de distintas fuentes
- Normalización de datos
- Agregación de datos
- Generación de nuevos atributos


## Procesamiento por lotes y en tiempo real

Se puede transformar los datos por lotes o a medida que se consumen en tiempo real.

La transformación por lotes es todavía la estrategia más utilizada, pero dada la creciente popularidad del procesamiento de datos en tiempo real, se estima que la popularidad de las transformaciones en tiempo real vayan en aumento.


## Referencias
- [Big Data 101: Dummy’s Guide to Batch vs. Streaming Data](https://www.precisely.com/blog/big-data/big-data-101-batch-stream-processing)
- [Batch Processing vs Real Time Data Streams](https://www.confluent.io/learn/batch-vs-real-time-data-processing/)

# Pandas

__[Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html)__ es un paquete construido sobre la base de NumPy, incluye la implementación de la estructura **DataFrame**. 

Un DataFrame es, en esencia, un arreglo bidimensional con etiquetas para filas y columnas, típicamente las columnas contienen __[tipo de datos](https://pbpython.com/pandas_dtypes.html)__ diferentes.

In [2]:
import numpy as np
import pandas as pd
print(f"pandas version: {pd.__version__}")
print(f"numpy version: {np.__version__}")

pandas version: 1.4.3
numpy version: 1.21.5


## Series
Un objecto __[Series](https://pandas.pydata.org/pandas-docs/stable/reference/series.html)__ es un arreglo de datos con índices asociados similar pero con mayor funcionalidad que los diccionarios o listas en Python.

In [39]:
[0.25, 0.5, 0.75, 1.0]

[0.25, 0.5, 0.75, 1.0]

In [19]:
serie = pd.Series([0.25, 0.5, 0.75, 1.0])
serie

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [9]:
#https://pandas.pydata.org/pandas-docs/stable/reference/series.html#computations-descriptive-stats
#https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html
# print(serie)
#print(serie.min())
#print(serie.mean())
#print(serie.std())
print(serie.describe())

count    4.000000
mean     0.625000
std      0.322749
min      0.250000
25%      0.437500
50%      0.625000
75%      0.812500
max      1.000000
dtype: float64


In [48]:
# serie[-1]
# print(serie[1])
# print(serie[[1]])
# serie[1:3]
serie[[1,2]]

1    0.50
2    0.75
dtype: float64

In [49]:
#Una serie tiene valores y un indice
# serie.values
serie.index

RangeIndex(start=0, stop=4, step=1)

In [50]:
#A diferencia de los listas de Python o los arreglos de Numpy, a una Serie se le puede asignar un índice de manera explícta
serie = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd']) 
#serie = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
serie

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [51]:
serie.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [56]:
# serie['a']
# serie['a':'c']
# serie[0:2]
# serie[7]

**Selección de datos**

In [3]:
serie = pd.Series([0.25, 0.5, 0.75, 1.0]) 

In [5]:
# serie.isnull()
serie > 0.5

0    False
1    False
2     True
3     True
dtype: bool

In [27]:
#Obtener elementos que satisfacen una condición
serie[serie > 0.5]

2    0.75
3    1.00
dtype: float64

In [6]:
#Contar elementos que satisfacen una condición
(serie > 0.5).sum()

2

In [8]:
#Verficar si alguno o todos los elementos satisfacen una condicion
#(serie > 0.5).any()
(serie > 0.5).all()

False

**Modificacón de valores**

In [9]:
serie[3] = 2.0
serie

0    0.25
1    0.50
2    0.75
3    2.00
dtype: float64

In [10]:
#Genera una seria aplicando la función a cada elemento
def double(x):
    return x * 2

print(serie.apply(double))
print(serie)

0    0.5
1    1.0
2    1.5
3    4.0
dtype: float64
0    0.25
1    0.50
2    0.75
3    2.00
dtype: float64


**Agregación de valores**

In [11]:
serie.agg(['count','min','max']) 

count    4.00
min      0.25
max      2.00
dtype: float64

In [12]:
serie.value_counts()

0.25    1
0.50    1
0.75    1
2.00    1
dtype: int64

In [37]:
serie.value_counts(normalize=True)

0.25    0.25
0.50    0.25
0.75    0.25
2.00    0.25
dtype: float64

In [38]:
serie.value_counts(bins=2)

(0.247, 1.125]    3
(1.125, 2.0]      1
dtype: int64

**Otras formas de crear una serie**

In [20]:
### Una serie se puede crear a partir de un diccionario (clave -> indice)
poblacion_dict = {'Chuquisaca': 626000, 
                    'La Paz': 2448193,
                    'Cochabamba': 2883000,
                    'Oruro': 538000,
                    'Potosí': 887000,
                    'Tarija': 563000,
                    'Santa Cruz': 3225000,
                    'Beni': 468000,
                    'Pando': 144000,
                  }
poblacion = pd.Series(poblacion_dict)
poblacion

Chuquisaca     626000
La Paz        2448193
Cochabamba    2883000
Oruro          538000
Potosí         887000
Tarija         563000
Santa Cruz    3225000
Beni           468000
Pando          144000
dtype: int64

In [23]:
#Es posible pasar un valor o una lista de valores para recuperar los datos
poblacion[['Chuquisaca']]

Chuquisaca    626000
dtype: int64

In [22]:
poblacion['Chuquisaca']

626000

In [8]:
#Rangos
poblacion['Chuquisaca':'Oruro']
# poblacion[0:4]
# poblacion['Oruro':'Chuquisaca']

Series([], dtype: int64)

In [12]:
poblacion.head()

Chuquisaca     626000
La Paz        2448193
Cochabamba    2883000
Oruro          538000
Potosí         887000
dtype: int64

In [10]:
poblacion.tail()

Potosí         887000
Tarija         563000
Santa Cruz    3225000
Beni           468000
Pando          144000
dtype: int64

In [16]:
#Otros ejemplos de creación de Series
#Repetición de valores
serie = pd.Series(5, index=[100, 200, 300])
serie

100    5
200    5
300    5
dtype: int64

In [17]:
serie.reset_index()

Unnamed: 0,index,0
0,100,5
1,200,5
2,300,5


In [13]:
#Selección de claves del diccionario (solo se crea un serie con una parte del diccionario)
serie = pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])
serie

3    c
2    a
dtype: object

In [14]:
serie.reset_index()

Unnamed: 0,index,0
0,3,c
1,2,a


## Indices
Un __[Index](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.html)__ es el mecanismo para referenciar datos en las Series y los DataFrames.

In [15]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [18]:
ind[0]
#ind[0] = 1 #error! Los indices son inmutables/sólo lectura

2

In [22]:
indA = pd.Index([1, 3, 5, 7, 9]) 
indB = pd.Index([2, 3, 5, 7, 11])

In [23]:
#Similares a los conjuntos
print(indA.union(indB))
print(indA.intersection(indB))
print(indA.difference(indB))

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 9], dtype='int64')
