# __Desafío - Conceptos previos a Big Data__
`Benjamín Meneses`

### Ejercicio 1: Generación Artificial de Datos
- A continuación se define la función `create_random_row`, la cual generará un registro
artificial de un cliente en una compañía de seguros:
- Replique la función 10 millones de veces y preservarla en un objeto.


__Algunos supuestos__:
- Asuma, de aquí en adelante, que los datos generados representarán mediciones
empíricas sobre el comportamiento de clientes en la compañía de seguros.
- Considere el siguiente ambiente de trabajo de su computador: No tiene instalada la
distribución anaconda, por lo que no tendrá acceso a las librerías `pandas`, `numpy` y
`scipy`. Tampoco tiene permisos de usuario, por lo cual no podrá instalarlas. __Sólo
puede implementar funciones nativas de Python.__
- Dado que su código podrá ser utilizado posteriormente en una aplicación web de uso
interno montada en Scala, __debe utilizar operaciones vectorizadas como `map`,
`filter`, `reduce`; y comprensiones de lista.__


In [2]:
import random
def create_random_row():
    # simulamos la columna edad
    age = random.randint(18, 90)
    # simulamos la columna ingreso
    income = random.randrange(10000, 1000000, step=1000)
    # simulamos la situación laboral
    employment_status = random.choice(['Unemployed', 'Employed'])
    # simulamos si es que tiene deuda o no
    debt_status = random.choice(['Debt', 'No Debt'])
    # simulamos si es que se cambió recientemente o no
    churn_status = random.choice(['Churn', 'No Churn'])
    return age, income, employment_status, debt_status, churn_status
# ejecución
create_random_row()

(50, 222000, 'Unemployed', 'No Debt', 'Churn')

In [3]:
# Definimos el largo de la base de datos
db_len = 10000000
# Generamos la BD
random_database = [create_random_row() for _ in range(db_len)]

### Ejercicio 2:
Desde la gerencia de estudios de la compañía de seguros, le solicitan mejorar la siguiente
línea de código:
```python
employment_income_looped = 0
for i in random_database:
    if i[2] == 'Employed':
        employment_income_looped += i[1]
# retorno
2523162067000
```
Responda los siguientes puntos:
- ¿Qué retornará la variable `employment_income_looped`?
- ¿Cómo sería una implementación del código utilizando `map` y `filter`?
- ¿Son iguales los resultados?


La variable `employment_income_looped` corresponde a la suma total de ingresos de todos los empleados.

In [5]:
from functools import reduce

In [9]:
employment_income_looped = 0
for i in random_database:
    if i[2] == 'Employed':
        employment_income_looped += i[1]
employment_income_looped

2522147251000

In [10]:
# Definimos la función para la suma de los ingresos
employment_income_looped = reduce(lambda sum, x: sum + x[1],list(filter(lambda x: x[2] == 'Employed', random_database)), 0)
employment_income_looped

2522147251000

ambos resultados son iguales.

### Ejercicio 3:
Desde la gerencia le solicitan mejorar la siguiente línea de código:
```python
count_debts_looped = 0
for i in random_database:
    for j in i:
        if j == 'Debt':
            count_debts_looped += 1
# retorno
5000335
```
Responda los siguientes puntos:
- ¿Cuál será el retorno de la variable `count_debts_looped`?
- ¿Cuál es la complejidad algorítmica del código?
- ¿Cómo sería una implementación del código utilizando `map` y `filter`?
- ¿Son iguales los resultados de ambas operaciones?


`count_debts_looped` retornará el número de clientes con deuda.
Tiene una complejidad algorítmica de $n\cdot j$ es decir $O(n^2)$

In [11]:
count_debts_looped = 0
for i in random_database:
    for j in i:
        if j == 'Debt':
            count_debts_looped += 1
count_debts_looped

4997988

In [13]:
count_debts_looped = len(list(filter(lambda x: x[3] == 'Debt', random_database)))
count_debts_looped

4997988

Ambos resultados son iguales

### Ejercicio 4
Desde la gerencia le solicitan mejorar la siguiente línea de código:
```python
churn_subset, no_churn_subset = [], []
for i in random_database:
    for j in i:
        if i == 'Churn':
            churn_subset.append(i)
    for j in i:
        if i == 'No Churn':
            no_churn.append(i)
```
- ¿Cuál será el retorno de la variable `churn_subset` y `no_churn_subset`?
- ¿Cuál es la complejidad algorítmica del código?
- ¿Cómo sería una implementación del código utilizando `map` y `filter`?
- ¿Son iguales los resultados de ambas operaciones?
- Estime la media, la varianza, el mínimo y el máximo de la edad para ambos subsets,
sin utilizar librerías externas.


`churn_subset` y `no_churn_subset` son la base de datos divida entre clientes fugados y no.
Tiene una complejidad algorítmica de $n\cdot j$ es decir $O(n^2)$

In [18]:
churn_subset, no_churn_subset = [], []
for i in random_database:
    for j in i:
        if j == 'Churn':
            churn_subset.append(i)
    for j in i:
        if j == 'No Churn':
            no_churn_subset.append(i)

In [19]:
churn_subset = list(filter(lambda x: x[4] == 'Churn', random_database))
no_churn_subset = list(filter(lambda x: x[4] == 'No Churn', random_database))

In [20]:
def media(set):
    return reduce(lambda sum, x: sum + x[0], set, 0) / len(set)
def varianza(set, media):
    return reduce(lambda sum, x: sum + (x[0] - media)**2, set, 0) / len(set)
def minimum(set):
    return min(list(map(lambda x: x[0], set)))
def maximum(set):
    return max(list(map(lambda x: x[0], set)))

def describe(set, name):
    return {
        'name': name,
        'media': media(set),
        'varianza': varianza(set, media(set)),
        'min': minimum(set),
        'max': maximum(set)
    }

print(describe(churn_subset), 'churn')
print(describe(no_churn_subset), 'no_churn')

{'media': 54.014948138072775, 'varianza': 443.75855768792815, 'min': 18, 'max': 90}
{'media': 53.99003088927198, 'varianza': 443.9212005275091, 'min': 18, 'max': 90}


### Ejercicio 5

Desde la gerencia le solicitan mejorar la siguiente línea de código:
```python
unemployed_debt_churn = 0
unemployed_nodebt_churn = 0
unemployed_debt_nochurn = 0
unemployed_nodebt_nochurn = 0
employed_debt_churn = 0
employed_nodebt_churn = 0
employed_debt_nochurn = 0
employed_nodebt_nochurn = 0
for i in random_database:
    if i[2] == 'Unemployed' and i[3] == 'Debt' and i[4] == 'Churn':
        unemployed_debt_churn += 1
    if i[2] == 'Unemployed' and i[3] == 'No Debt' and i[4] == 'Churn':
        unemployed_nodebt_churn += 1
    if i[2] == 'Unemployed' and i[3] == 'Debt' and i[4] == 'No Churn':
        unemployed_debt_nochurn += 1
    if i[2] == 'Unemployed' and i[3] == 'No Debt' and i[4] == 'No Churn':
        unemployed_nodebt_nochurn += 1
    if i[2] == 'Employed' and i[3] == 'Debt' and i[4] == 'Churn':
        employed_debt_churn += 1
    if i[2] == 'Employed' and i[3] == 'No Debt' and i[4] == 'Churn':
        employed_nodebt_churn += 1
    if i[2] == 'Employed' and i[3] == 'Debt' and i[4] == 'No Churn':
        employed_debt_nochurn += 1
    if i[2] == 'Employed' and i[3] == 'No Debt' and i[4] == 'No Churn':
        employed_nodebt_nochurn += 1
print("Unemployed, Debt, Churn: ", unemployed_debt_churn)
print("Unemployed, No Debt, Churn: ", unemployed_nodebt_churn)
print("Unemployed, Debt, No Churn: ", unemployed_debt_nochurn)
print("Unemployed, No Debt, No Churn: ", unemployed_nodebt_nochurn)
print("Employed, Debt, Churn: ", employed_debt_churn)
print("Employed, No Debt, Churn: ", employed_nodebt_churn)
print("Employed, Debt, No Churn: ", employed_debt_nochurn)
print("Employed, No Debt, No Churn: ", employed_nodebt_nochurn)
```
- ¿Cómo sería una implementación utilizando map?
- ¿Son iguales los resultados de ambas operaciones?

In [4]:
# Original
unemployed_debt_churn = 0
unemployed_nodebt_churn = 0
unemployed_debt_nochurn = 0
unemployed_nodebt_nochurn = 0
employed_debt_churn = 0
employed_nodebt_churn = 0
employed_debt_nochurn = 0
employed_nodebt_nochurn = 0
for i in random_database:
    if i[2] == 'Unemployed' and i[3] == 'Debt' and i[4] == 'Churn':
        unemployed_debt_churn += 1
    if i[2] == 'Unemployed' and i[3] == 'No Debt' and i[4] == 'Churn':
        unemployed_nodebt_churn += 1
    if i[2] == 'Unemployed' and i[3] == 'Debt' and i[4] == 'No Churn':
        unemployed_debt_nochurn += 1
    if i[2] == 'Unemployed' and i[3] == 'No Debt' and i[4] == 'No Churn':
        unemployed_nodebt_nochurn += 1
    if i[2] == 'Employed' and i[3] == 'Debt' and i[4] == 'Churn':
        employed_debt_churn += 1
    if i[2] == 'Employed' and i[3] == 'No Debt' and i[4] == 'Churn':
        employed_nodebt_churn += 1
    if i[2] == 'Employed' and i[3] == 'Debt' and i[4] == 'No Churn':
        employed_debt_nochurn += 1
    if i[2] == 'Employed' and i[3] == 'No Debt' and i[4] == 'No Churn':
        employed_nodebt_nochurn += 1
print("Unemployed, Debt, Churn: ", unemployed_debt_churn)
print("Unemployed, No Debt, Churn: ", unemployed_nodebt_churn)
print("Unemployed, Debt, No Churn: ", unemployed_debt_nochurn)
print("Unemployed, No Debt, No Churn: ", unemployed_nodebt_nochurn)
print("Employed, Debt, Churn: ", employed_debt_churn)
print("Employed, No Debt, Churn: ", employed_nodebt_churn)
print("Employed, Debt, No Churn: ", employed_debt_nochurn)
print("Employed, No Debt, No Churn: ", employed_nodebt_nochurn)

Unemployed, Debt, Churn:  1250300
Unemployed, No Debt, Churn:  1249729
Unemployed, Debt, No Churn:  1251313
Unemployed, No Debt, No Churn:  1249147
Employed, Debt, Churn:  1248822
Employed, No Debt, Churn:  1250923
Employed, Debt, No Churn:  1250396
Employed, No Debt, No Churn:  1249370


In [6]:
# Refactorizado
def handle(dict, row):
    dict[f'{row[2]}, {row[3]}, {row[4]}'] += 1
    return dict
    
fragmented_dict = reduce(handle, random_database, {
    "Unemployed, Debt, Churn": 0,
    "Unemployed, No Debt, Churn": 0,
    "Unemployed, Debt, No Churn": 0,
    "Unemployed, No Debt, No Churn": 0,
    "Employed, Debt, Churn": 0,
    "Employed, No Debt, Churn": 0,
    "Employed, Debt, No Churn": 0,
    "Employed, No Debt, No Churn": 0,
})

for key, value  in fragmented_dict.items():
    print(f'{key}: {value}')



Unemployed, Debt, Churn: 1250300
Unemployed, No Debt, Churn: 1249729
Unemployed, Debt, No Churn: 1251313
Unemployed, No Debt, No Churn: 1249147
Employed, Debt, Churn: 1248822
Employed, No Debt, Churn: 1250923
Employed, Debt, No Churn: 1250396
Employed, No Debt, No Churn: 1249370


Ambos resultados son idénticos.