## Desafío - Conceptos previos a Big Data
### Gustavo Morales

<div class="alert alert-block alert-info">
<center><b>Ejercicio 1: </b>Generación Artifical de Datos</center>
</div>

In [1]:
from functools import reduce  # sólo usada para calcular la complejidad algorítmica

La función en cuestión es:

In [2]:
import random

def create_random_row():
    # simulamos la columna edad
    age = random.randint(18, 90)
    # simulamos la columna ingreso
    income = random.randrange(10000, 1000000, step=1000)
    # simulamos la situación laboral
    employment_status = random.choice(['Unemployed', 'Employed'])
    # ???
    use_in_minutes = random.uniform(1.0,1000.0)
    # simulamos si es que tiene deuda o no
    debt_status = random.choice(['Debt', 'No Debt'])
    # simulamos si es que se cambió recientemente o no
    churn_status = random.choice(['Churn', 'No Churn'])
    
    return age, income, employment_status, use_in_minutes, debt_status, churn_status

**`1.1`** Replique la función 10 millones de veces y presérvela en un objeto.

In [3]:
n = 1e7
random_database = [create_random_row() for i in range(int(n))]

<div class="alert alert-block alert-info">
<center><b>Ejercicio 2:</b></center>
</div>

La función en cuestión es:

In [4]:
employment_income_looped = 0

for i in random_database:
    if i[2] == 'Employed':
        employment_income_looped += i[1]

**`2.1`** ¿Qué retornará la variable `employment_income_looped`?

**`R →`** Retornará la suma de ingresos para el conjunto de personas empleadas, en este caso:

In [5]:
employment_income_looped

2522397331000

**`2.2`** ¿Cómo sería una implementación del código utilizando `map` y `filter`?

**`R →`** Esto me costó entenderlo así que lo dividiré en pasos. Recordar que tanto `map` como `filter` reciben una función y un iterable (o varios en el primer caso):

1) Primero, usamos `filter` para filtrar los casos relevantes:

```python
func1 = lambda x: x[2] == 'Employed'  # función que retorna True o False
iterable1 = random_database  # lista de 6-tuplas que entra a 'func1'
result1 = list(filter(func1, iterable1))  # iterable que sólo contiene las 6-tuplas que retornaron True
```

2) Luego, sobre dicho resultado usamos `map`, para mapear la lista de 6-tuplas a una lista de enteros:

```python
func2 = lambda x: x[1]  # función que deja sólo el 2do elemento de la tupla input
iterable2 = result1  # output del paso anterior
result2 = list(map(func2, iterable2))  # iterable resultado de aplicar 'func2' a 'iterable2'
```

3) Al resultado final le aplicamos `sum`, que suma sobre todos los elementos del iterable que entra como input,

```python
result3 = sum(result2)
```

La implementación final en forma explícita quedaría:

In [6]:
result = sum(list(map(lambda x: x[1], list(filter(lambda x: x[2] == 'Employed', random_database)))))

**`2.3`** ¿Son iguales los resultados?

In [7]:
ans2 = 'El resultado es el mismo: %i'%result if employment_income_looped == result else 'El resultado es DIFERENTE!'
print(ans2)

El resultado es el mismo: 2522397331000


Una forma alternativa sólo con comprensión de lista sería por ejemplo:

In [8]:
sum([b for (a,b,c,d,e,f) in random_database if c=='Employed'])

2522397331000

<div class="alert alert-block alert-info">
<center><b>Ejercicio 3:</b></center>
</div>

La función en cuestión es:

In [9]:
count_debts_looped = 0

for i in random_database:
    for j in i:
        if j == 'Debt':
            count_debts_looped += 1

**`3.1`** ¿Qué retornará la variable `count_debts_looped`?

**`R →`** Retornará el número total de registros con deuda, en este caso:

In [10]:
count_debts_looped

4995593

**`3.2`** ¿Cuál será la complejidad algorítmica del código?

**`R →`** Análogo a la estimación de la cota superior asintótica (_Big O Notation_), voy a calcular el número de operaciones:

```python
for i in random_database:           # n = len(random_database) operaciones
    for j in i:                     # n = len(i) operaciones
        if j == 'Debt':             # n = 1 operación
            count_debts_looped += 1 # n = 1 operación
```

In [11]:
print('%.1e' % reduce((lambda x, y: x * y), [len(random_database), len(i)]))

6.0e+07


**`3.3`** ¿Cómo sería una implementación del código utilizando `map` y `filter`?

**`R →`** Siguiendo la misma idea del ejercicio anterior:

1) Primero usamos `filter` para filtrar los casos relevantes:

```python
func1 = lambda x: x[4] == 'Debt'  # función que retorna True o False
iterable1 = random_database  # lista de 6-tuplas que entra a 'func1'
result1 = list(filter(func1, iterable1))  # iterable que sólo contiene las 6-tuplas que retornaron True
```

2) Luego, sobre dicho resultado usamos `map`, para mapear las listas de 6-tuplas a una lista de strings:

```python
func2 = lambda x: x[4]  # función que deja sólo el 5to elemento de la tupla input
iterable2 = result1  # output del paso anterior
result2 = list(map(func2, iterable2))  # iterable resultado de aplicar 'func2' a 'iterable2'
```

3) Finalmente, al resultado final le aplicamos un `len`, para sumar todas las ocurrencias:

```python
result3 = len(result2)
```

La implementación final en forma explícita quedaría:

In [12]:
result = len(list(map(lambda x: x[4], list(filter(lambda x: x[4] == 'Debt', random_database)))))

**`3.4`** ¿Son iguales los resultados de ambas operaciones?

In [13]:
ans3 = 'El resultado es el mismo: %i'%result if count_debts_looped == result else 'El resultado es DIFERENTE!'
print(ans3)

El resultado es el mismo: 4995593


<div class="alert alert-block alert-info">
<center><b>Ejercicio 4:</b></center>
</div>

El bloque de código en cuestión es:

In [14]:
# BLOQUE ORIGINAL
churn_subset, no_churn_subset = [], []

for i in random_database:
    for j in i:
        if i == 'Churn':
            churn_subset.append(i)
    for j in i:
        if i == 'No Churn':
            no_churn.append(i)

y tiene al menos dos problemas:

1) de sintaxis: `no_churn` no está definido. Debe cambiarse por `no_churn_subset`.

2) de lógica: `i == 'Churn'` y `i == 'No Churn'` siempre serán evaluados como `False`, ya que está comparando una tupla con un string. Ambos _statements_ deben cambiarse por `j == 'Churn'` y `j == 'No Churn'` para así al menos no dejar las listas vacías.

El bloque corregido para que al menos tenga sentido comparar, sería:

In [15]:
# BLOQUE CORREGIDO
churn_subset, no_churn_subset = [], []

for i in random_database:
    for j in i:
        if j == 'Churn':
            churn_subset.append(i)
    for j in i:
        if j == 'No Churn':
            no_churn_subset.append(i)

**`4.1`** ¿Cuál será el retorno de la variable `churn_subset` y `no_churn_subset`?

**`R →`** Retornará el conjunto de tuplas de personas que se cambiaron recientemente y que no.

**`4.2`** ¿Cuál es la complejidad algorítmica del código?

**`R →`** Análogo a la estimación de la cota superior asintótica (_Big O Notation_), voy a calcular el número de operaciones:

```python
# BLOQUE CORREGIDO
churn_subset, no_churn_subset = [], []

for i in random_database:             # n = len(random_database) operaciones
    for j in i:                       # n = len(i) operaciones
        if j == 'Churn':              # n = 1 operación
            churn_subset.append(j)    # n = 1 operación
    for j in i:                       # n = len(i) operaciones
        if j == 'No Churn':           # n = 1 operación
            no_churn_subset.append(j) # n = 1 operación
```

In [16]:
print('%.1e' % reduce((lambda x, y: x * y), [len(random_database), 2*len(i)]))

1.2e+08


**`4.3`** ¿Cómo sería una implementación del código utilizando `map` y `filter`?

**`R →`** Siguiendo la misma idea de los ejercicios anteriores, dejaré explícito el caso de abandono (la explicación es análoga para el caso de no-abandono).

1) Primero usamos `filter` para filtrar los casos relevantes:

```python
func1 = lambda x: x[5] == 'Churn'  # función que retorna True o False
iterable1 = random_database  # lista de 6-tuplas que entra a 'func1'
result1 = list(filter(func1, iterable1))  # iterable que sólo contiene las 6-tuplas que retornaron True
```

2) Luego, sobre dicho resultado usamos `map`.

```python
func2 = lambda x: x  # función identidad
iterable2 = result1  # output del paso anterior
churn_subset_new = list(map(func2, iterable2))  # iterable resultado de aplicar 'func2' a 'iterable2'
```

<div class="alert alert-block alert-warning">
<b>NOTA:</b> El último paso no es realmente necesario porque el <i>output</i> de <code>filter</code> ya contiene el resultado que necesitamos, pero lo voy a implementar de todas formas porque lo exigen por enunciado.
</div>

La implementación final en forma explícita quedaría, para el caso de abandono y no-abandono:

In [17]:
churn_subset_new = list(map(lambda x: x, list(filter(lambda x: x[5] == 'Churn', random_database))))
no_churn_subset_new = list(map(lambda x: x, list(filter(lambda x: x[5] == 'No Churn', random_database))))

**`4.4`** ¿Son iguales los resultados de ambas operaciones?

In [18]:
if churn_subset_new == churn_subset and no_churn_subset_new == no_churn_subset:
    ans4a = 'El resultado es el mismo.'
else:
    ans4a = 'El resultado es DIFERENTE!'
print(ans4a)

El resultado es el mismo.


**`4.5`** Estime la media, la varianza, el mínimo y el máximo de la edad para ambos subsets, sin utilizar librerías externas.

In [19]:
def get_age_stats(tuple_list):
    """Prints median, variance, and extreme values of 'age' for a given subset."""
    ages = list(map(lambda x: x[0], tuple_list))
    mean_age = sum(ages)/len(ages)
    variance_age = sum((xi - mean_age) ** 2 for xi in ages) / len(ages)
    min_value = min(ages)
    max_value = max(ages)

    print('mean age     = %.2f\n\
age variance = %.2f\n\
minimum_age  = %.2f\n\
maximum_age  = %.2f' % (mean_age, variance_age, min_value, max_value))

In [20]:
get_age_stats(churn_subset_new)

mean age     = 54.01
age variance = 443.70
minimum_age  = 18.00
maximum_age  = 90.00


In [21]:
get_age_stats(no_churn_subset_new)

mean age     = 54.01
age variance = 443.75
minimum_age  = 18.00
maximum_age  = 90.00


<div class="alert alert-block alert-info">
<center><b>Ejercicio 5:</b></center>
</div>

**`5.1`** ¿Cómo sería una implementación utilizando `map`?

**`R →`** El bloque de código a mejorar es el siguiente. Notar que usaré `filter` en vez de `map`, ya que puedo considerar el primero como una extensión del segundo:

In [22]:
unemployed_debt_churn = 0
unemployed_nodebt_churn = 0
unemployed_debt_nochurn = 0
unemployed_nodebt_nochurn = 0
employed_debt_churn = 0
employed_nodebt_churn = 0
employed_debt_nochurn = 0
employed_nodebt_nochurn = 0

for i in random_database:
    if i[2] == 'Unemployed' and i[4] == 'Debt' and i[5] == 'Churn':
        unemployed_debt_churn += 1
    if i[2] == 'Unemployed' and i[4] == 'No Debt' and i[5] == 'Churn':
        unemployed_nodebt_churn += 1
    if i[2] == 'Unemployed' and i[4] == 'Debt' and i[5] == 'No Churn':
        unemployed_debt_nochurn += 1
    if i[2] == 'Unemployed' and i[4] == 'No Debt' and i[5] == 'No Churn':
        unemployed_nodebt_nochurn += 1
    if i[2] == 'Employed' and i[4] == 'Debt' and i[5] == 'Churn':
        employed_debt_churn += 1
    if i[2] == 'Employed' and i[4] == 'No Debt' and i[5] == 'Churn':
        employed_nodebt_churn += 1
    if i[2] == 'Employed' and i[4] == 'Debt' and i[5] == 'No Churn':
        employed_debt_nochurn += 1
    if i[2] == 'Employed' and i[4] == 'No Debt' and i[5] == 'No Churn':
        employed_nodebt_nochurn += 1

print("Unemployed, Debt, Churn: ", unemployed_debt_churn)
print("Unemployed, No Debt, Churn: ", unemployed_nodebt_churn)
print("Unemployed, Debt, No Churn: ", unemployed_debt_nochurn)
print("Unemployed, No Debt, No Churn: ", unemployed_nodebt_nochurn)
print("Employed, Debt, Churn: ", employed_debt_churn)
print("Employed, No Debt, Churn: ", employed_nodebt_churn)
print("Employed, Debt, No Churn: ", employed_debt_nochurn)
print("Employed, No Debt, No Churn: ", employed_nodebt_nochurn)

Unemployed, Debt, Churn:  1248310
Unemployed, No Debt, Churn:  1250937
Unemployed, Debt, No Churn:  1249021
Unemployed, No Debt, No Churn:  1251592
Employed, Debt, Churn:  1250753
Employed, No Debt, Churn:  1251624
Employed, Debt, No Churn:  1247509
Employed, No Debt, No Churn:  1250254


In [23]:
def operation(string1, string2, string3, database):
    result = len(list(filter(lambda x: (x[2] == string1 and x[4] == string2 and x[5] == string3), database)))
    print('%s, %s, %s: ' % (string1, string2, string3), result)
    return(result)

In [24]:
operations = [operation(i,j,k,random_database)
              for i in ['Unemployed', 'Employed']
              for j in ['Debt', 'No Debt']
              for k in ['Churn', 'No Churn']]

Unemployed, Debt, Churn:  1248310
Unemployed, Debt, No Churn:  1249021
Unemployed, No Debt, Churn:  1250937
Unemployed, No Debt, No Churn:  1251592
Employed, Debt, Churn:  1250753
Employed, Debt, No Churn:  1247509
Employed, No Debt, Churn:  1251624
Employed, No Debt, No Churn:  1250254


**`5.2`** ¿Son iguales los resultados de ambas operaciones?

In [25]:
tuple0 = [unemployed_debt_churn,
          unemployed_debt_nochurn,
          unemployed_nodebt_churn,
          unemployed_nodebt_nochurn,
          employed_debt_churn,
          employed_debt_nochurn,
          employed_nodebt_churn,
          employed_nodebt_nochurn]

result_comparison = 'el mismo.' if tuple0 == operations else 'DIFERENTE!'

In [26]:
ans5 = 'El resultado es %s' % result_comparison
print(ans5)

El resultado es el mismo.


<div class="alert alert-block alert-danger">
<center>FIN DESAFIO 1</center>
</div>