## Ejemplo 1: Funciones vectorizadas con Series

### 1. Objetivos:
    - Aprender cómo usar funciones vectorizadas aplicadas a Series de Pandas
 
### 2. Desarrollo:

Primero realizaremos algunas operaciones con Series

In [1]:
import pandas as pd

Dada la siguiente serie:

In [3]:
serie = pd.Series([1, 2, 3, 4, 5])
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

Suma 10 a cada elemento usando `map()` y `lambda`:

In [5]:
list(map(lambda n: n + 10, serie))

[11, 12, 13, 14, 15]

In [7]:
serie.map(lambda n: n + 10)

0    11
1    12
2    13
3    14
4    15
dtype: int64

Suma 10 a cada elemento usando listas de compresión:

In [8]:
[n + 10 for n in serie]

[11, 12, 13, 14, 15]

Y si queremos obtener una Serie y no una Lista, entonces creamos una Serie a partir de la lista obtenida ya que podemos usar `pd.Series(-lista-)`, simple no!

In [9]:
pd.Series([n + 10 for n in serie])

0    11
1    12
2    13
3    14
4    15
dtype: int64

Ahora vamos a usar la forma **super simple** y eficiente usando:

`serie operador valor`

Por ejemplo para suma:

`serie + valor`

Entonces vamos a sumar 10 a cada elemento de la Serie y obtener como resultado otra Serie:

In [6]:
serie + 10

0    11
1    12
2    13
3    14
4    15
dtype: int64

Multiplica por 10 a cada elemento

In [None]:
...

Multiplica por 10 y luego divide entre 2

In [10]:
serie * 10 / 2

0     5.0
1    10.0
2    15.0
3    20.0
4    25.0
dtype: float64

Elevar al cubo usando el operador producto entre Series, osea, la misma serie multiplicada por si misma 3 veces:

In [12]:
serie * serie * serie

0      1
1      8
2     27
3     64
4    125
dtype: int64

Elevar al cubo usando el operador potencia `**`, ¿también se puede? (gracias a Pandas que existen las funciones vectoriales, Santa Ciencia en verdad adios ciclos for!):

In [13]:
serie ** 3

0      1
1      8
2     27
3     64
4    125
dtype: int64

Elevar al cubo usando la función de NumPy `np.power(-vector-, potencia)`:

In [14]:
import numpy as np

np.power(serie, 3)

0      1
1      8
2     27
3     64
4    125
dtype: int64

Algunos módulos como **Numpy** saben como aplicar operaciones o funciones a cada elemento de una lista, array o serie, así que tampoco hay que hacerlo usando map, for o listas de compresión, a menos que la operación no exista y no sea posible construirla con las operaciones básicas, por ejemplo si necesitaras aplicar la siguiente fórmula a cada elemento de la serie ¿sería posible?

Realiza la siguiente operación para cada elemento de la serie: x^2 - x + 1

In [None]:
...

---
---

## Reto 1: Funciones vectorizadas

### 1. Objetivos:
    - Practicar el uso de funciones vectorizadas
 
### 2. Desarrollo:

#### a) Porcentaje del total

Eres maestro en la H. Universidad de las Américas Unidas. Has realizado el examen final de la primera generación de estudiantes de la escuela. El conteo máximo de aciertos en el examen era de 68 (es decir, 68 aciertos equivale al 100% de las preguntas respondidas correctamente). La siguiente `Serie` reúne los aciertos obtenidos por los 25 alumnos de la generación:

In [None]:
import numpy as np

In [None]:
aciertos = pd.Series([50, 55, 45, 65, 66, 46, 48, 53, 55, 56, 59, 68, 67, 60, 45, 56, 66, 64,
    59, 55, 34, 45, 49, 48, 55])

Tus calificaciones las das siempre en "porcentaje de aciertos". Tu reto es convertir la `Serie` `aciertos` en la `Serie` `porcentajes`, que contiene cada valor de `aciertos` como un porcentaje del número de aciertos totales (68).

**SÓLO** puedes usar funciones vectorizadas de `numpy` para realizar tus cálculos ([Aquí puedes encontrar las funciones que necesitas](https://www.interactivechaos.com/manual/tutorial-de-numpy/funciones-universales-matematicas)) .

In [None]:
# Si necesitas realizar más operaciones o más variables agrégalas aquí abajo

porcentajes = 

porcentajes

A continuación la celda de validación ...

In [None]:
def obtener_calificaciones(aciertos, porcentajes):
    
    import numpy as np
    
    datos_1 = [73.52941176470588, 80.88235294117646, 66.17647058823529, 95.58823529411765, 97.05882352941177, 67.6470588235294, 70.58823529411765, 77.94117647058823, 80.88235294117646, 82.3529411764706, 86.76470588235294, 100.0, 98.52941176470588, 88.23529411764706, 66.17647058823529, 82.3529411764706, 97.05882352941177, 94.11764705882354, 86.76470588235294, 80.88235294117646, 50.0, 66.17647058823529, 72.05882352941177, 70.58823529411765, 80.88235294117646]
        
    titulo = "== Calificaciones finales =="
    linea = lambda: print("-" * 41)
    vf = lambda valor, i: f"{valor: 22.2f}%" if valor == datos_1[i] else f"Error: {valor:22.2f}% | Valor esperado: {datos_1[i]:22.2f}%"
    f = lambda valor, i: f"{valor:22}" if type(valor) == str else vf(valor, i-1)
    fila = lambda idalum, porcentaje: print(f'{idalum:15} | {f(porcentaje, idalum)}')

    print(f"{titulo:^41}")
    linea()
    fila("Id de alumno", "Procentaje de aciertos")
    linea()
    for i, p in enumerate(porcentajes, 1):
        fila(i, p)
    linea()
        
obtener_calificaciones(aciertos, porcentajes)

b) Cálculo del área de un círculo

![image.png](attachment:cb1da8c1-db3d-4729-a0ac-1ca24b836c30.png)

Para el caso del círculo verde con perímetro $20 \pi$ el área del círculo rojo es de $78.54$

**Nota:** Si aún no cuentas con el archivo `perimetros.csv` entonces ejecuta la siguiente celda y espera un momento a que termine de ejecutarse, al terminar verifica que ya tengas el archivo.

In [19]:
import random
import pandas as pd
import numpy as np

n = 10_000_000
perimetro = 20 * np.pi
muestras = (random.gauss(perimetro, 1) for _ in range(n))
datos = {
    "perimetro": muestras,
    "r1": [np.nan] * n,
    "r2": [np.nan] * n,
    "area": [np.nan] * n
}
df = pd.DataFrame(datos)
df.to_csv("perimetros.csv")
del(df)

In [18]:
perimetro = 20 * np.pi
radio_verde = perimetro / (2 * np.pi)
radio_rojo = radio_verde / 2
area_rojo = np.pi * radio_rojo ** 2
area_rojo

78.53981633974483

In [22]:
df = pd.read_csv("perimetros.csv", index_col=0)
df

Unnamed: 0,perimetro,r1,r2,area
0,63.002869,,,
1,61.532043,,,
2,62.146110,,,
3,64.062447,,,
4,61.233585,,,
...,...,...,...,...
9999995,63.198034,,,
9999996,62.169512,,,
9999997,63.511888,,,
9999998,61.896317,,,


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10000000 entries, 0 to 9999999
Data columns (total 4 columns):
 #   Column     Dtype  
---  ------     -----  
 0   perimetro  float64
 1   r1         float64
 2   r2         float64
 3   area       float64
dtypes: float64(4)
memory usage: 381.5 MB


In [25]:
df['r1'] = df['perimetro']/(2*np.pi)
df

Unnamed: 0,perimetro,r1,r2,area
0,63.002869,10.027218,,
1,61.532043,9.793129,,
2,62.146110,9.890861,,
3,64.062447,10.195855,,
4,61.233585,9.745628,,
...,...,...,...,...
9999995,63.198034,10.058279,,
9999996,62.169512,9.894585,,
9999997,63.511888,10.108231,,
9999998,61.896317,9.851105,,


In [26]:
df["r2"] = df["r1"] / 2
df

Unnamed: 0,perimetro,r1,r2,area
0,63.002869,10.027218,5.013609,
1,61.532043,9.793129,4.896564,
2,62.146110,9.890861,4.945430,
3,64.062447,10.195855,5.097928,
4,61.233585,9.745628,4.872814,
...,...,...,...,...
9999995,63.198034,10.058279,5.029140,
9999996,62.169512,9.894585,4.947293,
9999997,63.511888,10.108231,5.054115,
9999998,61.896317,9.851105,4.925552,


In [27]:
df["area"] = df["r2"] ** 2 * np.pi
df

Unnamed: 0,perimetro,r1,r2,area
0,63.002869,10.027218,5.013609,78.967937
1,61.532043,9.793129,4.896564,75.323902
2,62.146110,9.890861,4.945430,76.834814
3,64.062447,10.195855,5.097928,81.646428
4,61.233585,9.745628,4.872814,74.594966
...,...,...,...,...
9999995,63.198034,10.058279,5.029140,79.457936
9999996,62.169512,9.894585,4.947293,76.892691
9999997,63.511888,10.108231,5.054115,80.249105
9999998,61.896317,9.851105,4.925552,76.218389


In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10000000 entries, 0 to 9999999
Data columns (total 4 columns):
 #   Column     Dtype  
---  ------     -----  
 0   perimetro  float64
 1   r1         float64
 2   r2         float64
 3   area       float64
dtypes: float64(4)
memory usage: 381.5 MB


In [29]:
df.to_csv("perimetros-y-areas.csv")