<a href="https://colab.research.google.com/github/jmbarrios/THC-Python/blob/main/20211026_comprension_y_funciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Bibliotecas

In [1]:
!pip install rich

Collecting rich
  Downloading rich-10.12.0-py3-none-any.whl (212 kB)
[?25l[K     |█▌                              | 10 kB 13.3 MB/s eta 0:00:01[K     |███                             | 20 kB 12.6 MB/s eta 0:00:01[K     |████▋                           | 30 kB 8.6 MB/s eta 0:00:01[K     |██████▏                         | 40 kB 7.8 MB/s eta 0:00:01[K     |███████▊                        | 51 kB 5.5 MB/s eta 0:00:01[K     |█████████▎                      | 61 kB 5.2 MB/s eta 0:00:01[K     |██████████▉                     | 71 kB 4.6 MB/s eta 0:00:01[K     |████████████▍                   | 81 kB 5.1 MB/s eta 0:00:01[K     |██████████████                  | 92 kB 5.2 MB/s eta 0:00:01[K     |███████████████▌                | 102 kB 5.1 MB/s eta 0:00:01[K     |█████████████████               | 112 kB 5.1 MB/s eta 0:00:01[K     |██████████████████▌             | 122 kB 5.1 MB/s eta 0:00:01[K     |████████████████████            | 133 kB 5.1 MB/s eta 0:00:01[K     

In [2]:
from rich import (print,
                  inspect)
import pickle

# Cargar archivo de datos

Cargaremos un archivo de datos llamado `penguin_data.pkl` que está en nuesto Google Drive en la carpeta `ColabData`.

In [3]:
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [4]:
with open('/gdrive/My Drive/ColabData/penguin_data.pkl', 'rb') as f:
    my_data = pickle.load(f)

In [6]:
print('El numero de records es:', len(my_data))
print('-'*80)
print(my_data[:6])

# Comprensión de listas

Las comprensiones de listas ofrecen una manera concisa de crear listas. Sus usos comunes son para hacer nuevas listas donde cada elemento es el resultado de algunas operaciones aplicadas a cada miembro de otra secuencia o iterable, o para crear una subsecuencia de esos elementos para satisfacer una condición determinada.

In [7]:
a = [1, 2, 3, 4, 5, 6]
print(a)

In [8]:
b = []
for e in a:
  b.append(e**2)
print(b)

In [9]:
c = [e**2 for e in a]
print(c)

In [10]:
# Quiero una lista donde solo tenga los valores pares de la original al cuadrado
d = []
for e in a:
  if e%2 == 0:
    d.append(e**2)
print(d)

In [11]:
f = [e**2 for e in a if e%2 == 0]
print(f)

- Ver que especies de pingüinos fueron medidos

In [13]:
especies_pinguinos = set([record['species'] for record in my_data])
print(especies_pinguinos)

- Hacer distintos conjuntos de datos para cada especie

In [14]:
gentoo_data = [record for record in my_data if record['species'] == 'Gentoo']
adelie_data = [record for record in my_data if record['species'] == 'Adelie']
chinstrap_data = [record for record in my_data if record['species'] == 'Chinstrap']

print(gentoo_data[:2])
print('-'*80)
print(adelie_data[:2])
print('-'*80)
print(chinstrap_data[:2])

## Algunas medidas estadísticas

Dado un conjunto de mediciones $\{x_1, x_2,\ldots x_n\}$ podemos calcular las siguientes medidas muestrales estadísticas.

- **Media muestral**

$$
\bar x = \frac{1}{n} \sum_{i=1}^n x_i
$$

- **Varianza muestral**

$$
\bar \sigma^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar x)^2
$$

- **Mediana muestral**

    - Si $n$ es impar la mediana es el valor $\frac{n+1}{2}$ de los datos ordenados. 
    - Si $n$ es par es el promedio de los datos en las posiciones $\frac{n}{2}$ y $\big(\frac{n}{2}\big)+1$.

In [None]:
# Calcular las medidas estadisticas para el gentoo y bill_length_mm
gentoo_bill_length = [record['bill_length_mm'] for record in gentoo_data 
                      if record['bill_length_mm'] != None]
print(gentoo_bill_length)

In [18]:
# Media
gentoo_bl_mean = (1/len(gentoo_bill_length))*sum(gentoo_bill_length)
print(gentoo_bl_mean)

In [20]:
# Varianza
aux = [(el - gentoo_bl_mean)**2 for el in gentoo_bill_length]
gentoo_bl_var = (1/(len(gentoo_bill_length)-1))*sum(aux)
print(gentoo_bl_var)

In [21]:
# Mediana
if len(gentoo_bill_length) % 2 == 1:
    idx = len(gentoo_bill_length) // 2
    gentoo_bl_median = sorted(gentoo_bill_length)[idx]
elif len(gentoo_bill_length) % 2 ==0:
    idx = len(gentoo_bill_length) // 2
    gentoo_bl_median = sum(sorted(gentoo_bill_length)[idx-1:idx+1])/2
print(gentoo_bl_median)

# Funciones

Hacer las funciones estadísticas que funcionen para cualquier conjunto de datos y medida 

In [31]:
def calculate_statistics(data, target_measure):
    ''' calcula la media, varianza y mediana de los datos y la medida objetivo

        :param data: list una lista de registros(dict)
        :param target_measure: str corresponde a una llave de una medición

        Returns un diccionario con los valores de los estadísticos calculados
    '''
    inner_data = [record[target_measure] for record in data 
                  if record[target_measure] != None]
    # mean
    data_mean = (1/len(inner_data))*sum(inner_data)
    # var
    aux = [(el - data_mean)**2 for el in inner_data]
    data_var = (1/(len(inner_data)-1))*sum(aux)
    # median
    if len(inner_data) % 2 == 1:
        idx = len(inner_data) // 2
        data_median = sorted(inner_data)[idx]
    elif len(inner_data) % 2 == 0:
        idx = len(inner_data) // 2
        data_median = sum(sorted(inner_data)[idx-1:idx+1])/2

    return {'mean': data_mean, 'var': data_var, 'median': data_median}

In [25]:
gentoo_bl_stats = calculate_statistics(gentoo_data, 'bill_length_mm')
print(gentoo_bl_stats)

In [28]:
adelie_bl_stats = calculate_statistics(adelie_data, 'bill_length_mm')
print(adelie_bl_stats)

In [32]:
chinstrap_bl_stats = calculate_statistics(chinstrap_data, 'bill_length_mm')
print(chinstrap_bl_stats)

In [33]:
?calculate_statistics