# Tarea 1

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Numpy (Tiempo estimado: 15 min)

Una de las características principales que vuelven a numpy tan útil son sus capacidades algebraicas, y la posibilidad de trabajar con conjuntos de datos de N dimesiones, lo que permite acelerar cálculos. Para destacar esto, a continuación se hacne una serie de jercicios simple donde se pide que realicen las mismas operaciones usando numpy y las listas de python.

Para visualizar de mejor manera el potencial en velocidad que tiene utilizar numpy, se les pide que corran sus funciones con el decorator $\textit{%timeit}$, ejemplo

```
%timeit nombre_funcion(parametro_1, parametro_2)
```

Esto entregará como output el tiempo medio que toma en correr la función y el


### Suma de listas de elementos

* Cree la función $\textbf{suma_listas}$, que sume 2 listas de python $a$ y $b$.
* Cree la función $\textbf{suma_arrays}$, que sume 2 arrays de numpy $a$ y $b$.

### Multiplicación de listas de elementos

* Cree la función $\textbf{mupliply_listas}$, que multiplique 2 listas de python $a$ y $b$
* Cree la función $\textbf{mupliply_arrays}$, que multiplique 2 listas de python $a$ y $b$

### Aplicación práctica (IMF de Salpater)

Las Funciones de Masa Inicial (IMF) son muy útil es astronomía pues nos da cuenta de un estimado del número de estrellas que se van a formar en un periodo de formación estelar a partir de un reservorio de masa M [referencia](https://es.wikipedia.org/wiki/Función_de_masa_inicial), lo que permite estudiar poblaciones estelares. En particular, si tenemos un rango de masas $[M_1, M_2]$, se puede demostrar que el número de estrellas que nacerán de un reservorio de masa $\xi_0$ (ignorar unidades) está dada por ecuación $(1)$

$$N = \frac{\xi_0}{1.35} (M_1^{-1.35} - M_2^{-1.35}) \tag{1}$$

Para esta prueba usted debe:

* Crear un array de masas $\textbf{lista_masas}$ que vaya desde $0.2 M_{\odot}$ hasta $80 M_{\odot}$, separada por equespaciada en $0.05 M_{\odot}$. Note que para este ejercicio puede ignorar la unidad de la masa.
* Recrear la ecuación $(1)$ como función en python. Considere $\xi_0=1$
* Calcular el número de estrellas que se formarán en todos los intervalos de $\textbf{lista_masas}$, i.e. entre $[0.2, 0.25], [0.25, 0.3], [0.3, 0.35], ..., [79.9, 79.95], [79.95, 80]$ utilizando numpy y pandas. (Recuerde incluir el $\textit{%timeit}$)



## Pandas (Tiempo estimado 20 min)

Pandas es una de las librerías más usadas en python. Su versatilidad, potencia y simplicidad de ulizar le han dado un lugar como una de las herramientas más populares y necesarias en la ciencia de datos moderna.

Para esta sección veremos algunas de las funciones principales que existen dentro de pandas, dando una pincelada a sus capacidades. Se recomienda que igualmenten exploren la [documentación](lista_masas), y que miren/realicen el tutorial [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html).

### 1. Creación de datos

En la celda inferior recree el dataset **Almacén**:


|        | Manzana | Frutilla | Melón |
|--------|---------|----------|-------|
| Total  | 25      | 80       | 15    |
| Ventas | 14      | 60       | 6     |


Haga ahora un inventario de la cantidad que queda por producto y añada la fila **Bodega** con esta información.

### Visualización

Importe el dataset utilizando la función **pd.load_csv(path)** y guardelo como **df_censo**. Con este dataset se pide hacer lo siguiente

* Vea los primeros 10 elementos de $\textbf{df_data}$
* Vea las columnas del dataframe
* Traduzca las columnas a español (manualmente).
* Use la función $\textbf{describe}$ para visualizar la estadística de cada columna del dataframe. ¿Ve algo que no tiene sentido?

### Filtar los datos

Repare el dataframe siguiendo los siguientes pasos

* Descarte los elementos del dataframe donde la edad sea menor a cero
* Reemplace los casos en que el número de hermanos es menor a cero por cero
* Descarte los casos en que el mismo nombre aparezca más de una vez
* Si una persona vive en Rancagua hay que descartarla. Todos sabemos que rancagua no existe.

## Matplotlib

Matplotlib es una librería muy comunmente utilizada en python. Es derivada de su versión en matlab y permite hacer todo tipo de gráficas en python ([documentación](https://matplotlib.org/stable/index.html)). A pesar de que no posee una gran versatilidad al momento de hacer una visulización interactiva, y que hoy en día existen librerías más potentes, su fiabilidad y simplicidad la han hecho una de las librerías fundamentales para la ciencia de datos en python.

### Visualización simple



Utilizando la función **np.sin()** de numpy, y la lista **x_values**, plotee la función seno. Sin crear una figura, solo **plt.plot()**.

Ahora incluya también en el plot la función coseno **np.cos()**. Plotee el coseno de color rojo y en azul la función seno. Incluya además una leyenda con **plt.legend()**.

Es una buena práctica también el siempre inicializar una figura. Esto además permite definir un tamaño al plot que se va a generar. Use **plt.figure(figize=(size_x, size_y))** para cambiar el tamaño de la figura. Ajuste estos parámetros tal que el plot sea simétrico. Ex:


Para estas funciones, sabemos que tiene un mayor sentido definir el xaxis en función de $\pi$ en lugar de números enteros. Utilize la función **plt.xticks()** para reescribir los valores de x como fracciones de $\pi$. Utilice como labels la lista **xticks_labels** que ya está definida.

Además, tenga en cuenta que se puede escribir texto en latex de la siguiente forma:


```
r'$\pi$'
```



Como ultimo paso, active una grilla con **plt.grid(True)**. Además añada un título a la figura y labels (x label e y label) que tengan sentido.


### Visualización distribución de estrellas

El archivo **galaxy2.csv** contiene datos de la posición de estrellas sintéticas de una galaxia. Al igual que en la sección anterior, cargue los datos utilizando **pd.read_csv()**.

Vea los primeros 10 elementos del dataframe. ¿Qué tipo de información puede encontrar? Dado el nombre de las columnas, ¿en qué unidades se encuentran?

Plotee las estrellas en el plano $[x, y]$ utilizando **plt.plot()**. Para hacer esto hay que plotear solo los marcadores, esto se puede hacer con: **marker=' . ', linestyle='  '**, o simplemente con **' . '**.

Se puede ver que muchas de las estrellas se extienden muy lejos de la galaxia. Para simplificar la visualización setee un **plt.xlim()** y **plt.ylim()** en el rago que considere que funcione mejor (Recomendación, use la notación $1eN$, con $N$ el orden de magnitud, para facilitar la escritura).

Adicionalmente, cuando se trabaja con marcadores, podemos usar el parámetro **markersize** para modificar su tamaño. El plot anterior muestra con bastante claridad las estrellas que están más lejanas, pero dificulta la visualización de las regiones más centrales de la galaxia. Actualice el tamaño de los marcadores a $0.5$, de manera que sea más suabe la visualización de la distribución de estrellas. Plotee además las estrellas vistas en el plano $[x, y]$, $[x, z]$, $[y, z]$.

#### Distribuciones

Calcule la distancia $r$ y ángulo $\theta$ de cada una de las estrellas (Ignore la coordenada $z$) y añada estos valores a las columnas del dataframe original.

Finalmente, visualize la distribución de $r$ y $\theta$ con un histograma. Esto se puede hacer contruir desde cero con matplotlib, sin embargo pandas simplifica hacer análisis como estos, permitiendo rápidamente hacer difentes análisis estadísticos. El codigo inferior muestra como se puede plotear un histograma



```
dataframe.plot.hist(y=column_name, bins=n_bins)
```

Incluya además una escala logaritmica en $y$ para el caso de $r$. Use la cantidad de bins que considere que representen bien la distribución.

