# Estadística

La clase pasada vimos que numpy tiene muchas funciones que nos simplifican la vida a los data scientists.

Numpy, también incluye funciones para calcular la media, desviación estandar, moda, percentiles, etc.

Veamos algunas de ellas...

## La media

Dados $n$ números $x_1,x_2,...,x_n$, el promedio o media es

$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

Primero calculemos la media de un array sin usar la función de numpy.

Ejercicio: Hacer una función que reciba un array de numpy como parámetro y retorne su media


In [None]:
import numpy as np

In [None]:
np_array = np.arange(100)

In [None]:
def media(numbers_array):

print(media(np_array))

Ahora.. como lo hacemos con numpy? Es mucho más simple!

In [None]:
np.mean(np_array)

## La mediana

Vimos que la mediana es un valor tal que bajo ella se encuentran el 50% de las observaciones.

Numpy también nos provee una función para calcular la mediana en una sola línea de código:


In [None]:
np.median(np_array)

## Desviación estandar

In [None]:
np.std(np_array)

## Varianza

In [None]:
np.var(np_array)

## Percentiles

In [None]:
np.quantile(np_array, 0.5) # Es igual a la mediana

In [None]:
np.quantile(np_array, 0.25)

# Pandas

Ahora si, arranquemos con Pandas.

Pandas es otra librería muy utilizada por data scientists. El principal concepto detrás de Pandas es el DataFrame.

Un DataFrame es una estructura de datos con dos dimensiones en la cual se puede guardar datos de distintos tipos (como caractéres, enteros, valores de punto flotante, factores y más) en columnas. En un DataFrame se van a almacenar los datos con los que querramos trabajar.

Pandas nos provee muchas funciones para manipular datos en un DataFrame.

Pandas corre sobre Numpy, de manera que hay muchas cosas en comun.

Primero que nada, importemos pandas

In [None]:
import pandas as pd

Un DataFrame se puede crear por ejemplo, a partir de un archivo csv (caso más común).

Para eso, pandas nos provee la función read_csv.

Antes que nada, si estamos trabajando en google colab, debemos montar drive en nuestro notebook.

Una vez montado drive, debemos reemplazar el path al archivo:

In [None]:
#from google.colab import drive # La usamos para montar nuestra unidad de Google Drive
#drive.mount('/content/drive') # Montamos nuestra unidad de Google Drive
#iris_dataset = pd.read_csv('drive/MyDrive/ICARO/Curso DS/Clases/Clase 4/iris_dataset.csv') "Ruta del drive donde esta guardado el dataset + iris_dataset.csv"

ModuleNotFoundError: No module named 'termios'

In [None]:
iris_dataset = pd.read_csv('iris_dataset.csv')

In [None]:
iris_dataset

Lo que hicimos fue leer un archivo csv y meterlo dentro de un DataFrame de pandas. Este DataFrame tiene filas y columnas.

Cad columna tiene un tipo de dato. Esto podemos verlo con la función info()

In [None]:
iris_dataset.info()

Nos dice que todas las columnas son del tipo float, a excepción de "species" que es del tipo "object".

Es importante tener en cuenta el tipo de datos de las columnas ya que de esto depende las operaciones que podemos hacer sobre las mismas.

El dataset que estamos usando (iris_dataset) es muy conocido, pueden googlear para saber más del mismo.


Otra función muy útil de los DataFrames es describe()


In [None]:
iris_dataset.describe()

Describe, nos da datos estadísticos de nuesto DataFrame.

Un DataFrame, puede tener valores faltantes. Estos valores faltantes en pandas se representan como NaN.

Cuántos datos faltantes hay en este DataFrame?

In [None]:
iris_dataset.isna().sum()

Ninguno! Este dataset no tiene datos faltantes (rara vez nos vamos a encontrar con datasets de este tipo)

También podemos aplicar funciones sobre una columna.

Para seleccionar una columna, utilizamos [].

In [None]:
iris_dataset['sepal_length']

Que tipo de dato nos retorna esto?

In [None]:
type(iris_dataset['sepal_length'])

Una "Series". Una series es el objeto que compone a los dataframes de pandas.

Este objeto es muy similar a los que es un array de Numpy (de hecho esta construido sobre el). La diferencia es que el objeto Series tiene etiquetas (labels), eso quiere decir que puede ser indexado por la etiqueta, y no solo por la posicion.

Si en lugar de obtener una Series, quiero un DataFrame, puedo hacerlo utilizando corchetes dobles:

In [None]:
iris_dataset[['sepal_length']]

En este caso, puedo seleccionar todas las columnas que quiera

In [None]:
iris_dataset[['sepal_length', 'sepal_width', 'species']]

Los DataFrames también tienen un atributo "columns":

In [None]:
iris_dataset.columns

Y otro atributo index:

In [None]:
iris_dataset.index

Podemos elegir cualquier columna como index:

In [None]:
iris_dataset = iris_dataset.set_index('sepal_length')

Si nos arrepentimos, podemos resetear el index para que vuelva a ser numérico

In [None]:
iris_dataset = iris_dataset.reset_index()

In [None]:
iris_dataset

### Head, Tail y Sample

A veces tenemos DataFrames con muchisimos datos y no queremos imprimir todo en un notebook, simplemente algunas filas como ejemplo.

Para esto existen las funciones head(), tail() y sample()

In [None]:
iris_dataset.head()

In [None]:
iris_dataset.tail()

In [None]:
iris_dataset.sample(5, random_state=42)

Cuál es la diferencia entre las 3?

#### loc e iloc

Pandas nos probee las funciones loc e iloc para acceder a sus datos.

Para que sirven?

Investigar

In [None]:
iris_dataset.loc[1,['sepal_length']]

In [None]:
iris_dataset.iloc[1,0]