# Estadística

La clase pasada vimos que numpy tiene muchas funciones que nos simplifican la vida a los data scientists.

Numpy, también incluye funciones para calcular la media, desviación estandar, moda, percentiles, etc.

Veamos algunas de ellas...

## La media

Dados $n$ números $x_1,x_2,...,x_n$, el promedio o media es 

$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

Primero calculemos la media de un array sin usar la función de numpy.

Ejercicio: Hacer una función que reciba un array de numpy como parámetro y retorne su media


In [None]:
import numpy as np

In [None]:
np_array = np.arange(100)

In [None]:
def media(numbers_array):
    prom = numbers_array.sum()/len(numbers_array)
    return prom
print(media(np_array))

49.5


Ahora.. como lo hacemos con numpy? Es mucho más simple!

In [None]:
np.mean(np_array)

49.5

## La mediana

Vimos que la mediana es un valor tal que bajo ella se encuentran el 50% de las observaciones.

Numpy también nos provee una función para calcular la mediana en una sola línea de código:


In [None]:
np.median(np_array)

49.5

## Desviación estandar 

In [None]:
np.std(np_array)

28.86607004772212

## Varianza

In [None]:
np.var(np_array)

833.25

## Percentiles

In [None]:
np.quantile(np_array, 0.5) # Es igual a la mediana

49.5

In [None]:
np.quantile(np_array, 0.25)

24.75

# Pandas

Ahora si, arranquemos con Pandas.

Pandas es otra librería muy utilizada por data scientists. El principal concepto detrás de Pandas es el DataFrame.

Un DataFrame es una estructura de datos con dos dimensiones en la cual se puede guardar datos de distintos tipos (como caractéres, enteros, valores de punto flotante, factores y más) en columnas. En un DataFrame se van a almacenar los datos con los que querramos trabajar. 

Pandas nos provee muchas funciones para manipular datos en un DataFrame.

Pandas corre sobre Numpy, de manera que hay muchas cosas en comun.

Primero que nada, importemos pandas

In [None]:
!pip install pandas





In [None]:
import pandas as pd

Un DataFrame se puede crear por ejemplo, a partir de un archivo csv (caso más común).

Para eso, pandas nos provee la función read_csv.

Antes que nada, si estamos trabajando en google colab, debemos montar drive en nuestro notebook.

Una vez montado drive, debemos reemplazar el path al archivo:

In [None]:
from google.colab import drive # La usamos para montar nuestra unidad de Google Drive
drive.mount('/content/drive') # Montamos nuestra unidad de Google Drive

Mounted at /content/drive


In [None]:
#from google.colab import drive # La usamos para montar nuestra unidad de Google Drive
#drive.mount('/content/drive') # Montamos nuestra unidad de Google Drive
#iris_dataset = pd.read_csv('drive/MyDrive/ICARO/Curso DS/Clases/Clase 4/iris_dataset.csv') "Ruta del drive donde esta guardado el dataset + iris_dataset.csv"

ModuleNotFoundError: No module named 'termios'

In [None]:
ruta = 'drive/MyDrive/ICARO/Datasets/'

In [None]:
df_iris = pd.read_csv(ruta + 'iris_dataset.csv')

In [None]:
df_iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Lo que hicimos fue leer un archivo csv y meterlo dentro de un DataFrame de pandas. Este DataFrame tiene filas y columnas.

Cad columna tiene un tipo de dato. Esto podemos verlo con la función info()

In [None]:
df_iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


Nos dice que todas las columnas son del tipo float, a excepción de "species" que es del tipo "object".

Es importante tener en cuenta el tipo de datos de las columnas ya que de esto depende las operaciones que podemos hacer sobre las mismas.

El dataset que estamos usando (iris_dataset) es muy conocido, pueden googlear para saber más del mismo.

https://archive.ics.uci.edu/ml/datasets/iris

Otra función muy útil de los DataFrames es describe()


In [None]:
df_iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Describe, nos da datos estadísticos de nuesto DataFrame.

Un DataFrame, puede tener valores faltantes. Estos valores faltantes en pandas se representan como NaN.

Cuántos datos faltantes hay en este DataFrame?

In [None]:
df_iris.isna().sum()

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

Ninguno! Este dataset no tiene datos faltantes (rara vez nos vamos a encontrar con datasets de este tipo en el mundo academico, pero en el real es muy normal que un datasets tenga nulos)

También podemos aplicar funciones sobre una columna.

Para seleccionar una columna, utilizamos [].

In [None]:
df_iris['sepal_length']

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

Que tipo de dato nos retorna esto?

In [None]:
type(df_iris['sepal_length'])

pandas.core.series.Series

Una "Series". Una series es el objeto que compone a los dataframes de pandas.

Este objeto es muy similar a los que es un array de Numpy (de hecho esta construido sobre el). La diferencia es que el objeto Series tiene etiquetas (labels), eso quiere decir que puede ser indexado por la etiqueta, y no solo por la posicion.

Si en lugar de obtener una Series, quiero un DataFrame, puedo hacerlo utilizando corchetes dobles:

In [None]:
df_iris[['sepal_length']]

Unnamed: 0,sepal_length
0,5.1
1,4.9
2,4.7
3,4.6
4,5.0
...,...
145,6.7
146,6.3
147,6.5
148,6.2


En este caso, puedo seleccionar todas las columnas que quiera

In [None]:
df_iris[['sepal_length', 'sepal_width', 'species']]

Unnamed: 0,sepal_length,sepal_width,species
0,5.1,3.5,setosa
1,4.9,3.0,setosa
2,4.7,3.2,setosa
3,4.6,3.1,setosa
4,5.0,3.6,setosa
...,...,...,...
145,6.7,3.0,virginica
146,6.3,2.5,virginica
147,6.5,3.0,virginica
148,6.2,3.4,virginica


Los DataFrames también tienen un atributo "columns":

In [None]:
df_iris.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

Y otro atributo index:

In [None]:
df_iris.index

RangeIndex(start=0, stop=150, step=1)

Podemos elegir cualquier columna como index:

In [None]:
df_iris = df_iris.set_index('sepal_length')

In [None]:
df_iris

Unnamed: 0_level_0,sepal_width,petal_length,petal_width,species
sepal_length,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
...,...,...,...,...
6.7,3.0,5.2,2.3,virginica
6.3,2.5,5.0,1.9,virginica
6.5,3.0,5.2,2.0,virginica
6.2,3.4,5.4,2.3,virginica


Si nos arrepentimos, podemos resetear el index para que vuelva a ser numérico

In [None]:
df_iris = df_iris.reset_index()

In [None]:
df_iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


### Head, Tail y Sample

A veces tenemos DataFrames con muchisimos datos y no queremos imprimir todo en un notebook, simplemente algunas filas como ejemplo.

Para esto existen las funciones head(), tail() y sample()

In [None]:
df_iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [None]:
df_iris.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [None]:
df_iris.sample(5, random_state=42)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
73,6.1,2.8,4.7,1.2,versicolor
18,5.7,3.8,1.7,0.3,setosa
118,7.7,2.6,6.9,2.3,virginica
78,6.0,2.9,4.5,1.5,versicolor
76,6.8,2.8,4.8,1.4,versicolor


In [None]:
help(pd.DataFrame.sample)

Help on function sample in module pandas.core.generic:

sample(self: 'NDFrameT', n: 'int | None' = None, frac: 'float | None' = None, replace: 'bool_t' = False, weights=None, random_state: 'RandomState | None' = None, axis: 'Axis | None' = None, ignore_index: 'bool_t' = False) -> 'NDFrameT'
    Return a random sample of items from an axis of object.
    
    You can use `random_state` for reproducibility.
    
    Parameters
    ----------
    n : int, optional
        Number of items from axis to return. Cannot be used with `frac`.
        Default = 1 if `frac` = None.
    frac : float, optional
        Fraction of axis items to return. Cannot be used with `n`.
    replace : bool, default False
        Allow or disallow sampling of the same row more than once.
    weights : str or ndarray-like, optional
        Default 'None' results in equal probability weighting.
        If passed a Series, will align with target object on index. Index
        values in weights not found in sampled 

Cuál es la diferencia entre las 3?

#### loc e iloc

Pandas nos probee las funciones loc e iloc para acceder a sus datos.

Para que sirven?

Investigar

In [None]:
#LOC: 
#accede a un grupo de filas y columnas por etiquetas o un arreglo booleano. Los extremos estan incluidos


In [None]:
df_iris.loc[1:3,['sepal_length','sepal_width','petal_length']]

Unnamed: 0,sepal_length,sepal_width,petal_length
1,4.9,3.0,1.4
2,4.7,3.2,1.3
3,4.6,3.1,1.5


In [None]:
df_iris[['sepal_length','sepal_width','petal_length']]

Unnamed: 0,sepal_length,sepal_width,petal_length
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3
3,4.6,3.1,1.5
4,5.0,3.6,1.4
...,...,...,...
145,6.7,3.0,5.2
146,6.3,2.5,5.0
147,6.5,3.0,5.2
148,6.2,3.4,5.4


In [None]:
#ILOC: 
#Index LOC ---> Localiza elementos del dataframe a travez de sus indices

In [None]:
df_iris.iloc[2,3]

0.2

In [None]:
df_iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
