<center>
    <img src="http://sct.inf.utfsm.cl/wp-content/uploads/2020/04/logo_di.png" style="width:60%">
    <h1> INF280 - Estadística Computacional </h1>
    <h2> Estadística Descriptiva </h2>
    <h2> Version: 0.02 </h2>
    <h2> Ay. Nicolás Armijo Calquín </h2>
    <h2> Ay. Eva Wang Liu </h2> 
</center>

<div id='toc'>

## Tabla de Contenidos

* [Introducción](#intro)
* [Enfoque Pandas](#pandas)
    * [Métodos Estadísticos](#est)
    * [Métodos Útiles](#utl)
* [Enfoque NumPy](#np)
* [Historial Cambios](#hist)

<div id='intro'>

## Introducción

A continuación, hablaremos sobres distintas herramientas que presentan tanto **Pandas** como **NumPy** con lo que respecta a **Estadística Descriptiva**. Recordemos que la estadística descriptiva es el área de la estadística encargada de recolectar, organizar, resumir y presentar un conjunto de datos. Todas las herramientas ya vistas sobre Pandas en `CH0-Pandas-NumPy` solucionan varios de estos aspectos, es por esta razón que nos enfocaremos muy brevemente sobre los métodos enfocados para *resumir* los datos.

<div id='pandas'>

## Enfoque Pandas

Dentro de los `DataFrames` de Pandas, vienen integrados métodos que nos ayudarán con el trabajo necesario. Ahora, listaremos varias herramientas con el fin de ampliar nuestro repertorio de habilidades.

In [2]:
import pandas as pd

# Cargaremos nuevamente el dataset a modo de ejemplo

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# El dataset no contiene nombres de columnas por lo que se las agregaremos
col_names = ["sepal_length_in_cm",
            "sepal_width_in_cm",
            "petal_length_in_cm",
            "petal_width_in_cm",
            "class"]

df = pd.read_csv(url, names=col_names)

<div id='est'>

### Métodos Estadísticos

Vamos a revisar los conceptos tratados en el Capítulo 1 visto desde la implementación usando Pandas.

En primer lugar, recordar la diferencia entre población y muestra. Es útil saber que Pandas implementa un método para obtener una muestra de tamaño $n$ desde un DataFrame. 

In [22]:
# Obtener una muestra - En general no utilizamos este método pero es útil saber su existencia

df.sample(n=5)

Unnamed: 0,sepal_length_in_cm,sepal_width_in_cm,petal_length_in_cm,petal_width_in_cm,class
107,7.3,2.9,6.3,1.8,Iris-virginica
61,5.9,3.0,4.2,1.5,Iris-versicolor
24,4.8,3.4,1.9,0.2,Iris-setosa
133,6.3,2.8,5.1,1.5,Iris-virginica
39,5.1,3.4,1.5,0.2,Iris-setosa


Pandas posee la gran mayoría de estadísticos necesarios para nuestro trabajo. Si consideramos las medidas de tendencia central tenemos la `media`, `mediana` y `moda`.

In [3]:
# Computo de la media

df['sepal_length_in_cm'].mean()

5.843333333333334

In [6]:
# Computo mediana

df['sepal_length_in_cm'].median()

5.8

In [9]:
# Computo moda

df['sepal_length_in_cm'].mode()

0    5.0
Name: sepal_length_in_cm, dtype: float64

Por parte de las medidas de dispersión tenemos implementadas la `varianza`, la `desviación estándar`, los `percentiles`, entre otros. Podemos considerar los `mínimos` y `máximos`.

In [4]:
# Computo de la varianza

df['sepal_length_in_cm'].var()

0.6856935123042507

In [5]:
# Computo de la desviación estándar

df['sepal_length_in_cm'].std()

0.828066127977863

In [10]:
# Computo de percentiles - cálculo de del pertentil 'p' utilizzando .quantile(q='p') 

df['sepal_length_in_cm'].quantile(q=0.8)

6.5200000000000005

In [11]:
# Computo mínimo

df['sepal_length_in_cm'].min()

4.3

In [12]:
# Computo máximo

df['sepal_length_in_cm'].max()

7.9

Un método muy útil resulta ser `.describe()`, ya que resume la mayoría de la información anterior con una sola línea de código.

In [30]:
# Uso de describe()

df['sepal_length_in_cm'].describe()

count    150.000000
mean       5.843333
std        0.828066
min        4.300000
25%        5.100000
50%        5.800000
75%        6.400000
max        7.900000
Name: sepal_length_in_cm, dtype: float64

Todos los métodos presentados anteriormente son compatibles para ser usados después de un `groupby()`.

<div id='utl'>

### Métodos Útiles

Aparte de los métodos estadísticos tradicionales, se presentarán otras funcionalidades que pueden ser útiles para obtener información de los datos.

In [27]:
# Value counts - Retorna la cuenta de valores repetidos en la columna

df['class'].value_counts()

class
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64

In [31]:
# Unique - Retorna los valores distintos dentro de una columna

df['class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

In [32]:
# sum - Suma los valores de la columna

df['sepal_length_in_cm'].sum()

876.5

<div id='np'>

## Enfoque NumPy

Pandas al estar construido sobre NumPy, utilizan las mismas funciones por lo que la sintaxis es identica. Se ilustrarán un par de ejemplos sobre ndarrays ya que no es similar a los métodos anteriormente mencionadas.


In [33]:
import numpy as np

In [34]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8])

In [40]:
# Existen dos formas de aplicar los métodos

print('Media:', a.mean())

print('Media:', np.mean(a))

Media: 4.5
Media: 4.5


In [39]:
# Un último ejemplo

print('Máx:', a.max())

print('Máx:', np.max(a))

Máx: 8
Máx: 8


<div id='hist'>

# Historial Versiones

* **Versión v0.02:** Material estadística descriptiva Pandas-Numpy - *25 de agosto del 2024*