###  Pandas information methods

In [None]:
# Pandas, e en especial os DataFrames servirán como soporte dos datos
# Series e Dataframes dispoñen dunha serie de métodos que nos dan información sobre os datos que conteñen

In [None]:
# Series e DataFrame : information methods
# .info
# .describe
# .count , mean, median, max, std..
# .agg
# .corr
# .grouby

In [None]:
import pandas as pd
#import numpy as np

In [None]:
# API Reference de Pandas
# https://pandas.pydata.org/docs/reference/index.html

In [None]:
#### CARGAR O DATASET ######

In [None]:
# Dataset Auto MPG
# Orixe: UC Irvine Machine Learning Repository
# https://archive.ics.uci.edu/ml/datasets/auto+mpg
# https://archive-beta.ics.uci.edu/ml/datasets/auto+mpg

In [None]:
# O Dataset pode cargarse desde a libraría Seaborn, que o trae como exemplo de dataset
# Load de mpg dataset (de seaborn samples)
# Seaborn é unha libraría é unha ferramenta de visualización estatística
# Seaborn está baseada na libraría matplotlib
# https://seaborn.pydata.org/
#import seaborn as sns
#df = sns.load_dataset('mpg')

In [None]:
# Carga local desde o repositorio local de datasets
df = pd.read_csv('../datasets/auto-mpg.csv')

In [None]:
# Mostrar o dataset completo -> Mostra número de filas x columnas
df

In [None]:
# Shape mostra directamente as dimensións do DataFrame
df.shape

In [None]:
# Mostrar unha serie / columna tamén mostra algunha información: número e tipo de datos
df.mpg

#### info

In [None]:
# Mostrar info do Dataframe:
# columnas, datos non nulos, tipos de dato, memoria...
df.info()

#### describe

In [None]:
# Resumo de estatísticos sobre os datos do dataframe, atendendo unicamente aos datos numéricos
df.describe()

In [None]:
# count - número de valores non nullos para esa columna
# mean (media) - representa un valor medio dos datos
# std (desviación típica) - medida de dispersión dos datos. Distancia media entre os datos e a súa media
## Os 5 seguintes valores son o RESUMO PENTANUMÉRICO
# Dividen o espazo de valores en 4 partes iguais (en canto a número de datos)
# min - valor mínimo
# percentil 25, primeiro cuartil ou Q1: desde o mínimo ao valor Q1 están o 25% dos datos
# percentil 50 ou MEDIANA: desde o mínimo ata a mediana encóntranse o 50% dos datos
# percentil 75, terceiro cuartil ou Q3: desde o mínimo ao valor Q3 están o 75% dos datos
# max - valor máximo

In [None]:
# Podemos forzar a que os estatisticos sexan dos datos non numéricos
# Os estatísticos que se calculan son diferentes: count, unique, top, freq
df.describe(exclude = 'number')

In [None]:
# count - número de valores non nulos para a columna
# unique - número de valores diferentes
# top - valor que se repite en máis ocasións
# freq - número de veces que aparece o valor máis repetido

In [None]:
# Variables categóricas vs variables numéricas
# Simplificando:
# - Variables numéricas: as que se poden medir == (variables cuantitativas)
# - Variables categóricas: as que non se poden medir == )variables cualitativas)
# 
# "describe" infórmanos do número e tipo de variables do dataframe (int+float -> numeric , object -> categorical)
#
# De todos xeitos na práctica, aplicando algún tipo de transformación, tamén podemos traballar con datos
# categóricos de xeito numérico.

In [None]:
# Resumo de estatísticos aplicado a unha Serie/columna
# Ten o mesmo significado que no caso dun DataFrame

In [None]:
df.mpg.describe()

In [None]:
# Podemos aplicar unnha función a todo o dataframe para calcular estatísticos (aplícase por columnas)

In [None]:
df.mean()
#df.mean(numeric_only=True)
#df.agg('mean')

In [None]:
df.median()
#df.median(numeric_only=True)

In [None]:
df.max()
#df.agg('max')

In [None]:
# Tamén podemos aplicar as funcións unicamente a unha serie/columna

In [None]:
df.mpg.mean()

In [None]:
# É posible aplicar varias funcións nunha única liña (tanto a todo o dataframe como só a unha serie/columna)

In [None]:
df.agg(['mean', 'std'])

In [None]:
df.mpg.agg(['mean', 'std'])

##### correlación

In [None]:
# No noso traballo como científicos de datos ou analistas un dos obxectivos comúns pode ser
# o de encontrar relacións entre diferentes variables.
# Ollo! porque unha relación entre dúas variables non implica causalidade!
# 
# CORRELACIÓN: a medida que se soe utilizar moito en estatística é a correlación
# A correlación mide a relación entre dúas variables
#
# A correlación non nos explica por que existe unha relación entre as variables, unicamente 
# indica a súa existencia e da unha medida do seu valor.
#
# Mantra estatístico nº1: <<A CORRELACIÓN NON IMPLICA CAUSALIDADE>>

In [None]:
# Aplica o cálculo da correlación a todo o dataframe coa función "corr"
# O resultado é unha táboa simétrica en relación ao seu eixo diagonal

In [None]:
df.corr()

In [None]:
# Algunhas apreciacións:
# - a diagonal vale sempre 1: unha variable ten a máxima correlación consigo mesma
# - o peso (weight) e as millas por galón(mpg) teñen unha correlación inversa (-) bastante alta
# - o número de cilindros ten unha correlación alta coa potencia (horsepower)
# - a aceleración non ten apenas nada que ver co ano do modelo
# ... 

#### groupby

In [None]:
# As variables categóricase poden utilizarse para crear diferentes grupos, sobre os
# que aplicar as mesmas funcións que aplicabamos sobre outras variables (media, máx, ...)

In [None]:
# En primeiro lugar créase o grupo (unha especie de dataframe especial agrupado)
# A continuación aplícase a función ao novo grupo

In [None]:
df_groupby_origin = df.groupby('origin')
df_groupby_origin.mean()