# Gráficas de barras

In [None]:
# API SEABORN - Barplot
# https://seaborn.pydata.org/generated/seaborn.barplot.html

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Os gráficos de barras representan os valores dunha variable numérica en relación cunha variable categórica,
# é dicir, mostra os valores numéricos atendendo aos diferentes niveis.
# Nun eixo representa as categorías e no outros os valores.

# Os barplots son similares aos histogramas, se ben estes simplemente mostran como se distribúe unha única
# variable numérica (sen ter en conta categorías)

In [None]:
categorias = ['A', 'B', 'C']
valores = [1, 5, 3]

sns.barplot(x=categorias, y=valores)

In [None]:
tendas = ['A Coruña', 'Betanzos', 'Oleiros']
vendas = [100000, 10000, 30000]

sns.barplot(x=tendas, y=vendas)

In [None]:
# Cando utilizar un gráfico de barras?
# Un gráfico de barras é útil para buscar ou poñer en evidencia diferenzas entre os distintos grupos de datos

In [None]:
# Datos de venda de armas do ano 2020
# Orixe: https://www.data-to-viz.com/story/OneNumOneCat.html
# SIPRI Arms Industry Database: https://sipri.org/databases/armsindustry

df_venda_armas = pd.read_csv('../datasets/venda_armas_paises.csv')
df_venda_armas


In [None]:
sns.barplot(data=df_venda_armas, x='country',y='total_sales')

In [None]:
# Problemas da visualización:
# - Non podemos ler os identificadores dos países

In [None]:
# Aumentamos o tamaño do gráfico
plt.figure(figsize=(20,7))
sns.barplot(data=df_venda_armas, x='country',y='total_sales', )

In [None]:
# Segue sen funcionar
# Podemos mudar a orientación do gráfico
plt.figure(figsize=(12,10))
sns.barplot(data=df_venda_armas, y='country',x='total_sales')

In [None]:
# Problema: é difícil identificar a orde dos países
# Solución: ordenar o dataframe
df_venda_armas.sort_values(by='total_sales',ascending=False,inplace=True)
plt.figure(figsize=(12,10))
sns.barplot(data=df_venda_armas, y='country',x='total_sales')

In [None]:
# Os datos non sempre estarán preparados, senón que teremos que facer cálculos
df_armas = pd.read_csv('../datasets/venda_armas_2020.csv',sep=';')
df_armas.head()

In [None]:
df_armas_agrupadas = df_armas.groupby('country',as_index=False)
#df_armas_agrupadas = df_armas.groupby('country')
df_armas_por_pais = df_armas_agrupadas.sum()
df_armas_por_pais

In [None]:
sns.barplot(data=df_armas_por_pais.sort_values(by='total_sales',ascending=False), y='country',x='total_sales')

In [None]:
# Os datos non sempre estarán preparados, pero que pasa se os pintamos directamente?
df_armas = pd.read_csv('../datasets/venda_armas_2020.csv',sep=';')
sns.barplot(data=df_armas_por_pais.sort_values(by='total_sales',ascending=False), y='country',x='total_sales')

In [None]:
# Barplot calcula medias para calcular os valores correspondentes a cada categoría
# No noso caso, que pretendíamos pintar o sumatorio das vendas por país, non é unha solución válida
# Podemos indicar a operación que desexamos en lugar do default(avg), e indicar o sumatorio

sns.barplot(data=df_armas_por_pais.sort_values(by='total_sales',ascending=False), y='country',x='total_sales',estimator=sum)

In [None]:
# A pesar de que estamos a representar os sumatorios no noso exemplo, para visualizar cantidades totais,
# é moi común utilizar os gráficos de barras para mostrar como se comporta unha variable en función de 
# certas categorías. Por iso que a función default de barplot sexa a media (avg) ten todo o sentido.

# Ademais de pintar as medias, Barplot tamén representa a variabilidade dos valores utilizando unhas liñas
# negras que engade ao gráfico.

In [None]:
# Para facer probas carga o famoso dataset cos datos da tripulación do Titanic
# Seaborn proporciona algúns 
df_titanic = sns.load_dataset('titanic')

In [None]:
df_titanic.head()

In [None]:
# Podemos visualizar as medias de idade dos diferentes viaxeiros segundo o sexo
# Ou dito doutro xeito, podemos respostar á seguinte pregunta:
# Existen diferenzas de idade entre os pasaxeiros en relación co sexo?
sns.barplot(data = df_titanic, x = 'sex', y= 'age')

In [None]:
# As tarifas son diferentes para homes e mulleres?
sns.barplot(data = df_titanic, x = 'sex', y= 'fare')

In [None]:
# Podemos considerar variables bool como numéricas. En este caso 'survived' tamén é de tipo numérico
# Pregunta: tiñan as mulleres maior probabilidade de sobrevivir á catástrofe?
sns.barplot(data = df_titanic, x = 'sex', y= 'survived')

In [None]:
# Xogar coa orientación pode axudar a acentuar ou decrementar as diferenzas e contrastes
# Cal dos gráficos pensas que proxecta unha diferenza maior?
sns.barplot(data = df_titanic, y = 'sex', x= 'survived')

In [None]:
# En relación co tipo de billete dos pasaxeiros, influiu isto nas súas posibilidades de salvación?
# Esperabas este resultado?
sns.barplot(data = df_titanic, x = 'class', y= 'survived')

In [None]:
# A idade foi un factor importante á hora de sobrevivir?
sns.barplot(data = df_titanic, x = 'age', y= 'survived')

In [None]:
# Demasiadas categorías para un barplot, non?
# Lembra que un barplot é útil para representar valores numéricos fronte a variables categóricas.

In [None]:
# And now, for something completely different..

# funcións LAMBDA

# As funcións lambda son funcións sen nome que se aplicarán unicamente nuna ocasión, polo que non
# paga a pena definilas dun xeito global

# Un exemplo moi simple sería unha función lambda que multiplica por 10

# ( definición da función lambda)
# ( lambda variable: operación sobre a variable)

(lambda x: x * 10) (7)

# Exemplo: Aplicada á 7 devolve 70


In [None]:
# As funcións lambda aplícanse a dataframes mediante "apply"

In [None]:
datos_1 = {
        'id': ['Ana', 'Berto', 'Carla', 'Dani', 'Elia'],
        'aval1': [9, 8, 7, 6, 5],
        'aval2': [8, 7, 8, 4, 3]}
df_avaliacion = pd.DataFrame(datos_1)
df_avaliacion

In [None]:
# Que pasaría se sumase un punto na segunda avaliación
# Podemos operar sobre columnas
df_avaliacion['aval2_extra'] = df_avaliacion['aval2'] + 1
df_avaliacion

In [None]:
# Podemos realizar operacións básicas con columnas, como calcular a media
df_avaliacion['final'] = (df_avaliacion.aval1 + df_avaliacion.aval2)/2
df_avaliacion

In [None]:
# Se queremos realizar operacións máis complexas podemos tirar de funcións lambda
# Por exemplo: aprobados ou suspensos
df_avaliacion['nota'] = df_avaliacion['final'].apply(lambda x: 'suspenso' if x<5 else 'aprobado')
df_avaliacion

In [None]:
# Volvendo ao exemplo anterior dun barplot con demasiadas categorías...

# Ás veces pode ser útil construír artificialmente as categorías a partir dunha variable numérica

# Por exemplo: persoas novas, idade media, maiores (low, medium, high)

In [None]:
df_titanic['age_level'] = df_titanic['age'].apply(lambda x: 'low' if x<25 else 'high' if x>50 else 'medium')
df_titanic.head()

In [None]:
# Agora xa podemos pintar o gráfico utilizando age_level
sns.barplot(data = df_titanic, x = 'age_level', y= 'survived')
# Que explicación lle darías a esta situación? É o que esperabas?