# Gráficas de barras - Práctica

In [None]:
# API SEABORN - Barplot
# https://seaborn.pydata.org/generated/seaborn.barplot.html

In [None]:
# Importa as librarías necesarias para traballar con gráficos

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 1. Dataset con características de computuadores portátiles
# 'Company', 'Product', 'TypeName', 'Inches', 'ScreenResolution', 'Cpu',
#       'Ram', 'Memory', 'Gpu', 'OpSys', 'Weight', 'Price_euros'
# laptops.csv <- dispoñible no repositorio de github, en datasets
# https://www.kaggle.com/ionaskel/laptop-prices

In [None]:
# 1.1 Carga os datos e mostra un exemplo

In [None]:
df_laptops = pd.read_csv('../datasets/laptops.csv',encoding='iso-8859-1',index_col=0)
df_laptops.head()

In [None]:
df_laptops.columns

In [None]:
# 1.2 Consulta os tipos de datos e cotexaos co exemplo do dataframe
# Cantas variables numéricas/cuantitativas hai?
# Cantas variables categóricas/cualitativas?

In [None]:
df_laptops.info()

In [None]:
# 10 variables categóricas
# 2 variables numéricas

In [None]:
# 1.3 Consulta os estatísticos básicos do dataset para ter algo máis de información sobre os datos

In [None]:
df_laptops.describe()

In [None]:
# 1.4 Probablemente só consultaches os estatísticos básicos das variables numéricas. Fai o propio cos das variables cualitativas
df_laptops.describe(include='object')

In [None]:
# 1.5 Con que categorías poderíamos facer análise?
# Dito doutro modo, hai algunha categoría que teña poucos niveis e que nos permita diferenciar grupos facilmente?

In [None]:
# Algunhas categorías poderían ser:
# - Company: 19 compañías diferentes
# - TypeName: 6 variacións
# - RAM: 9 ocorrencias
# - OpSys: 9 ocorrencias

In [None]:
# 1.6 Mostra como se distribúen os prezos dos portátiles

In [None]:
# Para representar a distribución dunha única variable, sen atender a categorías, é suficiente un histograma
sns.displot(data=df_laptops['Price_euros'])

In [None]:
# 1.7 Cal é a marca de computadores máis caros? 
# Pensa que tipo de gráfica deberías mostrar
# Axusta o gráfico para mellorar a visualización
# Engade un título

In [None]:
plt.figure(figsize=(20,7))
sns.barplot(data=df_laptops,x='Company',y='Price_euros')

In [None]:
# Para ordenar o noso gráfico deberíamos dispoñer dunha lista das diferentes compañías ordenadas en relación á súa media
df_glaptops = df_laptops.groupby('Company',as_index=False)
df_companies = df_glaptops.mean().sort_values(by='Price_euros',ascending=False)
#df_companies
ordered_companies = list(df_companies.Company)
#ordered_companies

In [None]:
plt.figure(figsize=(20,7))
sns.barplot(data=df_laptops,x='Company',y='Price_euros',order=ordered_companies)
plt.title('Marcas máis caras de computadores portátiles')

In [None]:
# 1.8 Comproba se hai diferencias significativas no prezo dos portátiles en función doutras categorías

In [None]:
df_laptops.head(3)

In [None]:
plt.figure(figsize=(10,7))
sns.barplot(data=df_laptops,x='TypeName',y='Price_euros')
# Existen diferencias evidentes no prezo entre os tipos de portátiles
# Os mais caros, e con máis variabilidade: Workstations
# Mais baratos son os netbooks e notebooks, eses últimos con moi pouca variabilidade no prezo

In [None]:
plt.figure(figsize=(10,7))
sns.barplot(data=df_laptops,x='Ram',y='Price_euros')
# Como era de esperar, vese unha clara relación do prezo coa cantidade de RAM
# Estaría ben ordenar a gráfica

In [None]:
plt.figure(figsize=(10,7))
sns.barplot(data=df_laptops,x='OpSys',y='Price_euros')
# Tamén observamos diferenzas claras nos prezos dos equipos en función do sistema operativa
# Algúns resultados poden esultar contraintuitivos, ollo! (Windows 7!?)

In [None]:
# Crees que sabes agora algo máis sobre os datos deste dataset do que sabías ao principio? ;-)

In [None]:
# 2. Dataset sobre películas
# 10k+ movies:  title, budget, revenue, cast, director, tagline, keywords, genres, release date, runtime etc.
# tmdb_movies_data.csv <- dispoñible no repositorio de github, en datasets
# https://www.kaggle.com/juzershakir/tmdb-movies-dataset


In [None]:
# 2.1 Carga o dataset e bótalle unha ollada inicial

In [None]:
df_pelis = pd.read_csv('../datasets/tmdb_movies_data.csv')
df_pelis.head()

In [None]:
df_pelis.info()

In [None]:
df_pelis.describe()

In [None]:
df_pelis.describe(include='object')

In [None]:
# 2.2 Que variables poden ser boas como categorías para clasificar a puntuación das películas e mostrar un gráfico de barras?

In [None]:
# Ningunha, realmente, xa que teñen demasiadas categorías

In [None]:
# 2.3 Mostra a distribución das puntuacións medias das películas.
# Recoñeces esta gráfica?

In [None]:
sns.displot(data=df_pelis.vote_average)

In [None]:
# 2.4 Dirías que cada ano se estrean mais ou menos películas

In [None]:
sns.displot(data=df_pelis.release_year)

In [None]:
# Cada ano estréanse máis películas

In [None]:
# 2.4 Clasifica as películas en curtas (<30 minutos), medias(<90) e longas (>90)
# Existen diferencias nas puntuacións medias das películas en relación coa súa duración?

In [None]:
df_pelis['duracion'] = df_pelis['runtime'].apply(lambda x:'curta' if x<30 else 'longa' if x>90 else 'media')

In [None]:
df_pelis.info()

In [None]:
df_pelis.duracion.unique()

In [None]:
sns.barplot(data=df_pelis,x='duracion',y='vote_average')