<a href="https://colab.research.google.com/github/AlexRodriguezVillavicencio/DataScience-curriculum/blob/alex/tutoria/tiposGraficos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# $$\text{Tipos de Gráficos}$$

Un gráfico estadístico es una representación visual de una serie de datos estadísticos. Es una
herramienta muy eficaz, ya que un `buen gráfico`:
- capta la atención del lector
- presenta la información de forma sencilla, clara y precisa
- no induce a error
- facilita la comparación de datos y destaca las tendencias y las diferencias
- ilustra el mensaje, tema o trama del texto al que acompaña

In [None]:
import matplotlib.pyplot as plt 
import seaborn as sns 
import plotly.graph_objects as go

import pandas as pd 
import numpy as np

## Gráfico de barras

Es una representación gráfica en un eje cartesiano de las frecuencias de una
variable `cualitativa` o `discreta`.

In [None]:
# Producción de cereales en España. 2007 (Millones de toneladas)
df_barras = pd.DataFrame()
df_barras['cereales'] = np.array(['cebada','trigo','avena','centeno'])
df_barras['miles_toneladas'] = np.array([11945,6436,4310,261])

### grafico de barras simple

In [None]:
# gráfico de barras en matplotlib
plt.rcParams['figure.facecolor'] = 'black'
plt.rcParams['axes.facecolor'] = 'black'
plt.rcParams['text.color'] = 'white'
plt.rcParams['xtick.color'] = 'white'
plt.rcParams['ytick.color'] = 'white'
colors = np.array(['red','orange','green','blue'])
plt.bar(df_barras.cereales,df_barras.miles_toneladas,color=colors)
plt.title("Producción de cereales en España 2007")
plt.show()

In [None]:
# gráfico de barras en seaborn
sns.barplot(x=df_barras.cereales,y=df_barras.miles_toneladas,palette=colors)
plt.title("Producción de cereales en España 2007")
plt.show()

In [None]:
def estilos_plotly(title, fig, width=400):
  fig.update_layout(
    title=title,
    height=300,
    width=width,  
    plot_bgcolor='black',
    paper_bgcolor= 'black',
    font_color='white',
    xaxis=dict(showgrid=False),
    yaxis=dict(showgrid=False),
    margin=dict(l=10,r=10,b=10,t=50),
    )
  return fig

In [None]:
# gráfico de barras en plotly
fig = go.Figure(
    data=[go.Bar(x=df_barras.cereales,y=df_barras.miles_toneladas, text=df_barras.miles_toneladas)],
)
estilos_plotly(title="Producción de cereales en España 2007",fig=fig)
fig.data[0].marker.color = ('red','orange','green','blue')
fig.show()

### Grafico de barras apilado y agrupado

In [None]:
# Número de estudiantes en un centro educativo
labels = ['Aula1', 'Aula2', 'Aula3', 'Aula4']
men = [20, 34, 30, 35]
women = [25, 32, 34, 20]

x = np.arange(len(labels))
plt.bar(x - 0.35/2, men, width=0.35, label='Hombres')
plt.bar(x + 0.35/2, women, width=0.35, label='Mujeres')
plt.xticks(x, labels)
plt.legend()
plt.show()

In [None]:
plt.bar(labels, men,width=.3,label='Hombres')
plt.bar(labels, women,width=.2,label='Mujeres')
plt.legend()
plt.show()

In [None]:
df2 = pd.DataFrame()
df2['alumno'] = ['pedro','maria','jesus','alberto','susana','juan','nicolas','jose']
df2['titulo'] = ['artes','tecnologia','artes','artes','tecnologia','artes','artes','tecnologia']
df2['institucion'] = ['privado','privado','publico','publico','privado','publico','publico','publico']
df2['edad']=[20,21,24,20,25,23,28,23]

In [None]:
# transformamo la tabla
df = df2.groupby(['titulo','institucion']).count()
df = df.reset_index()
# graficando
sns.barplot(x="titulo",y="alumno",hue="institucion",data=df)
plt.show()

In [None]:
import plotly.express as px

fig = px.bar(df, x="titulo", y="alumno",
             color="institucion",
             barmode = 'group')
estilos_plotly("",fig)   
fig.show()

## Histogramas

Se usa para representar las frecuencias de una variable `cuantitativa continua`.

In [None]:
# histograma en matplotlib
plt.hist(df2.edad, bins=3)
plt.show()

In [None]:
# histograma en seaborn
sns.histplot(df2.edad, bins=3)
plt.show()

In [None]:
fig = go.Figure(
    data=[
        go.Histogram(x=df2.edad,xbins=dict(start=20,end=28,size=3))
    ]
)
estilos_plotly("",fig)
fig.show()

## Series de tiempo | Gráfico de lineas

Un gráfico de líneas es una representación gráfica en un eje cartesiano de la relación
que existe entre dos variables reflejando con claridad los cambios producidos.

- Se suelen usar para presentar tendencias
temporales. 
- Pueden aparecer varias variables para compararlas.

In [None]:
time_series_df = pd.read_csv('sample_data/Time Series Data.csv')
print(time_series_df.shape)
time_series_df.head(3)

In [None]:
# representación en matplotlib
plt.figure(figsize=(16,4))
plt.plot_date(time_series_df.Date,time_series_df.Close, linestyle='solid')
plt.show()

In [None]:
# representación en seaborn
plt.figure(figsize=(16,4))
sns.lineplot(x= time_series_df.Date,y=time_series_df.Close,marker="o")
plt.show()

In [None]:
# representación en plotly
fig = go.Figure(data=[
    go.Scatter(x=time_series_df.Date, y=time_series_df.Close,name='close'),
    go.Scatter(x=time_series_df.Date, y=time_series_df.Open,name='open'),
    ])
estilos_plotly("",fig, width=900)
fig.show()

## Gráfico de pareto

Un gráfico de Pareto es un tipo de gráfico de barras vertical ordenado por frecuencias
de forma descendente que identifica y da un orden de prioridad a los datos.

Este gráfico muestra el Principio de Pareto, formulado por el estadístico italiano Vilfredo Pareto
(1848-1923) :
pocos vitales, muchos triviales
Es decir, hay muchos problemas sin importancia frente a unos pocos graves ya que, por lo general,
el 20% de las causas totales hacen que sean originados el 80% de los efectos.
Pareto formuló este Principio tras un estudio sobre la distribución de la riqueza con el que
estableció que la desigualdad económica es inevitable en cualquier sociedad. 

In [None]:
from matplotlib.ticker import PercentFormatter

df = pd.DataFrame({'country': [177.0, 7.0, 4.0, 2.0, 2.0, 1.0, 1.0, 1.0]})
df.index = ['USA', 'Canada', 'Russia', 'UK', 'Belgium', 'Mexico', 'Germany', 'Denmark']

# ordenamos los valores
df = df.sort_values(by='country',ascending=False)
# suma acumulada
df["fa"] = df["country"].cumsum()/df["country"].sum()*100


plt.figure(figsize=(12,4))
plt.bar(df.index, df["country"], color="C0")
ax2 = plt.twinx()
ax2.plot(df.index, df["fa"], color="C1", marker="D")
ax2.yaxis.set_major_formatter(PercentFormatter())
plt.show()

## Gráfico de sectores | Torta | circular

Un gráfico de sectores es una representación circular de las frecuencias relativas de una
variable `cualitativa` o `discreta` que permite, de una manera sencilla y rápida, su comparación.

Son útiles cuando las categorías son pocas.
Si el gráfico tuviera muchas variables, no aportaría casi información y sería prácticamente
incomprensible, como ocurre en el siguiente ejemplo.

In [None]:
# grafica en matplotlib
plt.pie(df.country,autopct='%1.1f%%')
plt.legend(labels=df.index,
          bbox_to_anchor=(1, 0, 0.5, 1))
plt.show() 

In [None]:
# grafica en plotly
fig = px.pie(df, values=df.country, names=df.index)
estilos_plotly("",fig)
fig.show()

Son útiles cuando las categorías son pocas.
Si el gráfico tuviera muchas variables, no aportaría casi información y sería prácticamente
incomprensible, como ocurre en el siguiente ejemplo.

In [None]:
df = px.data.gapminder().query("year == 2007").query("continent == 'Europe'")
df.loc[df['pop'] < 2.e6, 'country'] = 'Other countries' 
fig = px.pie(df, values='pop', names='country', title='Population of European continent')
estilos_plotly("",fig)
fig.show()

## Diagramas de dispersión y correlación

Un gráfico de dispersión muestra en un eje cartesiano la relación que existe entre dos variables.

In [None]:
url = ('https://raw.githubusercontent.com/JoaquinAmatRodrigo/' +
       'Estadistica-machine-learning-python/master/data/Cars93.csv')
datos1 = pd.read_csv(url)
datos1['log_Price'] = np.log(datos1.Price)

datos2_X = [1,1,2,3,3,4,4,5,5,5,5,5,6,7,8,9,10]
datos2_y = [1,4,5,6,7,8,9,8,10,10,10,9,8,5,3,1,1]

fig, ax = plt.subplots(ncols=2, nrows=1, figsize=(14,4))
# correlacion lineal
ax[0].scatter(x=datos1.Weight, y=datos1.log_Price, alpha= 0.8)
# correlacion no lineal
ax[1].scatter(x=datos2_X, y=datos2_y)
plt.show()

## Mapa de calor y correlación

In [None]:
correlacion = time_series_df.corr()
sns.heatmap(correlacion, annot=True)
plt.show()

## Caja y bigotes (boxplot)

Un diagrama de cajas y bigotes es una manera conveniente de mostrar visualmente grupos de datos numéricos a través de sus cuartiles.

In [None]:
plt.figure(figsize=(10,4))
sns.boxplot(data=time_series_df, x="Volume")
plt.show()

## Gráficos en 3 dimensiones

In [None]:
fig = px.scatter_3d(time_series_df, x='Date', y='Open', z='Close')
estilos_plotly("",fig,width=600)
fig.show()

# Gráficos de más de 3 dimensiones

### Gráficos de Radar

Surge para mostrar observaciones en varias variables, y tratar de compararlas visualmente.

In [None]:
# Datos de muestra
df = pd.DataFrame(dict(
    valor = [8, 12, 7, 14, 10],
    variable = ['V1', 'V2', 'V3', 'V4', 'V5']))
           
fig = px.line_polar(df, r = 'valor', theta = 'variable', line_close = True)
fig.update_traces(fill = 'toself')
estilos_plotly("",fig)
fig.show()