# Visualización de datos con Plotly

**Relator: Felipe Mesa Abraham** 

Correo: femesa@udec.cl


En esta actividad se trabajará con la librerias [Plotly](https://plotly.com/python/) para crear diferentes visualizaciones en torno al objetivo de cada una. La actividad consiste en ejemplos sobre el funcionamiento del codigo para los diferentes tipos de visualizaciones vistos en la sección teórica y ejercicios guiados.

# Ejemplos

## Descarga de datos

In [1]:
import pandas as pd
import plotly.express as px

In [2]:
!gdown --id 18Q_sXvrhlC6LNXSzQDsTUBZRm_K8X5Vi

Downloading...
From: https://drive.google.com/uc?id=18Q_sXvrhlC6LNXSzQDsTUBZRm_K8X5Vi
To: /content/DataCenso.csv
  0% 0.00/5.53M [00:00<?, ?B/s]100% 5.53M/5.53M [00:00<00:00, 48.5MB/s]


In [3]:
censo = pd.read_csv("DataCenso.csv")
censo.head()

Unnamed: 0,comuna,parentesco,edad,pais,a_llegada,n_educacional,descendencia
0,Putre,Esposo/a o cónyuge,54,Italia,2007,9,0
1,Putre,Persona en vivienda colectiva,26,Alemania,2017,9,0
2,Putre,Esposo/a o cónyuge,34,México,1999,3,4
3,Putre,Jefe/a de hogar,32,México,2011,6,1
4,Putre,Persona en vivienda colectiva,34,Suiza,2017,9,0


## Gráfico de barra

In [4]:
data_barra = censo.groupby('parentesco').mean()
data_barra.head()

Unnamed: 0_level_0,edad,a_llegada,n_educacional,descendencia
parentesco,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Abuelo/a,79.467742,1995.16129,5.435484,2.854839
Conviviente de hecho o pareja,31.507202,2011.837722,7.87756,0.849651
Conviviente por unión civil,33.68231,2010.599278,7.669675,1.104693
Cuñado/a,31.145013,2014.837927,7.175853,0.864829
Esposo/a o cónyuge,38.464269,2007.379972,8.077481,1.551032


In [16]:
fig = px.bar(data_frame=data_barra, x=data_barra.index, y='edad', hover_data=['n_educacional'])
fig.show()

In [6]:
fig.write_html("file.html")

## Gráfico de línea

In [18]:
data_linea = censo.groupby('a_llegada').size()
data_linea

a_llegada
1950     1365
1951      153
1952      200
1953      142
1954      111
        ...  
2013     3590
2014     5114
2015     9621
2016    24911
2017    14683
Length: 68, dtype: int64

In [19]:
fig = px.line(data_linea, x=data_linea.index, y=data_linea)
fig.show()

## Gráfico de dispersión

In [20]:
data_dispersion = censo[censo['comuna'] == 'Concepción'] 
data_dispersion.head()

Unnamed: 0,comuna,parentesco,edad,pais,a_llegada,n_educacional,descendencia
76300,Concepción,No pariente,35,Venezuela (República Bolivariana de),2016,9,0
76301,Concepción,Jefe/a de hogar,89,Alemania,1950,9,2
76302,Concepción,Persona en vivienda colectiva,35,Rusia (Federación de),2017,12,0
76303,Concepción,Persona en vivienda colectiva,73,México,2017,3,6
76304,Concepción,Esposo/a o cónyuge,25,Venezuela (República Bolivariana de),2016,9,1


In [21]:
fig = px.scatter(data_frame = data_dispersion, x='a_llegada', y='edad')
fig.show()

## Gráfico de burbuja

In [25]:
fig = px.scatter(data_dispersion, x='a_llegada', y='edad',
	         size="n_educacional", color="n_educacional",
                 hover_name="edad", log_x=True, size_max=20)
fig.show()

## Gráfico de torta

In [26]:
import seaborn as sns
df_titanic = sns.load_dataset("titanic")
df_titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [27]:
df_titanic_clase = df_titanic.groupby('class').size()
df_titanic_clase.head()

class
First     216
Second    184
Third     491
dtype: int64

In [30]:
fig = px.pie(df_titanic_clase, values=df_titanic_clase, names=list(df_titanic_clase.index))
fig.show()

## Histograma

In [31]:
from vega_datasets import data

link = data.movies.url
movies = pd.read_json(link)
movies.head()

Unnamed: 0,Title,US_Gross,Worldwide_Gross,US_DVD_Sales,Production_Budget,Release_Date,MPAA_Rating,Running_Time_min,Distributor,Source,Major_Genre,Creative_Type,Director,Rotten_Tomatoes_Rating,IMDB_Rating,IMDB_Votes
0,The Land Girls,146083.0,146083.0,,8000000.0,Jun 12 1998,R,,Gramercy,,,,,,6.1,1071.0
1,"First Love, Last Rites",10876.0,10876.0,,300000.0,Aug 07 1998,R,,Strand,,Drama,,,,6.9,207.0
2,I Married a Strange Person,203134.0,203134.0,,250000.0,Aug 28 1998,,,Lionsgate,,Comedy,,,,6.8,865.0
3,Let's Talk About Sex,373615.0,373615.0,,300000.0,Sep 11 1998,,,Fine Line,,Comedy,,,13.0,,
4,Slam,1009819.0,1087521.0,,1000000.0,Oct 09 1998,R,,Trimark,Original Screenplay,Drama,Contemporary Fiction,,62.0,3.4,165.0


In [32]:
fig = px.histogram(movies, x="IMDB_Rating")
fig.show()

## Gráfico de caja

In [34]:
fig = px.box(movies, x="Major_Genre", y="IMDB_Rating")
fig.show()

## Gráfico de calor

In [2]:
!gdown --id 1rCPEyy5Kj-alvcA8Ge_C_0OGwug2Oi7c

Downloading...
From: https://drive.google.com/uc?id=1rCPEyy5Kj-alvcA8Ge_C_0OGwug2Oi7c
To: /content/videollamada.csv
  0% 0.00/2.19k [00:00<?, ?B/s]100% 2.19k/2.19k [00:00<00:00, 1.92MB/s]


In [3]:
videollamadas = pd.read_csv('/content/videollamada.csv')
videollamadas.head()

Unnamed: 0,Semana,Día,Horas
0,Semana 01,Lunes,1873263
1,Semana 01,Martes,908249
2,Semana 01,Miércoles,1717158
3,Semana 01,Jueves,1873263
4,Semana 01,Viernes,908249


In [4]:
videollamadas_pivot = videollamadas.pivot(index="Día", columns="Semana", values="Horas")
videollamadas_pivot

Semana,Semana 01,Semana 02,Semana 03,Semana 04,Semana 05,Semana 06,Semana 07,Semana 08,Semana 09,Semana 10,Semana 11,Semana 12
Día,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Domingo,681186,1328314,1634848,1779600,1498611,2554450,2145738,2903559,3242449,4851753,4768308,7029848
Jueves,1873263,1623495,2497685,2966001,3090885,3902633,5245139,4355338,5944491,7277630,6993518,8592037
Lunes,1873263,2435243,2997222,2372801,3090885,4292896,4808044,4355338,6687552,9703507,7867708,12888056
Martes,908249,1475904,2179798,2372801,2247916,2270623,3814646,2815572,6484899,5292822,5086195,7029848
Miércoles,1717158,1826432,1998148,2669401,3777749,3122106,3933854,5807118,6687552,9703507,9616088,8592037
Sábado,851483,885542,1362373,1617818,1873263,1702967,2860984,2375639,4863674,4410685,3814646,4686565
Viernes,908249,1623495,1998148,1941382,2247916,2838278,3178872,3871412,5404082,5292822,7629293,8592037


In [7]:
import plotly.graph_objects as go

videollamada_dict = 
    {'z': videollamadas_pivot.values.tolist(), 
     'x': videollamadas_pivot.columns.tolist(), 
     'y': videollamadas_pivot.index.tolist()}

fig = go.Figure(data=go.Heatmap(videollamada_dict))
fig.show()



---



---



## Slicer

In [16]:
# Cargar los datos desde un repositorio
df = pd.read_csv(
    "https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv")
df.columns = [col.replace("AAPL.", "") for col in df.columns]

# Crear el grafico
fig = go.Figure()

fig.add_trace(
    go.Scatter(x=list(df.Date), y=list(df.High)))

# Definir titulo
fig.update_layout(
    title_text="Serie de tiempo con Slicer"
)

# Agregamos abajo del grafico el slicer
fig.update_layout(
    xaxis=dict(rangeslider=dict(visible=True), type="date")
)

fig.show()

# Ejercicios

Durante el 2013 al 2017 hubo una gran pandemia a nivel mundial.
A continuacion, se entregan 2 datasets con información respecto al estado de la pandemia.
Se le pide que visualize las siguientes situaciones:


*   Comparacion de total de contagios por pais.
*   Tendencia de los contagios en el tiempo.


Las instrucciones más detalladas de cada dataset se entrega a continuacion.









## Comparacion de total de contagios por pais

Use la visualizacion adecuada para comparar la cantidad total de fallecidos por pais. El dataset se entrega en la siguiente celda.

In [None]:
!gdown --id 1zzFjPv4hEXGNUCxV6g_vpsV5WY1Xm2ik

Downloading...
From: https://drive.google.com/uc?id=1zzFjPv4hEXGNUCxV6g_vpsV5WY1Xm2ik
To: /content/V01.csv
  0% 0.00/346 [00:00<?, ?B/s]100% 346/346 [00:00<00:00, 532kB/s]


In [None]:
df_1 = pd.read_csv('/content/V01.csv')
df_1.head()

Unnamed: 0,Paises,Contagiados
0,España,569457
1,Chile,1088398
2,Guinea,1302202
3,Ecuador,1930001
4,Rusia,2000091


## Tendencia de contagios en el tiempo.

Use la visualizacion adecuada para mostrar como ha cambiado el total de contagiados a lo largo del tiempo. El dataset se entrega en la siguiente celda.

In [18]:
!gdown --id 1ovetGRw83GIj1s8ancqGNnJWN801rElT

Downloading...
From: https://drive.google.com/uc?id=1ovetGRw83GIj1s8ancqGNnJWN801rElT
To: /content/V02.csv
  0% 0.00/98.0 [00:00<?, ?B/s]100% 98.0/98.0 [00:00<00:00, 430kB/s]


In [19]:
df_2 = pd.read_csv('/content/V02.csv')
df_2.head()

Unnamed: 0,Año,Total Contagiados
0,2013,104778830
1,2014,168031244
2,2015,248136117
3,2016,372664870
4,2017,550371599


In [24]:
# Creamos el grafico
fig = px.line(df_2, x=df_2['Año'], y=df_2['Total Contagiados'])
fig.show()

## Tendencia de contagios en el tiempo - Bonus

Repita el ejercicio anterior, pero esta vez intente agregar un slicer para poder modificar las fechas en el eje x.

In [25]:
# Creamos el grafico
fig = px.line(df_2, x=df_2['Año'], y=df_2['Total Contagiados'])

# Agregamos abajo del grafico el slicer
fig.update_layout(
    xaxis=dict(rangeslider=dict(visible=True), type="date")
)

fig.show()

In [None]:
!gdown --id 1GYAmTubXinEsJeVVUgLI5xiwSEMshIw0

Downloading...
From: https://drive.google.com/uc?id=1GYAmTubXinEsJeVVUgLI5xiwSEMshIw0
To: /content/V03.csv
  0% 0.00/3.75k [00:00<?, ?B/s]100% 3.75k/3.75k [00:00<00:00, 6.54MB/s]


In [None]:
df_3 = pd.read_csv('/content/V03.csv')
df_3.head()

Unnamed: 0,Pais,Mes,Contagiados
0,Estados Unidos,1,5230
1,Estados Unidos,2,4785
2,Estados Unidos,3,4217
3,Estados Unidos,4,704
4,Estados Unidos,5,8694
