# Análisis exploratorio

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import altair as alt
import seaborn as sns
color = sns.color_palette()
%matplotlib inline
import plotly.offline as py
py.init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.tools as tls
import _plotly_utils.basevalidators
import plotly.express as px
from plotly.figure_factory import create_table
import plotly.figure_factory as ff
import plotly.offline as po
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
from bokeh.layouts import column, row
from bokeh.models import CustomJS, ColumnDataSource, Slider
from bokeh.plotting import Figure, show, output_notebook
output_notebook()

 ## Exploración de datos y visualización de información

In [2]:
path_file    = 'egresados_sorted.xlsx'
df_egresados = pd.read_excel(path_file, sheet_name='egresados', index_col=0)

In [3]:
fields = ['mail', 'Pais_origen', 'A_Ingreso', 'A_Grad', 'T_Grad','Genero', 'Estudio_previo']
df_egresados_subset_columns = pd.read_excel(path_file, index_col=0, usecols=fields)

## Tabla de datos

In [4]:
large_rockwell_template = dict(
    layout=go.Layout(title_font=dict(family="Rockwell", size=16))
)

fig = go.Figure(data=[go.Table(
    header=dict(values=list('<b>' + df_egresados_subset_columns.columns + '</b>'),
    fill_color='darkblue', 
    align='left', font=dict(
        family="Rockwell", color='white', size=14), height=20),
    cells=dict(values=[df_egresados.Pais_origen, df_egresados.A_Ingreso, df_egresados.A_Grad, df_egresados.T_Grad, df_egresados.Genero, df_egresados.Estudio_previo],
    fill_color='lavender',
    align='left', font=dict(
        family="Rockwell", size=14), height=30))
    ])
fig.update_layout(width=800, height=1000)    

fig.update_layout(title="Tabla. Datos generales de encuestados Graduados 2012-2021",
                  template=large_rockwell_template)

fig.show()

## ¿Qué formación académica previa tienen?

In [5]:
cnt_srs = df_egresados_subset_columns['Estudio_previo'].value_counts()

trace = go.Scatter(
    x=cnt_srs.index,
    y=cnt_srs.values,
    mode='markers',
    marker=dict(
        sizemode = 'diameter',
        sizeref = 0.180,
        size = cnt_srs.values,
        #color = np.random.randn(500), #set color equal to a variable
        color = cnt_srs.values,
        colorscale='Portland',
        showscale=True
    ),
)

layout = go.Layout(
    title='Formación académica previa encuestados Graduados 2012-2021', yaxis_title='Cuenta', font=dict(
        family="Rockwell", size=14)
)

data = [trace]
fig = go.Figure(data=data, layout=layout)
fig.update_xaxes(showline=True, linewidth=3, linecolor='lightgrey')
fig.update_yaxes(showline=True, linewidth=3, linecolor='lightgrey')
fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='LightPink')
fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='LightPink')
py.iplot(fig, filename="CurrentJobTitleSelect")

## ¿Cuál es su país de origen?

In [6]:
fig=px.histogram(df_egresados_subset_columns,x=df_egresados_subset_columns.Pais_origen, color=df_egresados.Pais_origen, template='ggplot2')
fig.update_layout(
    title="Países de origen de encuestados Graduados 2012-2021", yaxis_title='Cuenta', font=dict(
        family="Rockwell", size=14),
    xaxis_title="País")
fig.update_xaxes(showline=True, linewidth=3, linecolor='lightgrey')
fig.update_yaxes(showline=True, linewidth=3, linecolor='lightgrey')
fig.show()

## ¿Cuál es la distribución de género?

In [7]:
temp_series = df_egresados_subset_columns['Genero'].value_counts()
labels = (np.array(temp_series.index))
sizes = (np.array((temp_series / temp_series.sum())*100))

trace = go.Pie(labels=labels, values=sizes, marker=dict(line=dict(color='#797D7F', width=1.5)), hole=.4)
layout = go.Layout(
    title='Distribución de género de encuestados Graduados 2012-2021',
    title_font_family="Rockwell", 
    annotations=[dict(text='Género', x=0.5, y=0.5, font_size=14, showarrow=False)],
    font=dict(
        family="Rockwell", size=14)
)
data = [trace]
fig = go.Figure(data=data, layout=layout)
py.iplot(fig, filename="gender")

## ¿Cuál es el tiempo promedio en graduarse los encuestados?

In [8]:
fig=px.histogram(df_egresados_subset_columns,x=df_egresados_subset_columns.T_Grad, color=df_egresados.Genero, template='presentation', marginal = 'violin')
fig.update_layout(
    title="Encuestados según género: Promedio de años graduación 2012-2021", yaxis_title='Cuenta', font=dict(
        family="Rockwell", size=14),
    xaxis_title="Años")
fig.update_xaxes(showline=True, linewidth=3, linecolor='lightgrey')
fig.update_yaxes(showline=True, linewidth=3, linecolor='lightgrey')
fig.show()