# Análisis Descriptivo 

## Descripción de las variables del dataset :  University Research Survey

- id: Es una variable de tipo numérico que proporciona la identificación de un individuo. Su valor es único para cada individuo en el dataset.
- Gender:Es una variable nominal que proporciona el género de cada individuo. Esta variable tiene dos valores posibles, "Masculino" o "Femenino".
- Python_user: Es un tipo nominal de variable y tiene la información si el individuo es un usuario frecuente del lenguaje Python en su tarea de análisis de datos. Esta variable tiene dos valores posibles,"si" o "no".
- R_user: “R_user” es un tipo nominal de variable y tiene la información si el individuo es un usuario frecuente de software R en sus datos tarea de análisis. Esta variable tiene dos valores posibles, "sí" o "no".
- Age: Es un tipo numérico de variable que proporciona la edad actual de cada individuo.
- Publications: Es un tipo numérico de variable y su valor indica el número de publicaciones del analista de datos individual realizado hasta la fecha de la recopilación de datos.
- Tasks: Es un tipo nominal de variable y sus valores indican el cargo o funciones que desempeña el investigador en su institución. Los tres valores posibles para esta variable son:
    - Estudiante de doctorado,
    - Investigación Postdoctoral,
    - Supervisor de Doctorado.
- Q1 a Q10: las variables "Q1" a "Q10" son los resultados de la pregunta de una encuesta cuestionario presentado a nuestros investigadores, sometidos a este estudio. La encuesta presentada fue:
- P1: Creo que las herramientas de investigación (software, hardware, libros y otros) que utilizo actualmente son suficientes para lograr mis objetivos de investigación.
- P2: Entiendo que mi área de investigación brinda la oportunidad de lograr una excelente productividad (artículos publicados, capítulos de libros, etc.).
- P3: Mi productividad científica aumentó en el último año.
- P4: Siento que puedo mejorar algunos de mis métodos de investigación.
- P5: Mis métodos de investigación cambiaron mucho con el tiempo.
- P6: Me adapté rápidamente a las nuevas herramientas de investigación a lo largo del tiempo cuando lo necesitaba.
- P7: Estoy dispuesto a aprender nuevas herramientas de investigación que puedan aparecer en el futuro.
- P8: Estoy seguro de que mis métodos de investigación están directamente relacionados con mi productividad científica.
- P9: Cambiaría mis herramientas de investigación si tuviera la oportunidad de hacerlo.
- P10: Siento que mis herramientas de investigación mejoraron en los últimos años.
***
Luego se pidió a los investigadores que clasificaran cada una de las declaraciones del cuestionario con una escala Likert, que se define como:
    - 1:"Totalmente en desacuerdo",
    - 2:"En desacuerdo",
    - 3:"Neutral",
    - 4:"De acuerdo",
    - 5:“Totalmente de acuerdo”.
- Año: Es un tipo numérico de variable y sus valores indican el año el investigador publicó su mayor cantidad de publicaciones, es decir, el año con mayor productividad editorial.

In [None]:
# Importando librerias
import numpy as np
import pandas as pd

In [None]:
df = pd.read_csv("dataset/survey_research_university.csv",sep = ";")
df.columns

In [None]:
df.head()

In [None]:
# ¿ Cuánto registros y variables hay?

# La cantidad de registros y variables (columnas)
df.shape

In [None]:
# La cantidad de registros o filas
len(df)

Hay 200 registros y 18 variables

In [None]:
df.dtypes

#### ¿Cuántas variables númericas y catégoricas hay?

In [None]:
df.describe()  # información de las variables númericas

In [None]:
df.describe().shape  # Se muestran 14 variables ( númericas)

Se puede apreciar que hay 14 variables númericos y 18-14 = 4 variables categoricas

# 1.-  Valores Perdidos

In [None]:
df.describe().loc[["count","mean"]]

In [None]:
# Muestra estadistica de las variables categoricas
df.describe(include=[object])

In [None]:
# Solo muestra el "count" y "top" de las variables categoricas
df.describe(include=[object]).loc[["count","top"]]

In [None]:
# los tipo de datos por cada variable categorica
df.describe(include=[object]).loc[["unique"]]

In [None]:
def show_missing_data():
    missing_data = df.isnull()
    existen_na = False
    #missing_data.head(5)
    NRO_REG = len(df)
    for column in missing_data.columns.values.tolist():
        s = missing_data[column].value_counts()
        if s.iloc[0] != NRO_REG :
           existen_na = True
           print("--> La variable", column, "tienen", s.iloc[0] ," datos completos de", NRO_REG ,"datos")
           percentaje_missing_data = ((NRO_REG - s.iloc[0])/NRO_REG)*100
           print(round(percentaje_missing_data,4),"%")
    if not existen_na: print("No hay datos perdidos")  

In [None]:
show_missing_data()

In [None]:
# Otra alternativa para ver los datos perdidos
missing_data = df.isnull()
p = (missing_data.sum()/len(missing_data)*100).sort_values(ascending=False)
p

### Hacer el tratamiento de datos perdidos

In [None]:
# Reemplazando un dato perdido de una variable categórica
mode_python_user = df['Python_user'].mode()
print("mode_python_user=",mode_python_user[0])
df["Python_user"].replace(np.nan, mode_python_user[0]) 

In [None]:
# Reemplazando un dato perdido de una variable númerica
mean_age = df['Age'].mean()
print("mean_age=",mean_age)
df["Age"].replace(np.nan, mean_age, inplace=True)

In [None]:
# Verifica si hay datos perdidos ¿ Cómo ?
show_missing_data()

In [None]:
# Otra alternativa para ver los datos perdidos
missing_data = df.isnull()
p = (missing_data.sum()/len(missing_data)*100).sort_values(ascending=False)
p

## 2.- Pandas , tratamiento de datos

### 2.1.- Ordenamiento, seleccionando filas y columnas

 https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html


In [None]:
## Ejercicio 1 : Ordenar por Genero y Edad en forma descendente 
df.sort_values(["Gender","Age"], ascending=[False, False]).head()

In [None]:
## Ejercicio 1.1 
## Mostra solo los siguiente datos: id , Gender y Age , con 
## el genero y la edad en forma ascendente y descendente respectivamente 
df[['id', 'Gender','Age']].sort_values(["Gender","Age"], ascending=[True, False]).head()

In [None]:
## Ejercicio 2 : Obtener los valores de la variable "Id" en una serie
type(df['id'])

In [None]:
## Ejercicio 3 : Obtener las variables Id, Python_user y R_user en un dataframe
df[['id', 'Python_user','R_user']].head()

In [None]:
## Ejercicio 4 : Seleccionar todos las investigaciones mayores de 35 años

#df[df['Age']>35].head()

#df[['Age']][df['Age']>35].head()

#df[df['Age']>35].sort_values(["Age"], ascending=[False]).head()

In [None]:
## Ejercicio 4.1 : Seleccionar tod@s los investigador@s mayores de 40
##                 años y que sean mujeres

# AND ==> &

df[(df['Age']>40) & (df['Gender']=='female')].head()

#df[df['Gender']=='female'][df['Age']>40].shape #head()


In [None]:

df[(df['Age']>35) & (df['Gender']=='female')].head()

In [None]:
## Ejercicio 5 : Seleccionar las filas del 20 al 25


In [None]:
## Ejercicio 6 : Seleccionar el Id, Age, Publications de las personas entre 30 y 40 años; 
##               y ordenarlo en forma descendente de acuerdo al núnero de publicaciones

dfx = df[((df['Age']>30) & (df['Age']<40))].sort_values(["Publications"], ascending=[False])

dfx[["id", "Age", "Publications"]].head()

In [None]:
## Ejercicio 7 : Mostar todos las Tareas realizadas por mujeres y que no 
##               son Tareas del tipo "PhD_Student", en conjunto con la cantidad 
##               de Publicaciones , ordenado por la Edad en forma ascendente


In [None]:
# Otra forma de resolver el problema
df[(df.Gender == "female") & (df.Tasks != "PhD_Student")]\
[["id","Gender","Age","Tasks","Publications"]]\
.sort_values("Age")\
.head()

### 2.2.- Agregación


In [None]:
# Mostrar la suma de todas las edades, el valor minimo y maximo
#df['Age'].max()

df['Age'].aggregate(['sum', 'min', 'max']) 

#df['Age'].agg(['sum', 'min', 'max']) 


In [None]:
# Mostrar para la edad el valor mínimo y máximo; 
# para las publicaciones, el número total y el valor mínimo
df.aggregate({"Age":['min', 'max'],\
              "Publications":['sum', 'min']}) 

### 2.3.- Agrupaciones
https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html

In [None]:
# Mostrar la edad promedio de mujeres y hombre que realizan investigaciones

#df.groupby("Gender").mean()['Age']

df.groupby("Gender").Age.mean()

In [None]:
# Mostrar la edad promedio de mujeres y hombre que realizan investigaciones
# y que son mayores de 35 años


df[(df["Publications"]>0)&(df["Age"]>35)].groupby("Gender").Age.mean()

# df[df['Age']>35].groupby("Gender").Age.mean()

In [None]:
# Mostrar el máximo , mínimo  y promedio del número de publicaciones  que han realizado 
# los investigadores de 30 a 40 años agrupado por Tareas


In [None]:
#df[(df.Age > 30) & (df.Age <40)].groupby("Tasks").agg({'Publications': ['mean', 'min', 'max']})

df[(df.Age > 30) & (df.Age <40)].groupby("Tasks") \
        .aggregate({'Publications': ['mean', 'min', 'max']})


In [None]:
# Ejercicio Adicional 
# Mostrar el máximo , mínimo  y promedio del número de publicaciones  
# que han realizado los investigadores de 40 a 50 años agrupado  
# por tareas, pero no considerar las tareas de "Phd_Supervisor"

df[(df.Age > 40) & (df.Age <50) & (df.Tasks != "Phd_Supervisor")]\
.groupby("Tasks").agg({'Publications': ['mean', 'min', 'max']})


# 3.-  Análisis de las Variables Categóricas

## Todas las variebles categóricas

In [None]:
df.describe(include=[object])

## Análisis de la variable categórica "Gender"

In [None]:
### Gender descriptive analysis
# Count of each factor level of the Gender variable
df['Gender'].value_counts()


In [None]:
# Filtering Gender data
gender_df = df['Gender']

# Group by Gender value
#gender_df = gender_df.value_counts(sort=True)
gender_df = pd.DataFrame(gender_df.value_counts(sort=True))
gender_df

In [None]:
# Create new column with cumulative sum
gender_df['cum_sum'] = gender_df['count'].cumsum()

# Create new column with relative frequency
gender_df['cum_perc'] = 100*gender_df['cum_sum']/gender_df['count'].sum()

# Show values
gender_df

## Análisis de la variable categórica "Python_user"

In [None]:
### Python_user descriptive analysis

# Filtering Python_user data
python_df = df['Python_user']

# Group by Python_user
python_df = pd.DataFrame(python_df.value_counts(sort=True))

# Create new column with cumulative sum
python_df['cum_sum'] = python_df['count'].cumsum()

# Create new column with relative frequency
python_df['cum_perc'] = 100*python_df['cum_sum']/python_df['count'].sum()

# Show values
python_df


## Análisis de la variable categórica "Python_user" con NaN

In [None]:
### Python_user descriptive analysis
df['Python_user'].value_counts()

In [None]:
python_df = df['Python_user']

python_df = pd.DataFrame(python_df.value_counts(sort=True,dropna=False))

python_df['cum_sum'] = python_df['count'].cumsum()

python_df['cum_perc'] = 100*python_df['cum_sum']/python_df['count'].sum()

python_df

## Análisis de la variable categórica "R_user" 

In [None]:
### R_user descriptive analysis
print(df['R_user'].value_counts())

In [None]:
# Filtering R_user data
r_df = df['R_user']

# Group by R_user
r_df = pd.DataFrame(r_df.value_counts(sort=True))

# Create new column with cumulative sum
r_df['cum_sum'] = r_df['count'].cumsum()

# Create new column with relative frequency
r_df['cum_perc'] = 100*r_df['cum_sum']/r_df['count'].sum()

# Show value
r_df

## Análisis de la variable categórica "Tasks" 

In [None]:
### Tasks descriptive analysis

# Filtering Tasks data
tasks_df = df['Tasks']

# Group by tasks
tasks_df = pd.DataFrame(tasks_df.value_counts(sort=True))

# Create new column with cumulative sum
tasks_df['cum_sum'] = tasks_df['count'].cumsum()

# Create new column with relative frequency
tasks_df['cum_perc'] = 100*tasks_df['cum_sum']/tasks_df['count'].sum()

# Show values
tasks_df

#  4.- Análisis de las variables númericas discretas

## Análisis de las variables númericas "Age" y "Publications"

In [None]:
## Age

# To write the name of the output list
print("\nAge Variable: \n")

# Dimension of the Age variable
print("Number of elements: {0:.0f}".format(df['Age'].size))

# Minimum and maximum of the Age variable
print("Minimum: {0:.3f} Maximum: {1:.3f}".format(df['Age'].min(), df['Age'].max()))

# Mean of the Age variable
print("Mean: {0:.3f}".format(df['Age'].mean()))

# Variance of the Age variable
print("Variance: {0:.3f}".format(df['Age'].var()))

# Standard deviation of the Age variable
print("Standard Deviation: {0:.3f}".format(df['Age'].std()))

In [None]:
df['Age'].describe()

In [None]:
##Publications

# To write the name of the output list
print("\nPublications: \n")

# Dimension of the Publications variable
print("Number of elements: {0:.0f}".format(df['Publications'].size))

# Minimum and maximum of the Publications variable
print("Minimum: {0:.3f} Maximum: {1:.3f}". format(df['Publications'].min(), df['Publications'].max()))

# Mean of the Publications variable
print("Mean: {0:.3f}".format(df['Publications'].mean()))

# Variance of the Publications variable
print("Variance: {0:.3f}".format(df['Publications'].var()))

# Standard deviation of the Publications variable
print("Standard Deviation: {0:.3f}".format(df['Publications'].std()))
      

In [None]:
df['Publications'].describe()

## Análisis de la Frecuencia de las publicaciones

In [None]:
df[df["Publications"] == 33].shape

In [None]:
df["Publications"].max()

Se puede concluir que hay 14 personas que han realizado 33 publicaciones

In [None]:
### Frequency analysis of Publications variable

# Filtering Publications data
pubs_df = df['Publications']

# Group by publications
pubs_df = pd.DataFrame(pubs_df.value_counts(sort=True))

# Create new column with cumulative sum
pubs_df['cum_sum'] = pubs_df['count'].cumsum()

# Create new column with relative frequency
pubs_df['cum_perc'] = 100*pubs_df['cum_sum']/pubs_df['count'].sum()

# Show values
pubs_df

## Dos formas de dividir el intervalo y su correspondiente frecuencia

In [None]:
# b) Division at fixed intervals, i.e., the buckets object indicates
#    the limits of the intervals. The intervals should be closed on right.
#custom_bins = [0,11, 20, 30, 40,70]

custom_bins = [0,13,70]
table = np.histogram(df['Publications'], bins=custom_bins)

#        3 personas           197 personas
#    0              13                         70  [Nro. publicaciones]
#    ------------------------------------------- 
#
table

In [None]:
### Division at intervals and corresponding frequencies

# a) Division of the interval in 11 equal parts, and the interval closed on right
table = np.histogram(df['Publications'], bins=11, range=(0, 70))

table


# 6.- Representacion Gráfica

## 6.1.- Pie Chart

In [None]:
### Pie Chart Gender
# Import packages matplotlib.pyplot and pandas
import matplotlib.pyplot as plt

# Pie chart labels
label_list = df['Gender'].value_counts(sort=False).index

# Plot pie chart axis
plt.axis("equal")

# The pie chart is oval by default. To make it a circle use pyplot. axis(“equal”)
# To show the percentage of each pie slice, pass an output format to the autopct 
# parameter (rounding to 1 decimal place). 
plt.pie(df['Gender'].value_counts(sort=False),
        labels=label_list,autopct="%1.1f%%")

plt.title("Researchers Gender")

plt.show()

## 6.2 Bar Graph

In [None]:
### Tasks Bar Graph
# Grouped sum of Tasks
var = df['Tasks'].value_counts(sort=False)

# Tasks Bar Graph
plt.figure()

# Setting y-axis label
plt.ylabel("Number of Reseachers")

# Setting graph title
plt.title("Counting Reseacher’s Tasks")

# Trigger Bar Graph
var.plot.bar()

# Show Bar Graph
plt.show()

## 6.3.- Boxplots

In [None]:
#df = pd.read_csv("data.csv",sep = ";")
#df.head()

In [None]:
### Boxplot of Age variable

# First we have to take NaN values and substitute 
# them for the mean of the variable
#df['Age']=df['Age'].replace('nan',df['Age'].mean())

# Set type plot
df['Age'].plot(kind='box')

# Setting Plot Title
plt.title('Age Boxplot')

# Show Plot
plt.show()

In [None]:
### Boxplot of Publications variable

# Plot boxplot and create one or more subplots 
# using add_subplot, because you can’t create blank figure

# Set type plot
df['Publications'].plot(kind='box')

# Boxplot Title
plt.title('Publications Boxplot')

# Show Boxplot
plt.show()

## Boxplot mostrando el número de publicaciones dependiendo de la edad del investigador

In [None]:
### Boxplot of Publications vs. Age
# Import pandas package
import pandas as pd
# First we have to take NaN values and 
# substitute them for the mean of the variable
# df['Age']=df['Age'].replace('nan',df['Age'].mean())

# Get only Publications and Age variables
new_df = df.loc[:,['Age','Publications']]
# Boxplot
new_df.boxplot(by='Age',rot = 90, figsize=(10,10))

In [None]:
df_28 = df[df["Age"]==28]
max(df_28["Publications"])

In [None]:
df[(df["Age"]>28) & (df["Age"]<35)].head()


In [None]:
df[df["Age"] == 28].sort_values('Publications', ascending = False)

In [None]:
# Cual es la  cantidad  maxima de publicaciones que ha realizado
# una persona de 28 años.
df[df["Age"]==28].sort_values("Publications", ascending =False).head(1)


In [None]:
# Cual es la cantidad maxima de publicaciones que ha realizado
# una persona de 28 años.
df[df["Age"]==28].sort_values("Publications", ascending =True).tail(1)

In [None]:
# Cual es la cantidad minima de publicaciones que ha realizado
# una persona de 28 años.
df[df["Age"]==28].sort_values("Publications", ascending = True).head(1)

## Histograma del número de publicaciones

In [None]:
### Histogram of the number of Publications

# Publications Histogram
fig=plt.figure() #Plots in matplotlib reside within a figure object, use plt.figure to create new figure

# Create one or more subplots using add_subplot, because you can’t create blank figure
ax = fig.add_subplot(1,1,1)

# Variable
# https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html
ax.hist(df['Publications'],bins="sturges", facecolor='green')# Here it is possible to change the number of bins

# Limits of x axis
ax.set_xlim(0, 70)

# Limits of y axis
ax.set_ylim(0,80)

# Set grid on
ax.grid(True)

# Labels and Title
plt.title('Publications distribution')
plt.xlabel('Publications')
plt.ylabel('#Reseachers')

# Finally, show plot
plt.show()

In [None]:
### Histogram of the number of Publications

# Publications Histogram
fig=plt.figure() #Plots in matplotlib reside within a figure object, use plt.figure to create new figure

# Create one or more subplots using add_subplot, because you can’t create blank figure
ax = fig.add_subplot(1,1,1)

# Variable
ax.hist(df['Publications'],facecolor='green')# Here it is possible to change the number of bins

# Limits of x axis
ax.set_xlim(0, 70)

# Limits of y axis
ax.set_ylim(0,80)

# Set grid on
ax.grid(True)

# Labels and Title
plt.title('Publications distribution')
plt.xlabel('Publications')
plt.ylabel('#Reseachers')

# Finally, show plot
plt.show()