# Taller de Estadística Descriptiva con Python
# Diplomado en Ciencia de Datos - Universidad Pedagógica y Tecnológica de Colombia (2024-1)


Este taller está diseñado para practicar estadística descriptiva utilizando Python, basado en el conjunto de datos de empleados de una empresa.

Asegúrate de tener el dataset descargado y listo para usar.

## Preliminares

Antes de comenzar, necesitarás configurar tu entorno de Python. Asegúrate de tener instaladas las librerías Pandas, NumPy, y Matplotlib.



```
# Recuerda! Paso 1: Importación de librerías
# Recuerdas las "alias" estandarizadas para las librerías (las cuales utilizarás muy frecuentemente)

import pandas as pd
import numpy as ??
import matplotlib as ??
```



In [None]:
#Escribe tu Paso 1

Luego de esto, la idea es reconocer el dataset en nuetro entorno



```
# Recuerda! Paso 2: Cargar dataset

# Siempre que trabajemos con archivos tipo dataframe (tales como tipo csv o xlsx), utilizaremos la librería pandas para procesamiento

import pandas as pd

# Ruta al archivo CSV

file_path = 'ruta/a/tu/dataset_estadistica_descriptiva.csv'
df = pd.read_csv(file_path)

#NOTA: No olvides cargar el dataset al Google Colab y copiar la ruta en la variable file_path
```



In [None]:
#Escribe tu Paso 2

Explora las primeras filas del dataset para entender su estructura.

In [1]:
#Recuerda utilizar el elemento 1 "mágico" para entender el dataset:
print(df.head())

Después de esto, realiza un resumen estadístico:

In [None]:
#Escribe tu Paso 3

Ejercicio 2: Medidas de Tendencia Central

Ahora queremos conocer la media, la mediana y la moda.

In [None]:
#Calcula la media del salario y de la edad.
salario_media = df[' '].mean() #COMPLETA
edad_media = df['Edad'].mean()

print(f"Media del Salario: {salario_media}")
print(f"Media de la Edad: { }") #COMPLETA

Ahora encuentra la mediana de los años de experiencia.

In [None]:
# Mediana para años de experiencia

experiencia_mediana = df['Años de experiencia'].median()
print(f"Mediana de Años de Experiencia: {experiencia_mediana}")

#Adiciona información encontrando la mediana para las otras variables

Determina la moda de la columna Departamento.

In [None]:
#Moda para Departamento
departamento_mode = df['Departamento'].mode()[?] #COMPLETA
print(f"Moda de Departamento: {departamento_modo}") #Encuentra el error

Ejercicio 3: Medidas de Dispersión

In [None]:
#Calcula la varianza del salario.

salario_varianza = df[' '].var() #COMPLETA
print(f"Varianza del Salario: {salario_varianza}")

#¿Qué interpretación le das a este resultado?

Ahora, determina la desviación estándar de la edad... ¿Para qué otra variable tendría sentido encontrarla? ¿Cuáles no y por qué?

In [None]:
#Calcula de desviación estándar de la edad

edad_desviacion_estandar = df['Edad'].std()
print(f"Desviación Estándar de la Edad: {edad_desviacion_estandar}")

#Interpreta el resultado... Podríamos calcular la desviación estándar de nuestro grupo de diplomado?

Calcula el rango intercuartílico (IQR) de los años de experiencia.

In [None]:
#Definir cuartiles
#Recuerda el cuartil 1 y el cuartil: 25% y 75% respectivamente
Q1 = df['Años de experiencia'].quantile(0.25)
Q3 = df['Años de experiencia'].quantile(0.75)


#Ahora definamos el rango:

IQR =
print(f"Rango Intercuartílico de Años de Experiencia: {IQR}")


Ejercicio 4: Visualización de Datos

Dado que queremos ... COMPLETA

In [None]:
#Crea un histograma de la distribución de edades.

import matplotlib.pyplot as plt

df['? '].hist(bins=10) #COMPLETA
plt.title('Distribución de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()


Genera un diagrama de cajas para el salario.

In [None]:
#Diagrama de cajas
df['Salario (miles $)'].plot(kind='?') #COMPLETA
plt.title('Distribución del Salario')
plt.ylabel('Salario (miles $)')
plt.show()


¿Qué resultado interpretas?

Contesta acá:



```
# Acá puedes hablar un poco
```



Crea un tema para conversar a partir de tus análisis

Actividad:

Completa líneas abajo los análisis estadísticos que hagan falta y que consideres relevantes a partir del tema de tu análisis.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# ¿Qué diagrama creamos acá?
sns.violinplot(x='Departamento', y='Salario (miles $)', data=df)

plt.title('Distribución del Salario por Departamento')
plt.xlabel('Departamento')
plt.ylabel('Salario (miles $)')
plt.xticks(rotation=45)
plt.show()


Escribe tus conclusiones acá