# 🧠 Análisis de datos con Python: Confianza en STEM y Arte

Este cuaderno te ayudará a explorar cómo el género, el estatus económico y las discapacidades pueden influir en la confianza que sienten las personas en materias STEM y arte.

🟢 Paso 1: Cargar datos (Código)



In [None]:
import pandas as pd

# Subir el archivo CSV
from google.colab import files
uploaded = files.upload()

# Cargar el archivo
df = pd.read_csv(next(iter(uploaded)))
df.head()



🔍 Paso 2: Seleccionar columnas importantes (Código)


In [None]:
columns_to_keep = [
    "What is your gender? / ¿Cual es tu género?",
    "Do you have any disabilities that may affect your learning? /  ¿ Padeces de algun tipo de discapacidad que pueda afectar tu aprendizaje?",
    "What is your household’s approximate annual income level? (Choose the best estimate.) / ¿Cuál es el nivel aproximado de ingresos anuales de su hogar? (Seleccione la mejor estimación).",
    "From 1-5, what would you rate your confidence level in math? / Del 1 al 5, ¿cómo calificarías tu nivel de confianza en matemáticas?",
    "From 1-5, what would you rate your confidence level in science? / Del 1 al 5, ¿cómo calificarías tu nivel de confianza en ciencias?",
    "From 1-5, what would you rate your confidence level in music and art subjects? / Del 1 al 5, ¿cómo calificarías tu nivel de confianza en cursos de musica y arte?",
    "What type of schools have you attended? /¿A qué tipo de escuela has ido?"
]

df = df[columns_to_keep]
df.columns = ['Gender', 'Disability', 'Income', 'Confidence_Math', 'Confidence_Science', 'Confidence_Music_Art', 'School_Type' ]

df.head()


📊 Paso 3: Crear gráficas (Código)



In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurar orden lógico de las categorías (puedes ajustarlo según tus datos reales)
orden_confianza = ['1- Very Unconfident / Muy inseguro/insegura', '2- Somewhat Unconfident/ Algo inseguro/insegura', '3- Neutral', '4- Somewhat confident / Algo seguro/segura', '5- Very Confident / Muy seguro/segura']

# Gráfico: Confianza en matemáticas por género
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='Confidence_Math', hue='Gender', order=orden_confianza)
plt.title('Confianza en Matemáticas por Género')
plt.xlabel('Nivel de Confianza')
plt.ylabel('Cantidad de personas')
plt.xticks(rotation=30, ha='right')
plt.show()


🎯 Retos

In [None]:
## 🎯 Retos para explorar por tu cuenta

1. **Crea una gráfica que muestre la confianza en ciencias según el género.**
2. **Crea una gráfica que muestre la confianza en música según el nivel de ingreso.**
3. **Crea una gráfica de barras apiladas que compare la confianza en matemáticas por nivel de ingreso.**
4. **¿Hay alguna diferencia visible en la confianza en ciencia entre quienes tienen alguna discapacidad y quienes no? Haz una gráfica.**
5. **Explora con una gráfica propia: elige dos variables y crea tu propia visualización.**

📌 1. Gráfica de barras: Confianza en ciencia por género


In [None]:
plt.figure(figsize=(8, 5))
# Asegurar orden lógico de las categorías (puedes ajustarlo según tus datos reales)
orden_confianza = ['1- Very Unconfident / Muy inseguro/insegura', '2- Somewhat Unconfident/ Algo inseguro/insegura', '3- Neutral', '4- Somewhat confident / Algo seguro/segura', '5- Very Confident / Muy seguro/segura']
sns.countplot(data=df, x='Confidence_Science', hue='Gender', order=orden_confianza)
plt.title('Confianza en Ciencia por Género')
plt.xlabel('Nivel de Confianza')
plt.ylabel('Cantidad de personas')
plt.xticks(rotation=30, ha='right')
plt.show()


📌 2. Gráfica de barras: Confianza en música por nivel de ingreso

In [None]:
plt.figure(figsize=(10, 5))
# Convierte la columna 'Confidence_Music' en numérica como se hizo antes
df['Confidence_Music_Art_Numerical'] = df['Confidence_Music_Art'].str.split('-').str[0].astype(int)
# Define el orden deseado para las categorías de Ingresos en el eje x
income_order = [
    'Prefer not to say / Prefiero no decirlo',
    'Below $25,000 / Menos de $25,000',
    '$25,000-$50,000',
    '$50,000-$75,000',
    '$75,000-$100,000',
    'Above $100,000 / Más de $100,000'
]
# Utilice el parámetro 'orden' con la variable 'x' para definir el orden de las categorías de ingresos.
sns.boxplot(data=df, x='Income', y='Confidence_Music_Art_Numerical', order=income_order)
plt.title('Confianza en Música según Nivel de Ingreso')
plt.xticks(rotation=30, ha='right')
plt.ylabel('Nivel de Confianza (1-5)') # Update y-axis label
plt.show()



📌 3. Gráfico de barras apiladas (con crosstab y plot)











In [None]:
# Crear tabla cruzada
df['Income'] = pd.Categorical(df['Income'], categories=income_order, ordered=True)
ct = pd.crosstab(df['Income'], df['Confidence_Math'])
income_order = [
    'Prefer not to say / Prefiero no decirlo',
    'Below $25,000 / Menos de $25,000',
    '$25,000-$50,000',
    '$50,000-$75,000',
    '$75,000-$100,000',
    'Above $100,000 / Más de $100,000']
# Gráfico de barras apiladas
ct.plot(kind='bar', stacked=True, figsize=(10, 6), colormap='viridis')
plt.title('Confianza en Matemáticas por Nivel de Ingreso')
plt.xlabel('Nivel de Ingreso')
plt.ylabel('Cantidad de respuestas')
plt.xticks(rotation=30, ha='right')
plt.show()

📌 4. Gráfico de dispersión: Relación entre confianza en matemáticas y ciencia

In [None]:
plt.figure(figsize=(6, 6))
sns.scatterplot(data=df, x='Confidence_Math', y='Confidence_Science', hue='Gender')
plt.title('Relación entre confianza en Matemáticas y Ciencia')
plt.xlabel('Confianza en Matemáticas')
plt.ylabel('Confianza en Ciencia')
etiquetas_confianza = {
    1: '1- Very Unconfident / Muy inseguro/insegura',
    2: '2- Somewhat Unconfident/ Algo inseguro/insegura',
    3: '3- Neutral',
    4: '4- Somewhat confident / Algo seguro/segura',
    5: '5- Very Confident / Muy seguro/segura'
}
# Obtener las etiquetas en el orden correcto para los ticks
tick_labels = [etiquetas_confianza[i] for i in sorted(etiquetas_confianza.keys())]
# Usar los números como ticks y las etiquetas de texto como labels
plt.xticks(ticks=[1, 2, 3, 4, 5], labels=tick_labels, rotation=90, ha='center') # Rota las etiquetas para que no se solapen
plt.yticks(ticks=[1, 2, 3, 4, 5], labels=tick_labels) # Las etiquetas del eje Y probablemente caben sin rotación
plt.ylim(0.5, 5.1)
plt.xlim(0.5,5.1) # Añadido para simetría y asegurar que el tick '1' en X se ve
plt.show()

# Otros ejemplos:

📌Gráfico de violín: Distribución de confianza por discapacidad

In [None]:
plt.figure(figsize=(8, 5))
sns.violinplot(data=df, x='Disability', y='Confidence_Science')
plt.title('Distribución de confianza en ciencia por discapacidad')
etiquetas_confianza = {
    1: '1- Very Unconfident / Muy inseguro/insegura',
    2: '2- Somewhat Unconfident/ Algo inseguro/insegura',
    3: '3- Neutral',
    4: '4- Somewhat confident / Algo seguro/segura',
    5: '5- Very Confident / Muy seguro/segura'
}
plt.xticks(rotation=30, ha='right')
plt.yticks(ticks=[1, 2, 3, 4, 5], labels=tick_labels) # Las etiquetas del eje Y probablemente caben sin rotación
plt.ylim(0.5, 5.5)
plt.show()

📌 Gráfico de calor (heatmap): Correlación entre variables de confianza









In [None]:
# Calcula la correlación entre variables de confianza
confidence_data = df[['Confidence_Math', 'Confidence_Science', 'Confidence_Music_Art']]
correlation = confidence_data.corr()

# Generar el mapa de calor
plt.figure(figsize=(6, 5))
sns.heatmap(correlation, annot=True, cmap='coolwarm')
plt.title('Correlación entre niveles de confianza')
plt.show()