# üß† An√°lisis de datos con Python: Confianza en STEM y Arte

Este cuaderno te ayudar√° a explorar c√≥mo el g√©nero, el estatus econ√≥mico y las discapacidades pueden influir en la confianza que sienten las personas en materias STEM y arte.

üü¢ Paso 1: Cargar datos (C√≥digo)



In [None]:
import pandas as pd

# Subir el archivo CSV
from google.colab import files
uploaded = files.upload()

# Cargar el archivo
df = pd.read_csv(next(iter(uploaded)))
df.head()



üîç Paso 2: Seleccionar columnas importantes (C√≥digo)


In [None]:
columns_to_keep = [
    "What is your gender? / ¬øCual es tu g√©nero?",
    "Do you have any disabilities that may affect your learning? /  ¬ø Padeces de algun tipo de discapacidad que pueda afectar tu aprendizaje?",
    "What is your household‚Äôs approximate annual income level? (Choose the best estimate.) / ¬øCu√°l es el nivel aproximado de ingresos anuales de su hogar? (Seleccione la mejor estimaci√≥n).",
    "From 1-5, what would you rate your confidence level in math? / Del 1 al 5, ¬øc√≥mo calificar√≠as tu nivel de confianza en matem√°ticas?",
    "From 1-5, what would you rate your confidence level in science? / Del 1 al 5, ¬øc√≥mo calificar√≠as tu nivel de confianza en ciencias?",
    "From 1-5, what would you rate your confidence level in music and art subjects? / Del 1 al 5, ¬øc√≥mo calificar√≠as tu nivel de confianza en cursos de musica y arte?",
    "What type of schools have you attended? /¬øA qu√© tipo de escuela has ido?"
]

df = df[columns_to_keep]
df.columns = ['Gender', 'Disability', 'Income', 'Confidence_Math', 'Confidence_Science', 'Confidence_Music_Art', 'School_Type' ]

df.head()


üìä Paso 3: Crear gr√°ficas (C√≥digo)



In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurar orden l√≥gico de las categor√≠as (puedes ajustarlo seg√∫n tus datos reales)
orden_confianza = ['1- Very Unconfident / Muy inseguro/insegura', '2- Somewhat Unconfident/ Algo inseguro/insegura', '3- Neutral', '4- Somewhat confident / Algo seguro/segura', '5- Very Confident / Muy seguro/segura']

# Gr√°fico: Confianza en matem√°ticas por g√©nero
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='Confidence_Math', hue='Gender', order=orden_confianza)
plt.title('Confianza en Matem√°ticas por G√©nero')
plt.xlabel('Nivel de Confianza')
plt.ylabel('Cantidad de personas')
plt.xticks(rotation=30, ha='right')
plt.show()


üéØ Retos

In [None]:
## üéØ Retos para explorar por tu cuenta

1. **Crea una gr√°fica que muestre la confianza en ciencias seg√∫n el g√©nero.**
2. **Crea una gr√°fica que muestre la confianza en m√∫sica seg√∫n el nivel de ingreso.**
3. **Crea una gr√°fica de barras apiladas que compare la confianza en matem√°ticas por nivel de ingreso.**
4. **¬øHay alguna diferencia visible en la confianza en ciencia entre quienes tienen alguna discapacidad y quienes no? Haz una gr√°fica.**
5. **Explora con una gr√°fica propia: elige dos variables y crea tu propia visualizaci√≥n.**

üìå 1. Gr√°fica de barras: Confianza en ciencia por g√©nero


In [None]:
plt.figure(figsize=(8, 5))
# Asegurar orden l√≥gico de las categor√≠as (puedes ajustarlo seg√∫n tus datos reales)
orden_confianza = ['1- Very Unconfident / Muy inseguro/insegura', '2- Somewhat Unconfident/ Algo inseguro/insegura', '3- Neutral', '4- Somewhat confident / Algo seguro/segura', '5- Very Confident / Muy seguro/segura']
sns.countplot(data=df, x='Confidence_Science', hue='Gender', order=orden_confianza)
plt.title('Confianza en Ciencia por G√©nero')
plt.xlabel('Nivel de Confianza')
plt.ylabel('Cantidad de personas')
plt.xticks(rotation=30, ha='right')
plt.show()


üìå 2. Gr√°fica de barras: Confianza en m√∫sica por nivel de ingreso

In [None]:
plt.figure(figsize=(10, 5))
# Convierte la columna 'Confidence_Music' en num√©rica como se hizo antes
df['Confidence_Music_Art_Numerical'] = df['Confidence_Music_Art'].str.split('-').str[0].astype(int)
# Define el orden deseado para las categor√≠as de Ingresos en el eje x
income_order = [
    'Prefer not to say / Prefiero no decirlo',
    'Below $25,000 / Menos de $25,000',
    '$25,000-$50,000',
    '$50,000-$75,000',
    '$75,000-$100,000',
    'Above $100,000 / M√°s de $100,000'
]
# Utilice el par√°metro 'orden' con la variable 'x' para definir el orden de las categor√≠as de ingresos.
sns.boxplot(data=df, x='Income', y='Confidence_Music_Art_Numerical', order=income_order)
plt.title('Confianza en M√∫sica seg√∫n Nivel de Ingreso')
plt.xticks(rotation=30, ha='right')
plt.ylabel('Nivel de Confianza (1-5)') # Update y-axis label
plt.show()



üìå 3. Gr√°fico de barras apiladas (con crosstab y plot)











In [None]:
# Crear tabla cruzada
df['Income'] = pd.Categorical(df['Income'], categories=income_order, ordered=True)
ct = pd.crosstab(df['Income'], df['Confidence_Math'])
income_order = [
    'Prefer not to say / Prefiero no decirlo',
    'Below $25,000 / Menos de $25,000',
    '$25,000-$50,000',
    '$50,000-$75,000',
    '$75,000-$100,000',
    'Above $100,000 / M√°s de $100,000']
# Gr√°fico de barras apiladas
ct.plot(kind='bar', stacked=True, figsize=(10, 6), colormap='viridis')
plt.title('Confianza en Matem√°ticas por Nivel de Ingreso')
plt.xlabel('Nivel de Ingreso')
plt.ylabel('Cantidad de respuestas')
plt.xticks(rotation=30, ha='right')
plt.show()

üìå 4. Gr√°fico de dispersi√≥n: Relaci√≥n entre confianza en matem√°ticas y ciencia

In [None]:
plt.figure(figsize=(6, 6))
sns.scatterplot(data=df, x='Confidence_Math', y='Confidence_Science', hue='Gender')
plt.title('Relaci√≥n entre confianza en Matem√°ticas y Ciencia')
plt.xlabel('Confianza en Matem√°ticas')
plt.ylabel('Confianza en Ciencia')
etiquetas_confianza = {
    1: '1- Very Unconfident / Muy inseguro/insegura',
    2: '2- Somewhat Unconfident/ Algo inseguro/insegura',
    3: '3- Neutral',
    4: '4- Somewhat confident / Algo seguro/segura',
    5: '5- Very Confident / Muy seguro/segura'
}
# Obtener las etiquetas en el orden correcto para los ticks
tick_labels = [etiquetas_confianza[i] for i in sorted(etiquetas_confianza.keys())]
# Usar los n√∫meros como ticks y las etiquetas de texto como labels
plt.xticks(ticks=[1, 2, 3, 4, 5], labels=tick_labels, rotation=90, ha='center') # Rota las etiquetas para que no se solapen
plt.yticks(ticks=[1, 2, 3, 4, 5], labels=tick_labels) # Las etiquetas del eje Y probablemente caben sin rotaci√≥n
plt.ylim(0.5, 5.1)
plt.xlim(0.5,5.1) # A√±adido para simetr√≠a y asegurar que el tick '1' en X se ve
plt.show()

# Otros ejemplos:

üìåGr√°fico de viol√≠n: Distribuci√≥n de confianza por discapacidad

In [None]:
plt.figure(figsize=(8, 5))
sns.violinplot(data=df, x='Disability', y='Confidence_Science')
plt.title('Distribuci√≥n de confianza en ciencia por discapacidad')
etiquetas_confianza = {
    1: '1- Very Unconfident / Muy inseguro/insegura',
    2: '2- Somewhat Unconfident/ Algo inseguro/insegura',
    3: '3- Neutral',
    4: '4- Somewhat confident / Algo seguro/segura',
    5: '5- Very Confident / Muy seguro/segura'
}
plt.xticks(rotation=30, ha='right')
plt.yticks(ticks=[1, 2, 3, 4, 5], labels=tick_labels) # Las etiquetas del eje Y probablemente caben sin rotaci√≥n
plt.ylim(0.5, 5.5)
plt.show()

üìå Gr√°fico de calor (heatmap): Correlaci√≥n entre variables de confianza









In [None]:
# Calcula la correlaci√≥n entre variables de confianza
confidence_data = df[['Confidence_Math', 'Confidence_Science', 'Confidence_Music_Art']]
correlation = confidence_data.corr()

# Generar el mapa de calor
plt.figure(figsize=(6, 5))
sns.heatmap(correlation, annot=True, cmap='coolwarm')
plt.title('Correlaci√≥n entre niveles de confianza')
plt.show()