# "Impacto de la Educación y la Ocupación en los Ingresos: Un Análisis Demográfico Global"


Este proyecto analiza un conjunto de datos globales para identificar cómo factores demográficos y socioeconómicos, como la educación, la ocupación, la raza y el país de origen, influyen en los ingresos de los adultos. A través de preguntas clave, se exploran patrones relacionados con salarios mayores a 50k, distribuciones por nivel educativo, ocupaciones más comunes y diferencias entre grupos demográficos. El objetivo es proporcionar una visión clara y estructurada de las dinámicas económicas y sociales presentes en diferentes contextos.

✅Puedes descargar el set de datos 'adult.data.csv' aquí: 👉👉 https://github.com/WLozanoH/socioeconomic-data-analysis/blob/main/adult.data.zip


In [1]:
#Importamos las librerías a utilizar
import pandas as pd

In [2]:
#cargamos el archivo el archivo 'csv'
df = pd.read_csv('adult.data.csv')
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [3]:
df.info() #no hay valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  32561 non-null  object
 14  salary          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


# Analizando el dataset 📉📚

📌 1. ¿Cuántas personas de cada raza están representadas en este set de datos?

In [4]:
cantidad_razas = df['race'].value_counts()
print('La cantidad de cada raza es:\n')
for raza in cantidad_razas.index:
    print(f'{raza} - cantidad: {cantidad_razas[raza]}')

La cantidad de cada raza es:

White - cantidad: 27816
Black - cantidad: 3124
Asian-Pac-Islander - cantidad: 1039
Amer-Indian-Eskimo - cantidad: 311
Other - cantidad: 271


📌 2. ¿Cuál es la edad promedio de los hombres?

In [5]:
# Filtramos valores para sexo = 'Male'
df_hombres = df[df['sex'] == 'Male']

# Sacamos el promedio de la edad de los hombres
promedio_edad_hombres = df_hombres['age'].mean()
promedio_edad_hombres = round(promedio_edad_hombres)
print(f'La edad promedio de los hombres es: {promedio_edad_hombres} años')

La edad promedio de los hombres es: 39 años


📌 3. ¿Cuál es el porcentaje de personas que tienen un grado de licenciatura (Bachelor's degree)?

In [6]:
df['education'].value_counts()

education
HS-grad         10501
Some-college     7291
Bachelors        5355
Masters          1723
Assoc-voc        1382
11th             1175
Assoc-acdm       1067
10th              933
7th-8th           646
Prof-school       576
9th               514
12th              433
Doctorate         413
5th-6th           333
1st-4th           168
Preschool          51
Name: count, dtype: int64

In [7]:
#paso 1: filtrar personas con educación = 'Bachelors'
bachelors = df[df['education'] == 'Bachelors']

#paso 2: Hallamos el total de personas con 'education' = 'Bachelors'
total_bachelors = len(bachelors) # o bachelors.shape[0]

#paso 3: Hallar cantidad total de datos
cantidad_total = len(df)

#Paso 4: Hallar la proporción de personas que tienen educación = 'bachelors'
porcentaje_bachelor = (total_bachelors / cantidad_total) * 100
porcentaje_bachelor = round(porcentaje_bachelor, 2) #redondear a dos decimales
print(f"El porcentaje de personas con grado de educación 'Bachelor' es: {porcentaje_bachelor}%.")

El porcentaje de personas con grado de educación 'Bachelor' es: 16.45%.


📌 4. ¿Qué porcentaje de personas con una educación avanzada (Bachelors, Masters o Doctorate) ganan más de 50k?

In [8]:
df['salary'].value_counts()

salary
<=50K    24720
>50K      7841
Name: count, dtype: int64

In [9]:
#filtramos las personas con educación avanzada
educación_avanzada = df[df['education'].isin(['Bachelors', 'Masters', 'Doctorate'])]

#Hallamos la cantidad de personas con educación avanzada
total_educación_avanzada = len(educación_avanzada)

#Filtramos las personas que ganan más de 50k, con educación avanzada
mas_50k = educación_avanzada[educación_avanzada['salary'] == '>50K']

#Hallamos la cantidad de personas que ganan más de 50k, con educación avanzada
total_mas_50k = len(mas_50k)

#Hallamos el porcentaje de personas que ganan más de 50k, con educación avanzada
porcentaje_mas_50k = (total_mas_50k / total_educación_avanzada) * 100
porcentaje_mas_50k = round(porcentaje_mas_50k,2)

print(f'El porcentaje de personas con educación avanzada que gana más de 50k es:\n\n Porcentaje:{porcentaje_mas_50k}%.')

El porcentaje de personas con educación avanzada que gana más de 50k es:

 Porcentaje:46.54%.


📌 5: ¿Qué porcentaje de personas sin una educación avanzada generan más de 50k?

In [10]:
#filtramos las personas con educación avanzada
sin_educación_avanzada = df[~df['education'].isin(['Bachelors', 'Masters', 'Doctorate'])]

#Hallamos la cantidad de personas sin educación avanzada
total_sin_educación_avanzada = len(sin_educación_avanzada)

#Filtramos las personas que ganan más de 50k, sin educación avanzada
mas_50k = sin_educación_avanzada[sin_educación_avanzada['salary'] == '>50K']

#Hallamos la cantidad de personas que ganan más de 50k, sin educación avanzada
total_mas_50k = len(mas_50k)

#Hallamos el porcentaje de personas que ganan más de 50k, con educación avanzada
porcentaje_mas_50k = (total_mas_50k / total_sin_educación_avanzada) * 100
porcentaje_mas_50k = round(porcentaje_mas_50k,2)

print(f'El porcentaje de personas sin educación avanzada que gana más de 50k es:\n\n Porcentaje:{porcentaje_mas_50k}%.')

El porcentaje de personas sin educación avanzada que gana más de 50k es:

 Porcentaje:17.37%.


📌 6. ¿Cuál es el mínimo número de horas que una persona trabaja por semana?

In [11]:
minimo_horas = df['hours-per-week'].min()

print(f'El mínimo de horas que trabaja una persona por semana es: {minimo_horas} hora(s).')

El mínimo de horas que trabaja una persona por semana es: 1 hora(s).


📌 7. ¿Qué porcentaje de personas que trabajan el mínimo de horas por semana tiene un salario de más de 50k?

In [12]:
#filtramos la data por las personas que trabajan un minimo de horas
df_minimo_horas = df[df['hours-per-week'] == minimo_horas]

#Hallamos la cantidad de personas que trabajan el minimo de horas
total_minimo_horas = len(df_minimo_horas)

#Filtramos las personas que ganan más de 50k y trabajan un minimo de horas
mas_50k = df_minimo_horas[df_minimo_horas['salary'] == '>50K']

#contamos la cantidad de personas que ganan más de 50k y trabajan un minimo de horas
total_mas_50k = len(mas_50k)

#Hallamos el porcentaje de personas que ganan mas de 50k y trabajan un minimo de horas.
porcentaje = (total_mas_50k/total_minimo_horas) *100
porcentaje = round(porcentaje,2)

print(f'El porcentaje de personas que ganan más de 50k y trabajan el mínimo de horas es:\n\n Porcentaje: {porcentaje}%.')

El porcentaje de personas que ganan más de 50k y trabajan el mínimo de horas es:

 Porcentaje: 10.0%.


📌 8. ¿Qué país tiene el porcentaje más alto de personas que ganan >50k y cuál es ese porcentaje?

In [13]:
#Agrupamos los datos por país y contamos los datos con value_counts()
cantidad_salario = df.groupby('native-country')['salary'].value_counts()

# Lo convertimos en un data frame con unstack()
cantidad_salario = cantidad_salario.unstack()

# Calculamos el salario por país
cantidad_salario['total'] = cantidad_salario['<=50K'] + cantidad_salario['>50K']

#calculamos el porcentaje de personas que ganan más de 50k por país
cantidad_salario['>50K'] = (cantidad_salario['>50K']/cantidad_salario['total'])*100

#filtramos el país por índica para encontrar el país con mayor porcentaje de personas que ganan más de 50k
país_max_porcentaje = cantidad_salario['>50K'].idxmax()

#filtramos el porcentaje más alto correspondiente al país
max_porcentaje = cantidad_salario['>50K'].max()
max_porcentaje = round(max_porcentaje,2)

print(f'El país con el porcentaje más alto de personas que ganan más de 50k es: ')
print(f'país: {país_max_porcentaje}')
print(f'porcentaje: {max_porcentaje}%.')



El país con el porcentaje más alto de personas que ganan más de 50k es: 
país: Iran
porcentaje: 41.86%.


📌 9. Identifica la ocupación más popular de aquellos que ganan >50k en India.

In [14]:
#Filtramos los valores por país == India y salary == '>50K'
df_filtrada = df[(df['native-country'] == 'India') & (df['salary'] == '>50K')] 

#Hallamos la ocupación más popular
ocupación_popular = df_filtrada['occupation'].value_counts()

#Determinar la ocupación más popular
ocupación_más_popular = ocupación_popular.idxmax()
cantidad_más_popular = ocupación_popular.max()

print(f'La ocupación más popular en la India entre las personas que ganan más de 50k es:')
print(f'ocupación: {ocupación_más_popular}.\ncantidad: {cantidad_más_popular} personas.')

La ocupación más popular en la India entre las personas que ganan más de 50k es:
ocupación: Prof-specialty.
cantidad: 25 personas.


📝Conclusiones del Proyecto

Este proyecto demuestra cómo factores como la educación, ocupación, raza y país de origen impactan significativamente en los ingresos. Entre los hallazgos más relevantes destacan:

1. Educación e ingresos:

    Casi la mitad (46.54%) de las personas con educación avanzada (licenciatura, maestría o doctorado) ganan más de 50k, en comparación con solo el 17.37% de quienes no tienen este nivel educativo.

2. Distribución geográfica y ocupacional:

    Irán tiene el mayor porcentaje de personas con ingresos superiores a 50k (41.86%).
    En India, los profesionales especializados son el grupo más representado entre quienes ganan más de 50k.

3. Horas trabajadas y salarios:

    El mínimo de horas trabajadas por semana es 1 hora, pero solo el 10% de las personas que trabajan este mínimo ganan más de 50k.

El análisis pone de manifiesto habilidades avanzadas en manipulación de datos, filtrado, agrupación y extracción de insights clave utilizando Python, lo que proporciona una visión clara de las dinámicas económicas y sociodemográficas.

📝Resumen de Habilidades Utilizadas:

    ✅Manipulación de datos con Pandas: limpieza, filtrado, agrupación y transformación de datos.
    ✅Cálculo de estadísticas descriptivas y porcentajes para extraer insights clave.
    ✅Interpretación de datos socioeconómicos para destacar patrones y relaciones complejas.