## __Análisis de Datos Demográficos – Proyecto # 2__

#### __Autor:__ Angel Daniel Rodriguez Santos

----------

Para iniciar, instalaremos la librería __Pandas__.

In [1]:
import pandas as pd

Ahora, vamos a extraer los datos desde un __archivo CSV__ utilizando la librería Pandas. Este archivo se encuentra en un repositorio de __GitHub__, no localmente en mi pc.

In [2]:
url = "https://raw.githubusercontent.com/a-mt/fcc-demographic-data-analyzer/master/adult.data.csv"
datos = pd.read_csv(url)
datos.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


Ya teniendo los datos, responderemos las siguientes preguntas utilizando __Pandas__ también.

Antes, verificaremos que la data este completa.

In [3]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  32561 non-null  object
 14  salary          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


Como vemos, la data esta completa, es decir, no existen valores nulos.

Por lo que, ahora sí, comencemos:

- ¿Cuántas personas de cada raza están representadas en este conjunto de datos? Debe ser una __Serie__ de __Pandas__ con nombres de raza como etiqueta de índice. (columna “race”)

In [4]:
personas = pd.Series(datos["race"].value_counts(), name = "Personas")
personas.index.name = "Raza"
personas

Raza
White                 27816
Black                  3124
Asian-Pac-Islander     1039
Amer-Indian-Eskimo      311
Other                   271
Name: Personas, dtype: int64

- ¿Cuál es la edad promedio de los hombres?

In [5]:
edad_promedio = round(pd.Series(datos.loc[datos["sex"] == "Male", ["age"]].mean(), name = "Promedio"), 1)
edad_promedio

age    39.4
Name: Promedio, dtype: float64

- ¿Cuá es el porcentaje de personas que tienen un título de licenciatura?

In [6]:
licenciatura = datos[datos["education"] == "Bachelors"]
licenciatura = round(((100 * len(licenciatura)) / len (datos)), 1)
licenciatura

16.4

- ¿Qué porcentaje de personas con educación avanzada (licenciatura, maestría o doctorado) ganan más de 50K?

In [7]:
educacion_avanzada = datos[datos["education"].isin(["Bachelors", "Masters", "Doctorate"])]
salario = educacion_avanzada[educacion_avanzada["salary"] == ">50K"]
porcentaje = round(((100 * len(salario)) / len(educacion_avanzada)), 1)
porcentaje

46.5

- ¿Qué porcentaje de personas sin educación avanzada ganan más de 50K?

In [8]:
educacion_inferior = datos[~(datos["education"].isin(["Bachelors", "Masters", "Doctorate"]))]
salario = educacion_inferior[educacion_inferior["salary"] == ">50K"]
porcentaje = round(((100 * len(salario)) / len(educacion_inferior)), 1)
porcentaje

17.4

- ¿Cuá es el número mínimo de horas que una persona trabaja a la semana?

In [9]:
numero_minimo = print("La hora de trabajo mínima es:", datos["hours-per-week"].min(), "hora.")
numero_minimo

La hora de trabajo mínima es: 1 hora.


- ¿Qué porcentaje de personas que trabajan el número mínimo de horas a la semana, tienen un salario de más de 50K?

In [10]:
horas_minimas = datos[datos["hours-per-week"] == 1]
salario = horas_minimas[horas_minimas["salary"] == ">50K"]
porcentaje = round(((100 * len(salario)) / len(horas_minimas)), 1)
porcentaje

10.0

- ¿Qué país tiene el porcentaje más alto de personas que ganan más de 50K y cuál es ese país?

In [11]:
porcentaje_pais = pd.Series(datos.loc[datos["salary"] == ">50K", ["native-country"]].value_counts(), name = "Porcentaje")
porcentaje_pais = round((100 * porcentaje_pais) / porcentaje_pais.sum(), 1)
porcentaje_pais

native-country    
United-States         91.5
?                      1.9
Philippines            0.8
Germany                0.6
India                  0.5
Canada                 0.5
Mexico                 0.4
England                0.4
Italy                  0.3
Cuba                   0.3
Japan                  0.3
China                  0.3
Taiwan                 0.3
Iran                   0.2
South                  0.2
Poland                 0.2
France                 0.2
Puerto-Rico            0.2
Jamaica                0.1
El-Salvador            0.1
Greece                 0.1
Cambodia               0.1
Yugoslavia             0.1
Hong                   0.1
Ireland                0.1
Vietnam                0.1
Ecuador                0.1
Haiti                  0.1
Portugal               0.1
Scotland               0.0
Thailand               0.0
Hungary                0.0
Guatemala              0.0
Laos                   0.0
Dominican-Republic     0.0
Peru                   0.0
Trinadad&

- Identifica la ocupación más popular para aquellos que ganan más de 50K en la India.

In [12]:
ocupacion_popular = pd.Series(datos[(datos["salary"] == ">50K") & (datos["native-country"] == "India")]["occupation"].value_counts(), 
                              name = "Cantidad de personas")
ocupacion_popular.index.name = "Ocupación"
ocupacion_popular

Ocupación
Prof-specialty      25
Exec-managerial      8
Other-service        2
Tech-support         2
Transport-moving     1
Sales                1
Adm-clerical         1
Name: Cantidad de personas, dtype: int64