<a href="https://colab.research.google.com/github/claudiagiraldo/Proyecto/blob/main/01_Exploraci%C3%B3n_de_datos_(borrador).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

###**Exploración de datos: Proyecto Visas**
Por: Claudia Yaneth Giraldo Vergara

C.C. 1001745178

**Aclaración**

Debido al gran tamaño de la base de datos original descargada de Kaggle ('H-1B_Disclosure_Data_FY17.csv') se ha creado una nueva base de datos de menor tamaño ('Visas_reducida') a partir de la base de datos original con 10000 filas seleccionadas de manera aleatoria, esto con el fin de acelerar la carga del archivo a Google Colab. 

In [None]:
# Importación de bibliotecas a utilizar
import pandas as pd
import numpy as np

**Lectura y limpieza de datos**

In [None]:
# Carga de datos 
data = pd.read_csv('Visas_reducida.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,CASE_NUMBER,CASE_STATUS,CASE_SUBMITTED,DECISION_DATE,VISA_CLASS,EMPLOYMENT_START_DATE,EMPLOYMENT_END_DATE,EMPLOYER_NAME,EMPLOYER_BUSINESS_DBA,...,H1B_DEPENDENT,WILLFUL_VIOLATOR,SUPPORT_H1B,LABOR_CON_AGREE,PUBLIC_DISCLOSURE_LOCATION,WORKSITE_CITY,WORKSITE_COUNTY,WORKSITE_STATE,WORKSITE_POSTAL_CODE,ORIGINAL_CERT_DATE
0,354115,I-200-17078-371645,CERTIFIED,2017-03-19,2017-03-23,H-1B,2017-09-15,2020-09-14,HSK TECHNOLOGIES INC,,...,N,N,,,,MIAMI,MIAMI-DADE,FL,33131,
1,520870,I-200-17174-799976,CERTIFIED,2017-06-27,2017-07-03,H-1B,2017-06-30,2020-06-29,ACCENTURE LLP,,...,N,N,,,,ATLANTA,FULTON,GA,30308,
2,435723,I-200-17095-547953,CERTIFIED,2017-04-14,2017-04-20,H-1B,2017-08-05,2020-08-04,TATA CONSULTANCY SERVICES LIMITED,,...,Y,N,Y,,,SAN ANTONIO,BEXAR,TX,78288,
3,27054,I-200-16295-236668,CERTIFIED,2016-10-21,2016-10-27,H-1B,2016-11-07,2019-11-06,"URBAN SCIENCE APPLICATIONS, INC.",,...,N,N,,,,DETROIT,WAYNE,MI,48243,
4,87671,I-200-16356-398915,CERTIFIED,2016-12-21,2016-12-28,H-1B,2017-02-03,2020-02-02,"TECH MAHINDRA (AMERICAS),INC.",,...,Y,N,Y,Y,,RICHARDSON,COLLIN,TX,75082,


###**Significado de cada columna**


*   CASE_NUMBER:Identificador único asignado a cada solicitud
*   CASE_STATUS: Última decisión significativa. Los valores válidos incluyen "certificado", "certificado-limpiado", denegado "y" retirado ".
*   CASE_SUBMITTED: Fecha y hora en la que se envió la solicitud.
*   DECISION_DATE: Fecha en la que se registró el último hecho o decisión significativo.
*   VISA_CLASS: Indica el tipo de solicitud temporal presentada para su tramitación. R = H-1B; A = E-3 australiano; C = H-1B1 Chile; S = H-1B1 Singapur. También denominado "Programa" en años anteriores.
*   EMPLOYMENT_START_DATE: Fecha de inicio de la actividad laboral.
*   EMPLOYMENT_END_DATE: Fecha de finalización del contrato.
*   EMPLOYER_NAME: Nombre del empresario que presenta la solicitud de condiciones laborales.
*   EMPLOYER_BUSINESS_DBA: Nombre comercial o razón social del empresario que presenta la solicitud de condición laboral, si procede.
*   EMPLOYER_ADDRESS, EMPLOYER_CITY, EMPLOYER_STATE, EMPLOYER_POSTAL_CODE,EMPLOYER_COUNTRY, EMPLOYER_PROVINCE, EMPLOYER_PHONE, EMPLOYER_PHONE_EXT: Datos de contacto del empresario que solicita la certificación de trabajo temporal temporal.
*   AGENT_REPRESENTING_EMPLOYER: Y = El empresario está representado por un agente o abogado; N = El empresario no está representado por un agente o abogado.
*   AGENT_ATTORNEY_NAME: Nombre del agente o abogado que presenta una solicitud H-1B en nombre del empleador.
*   AGENT_ATTORNEY_CITY: Información de la ciudad para el Agente o Abogado que presenta una solicitud H-1B en en nombre del empleador.
*   AGENT_ATTORNEY_STATE: Datos del agente o abogado que presenta una solicitud H-1B en nombre del empleador.
*   JOB_TITLE: Título del puesto.
*   SOC_CODE: Código ocupacional asociado al puesto de trabajo para el que se solicita condición de trabajo temporal, según la clasificación del Standard Occupational (SOC).
*   Elemento de lista
*   Elemento de lista

















###****

In [None]:
# Limpieza de datos
# Se elimina la columna 'VISA_CLASS' al asumir que todas las solicitudes de visas son de tipo H1-1B 
data = data.drop('VISA_CLASS', axis = 1)

# Se calcula el porcentaje de valores faltantes para cada columna
nan_porcentajes = data.isna().mean() * 100
print(nan_porcentajes)

Unnamed: 0                       0.00
CASE_NUMBER                      0.00
CASE_STATUS                      0.00
CASE_SUBMITTED                   0.00
DECISION_DATE                    0.00
EMPLOYMENT_START_DATE            0.00
EMPLOYMENT_END_DATE              0.00
EMPLOYER_NAME                    0.00
EMPLOYER_BUSINESS_DBA           93.26
EMPLOYER_ADDRESS                 0.00
EMPLOYER_CITY                    0.00
EMPLOYER_STATE                   0.00
EMPLOYER_POSTAL_CODE             0.00
EMPLOYER_COUNTRY                15.37
EMPLOYER_PROVINCE               99.05
EMPLOYER_PHONE                  15.37
EMPLOYER_PHONE_EXT              95.33
AGENT_REPRESENTING_EMPLOYER     15.37
AGENT_ATTORNEY_NAME              0.00
AGENT_ATTORNEY_CITY             43.80
AGENT_ATTORNEY_STATE            46.49
JOB_TITLE                        0.00
SOC_CODE                         0.00
SOC_NAME                         0.00
NAICS_CODE                       0.00
TOTAL_WORKERS                    0.00
NEW_EMPLOYME

In [None]:
# Se define el parámetro de descarte en 40%, si la columna tiene más de 40% de datos faltantes, entonces se descarta
columnas = nan_porcentajes[nan_porcentajes > 40].index
data = data.drop(columnas, axis=1)

# Se completan los datos faltantes utilizando la media para columnas numéricas y la moda para columnas tipo string
for col in data.columns:
    if pd.api.types.is_numeric_dtype(data[col]):
        data[col] = data[col].fillna(data[col].median())
    elif pd.api.types.is_string_dtype(data[col]):
        data[col] = data[col].fillna(data[col].mode()[0])

# Se puede rectificar que no haya valores faltantes
nan_porcentajes = (data.isna().sum())*100/len(data)
print(nan_porcentajes)