In [2]:
import pandas as pd # Importar la librería pandas para manipulación y análisis de datos.
import seaborn as sns # Importar seaborn para la visualización de datos con gráficos estadísticos.
import matplotlib.pyplot as plt # Importar matplotlib.pyplot para crear gráficos estáticos, visualización de datos.
import os # Importar la librería os para interactuar con el sistema operativo y gestionar rutas de archivos.
from kaggle.api.kaggle_api_extended import KaggleApi # Importar la API de Kaggle para interactuar con la plataforma y descargar datasets.

In [3]:
# Comprobar si el archivo de autenticación de Kaggle (`kaggle.json`) existe en la ruta especificada.
print(os.path.exists(os.path.expanduser("~/kaggle.json"))) # Si es falso, significa que no puede encontrar la clave de autenticación.

# Establer la variable de entorno "KAGGLE_CONFIG_DIR" a la ruta donde está almacenado el archivo de configuración de Kaggle.
# Esto es necesario para que la API de Kaggle pueda encontrar el archivo de autenticación.
os.environ["KAGGLE_CONFIG_DIR"] = "C:\\Users\\Kathe\\.kaggle"  

# Crear una instancia de la clase KaggleApi para interactuar con la API de Kaggle.
api = KaggleApi()  

# Autenticar la conexión a la API de Kaggle usando el archivo de autenticación configurado en el paso anterior.
api.authenticate()



## Búsqueda y descarga de datasets de Kaggle

In [26]:
# Usamos el método `datasets_list` de la API de Kaggle para buscar datasets relacionados con "World Happiness Report".
datasets = api.datasets_list(search="gender gap") # Esto devolverá una lista de datasets que coinciden con la búsqueda.  

# Imprimimos la lista de datasets obtenida para ver los resultados de la búsqueda.
print(datasets)  



In [27]:
# Obtener la cantidad de elementos en la lista `datasets` que se han encontrado en la búsqueda.
len(datasets)  



In [28]:
# Convertir la lista de datasets en un DataFrame para manejarlo como una tabla.
df_datasets = pd.DataFrame(datasets)  

# Configurar pandas para mostrar todas las columnas al imprimir el DataFrame.
pd.set_option('display.max_columns', None)  

In [None]:
df_datasets #resultados de la búsqueda de datasets en la API de Kaggle



In [30]:
# Especificamos el nombre del dataset que queremos descargar, utilizando su 'slug' (identificador único).
dataset_slug = 'dataset-owner/dataset-name'  

# Establecemos la ruta local donde se descargará y extraerá el dataset.
download_path = "files"  

# Crear la carpeta si no existe
if not os.path.exists(download_path):
    os.makedirs(download_path)

# Función para descargar el dataset utilizando la API de Kaggle.
def get_datasets(dataset_slug):  
    try:
        # Intentamos descargar y descomprimir el archivo del dataset en la ruta especificada.
        api.dataset_download_files(dataset_slug, path=download_path, unzip=True)  
        # Imprimimos un mensaje de éxito si el dataset se descarga correctamente.
        print(f"Conjunto de datos descargado y extraído a {download_path}")  

    except Exception as e:  
        # Si ocurre un error, lo capturamos y mostramos un mensaje de error.
        print(f"Error al descargar el conjunto de datos: {e}")  

In [None]:
Dataset1 = get_datasets(df_datasets.iloc[0, 13])  

#URL: https://www.kaggle.com/datasets/nilimajauhari/glassdoor-analyze-gender-pay-gap

In [None]:
Dataset2 = get_datasets(df_datasets.iloc[1, 13])  

In [None]:
Dataset3 = get_datasets(df_datasets.iloc[2, 13]) 



In [None]:
Dataset4 = get_datasets(df_datasets.iloc[3, 13]) 



In [None]:
Dataset5 = get_datasets(df_datasets.iloc[4, 13]) 



In [None]:
Dataset6= get_datasets(df_datasets.iloc[5, 13]) 



In [None]:
Dataset7= get_datasets(df_datasets.iloc[4, 13]) 

#URL: https://www.kaggle.com/datasets/spingere/us-salary-by-race-and-sex

In [3]:
df_1 = pd.read_csv('files/1_Glassdoor Gender Pay Gap.csv')
df_1

Unnamed: 0,JobTitle,Gender,Age,PerfEval,Education,Dept,Seniority,BasePay,Bonus
0,Graphic Designer,Female,18,5,College,Operations,2,42363,9938
1,Software Engineer,Male,21,5,College,Management,5,108476,11128
2,Warehouse Associate,Female,19,4,PhD,Administration,5,90208,9268
3,Software Engineer,Male,20,5,Masters,Sales,4,108080,10154
4,Graphic Designer,Male,26,5,Masters,Engineering,5,99464,9319
...,...,...,...,...,...,...,...,...,...
995,Marketing Associate,Female,61,1,High School,Administration,1,62644,3270
996,Data Scientist,Male,57,1,Masters,Sales,2,108977,3567
997,Financial Analyst,Male,48,1,High School,Operations,1,92347,2724
998,Financial Analyst,Male,65,2,High School,Administration,1,97376,2225


In [11]:
# Count occurrences of each gender
gender_counts = df_1['Gender'].value_counts()/1000*100
print(gender_counts)

Gender
Male      53.2
Female    46.8
Name: count, dtype: float64


In [32]:
df_7 = pd.read_csv('files/7_salary_bras.csv')
df_7



## Exploración y Limpieza de los dos datasets elegidos

In [34]:
df_7.dtypes



In [38]:
# Bucle para convertir columnas float a integer
for columna in df_7.columns:
    if df_7[columna].dtype == 'float64':  # Verifica si la columna es float
        df_7[columna] = df_7[columna].astype(int)

print("\nDataFrame con columnas float convertidas a integer:")
print(df_7)
print(df_7.dtypes)



In [40]:
df_1.isnull().sum()



In [41]:
df_1.dtypes



In [43]:
df_1.head()



In [44]:
df_1.shape



In [48]:
df_1['Gender'].value_counts()



In [51]:
df_1.duplicated().sum()



In [52]:
df_1.to_csv('files/glassdoorsample.csv')
df_7.to_csv('files/race_geneder_salaries.csv')