In [1]:
# Desafío - Manipulación y transformación de datos (Parte I)


In [2]:
# 1) Para desarrollar este desafío necesitarás los siguientes archivos:
# ● incidents.pkl
# ● officers.pkl
# ● subjects.pkl


In [3]:
# a. Carga los datos y crea un DataFrame con cada uno de ellos:

import numpy as np         #  Importamos numpy y pandas.
import pandas as pd

incidents = pd.read_pickle('incidents.pkl')       # Leemos los archivos y creamos los Dataframes.
officers = pd.read_pickle('officers.pkl')
subjects = pd.read_pickle('subjects.pkl')

In [5]:
# b. Genera una tabla que contenga la unión de las 3 tablas.

# incidents con officers
merged_df = pd.merge(incidents, officers, on='case_number', how='outer', suffixes=('_incident', '_officer'))

# resultado anterior con subjects
final_df = pd.merge(merged_df, subjects, on='case_number', how='outer', suffixes=('', '_subject'))

In [6]:
# c. Verifica si hay filas duplicadas; si es así, elimínalas.

final_df.duplicated().sum() # No se registran filas duplicadas.
print(f"Existen {final_df.duplicated().sum()} cantidades de filas duplicadas.")

Existen 0 cantidades de filas duplicadas.


In [7]:
# d. ¿Cuántos sujetos de género F hay en el DataFrame resultante? hint: usa el método .value_counts() sobre la columna.


final_df['gender_subject'].value_counts()['F']
print(f"Hay {final_df['gender_subject'].value_counts()['F']} sujetos de género F en el DataFrame resultante.")

Hay 9 sujetos de género F en el DataFrame resultante.


In [8]:
# e. ¿En cuántos números de caso hay por lo menos una sospechosa que sea mujer?
# hint: utiliza el método unique() para obtener los valores únicos de una columna específica de un DataFrame luego de filtrar.

casos_con_mujeres = final_df[final_df['gender_subject'] == 'F']['case_number'].unique()
cantidad_casos = len(casos_con_mujeres)
print(f"Hay {cantidad_casos} casos en los que hay por lo menos una sospechosa mujer.")

Hay 7 casos en los que hay por lo menos una sospechosa mujer.


In [9]:
#f. Genera una tabla pivote que muestre en las filas el género del oficial y en las columnas el género del subject.
# ¿Cómo interpretas los valores que muestra esta vista?

pivot_table = final_df.pivot_table(index='gender', columns='gender_subject', aggfunc='size', fill_value=0)
pivot_table

# "Esta tabla permite identificar de forma rápida si existen combinaciones que se repiten con mayor frecuencia,
# por ejemplo, si predominan los casos en los que oficiales hombres interactúan con sujetos hombres.
# Además, facilita la detección de posibles sesgos o desequilibrios en la distribución de los datos."

gender_subject,F,M
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,2,18
M,7,350


In [10]:
# 2. Para continuar con el desarrollo de este desafío, necesitarás el archivos Cleaned_DS_Jobs.csv

In [11]:
# a. Carga los datos y crea un DataFrame con ellos.

jobs_df = pd.read_csv('Cleaned_DS_Jobs.csv')

In [12]:
# b. Utiliza la siguiente lista de valores que serán considerados como nulos:
# ["na", "NA", -1, "0", "-1", "null", "n/a", "N/A", "NULL"]
# hint: utiliza el método replace para reemplazar los valores indicados por np.nan

valores_nulos = ["na", "NA", -1, "0", "-1", "null", "n/a", "N/A", "NULL"]   # Creo una lista de valores nulos

jobs_df = jobs_df.replace(valores_nulos, np.nan)

In [13]:
# c. Elimina todas las filas con datos faltantes.
# hint: utiliza el método .dropna()

jobs_df = jobs_df.dropna()

In [14]:
# d. A partir de la columna “Salary Estimate”, genera dos columnas: Salario Estimado Mínimo y Máximo.
# (hint: Utiliza el método apply sobre la columna.)

jobs_df['Salario Estimado Mínimo'] = jobs_df['Salary Estimate'].apply(lambda x: int(x.split('-')[0]))
jobs_df['Salario Estimado Máximo'] = jobs_df['Salary Estimate'].apply(lambda x: int(x.split('-')[1]))

In [15]:
# e. Realiza la recodificación de la columna Size con los valores de la siguiente tabla:
# (hint: utilice reemplazo con diccionario usando el método replace sobre la columna.)

jobs_df['Size'] = jobs_df['Size'].replace({
    '10000+ employees': 'Mega Empresas',
    '5001 to 10000 employees': 'Grandes Empresas',
    '1001 to 5000 employees': 'Medianas Empresas',
    '201 to 500 employees': 'Pequeñas Empresas',
    '51 to 200 employees': 'Pequeñas Grandes Empresas',
    '501 to 1000 employees': 'Microempresas',
    'Unknown': 'Empresas sin Información'})

jobs_df['Size'].value_counts() # cantidad de empresas hay en cada categoría ya recodificada.

Unnamed: 0_level_0,count
Size,Unnamed: 1_level_1
Microempresas,17
Grandes Empresas,16
Pequeñas Empresas,14
Medianas Empresas,13
Pequeñas Grandes Empresas,9
Mega Empresas,9
Empresas sin Información,2


In [16]:
# f. Finalmente, genera una tabla pivote que muestre la media del salario estimado mínimo y la media del salario estimado máximo por tamaño de empresa.
# (hint: utiliza pd.pivot_table para generar la vista adecuada con las columnas generadas.)

pivot_table = pd.pivot_table(
    jobs_df,
    values=['Salario Estimado Mínimo', 'Salario Estimado Máximo'],  # Cada tamaño de empresa en las filas
    index='Size',                                                   # Las columnas Salario Estimado Mínimo y Salario Estimado Máximo.
    aggfunc='mean'                                                  # Los valores son el promedio (mean) de cada uno por categoría.
    )

pivot_table

Unnamed: 0_level_0,Salario Estimado Máximo,Salario Estimado Mínimo
Size,Unnamed: 1_level_1,Unnamed: 2_level_1
Empresas sin Información,110.5,73.0
Grandes Empresas,138.875,92.125
Medianas Empresas,137.461538,93.923077
Mega Empresas,151.111111,97.888889
Microempresas,146.235294,100.176471
Pequeñas Empresas,141.142857,93.571429
Pequeñas Grandes Empresas,137.666667,100.666667
