# Desafío - Manipulación y transformación de datos (Parte I) - Maria Laura Oyarce

### 1. Para desarrollar este desafío necesitarás los siguientes archivos:
● incidents.pkl

● ocers.pkl

● subjects.pkl

a. Carga los datos y crea un DataFrame con cada uno de ellos

In [1]:
import pandas as pd

#Cargamos los datos utilizando la funcion read_pickle del paquete pandas
df_incidents = pd.read_pickle('incidents.pkl')
df_officers = pd.read_pickle('officers.pkl')
df_subjects = pd.read_pickle('subjects.pkl')

#Verificamos las columnas de cada dataframe creado
print ('df_incidents',df_incidents.head())
print ('df_officers',df_officers.head())
print ('df_subjects', df_subjects.head())

df_incidents   case_number        date                  location subject_statuses  \
0      44523A  2013-02-23     3000 Chihuahua Street          Injured   
1     121982X  2010-05-03  1300 N. Munger Boulevard          Injured   
2     605484T  2007-08-12   200 S. Stemmons Freeway            Other   
3     384832T  2007-05-26           7900 S. Loop 12   Shoot and Miss   
4     244659R  2006-04-03        6512 South Loop 12          Injured   

  subject_weapon                                           subjects  \
0        Handgun                                   Curry, James L/M   
1        Handgun                                Chavez, Gabriel L/M   
2        Shotgun                                  Salinas, Nick L/M   
3        Unarmed  Smith, James B/M; Dews, Antonio B/M; Spearman,...   
4          Hands                                 Watkins, Caleb B/M   

   subject_count                                   officers  officer_count  \
0              1  Patino, Michael L/M; Fillingim,

b. Genera una tabla que contenga la unión de las 3 tablas. hint: utiliza sufijos para las columnas que se llaman igual usando el parámetro suffixes de pd.merge().

In [2]:
#Unimos los primeros 2 dataframes (incidents y officers)
df_merged = pd.merge(df_incidents, df_officers, on='case_number', suffixes=('_incident', '_officer'))

#El dataframe resultante del primer paso lo unimos con el tercer df subjects
df_final = pd.merge(df_merged, df_subjects, on='case_number', suffixes=('', '_subject'))

#Mostramos el dataframe unido
print('DataFrame Final unido:')
print(df_final.columns)

DataFrame Final unido:
Index(['case_number', 'date', 'location', 'subject_statuses', 'subject_weapon',
       'subjects', 'subject_count', 'officers', 'officer_count',
       'grand_jury_disposition', 'attorney_general_forms_url', 'summary_url',
       'summary_text', 'latitude', 'longitude', 'race', 'gender', 'last_name',
       'first_name', 'full_name', 'race_subject', 'gender_subject',
       'last_name_subject', 'first_name_subject', 'full_name_subject'],
      dtype='object')


c. Verica si hay filas duplicadas; si es así, elimínalas.

In [3]:
#Revisamos si hay duplicados
df_final[df_final.duplicated()]

Unnamed: 0,case_number,date,location,subject_statuses,subject_weapon,subjects,subject_count,officers,officer_count,grand_jury_disposition,...,race,gender,last_name,first_name,full_name,race_subject,gender_subject,last_name_subject,first_name_subject,full_name_subject


En este caso no hay filas duplicadas, pero si las hubiera habría que eliminarlas con el siguiente comando:

df_final = df_final.drop_duplicates()

d. ¿Cuántos sujetos de género F hay en el DataFrame resultante? hint: usa el método .value_counts() sobre la columna

In [4]:
#Contamos valores en la columna de género del subject
gender_counts = df_final.value_counts(subset='gender_subject')
num_female_subjects = gender_counts.get('F')
print('Número de sujetos de género F:', num_female_subjects)

Número de sujetos de género F: 9


e. ¿En cuántos números de caso hay por lo menos una sospechosa que sea mujer? hint: utiliza el método unique() para obtener los valores únicos de una columna específica de un DataFrame luego de filtrar.

In [5]:
#Filtramos los casos con sospechosas mujeres
cases_with_female = df_final[df_final['gender_subject'] == 'F']['case_number'].nunique()
print('Número de casos con al menos una sospechosa mujer:', cases_with_female)

Número de casos con al menos una sospechosa mujer: 7


En este caso, obtenemos una cantidad menor que en la pregunta 1.d, ya que es probable que un mismo caso tenga más de una sospechosa mujer. Sin embargo, en esta pregunta solo nos interesa contar el número de casos únicos y no el total de sospechosas.

f. Genera una tabla pivote que muestre en las filas el género del oficial y en las columnas el género del subject. ¿Cómo interpretas los valores que muestra esta vista?

In [6]:
#Creamos la tabla pivote con la funcion pivot_table()
# Crear tabla pivote
pivot_table = pd.pivot_table(
    df_final, 
    index='gender', 
    columns='gender_subject', 
    aggfunc='size')#Con esta función contamos la cantidad total de filas que cumplen las combinaciones especificadas


print('Tabla Pivote:')
print(pivot_table)
#Ejemplo de la función size:
#Si un oficial tiene género M y el sujeto tiene género F, cuenta cuántas veces aparece esta combinación en el dataframe.

Tabla Pivote:
gender_subject  F    M
gender                
F               2   18
M               7  350


Este resultado nos muestra un resumen de las combinaciones entre el género del oficial y el género del sospechoso:

- Hay 2 casos en donde el oficial es mujer y el sospechoso tambien es mujer.

- Hay 18 casos en donde el oficial es mujer y el sospechoso es hombre.

- Hay 7 casos en donde el oficial es hombre y el sospechoso es mujer.

- Hay 350 casos en donde el oficial es hombre y el sospechoso también es hombre.

### 2. Para continuar con el desarrollo de este desafío, necesitarás el archivos Cleaned_DS_Jobs.csv

a. Carga los datos y crea un DataFrame con ellos.

In [7]:
import numpy as np

#Cargamos el archivo
df_jobs = pd.read_csv('Cleaned_DS_Jobs.csv')
df_jobs.head()

Unnamed: 0,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Type of ownership,Industry,...,company_age,python,excel,hadoop,spark,aws,tableau,big_data,job_simp,seniority
0,Sr Data Scientist,137-171,Description\n\nThe Senior Data Scientist is re...,3.1,Healthfirst,"New York, NY","New York, NY",1001 to 5000 employees,Nonprofit Organization,Insurance Carriers,...,27,0,0,0,0,1,0,0,data scientist,senior
1,Data Scientist,137-171,"Secure our Nation, Ignite your Future\n\nJoin ...",4.2,ManTech,"Chantilly, VA","Herndon, VA",5001 to 10000 employees,Company - Public,Research & Development,...,52,0,0,1,0,0,0,1,data scientist,na
2,Data Scientist,137-171,Overview\n\n\nAnalysis Group is one of the lar...,3.8,Analysis Group,"Boston, MA","Boston, MA",1001 to 5000 employees,Private Practice / Firm,Consulting,...,39,1,1,0,0,1,0,0,data scientist,na
3,Data Scientist,137-171,JOB DESCRIPTION:\n\nDo you have a passion for ...,3.5,INFICON,"Newton, MA","Bad Ragaz, Switzerland",501 to 1000 employees,Company - Public,Electrical & Electronic Manufacturing,...,20,1,1,0,0,1,0,0,data scientist,na
4,Data Scientist,137-171,Data Scientist\nAffinity Solutions / Marketing...,2.9,Affinity Solutions,"New York, NY","New York, NY",51 to 200 employees,Company - Private,Advertising & Marketing,...,22,1,1,0,0,0,0,0,data scientist,na


b. Utiliza la siguiente lista de valores que serán considerados como nulos: ["na", "NA", -1, "0", "-1", "null", "n/a", "N/A", "NULL"] (hint: utiliza el método replace para reemplazar los valores indicados por np.nan)

In [8]:
null_values = ["na", "NA", -1, "0", "-1", "null", "n/a", "N/A", "NULL"]
#Reemplazamos los valores nulos
df_jobs.replace(null_values, np.nan, inplace=True)

#Verificamos si se reemplazaron correctamente
df_jobs.head()
#En la última columna que se muestra, 'seniority', podemos notar que cambió de "na" a "NaN"

Unnamed: 0,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Type of ownership,Industry,...,company_age,python,excel,hadoop,spark,aws,tableau,big_data,job_simp,seniority
0,Sr Data Scientist,137-171,Description\n\nThe Senior Data Scientist is re...,3.1,Healthfirst,"New York, NY","New York, NY",1001 to 5000 employees,Nonprofit Organization,Insurance Carriers,...,27.0,0,0,0,0,1,0,0,data scientist,senior
1,Data Scientist,137-171,"Secure our Nation, Ignite your Future\n\nJoin ...",4.2,ManTech,"Chantilly, VA","Herndon, VA",5001 to 10000 employees,Company - Public,Research & Development,...,52.0,0,0,1,0,0,0,1,data scientist,
2,Data Scientist,137-171,Overview\n\n\nAnalysis Group is one of the lar...,3.8,Analysis Group,"Boston, MA","Boston, MA",1001 to 5000 employees,Private Practice / Firm,Consulting,...,39.0,1,1,0,0,1,0,0,data scientist,
3,Data Scientist,137-171,JOB DESCRIPTION:\n\nDo you have a passion for ...,3.5,INFICON,"Newton, MA","Bad Ragaz, Switzerland",501 to 1000 employees,Company - Public,Electrical & Electronic Manufacturing,...,20.0,1,1,0,0,1,0,0,data scientist,
4,Data Scientist,137-171,Data Scientist\nAffinity Solutions / Marketing...,2.9,Affinity Solutions,"New York, NY","New York, NY",51 to 200 employees,Company - Private,Advertising & Marketing,...,22.0,1,1,0,0,0,0,0,data scientist,


c. Elimina todas las filas con datos faltantes. (hint: utiliza el método .dropna())

In [9]:
#Verificamos datos antes de limpiar
print('Tamaño antes de limpiar:', df_jobs.shape)

Tamaño antes de limpiar: (660, 27)


In [10]:
#Eliminamos filas con datos faltantes
df_jobs_cleaned = df_jobs.dropna() #si fuera por columna hay que agregar axis = 1 (default es 0)

#Verificamos datos después de limpiar
print('Tamaño después de limpiar:', df_jobs_cleaned.shape)

Tamaño después de limpiar: (80, 27)


d. A partir de la columna “Salary Estimate”, genera dos columnas: Salario Estimado Mínimo y Máximo. (hint: Utiliza el método apply sobre la columna.)

In [11]:
#Vamos a crear las columnas de salarion min y max con las funciones lambda:
df_jobs_cleaned['salario_min'] = df_jobs_cleaned['Salary Estimate'].apply(
    lambda x: float(x.split('-')[0].strip()) if '-' in x else np.nan)
#Como en la columna de Salary Estimate viene un rango, tenemos que separar los números (split) para extraer el min y max
df_jobs_cleaned['salario_max'] = df_jobs_cleaned['Salary Estimate'].apply(
    lambda x: float(x.split('-')[1].strip()) if '-' in x else np.nan)

# Verificar las nuevas columnas
print (df_jobs_cleaned['Salary Estimate'].head())
print (df_jobs_cleaned['salario_min'].head())
print (df_jobs_cleaned['salario_max'].head())

0     137-171 
32     75-131 
38     75-131 
45     75-131 
54     75-131 
Name: Salary Estimate, dtype: object
0     137.0
32     75.0
38     75.0
45     75.0
54     75.0
Name: salario_min, dtype: float64
0     171.0
32    131.0
38    131.0
45    131.0
54    131.0
Name: salario_max, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_jobs_cleaned['salario_min'] = df_jobs_cleaned['Salary Estimate'].apply(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_jobs_cleaned['salario_max'] = df_jobs_cleaned['Salary Estimate'].apply(


e. Realiza la recodificación de la columna Size con los valores de la siguiente tabla: (hint: utilice reemplazo con diccionario usando el método replace sobre la columna.)

<img src='tabla.png'>

In [12]:
df_jobs_cleaned['Size'].head()

0     1001 to 5000 employees
32    1001 to 5000 employees
38     501 to 1000 employees
45      201 to 500 employees
54      201 to 500 employees
Name: Size, dtype: object

In [13]:
#Creamos el diccionario para recodificar la columna "Size"
size_mapping = {"10000+ employees": "Mega Empresas",
    "5001 to 10000 employees": "Grandes Empresas",
    "1001 to 5000 employees": "Medianas Empresas",
    "201 to 500 employees": "Pequeñas Empresas",
    "51 to 200 employees": "Pequeñas Grandes Empresas",
    "501 to 1000 employees": "Microempresas",
    "Unknown": "Empresas sin Información"}

#Cambiamos los valores
df_jobs_cleaned['Size'] = df_jobs_cleaned['Size'].replace(size_mapping)

#Verificamos los cambios
df_jobs_cleaned['Size'].head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_jobs_cleaned['Size'] = df_jobs_cleaned['Size'].replace(size_mapping)


0     Medianas Empresas
32    Medianas Empresas
38        Microempresas
45    Pequeñas Empresas
54    Pequeñas Empresas
Name: Size, dtype: object

f. Finalmente, genera una tabla pivote que muestre la media del salario estimado mínimo y la media del salario estimado máximo por tamaño de empresa. (hint: utiliza pd.pivot_table para generar la vista adecuada con las columnas generadas.)

In [14]:
#Creamos la tabla pivote
pivot_jobs = pd.pivot_table(
    df_jobs_cleaned, 
    index='Size', 
    values=['salario_min','salario_max'], 
    aggfunc='mean')#aplicamos la funcion mean para calcular la media o promedio

print(pivot_jobs)

                           salario_max  salario_min
Size                                               
Empresas sin Información    110.500000    73.000000
Grandes Empresas            138.875000    92.125000
Medianas Empresas           137.461538    93.923077
Mega Empresas               151.111111    97.888889
Microempresas               146.235294   100.176471
Pequeñas Empresas           141.142857    93.571429
Pequeñas Grandes Empresas   137.666667   100.666667


P.D: Los Warning que me aparecen en las ultimas preguntas son porque estoy modificando un df que es una "vista" de otro df (resultado del dropna()). Pero como solo es un warning lo ignoré jeje.