In [70]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [71]:
# Cargamos todos los DataFrames con los que vamos a trabajar
# Loads all the DataFrames we are going to work with.
df1 = pd.read_csv("../data/1_DataScience_salaries_2024.csv")
df2 = pd.read_csv("../data/2_ds_salaries.csv")
df3 = pd.read_csv("../data/3_jobs_in_data.csv")

# Configures pandas to display all columns
pd.set_option('display.max_columns', None)

# Configuramos pandas para que muestre todas las columnas
pd.set_option('display.max_columns', None)

## DF1

In [72]:
print(df1.info()) # Vemos si hay nulos y el tipo de los datos de cada columna

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 42 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   index               742 non-null    int64  
 1   Job Title           742 non-null    object 
 2   Salary Estimate     742 non-null    object 
 3   Job Description     742 non-null    object 
 4   Rating              742 non-null    float64
 5   Company Name        742 non-null    object 
 6   Location            742 non-null    object 
 7   Headquarters        742 non-null    object 
 8   Size                742 non-null    object 
 9   Founded             742 non-null    int64  
 10  Type of ownership   742 non-null    object 
 11  Industry            742 non-null    object 
 12  Sector              742 non-null    object 
 13  Revenue             742 non-null    object 
 14  Competitors         742 non-null    object 
 15  Hourly              742 non-null    int64  
 16  Employer

In [73]:
df1_cleaned = df1[['Job Title', 'Location', 'Size', 'Avg Salary(K)']] # Me quedo solo con las columnas que me interesan
df1_cleaned.loc[:, 'Size'] = df1_cleaned['Size'].str.strip()
print(df1_cleaned.Size.value_counts())
df1_cleaned.head(5)

Size
1001 - 5000     150
501 - 1000      134
10000+          130
201 - 500       117
51 - 200         94
5001 - 10000     76
1 - 50           31
unknown          10
Name: count, dtype: int64


Unnamed: 0,Job Title,Location,Size,Avg Salary(K)
0,Data Scientist,"Albuquerque, NM",501 - 1000,72.0
1,Healthcare Data Scientist,"Linthicum, MD",10000+,87.5
2,Data Scientist,"Clearwater, FL",501 - 1000,85.0
3,Data Scientist,"Richland, WA",1001 - 5000,76.5
4,Data Scientist,"New York, NY",51 - 200,114.5


In [74]:
# Simplificamos la columna 'Size' en 3 variables S (Small), M (Medium), L (Large)

# Definición de los Rangos
#   Small (S): 1-50, 51-200
#   Medium (M): 201-500, 501-1000
#   Large (L): 1001-5000, 5001-10000, 10000+

# Defino una función para transformar los tamaños de empresa a 'S', 'M' o 'L'
def categorize_size(size):
    if size in ['1 - 50', '51 - 200']:
        return 'S'
    elif size in ['201 - 500', '501 - 1000']:
        return 'M'
    elif size in ['1001 - 5000', '5001 - 10000', '10000+']:
        return 'L'
    else:
        return 'unknown'

# Aplicamos la función a la columna 'Size' para crear una nueva columna 'Company Size'
df1_cleaned.loc[:, 'Company Size'] = df1_cleaned['Size'].apply(categorize_size)
df1_cleaned.head(5)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1_cleaned.loc[:, 'Company Size'] = df1_cleaned['Size'].apply(categorize_size)


Unnamed: 0,Job Title,Location,Size,Avg Salary(K),Company Size
0,Data Scientist,"Albuquerque, NM",501 - 1000,72.0,M
1,Healthcare Data Scientist,"Linthicum, MD",10000+,87.5,L
2,Data Scientist,"Clearwater, FL",501 - 1000,85.0,M
3,Data Scientist,"Richland, WA",1001 - 5000,76.5,L
4,Data Scientist,"New York, NY",51 - 200,114.5,S


In [75]:
# La columna 'Location' incluye la ciudad y el estado en el formato "Ciudad, Estado"
# Creo una columna en la que solo se incluya el estado
df1_cleaned.loc[:, 'State'] = df1_cleaned['Location'].str.split(",", expand = True)[1]
df1_cleaned.State.value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1_cleaned.loc[:, 'State'] = df1_cleaned['Location'].str.split(",", expand = True)[1]


State
CA             151
MA             103
NY              72
VA              41
IL              40
MD              35
PA              33
TX              28
WA              21
NC              21
NJ              17
FL              16
OH              14
TN              13
DC              11
CO              11
IN              10
WI              10
UT              10
AZ               9
MO               9
AL               8
DE               6
KY               6
MI               6
GA               6
IA               5
CT               5
NE               4
OR               4
LA               4
NM               3
KS               3
MN               2
ID               2
Los Angeles      1
RI               1
SC               1
Name: count, dtype: int64

In [76]:
# Cambiamos el estado 'Los Angeles' por 'LA'
df1_cleaned.Location.value_counts()

Location
New York, NY         55
San Francisco, CA    49
Cambridge, MA        47
Chicago, IL          32
Boston, MA           23
                     ..
Watertown, MA         1
Cambridge, MD         1
Irvine, CA            1
Ann Arbor, MI         1
Olympia, WA           1
Name: count, Length: 200, dtype: int64

## DF4

In [80]:
print(df4.info()) # Vemos si hay nulos y el tipo de los datos de cada columna
df4.head(5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3755 entries, 0 to 3754
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           3755 non-null   int64 
 1   experience_level    3755 non-null   object
 2   employment_type     3755 non-null   object
 3   job_title           3755 non-null   object
 4   salary              3755 non-null   int64 
 5   salary_currency     3755 non-null   object
 6   salary_in_usd       3755 non-null   int64 
 7   employee_residence  3755 non-null   object
 8   remote_ratio        3755 non-null   int64 
 9   company_location    3755 non-null   object
 10  company_size        3755 non-null   object
dtypes: int64(4), object(7)
memory usage: 322.8+ KB
None


Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M


In [90]:
print(df4.experience_level.value_counts(), '\n'*2, df4.employment_type.value_counts(), '\n'*2, df4.job_title.value_counts(), '\n'*2, df4.salary_currency.value_counts(), '\n'*2, df4.employee_residence.value_counts(), '\n'*2, df4.company_location.value_counts())

experience_level
SE    2516
MI     805
EN     320
EX     114
Name: count, dtype: int64 

 employment_type
FT    3718
PT      17
CT      10
FL      10
Name: count, dtype: int64 

 job_title
Data Engineer                1040
Data Scientist                840
Data Analyst                  612
Machine Learning Engineer     289
Analytics Engineer            103
                             ... 
Principal Data Architect        1
Head of Machine Learning        1
Cloud Data Architect            1
Staff Data Scientist            1
Finance Data Analyst            1
Name: count, Length: 93, dtype: int64 

 salary_currency
USD    3224
EUR     236
GBP     161
INR      60
CAD      25
AUD       9
BRL       6
SGD       6
PLN       5
CHF       4
TRY       3
HUF       3
DKK       3
JPY       3
THB       2
HKD       1
ILS       1
CZK       1
MXN       1
CLP       1
Name: count, dtype: int64 

 employee_residence
US    3004
GB     167
CA      85
ES      80
IN      71
      ... 
RS       1
NZ       1
MD  

#### Descripción de lo que representa cada columna del dataset:

- work_year: Año en el que se realizó el trabajo o se obtuvo el salario registrado.

- experience_level: Nivel de experiencia del empleado. Se codifica de la siguiente manera:
    - EN: Entry-level / Junior.
    - MI: Mid-level / Intermediate.
    - SE: Senior-level / Expert.
    - EX: Executive-level / Director.

- employment_type: Tipo de empleo, indicando si es a tiempo completo, a tiempo parcial, etc. Se codifica de la siguiente manera:
    - FT: Full-time (Tiempo completo).
    - PT: Part-time (Medio tiempo).
    - CT: Contract (Contrato).
    - FL: Freelance (Autónomo).

- job_title: Título del trabajo o puesto del empleado.   
Ejemplo: Data Scientist, Machine Learning Engineer...

- salary: Salario bruto del empleado, sin conversiones de moneda.

- salary_currency: Moneda en la que se paga el salario.
Ejemplo: USD (dólar estadounidense), EUR (euro), GBP (libra esterlina)...

- salary_in_usd: Salario convertido a dólares estadounidenses (USD) para facilitar la comparación.

- employee_residence: País de residencia del empleado.
Ejemplo: US (Estados Unidos), ES (España)...

- remote_ratio: Proporción del trabajo que se realiza de forma remota. Se codifica de la siguiente manera:
    - 0: Sin trabajo remoto.
    - 50: Trabajo remoto parcial.
    - 100: Trabajo remoto completo.

- company_location: País en el que se encuentra la sede de la empresa.
Ejemplo: US (Estados Unidos), ES (España)...

- company_size: Tamaño de la empresa, normalmente indicado por el número de empleados. Las categorías ncluyen:
    - S: Small (Pequeña) - 1 a 50 empleados.
    - M: Medium (Mediana) - 51 a 250 empleados.
    - L: Large (Grande) - Más de 250 empleados.

In [None]:
set(df4.company_location)

{'AE',
 'AL',
 'AM',
 'AR',
 'AS',
 'AT',
 'AU',
 'BA',
 'BE',
 'BO',
 'BR',
 'BS',
 'CA',
 'CF',
 'CH',
 'CL',
 'CN',
 'CO',
 'CR',
 'CZ',
 'DE',
 'DK',
 'DZ',
 'EE',
 'EG',
 'ES',
 'FI',
 'FR',
 'GB',
 'GH',
 'GR',
 'HK',
 'HN',
 'HR',
 'HU',
 'ID',
 'IE',
 'IL',
 'IN',
 'IQ',
 'IR',
 'IT',
 'JP',
 'KE',
 'LT',
 'LU',
 'LV',
 'MA',
 'MD',
 'MK',
 'MT',
 'MX',
 'MY',
 'NG',
 'NL',
 'NZ',
 'PH',
 'PK',
 'PL',
 'PR',
 'PT',
 'RO',
 'RU',
 'SE',
 'SG',
 'SI',
 'SK',
 'TH',
 'TR',
 'UA',
 'US',
 'VN'}