# **Exploración dataset "Freelancers"**
En este notebook vamos a explorar el dataset que hemos descargado de "Kaggle", el cual recoge los datos de freelancers de todo el mundo.

### 1. Importar las librerias que vamos a usar.

In [2]:
import pandas as pd

### 2. Carga del dataset.
Una vez que tenemos cargado el dataset, es importante que hagamos lo siguiente:
- Ver la cantidad de filas y columnas que tenemos.
- Que tipo de información tenemos en cada columna, que significa cada una y si hará falta hacer alguna transformación posteriormente.

In [5]:
df_original = pd.read_csv("../data/global_freelancers_raw.csv")
df = df_original.copy()

In [3]:
df.sample(5)

Unnamed: 0,freelancer_ID,name,gender,age,country,language,primary_skill,years_of_experience,hourly_rate (USD),rating,is_active,client_satisfaction
545,FL250546,Melanie Baird,f,20.0,Turkey,Turkish,Mobile Apps,0.0,100,0.0,0,63
585,FL250586,Charles Martinez,M,32.0,Mexico,Spanish,UI/UX Design,9.0,USD 40,1.3,True,83%
718,FL250719,Kathy Grimes,female,27.0,Brazil,Portuguese,Mobile Apps,8.0,$50,1.6,yes,
445,FL250446,Daniel Terry,m,24.0,Egypt,Arabic,DevOps,6.0,$75,4.3,yes,
597,FL250598,Willie Clark,M,48.0,Argentina,Spanish,Web Development,18.0,75,0.0,0,80%


In [26]:
df.columns

Index(['freelancer_ID', 'name', 'gender', 'age', 'country', 'language',
       'primary_skill', 'years_of_experience', 'hourly_rate (USD)', 'rating',
       'is_active', 'client_satisfaction'],
      dtype='object')

En este dataset contamos con una estructura de 1000 filas y 12 columnas

In [4]:
df.shape

(1000, 12)

En cuanto al tipo de información que tenemos en cada columna, aqui tenemos una visión general de nuestro dataset que hemos importado.

**¿Qué podemos observar aquí?**

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   freelancer_ID        1000 non-null   object 
 1   name                 1000 non-null   object 
 2   gender               1000 non-null   object 
 3   age                  970 non-null    float64
 4   country              1000 non-null   object 
 5   language             1000 non-null   object 
 6   primary_skill        1000 non-null   object 
 7   years_of_experience  949 non-null    float64
 8   hourly_rate (USD)    906 non-null    object 
 9   rating               899 non-null    float64
 10  is_active            911 non-null    object 
 11  client_satisfaction  824 non-null    object 
dtypes: float64(3), object(9)
memory usage: 93.9+ KB


Antes de analizar el tipo de formato de cada columna, tenemos que entender que es cada una:
- **freelancer_ID** : Es el código de referencia de cada trabajador.
- **name** : Nombre del trabajador.
- **gender** : Sexo del trabajador (Masculino, femenino u otros.)
- **age** : Edad del trabajador
- **country** : Pais de procedencia.
- **language** : Idioma.
- **primary_skill** : A que se dedica el trabajador.
- **years_of_experience** : Años de experiencia realizando ese trabajo.
- **hourly_rate (USD)** : Cuanto cobra por hora, en dolares.
- **rating** : La puntuación que ha recibido por el trabajo que ha realizado.
- **is_active** : Si está trabajando o no (si no está trabajando, puede ser por diferentes motivos: retirado, baja temporal,etc.)
- **client_satisfaction** : Como de satisfecho ha quedado el cliente con el trabajo que ha realizado.


Ahora que sabemos que es cada columna, podemos indagar más en el tipo de formato de cada una de ellas y si son coherentes:


#### Columnas: **freelancer_ID**, **name** y **gender**
- Muestra de Valores

In [6]:
df[["freelancer_ID", "name", "gender"]].sample(5)

Unnamed: 0,freelancer_ID,name,gender
337,FL250338,Lori Miller,Female
688,FL250689,Megan Hudson,f
168,FL250169,Anthony Larsen,MALE
462,FL250463,Nicole York,female
660,FL250661,Leah Harris,F


In [7]:
df["freelancer_ID"].map(type).unique()

array([<class 'str'>], dtype=object)

In [8]:
df["name"].map(type).unique()

array([<class 'str'>], dtype=object)

In [9]:
df["gender"].map(type).unique()

array([<class 'str'>], dtype=object)

- Tipo de dato: Object (string)
- Observaciones: Aunque las tres tienes valores tipo string, la columna *gender* contiene varios formatos diferentes para referirse a si es "Male" o "Female", esto es algo que tendremos que cambiar posteriormente para que todos los valores sean iguales.

#### Columna: **age**
- Muestra de Valores

In [10]:
df["age"].sample(5)

844    54.0
291    27.0
263    42.0
866    55.0
459    27.0
Name: age, dtype: float64

- Tipo: Float64 (contiene NaN)
- Observaciones: Aunque la edad conceptualmente es un valor entero, pandas convierte la columna a *float64* debido a que contiene valores tipo *NaN*, los cuales posteriormente veremos si estos valores faltantes son relevantes y si deberiamos imputarlos, transformarlos o dejarlos como valores *NaN* 

#### Columnas: **country**, **language** y **primary_skill**
- Muestra de valores

In [11]:
df[["country", "language", "primary_skill"]].sample(5)

Unnamed: 0,country,language,primary_skill
29,Netherlands,Dutch,Data Analysis
763,India,Hindi,Blockchain Development
436,India,Hindi,Cybersecurity
392,Italy,Italian,DevOps
989,Australia,English,Graphic Design


In [12]:
df["country"].map(type).unique()

array([<class 'str'>], dtype=object)

In [13]:
df["language"].map(type).unique()

array([<class 'str'>], dtype=object)

In [14]:
df["primary_skill"].map(type).unique()

array([<class 'str'>], dtype=object)

- Tipo de dato: Object (string)
- Observaciones: Columna limpia, sin valores faltantes, tipo correcto.

#### Columna: **years_of_experience**
- Muestra de valores

In [15]:
df["years_of_experience"].sample(5)

57     17.0
519     2.0
860    12.0
318    17.0
903    19.0
Name: years_of_experience, dtype: float64

- Tipo: Float64 (contiene NaN)
- Observaciones: Igual que la columna "age", los valores de los años deberían ser valores enteros, pero al haber valores *NaN*, pandas convierte la columna en tipo *float64*. Los valores *NaN* los revisaremos posteriormente para ver si debemos transformarlos o no.

#### Columna: **hourly_rate (USD)**
- Muestra de datos

In [16]:
df["hourly_rate (USD)"].sample(5)

732       100
411       $50
282    USD 20
746       $40
839        30
Name: hourly_rate (USD), dtype: object

In [17]:
df['hourly_rate (USD)'].map(type).unique()

array([<class 'str'>, <class 'float'>], dtype=object)

- Tipo: Object (string, float64)
- Observaciones: En un principio, esta columna debería corresponder a un valor númerico. Si indagamos un poco más, podemos ver que tenemos dos tipos de valores:
    - Tipo *string*, debido a que podemos encontrar con cada valor entero tanto el simbolo "$", como "USD".
    - Tipo *float64*, puesto que podemos encontrar valores *NaN*

    Posteriormente, debemos limpiar los valores tipo *string* y convertirlos en un valor numérico. Además de analizar los *NaN* que tenemos para ver si son relevantes o no.

#### Columna: **rating**
- Muestra de valores

In [18]:
df["rating"].sample(5)

375    2.3
957    1.6
542    0.0
389    4.4
456    2.0
Name: rating, dtype: float64

- Tipo de dato: float64 (contiene NaN)
- Observaciones: Tipo correcto, con valores faltantes que analizaremos posteriormente.

#### Columna: **is_active**
- Muestra de valores

In [19]:
df["is_active"].sample(5)

841    1
386    Y
248    1
506    0
870    N
Name: is_active, dtype: object

In [20]:
df["is_active"].unique()

array(['0', '1', 'N', 'False', 'True', 'yes', 'Y', nan, 'no'],
      dtype=object)

In [21]:
df["is_active"].map(type).unique()

array([<class 'str'>, <class 'float'>], dtype=object)

- Tipo: Object (string, float64)
- Observaciones: Aunque principalmente tenemos valores tipo *string* (los cuales vamos a tener que transformar posteriormente debido a que combina numeros, True/False y letras para decir si está activo o no), tambien tenemos valores tipo *float64* que corresponden a valores *NaN*.

#### Columna: **client_satisfaction**
- Muestra de valores

In [22]:
df["client_satisfaction"].sample(5)

36     63%
728     73
750    83%
182    97%
345    66%
Name: client_satisfaction, dtype: object

In [23]:
df['client_satisfaction'].map(type).unique()

array([<class 'float'>, <class 'str'>], dtype=object)

- Tipo: Object (string, float64)
- Observaciones: Posteriormente tendremos que limpiar los valores que contengan el simbolo "%" y convertirlos a valor numérico. También podemos ver que tenemos valores *NaN*, los cuales tendrán que ser analizados para ver si son relevantes o no y si es necesario tranformarlos o no.

### 3 Exploración del dataset.

Una vez que ya sabemos que tipos de datos tenemos, ya podemos hacer una exploración más profunda.

¿Qué tenemos que mirar?:
- ¿Tenemos **valores nulos**?. Y si los tenemos, ¿qué porcentaje de nulos tenemos?, ¿son relevantes para nuestro analisis? y si son relevantes, ¿tendriamos que imputarlos, transformarlos o dejarlos como *NaN*?
- ¿Hay **duplicados**?. Y si hay duplicados, ¿que tipos de duplicados tenemos y son relevantes para nuestro analisis?
- Tambien tenemos que ver el **rango de las variables**.
- ¿Hay **incoherencias**? Como por ejemplo: valores imposibles, valores fuera de rango, contradicciones entre columnas o valores con un formato erroneo.
- **Distribución** inicial de columnas, ¿tenemos outliers?

Lo vamos a analizar columna por columna, para que sea mas limpio y queda claro. Pero antes, vamos a hacer una función para calcular el *%* de valores *NaN* (en el caso de tenerlos).

In [18]:
df.sample()

Unnamed: 0,freelancer_ID,name,gender,age,country,language,primary_skill,years_of_experience,hourly_rate (USD),rating,is_active,client_satisfaction,num
804,FL250805,Mark Ward,male,23.0,Germany,German,AI,4.0,50,4.5,N,98%,250805


In [45]:
def porcentaje_nan (col):
    porcentaje = df[col].isna().sum()/len(df)*100
    return porcentaje

Columna: **freelancer_ID**

In [None]:
df["freelancer_ID"].isna().sum()

np.int64(0)

In [None]:
df["freelancer_ID"].describe()

count         1000
unique        1000
top       FL250001
freq             1
Name: freelancer_ID, dtype: object

In [None]:
df[~df['freelancer_ID'].str.match(r'^FL\d{6}$')]

Unnamed: 0,freelancer_ID,name,gender,age,country,language,primary_skill,years_of_experience,hourly_rate (USD),rating,is_active,client_satisfaction


En la columna **freelancer_ID**:
- Sin valores *NaN*
- Sin duplicados, por lo tanto cada identificador pertenecer una persona diferente.
- El rango no aplica en esta columna, debido a que no es una variable numérica.
- No hay incoherencias, todas siguen un mismo patrón (ej: FL250001).
- La distribución/frecuencia es de 1 para cada valor, estamos hablando de que la columna es un identificador único. 

In [19]:
df["name"].isna().sum()

np.int64(0)

In [20]:
df["name"].duplicated().sum()

np.int64(8)

In [32]:
duplicados = df["name"].duplicated(keep=False)
df.loc[duplicados].sort_values(by="name", ascending= False)

Unnamed: 0,freelancer_ID,name,gender,age,country,language,primary_skill,years_of_experience,hourly_rate (USD),rating,is_active,client_satisfaction,num
241,FL250242,Sarah Ho,female,32.0,Mexico,Spanish,AI,1.0,100,4.7,0,67%,250242
885,FL250886,Sarah Ho,F,33.0,Netherlands,Dutch,UI/UX Design,6.0,$50,3.1,no,90%,250886
217,FL250218,Robert Evans,M,39.0,South Korea,Korean,Web Development,14.0,USD 100,0.0,Y,92%,250218
912,FL250913,Robert Evans,MALE,49.0,South Africa,Afrikaans,Data Analysis,,$30,,yes,74%,250913
89,FL250090,Matthew Smith,m,32.0,India,Hindi,Mobile Apps,10.0,$20,2.4,0,86%,250090
192,FL250193,Matthew Smith,MALE,41.0,Italy,Italian,DevOps,,$30,1.4,False,74%,250193
377,FL250378,Mary Brown,female,23.0,Germany,German,Machine Learning,4.0,USD 20,4.7,True,84%,250378
694,FL250695,Mary Brown,FEMALE,53.0,South Africa,Afrikaans,Graphic Design,35.0,,0.0,1,67%,250695
5,FL250006,Lisa Johnson,female,59.0,Netherlands,Dutch,AI,14.0,$30,2.4,False,,250006
689,FL250690,Lisa Johnson,Female,52.0,Canada,English,UI/UX Design,25.0,100,4.8,N,,250690


In [33]:
df.loc[df["name"].str.contains(r'[^a-zA-Z\s]', regex=True)]

Unnamed: 0,freelancer_ID,name,gender,age,country,language,primary_skill,years_of_experience,hourly_rate (USD),rating,is_active,client_satisfaction,num
0,FL250001,Ms. Nicole Kidd,f,52.0,Italy,Italian,Blockchain Development,11.0,100,,0,,250001
46,FL250047,Mrs. Samantha Simmons,Female,47.0,Egypt,Arabic,DevOps,15.0,USD 30,4.5,1,85%,250047
144,FL250145,Steven Jones Jr.,m,56.0,France,French,UI/UX Design,21.0,USD 100,0.0,True,78,250145
208,FL250209,William Moore Jr.,male,36.0,China,Mandarin,Machine Learning,11.0,$75,3.2,0,93,250209
232,FL250233,Michael Williams Jr.,m,20.0,France,French,Data Analysis,1.0,50,3.1,,71%,250233
273,FL250274,Mr. Juan Mitchell,male,35.0,Netherlands,Dutch,Blockchain Development,6.0,USD 75,1.6,1,97%,250274
282,FL250283,Dr. Michael Aguilar,m,42.0,Netherlands,Dutch,Graphic Design,10.0,USD 20,2.4,Y,92%,250283
309,FL250310,Mrs. Angela Ward,F,44.0,South Africa,Afrikaans,Machine Learning,14.0,USD 75,3.0,0,78%,250310
346,FL250347,Richard Velasquez Jr.,M,36.0,France,French,Data Analysis,13.0,40,,N,78%,250347
397,FL250398,Ms. Christine Cherry,f,45.0,Netherlands,Dutch,Data Analysis,17.0,$50,4.7,1,73%,250398


In [34]:
df.loc[df["name"].str.contains(r'\s{2,}')]

Unnamed: 0,freelancer_ID,name,gender,age,country,language,primary_skill,years_of_experience,hourly_rate (USD),rating,is_active,client_satisfaction,num


In [21]:
df["name"].describe()

count        1000
unique        992
top       Amy Lee
freq            2
Name: name, dtype: object

En la columna **name**:
- Sin valores *NaN*
- Tenemos duplicados en algunos nombres, pero si los aislamos, podemos ver que son personas diferentes aunque tengan el mismo nombre, por lo que no influyen en nuestro analisis.
- El rango no aplica en esta columna, debido a que no es una variable numérica.
- No hay incoherencias, aunque hemos visto que algunos nombres tiene prefijos como "Mr.", "Ms.",etc. No suponen un inconveniente en nuestro analisis.
- La distribución/frecuencia es de 2, debido a la repetición de algunos nombres, aunque cada nombre hemos visto que es una persona diferente.

In [35]:
df["gender"].isna().sum()

np.int64(0)

In [41]:
df["gender"].duplicated().sum()

np.int64(990)

In [39]:
df["gender"].describe()

count       1000
unique        10
top       FEMALE
freq         115
Name: gender, dtype: object

In [40]:
df["gender"].value_counts()

gender
FEMALE    115
M         106
f         103
Male      103
MALE      102
male      100
m          99
Female     96
F          90
female     86
Name: count, dtype: int64

En la columna **gender**:
- No hay valores *NaN*.
- Es normal que haya valores duplicados, ya que se trata de una columna categórica.
- Actualmente aparecen múltiples variantes para las categorías de género (Male, MALE, male, m, Female, FEMALE, female, f), por lo que la distribución/frecuencia real no se puede calcular de forma precisa aún.
- Para el análisis posterior, será necesario normalizar estas categorías y unificarlas en solo dos posibles valores: "Male" y "Female".

In [42]:
df["age"].isna().sum()

np.int64(30)

In [46]:
porcentaje_nan ("age")

np.float64(3.0)

In [48]:
df["age"].describe()

count    970.000000
mean      40.509278
std       11.942605
min       20.000000
25%       31.000000
50%       41.000000
75%       51.000000
max       60.000000
Name: age, dtype: float64

En la columna **age**:
- Valores NaN: hay 30 valores nulos sobre 1000 registros (~3%). Este porcentaje es bajo, por lo que podemos decidir imputarlos con la media o mediana si necesitamos usar la columna para análisis posterior.
- Duplicados: no es relevante, porque varias personas pueden tener la misma edad.
- Rango: edades entre 20 y 60 años, con media de 40,5 y mediana de 41.
- Incoherencias: no se observan valores negativos ni superiores a 100, por lo que los datos parecen coherentes.
- Distribución: con los datos actuales, la edad se encuentra relativamente centrada alrededor de la media y la mediana, sin valores extremos evidentes.

In [61]:
df["country"].isna().sum()

np.int64(0)

In [68]:
df["country"].value_counts(normalize=True) * 100

country
South Korea       6.8
Canada            6.5
Germany           5.2
Netherlands       5.1
Australia         5.1
Mexico            5.0
United Kingdom    5.0
United States     4.9
China             4.9
Russia            4.7
Argentina         4.7
Indonesia         4.6
Spain             4.5
India             4.5
Turkey            4.5
South Africa      4.4
France            4.4
Italy             4.2
Egypt             4.2
Japan             3.7
Brazil            3.1
Name: proportion, dtype: float64

En la columna **country**:
- No hay valores *NaN*.
- Es normal que haya valores duplicados, ya que se trata de una columna categórica.
- En cuanto a la distribución/frecuencia, la columna esta bastante equilibrada, ningun pais representa un % extremadamente alto.
    - Los cinco paises con mas presencia son:
        1. South Korea: 6.8%
        2. Canada: 6.5%
        3. Germany: 5.2%
        4. Netherlands: 5.1%
        5. Australia: 5.1%
- No hay ninguna incoherencia ni valores atípicos, todos los registros parecen correctos.

In [70]:
df["language"].isna().sum()

np.int64(0)

In [71]:
df["language"].unique()

array(['Italian', 'English', 'German', 'Dutch', 'Indonesian', 'Turkish',
       'Spanish', 'Japanese', 'Hindi', 'Portuguese', 'Korean', 'Russian',
       'French', 'Arabic', 'Afrikaans', 'Mandarin'], dtype=object)

In [73]:
df["language"].value_counts(normalize=True)*100

language
English       21.5
Spanish       14.2
Korean         6.8
German         5.2
Dutch          5.1
Mandarin       4.9
Russian        4.7
Indonesian     4.6
Turkish        4.5
Hindi          4.5
Afrikaans      4.4
French         4.4
Arabic         4.2
Italian        4.2
Japanese       3.7
Portuguese     3.1
Name: proportion, dtype: float64

En la columna **language**:
- No hay valores *NaN*.
- Es normal que haya valores duplicados, ya que varios freelancers pueden hablar el mismo idioma.
- En cuanto a la distribución/frecuencia: 
    - Tenemos dos idiomas predominantes que son English(21.5%) y Spanish(14.2%), que juntos suman el 35.7% del total de los registro
    - Otros idiomas tienen un porcentaje más bajos, pero están representados de manera consistente.
- No hay ninguna incoherencias visibles, todos los registros parecen correctos. La columna está bastante diversificada y refleja la distribución real de los idiomas de los freelancers. 

In [75]:
df["primary_skill"].isna().sum()

np.int64(0)

In [76]:
df["primary_skill"].duplicated().sum()

np.int64(990)

In [77]:
df["primary_skill"].unique()

array(['Blockchain Development', 'Mobile Apps', 'Graphic Design',
       'Web Development', 'AI', 'Data Analysis', 'UI/UX Design',
       'Cybersecurity', 'DevOps', 'Machine Learning'], dtype=object)

In [79]:
df["primary_skill"].value_counts(normalize=True)*100

primary_skill
DevOps                    11.2
UI/UX Design              10.9
Blockchain Development    10.5
Web Development           10.4
Mobile Apps               10.2
AI                        10.0
Data Analysis              9.6
Graphic Design             9.3
Machine Learning           9.3
Cybersecurity              8.6
Name: proportion, dtype: float64

En la columna **primary_skill**:
- No hay valores *NaN*.
- Es normal que haya valores duplicados, ya que varios freelancers pueden dedicarse a lo mismo.
- En cuanto a la distribución/frecuencia está bastante equilibrada, aunque las 3 más frecuentes son:
    1. DevOps: 11.2%
    2. UI/UX Design: 10.9%
    3. Blockchain Development: 10.5%
- La columna no muestra incoherencias.

In [81]:
df["years_of_experience"].isna().sum()

np.int64(51)

In [82]:
porcentaje_nan ("years_of_experience")

np.float64(5.1)

In [88]:
df["years_of_experience"].describe()

count    949.000000
mean      11.340358
std        9.680610
min        0.000000
25%        3.000000
50%        9.000000
75%       17.000000
max       41.000000
Name: years_of_experience, dtype: float64

In [16]:
(df['years_of_experience'] > (df['age'] - 15)).value_counts()


False    1000
Name: count, dtype: int64

In [5]:
df.loc[df["age"]<df["years_of_experience"]]

Unnamed: 0,freelancer_ID,name,gender,age,country,language,primary_skill,years_of_experience,hourly_rate (USD),rating,is_active,client_satisfaction
0,FL250001,Ms. Nicole Kidd,f,52.0,Italy,Italian,Blockchain Development,11.0,100,,0,
1,FL250002,Vanessa Garcia,FEMALE,52.0,Australia,English,Mobile Apps,34.0,USD 100,3.3,1,84%
2,FL250003,Juan Nelson,male,53.0,Germany,German,Graphic Design,31.0,50,0.0,N,71%
3,FL250004,Amanda Spencer,F,38.0,Australia,English,Web Development,4.0,$40,1.5,N,90%
4,FL250005,Lynn Curtis DDS,female,53.0,Germany,German,Web Development,27.0,30,4.8,0,83%
...,...,...,...,...,...,...,...,...,...,...,...,...
995,FL250996,Albert Wilcox,Male,56.0,Turkey,Turkish,DevOps,13.0,100,0.0,no,68%
996,FL250997,Cheryl Norris,f,26.0,Germany,German,Blockchain Development,6.0,USD 40,2.8,N,82
997,FL250998,Kathy Watkins,female,37.0,Japan,Japanese,Data Analysis,15.0,75,,False,94%
998,FL250999,John Obrien,m,46.0,Russia,Russian,Machine Learning,22.0,100,2.8,yes,97


En la columna **years_of_experience**:
- Valores NaN: hay 51 valores nulos sobre 1000 registros (5.1%). Este porcentaje es bajo, por lo que podemos decidir imputarlos con la media o mediana si necesitamos usar la columna para análisis posterior.
- Duplicados: no es relevante, porque varias personas pueden tener los mismos años de experiencia.
- Rango: Entre 0 y 41 años de experiencia.
- Incoherencias: no se observan valores negativos y todos los valores estan en un rango normal de experiencia laboral, además que ninguna persona tiene más años de experiencia que edad.
- Distribución: está sesgada a la derecha (hay más freelancers con poca experiencia que con mucha). Tambien podemos ver que la desviación estandar es de 9.68, lo que indica una dispersión considerable.

In [91]:
df["hourly_rate (USD)"].isna().sum()

np.int64(94)

In [101]:
porcentaje_nan("hourly_rate (USD)")

np.float64(9.4)

In [None]:
df["hourly_rate (USD)"].unique()

array(['100', 'USD 100', '50', '$40', '30', '$30', 'USD 75', 'USD 40',
       nan, '$50', '40', '75', 'USD 50', 'USD 30', '$20', '20', '$75',
       '$100', 'USD 20'], dtype=object)

En la columna **hourly_rate (USD)**
- Valores NaN: hay 94 valores nulos sobre 1000 registros (9.4%). Este porcentaje es relativamente bajo, por lo que podemos imputarlos con la media o mediana si necesitamos usar la columna para análisis posterior.
- Duplicados: no es relevante, ya que varias personas pueden tener la misma tarifa por hora.
- Rango: entre 20$ y 100$.
- Incoherencias: existen registros tipo string con símbolos como "$" o "USD", por lo que la columna no está completamente limpia y debemos transformarla a valores numéricos para poder analizarla.
- Distribución/Frecuencia: no es posible analizarla correctamente mientras los datos no estén normalizados y convertidos a tipo numérico.

In [95]:
df["rating"].isna().sum()

np.int64(101)

In [102]:
porcentaje_nan("rating")

np.float64(10.100000000000001)

In [97]:
df["rating"].describe()

count    899.000000
mean       2.512570
std        1.546599
min        0.000000
25%        1.400000
50%        2.600000
75%        3.800000
max        5.000000
Name: rating, dtype: float64

En la columna **rating**
- Valores NaN: hay 101 valores nulos sobre 1000 registros (10.1%). Este porcentaje es relativamente bajo, por lo que podemos imputarlos con la media o mediana si necesitamos usar la columna para análisis posterior, aunque al ser una columna secundaria no es estrictamente necesario hacerlo.
- Duplicados: no es relevante, ya que varias personas pueden tener la misma calificación.
- Rango: entre 0 y 5.
- Incoherencias: no se observan valores negativos ni valores fuera de rango.
- Distribución: parece estar equilibrada. La desviación estándar es 1.54, la media es 2.51 y la mediana es 2.6, lo que indica que los datos están centrados y no hay sesgo evidente.

In [98]:
df["is_active"].isna().sum()

np.int64(89)

In [99]:
df["is_active"].value_counts()

is_active
1        190
0        182
N         98
False     97
Y         94
no        88
yes       85
True      77
Name: count, dtype: int64

In [100]:
porcentaje_nan("is_active")

np.float64(8.9)

En la columna **is_active**:
- Valores NaN: hay 89 valores nulos sobre 1000 registros (8.9%). Este porcentaje es relativamente bajo, por lo que se podrían imputar si necesitamos usar la columna para análisis posterior, aunque al ser una columna secundaria no es obligatorio.
- Duplicados: no es relevante, ya que varias personas pueden estar activas o inactivas.
- Rango: como es una columna categórica binaria, el rango real debería ser “activo” o “inactivo”, pero actualmente no se puede determinar debido a los diferentes formatos presentes (1, 0, N, Y, False, True, yes, no).
- Incoherencias: sí, la columna tiene incoherencias de formato y valores diferentes para representar lo mismo.
- Distribución/frecuencia: no se puede calcular en este momento debido a los múltiples formatos.

In [104]:
df["client_satisfaction"].isna().sum()

np.int64(176)

In [105]:
porcentaje_nan("client_satisfaction")

np.float64(17.599999999999998)

In [110]:
df["client_satisfaction"].unique()

array([nan, '84%', '71%', '90%', '83%', '94%', '76%', '77%', '86%', '93%',
       '70%', '69%', '60%', '87%', '75%', '68%', '65%', '100%', '92',
       '89%', '62%', '82', '81%', '63%', '67%', '80%', '74%', '85%',
       '79%', '72%', '64', '88', '96%', '96', '81', '61%', '97%', '64%',
       '73%', '88%', '72', '92%', '82%', '93', '83', '78', '95%', '80',
       '87', '66%', '78%', '68', '91%', '97', '60', '70', '99%', '76',
       '86', '95', '74', '100', '73', '67', '77', '98%', '71', '85', '91',
       '94', '84', '90', '62', '65', '75', '63', '61', '66', '99', '79',
       '69', '89'], dtype=object)

In [112]:
df["client_satisfaction"].map(type).unique()

array([<class 'float'>, <class 'str'>], dtype=object)

En la columna **client_satisfaction**
- Valores NaN: hay 176 valores nulos sobre 1000 registros (17,6%). Es un porcentaje relativamente alto, por lo que si necesitamos usar la columna en análisis posteriores, sí podría ser recomendable imputar o limpiar los valores.
- Duplicados: no es relevante, ya que múltiples freelancers pueden tener la misma satisfacción.
- Rango: no se puede determinar actualmente debido a la mezcla de formatos (algunos valores en string con “%”, otros como float).
- Incoherencias: sí, la columna tiene incoherencias de formato entre string y float.
- Distribución/frecuencia: no se puede calcular en este momento debido a los diferentes formatos de los datos.

---
## **Resumen**: Exploración dataset "Freelancers"

#### 1. Clasificación de columnas

Hemos identificado tres tipos de columnas:
- Identificativas: columnas únicas que identifican cada registro (freelancer_ID).
- Categóricas: columnas con categorías como gender, country, language, primary_skill y is_active.
- Numéricas: columnas que contienen valores numéricos como age, years_of_experience, hourly_rate (USD), rating, client_satisfaction.

#### 2. Valores faltantes (NaN)
Algunas columnas contienen valores NaN. En la mayoría de los casos, el porcentaje de valores faltantes es bajo, por lo que podrían imputarse según su relevancia para análisis posteriores. Columnas como client_satisfaction tienen un porcentaje más alto, por lo que requerirán un tratamiento más cuidadoso si se usan en el análisis.

#### 3. Incoherencias y normalización

Se detectaron inconsistencias en algunas columnas:
- gender y is_active contienen valores en formatos distintos (Male, male, F, Y, N, etc.).
- hourly_rate (USD) mezcla formatos float y string ($100, USD 20, 40)
- client_satisfaction mezcla formatos float y string (84%).

Estas columnas deberán normalizarse para garantizar coherencia con su tipo de dato.

#### 4. Distribución y dispersión

Algunas columnas numéricas presentan distribuciones sesgadas o dispersión considerable, como years_of_experience, que está sesgada a la derecha. Esta información es relevante para análisis posteriores y para la interpretación de resultados.

#### 5. Nombres de columnas

Se recomienda transformar los nombres de las columnas a minúsculas y eliminar caracteres especiales innecesarios, como (USD) en hourly_rate. Esto facilita la manipulación del dataset en pasos posteriores de transformación y visualización