---
title: "Convertir el análisis exploratorio en acción"
---

El análisis exploratorio de datos es un paso crucial en el flujo de trabajo de la ciencia de datos, ¡por no esl el final! Ahora es el momento de aprender técnicas y consideraciones que puedes utilizar para avanzar con éxito en tus proyectos una vez que hayas terminado de explorar.

## Consideraciones para datos categóricos

-   Por qué ejecutar EDA?
    -   Detectar patrones y relaciones.
    -   Generar preguntas o hipótesis.
    -   Preparar datos para modelos de machine learning.
-   Representatividad de los datos
    -   La muestra debe representar la población.
    -   Por ejemplo:
        -   Educación versus ingresos en USA
            -   No se pueden usar datos de Francia
-   Clases Categóricas
    -   Clases = etiquetas
    -   Ejemplo, actitudes de las personas hacia el matrimonio.
        -   Estado civil
            -   Soltero
            -   Casado
            -   Divorciado
-   Desbalance de Clases

![](images/paste-66.png)

-   Frecuencia de Clases

In [None]:
#| echo: true
#| eval: false
print(planes('Destination').value_counts())

![](images/paste-67.png)

-   Frecuencia relativa de clases

    -   40% de los vuelos internos de la India van hacia Delhi.

In [None]:
#| echo: true
#| eval: false
planes['Destination'].value_counts(normalize=True)

![](images/paste-68.png)

Es nuestra muestra representativa de la población? (Vuelos internos de India)

-   Tabulación Cruzada

    -   Es otro método para observar la frecuencia de clase, que permite examinar la frecuencia de combinaciones de clases

    ![](images/paste-69.png)

In [None]:
#| echo: true
#| eval: false
pd.crosstab(planes['Source'], planes['Destination'])

![](images/paste-70.png)

-   Extendiendo la tabulación cruzada

| Source   | Destination | Median Price (IDR) |
|----------|-------------|--------------------|
| Banglore | Delhi       | 4232.21            |
| Banglore | New Delhi   | 12114.56           |
| Chennai  | Kolkata     | 3859.76            |
| Delhi    | Cochin      | 9987.63            |
| Kolkata  | Banglore    | 9654.21            |
| Mumbai   | Hyderabad   | 3431.97            |

-   Agregación de valores con pd.crosstab()

In [None]:
#| echo: true
#| eval: false
pd.crosstab(planes['Source'], planes['Destination'],
           values=planes['Price'], aggfunc='median')

![](images/paste-71.png)

Los resultados muestran valores de la mediana para todas las rutas posibles en el conjunto de datos.

-   Comparando la muestra con la población

| Source   | Desitnation | Median Price (IDR) | Median Price (dataset) |
|----------|-------------|--------------------|------------------------|
| Banglore | Delhi       | 4232.21            | 4823.0                 |
| Banglore | New Delhi   | 12114.56           | 10976.50               |
| Chennai  | Kolkata     | 3859.76            | 3850.0                 |
| Delhi    | Cochin      | 9987.63            | 10260.0                |
| Kolkata  | Banglore    | 9654.21            | 9345.0                 |
| Mumbai   | Hyderabad   | 3431.97            | 3342.0                 |

### Comprobación del desequilibrio de clases

La [Encuesta Kaggle 2022](https://www.kaggle.com/kaggle-survey-2022) recoge la información sobre la formación de los científicos de datos, sus tecnologías y técnicas preferidas. Se considera una visión precisa de lo que está ocurriendo en la ciencia de datos, basada en el volumen y el perfil de los que responden.

Una vez examinados los títulos de los puestos y categorizados para alinearlos con nuestro `salaries` DataFrame\`, puedes ver la siguiente proporción de categorías laborales en la encuesta Kaggle:

| Categoría laboral   | Frecuencia relativa |
|---------------------|---------------------|
| Ciencia de datos    | 0,281236            |
| Análisis de datos   | 0,224231            |
| Otros               | 0,214609            |
| Dirección           | 0,121300            |
| Machine Learning    | 0,083248            |
| Ingeniería de datos | 0,075375            |

Pensando en los resultados de la encuesta Kaggle como población, tu tarea consiste en averiguar si el DataFrame `salaries` es representativo comparando la frecuencia relativa de las categorías laborales.

In [None]:
import pandas as pd
ruta = './data/salaries.csv'
salaries = pd.read_csv(ruta)
salaries.head()

#### Instrucciones

-   Imprime la frecuencia relativa de la columna `Job_Category` de `salaries` DataFrame

::: callout-note
Para exportar el dataset en formato CSV dentro de DataCamp y luego copiarlo:

``` python
print(salaries.to_csv(index=False))
```
:::

In [None]:
# Print the relative frequency of Job_Category
print(salaries['Job_Category'].value_counts(normalize=True))

Parece que Data Science es la clase más popular y tiene una representación similar. Aún así, las otras categorías tienen frecuencias relativas bastante diferentes, lo cual pordría no ser sorprendente dado que el público objetivo son científico de datos. Dada la diferencia en las frecuencias relativas, ¿puedes confiar en que el DataFrame `salaries` representa con precisión los roles gerenciales?

### Tabulación cruzada

La tabulación cruzada puede ayudar a identificar cómo se combinan las observaciones.

Utilizando el conjunto de datos `salaries`, que se ha importado como un DataFrame `pandas`, realizarás una tabulación cruzada de múltiples variables, incluyendo el uso de la agregación, para ver la relación entre 'Company_Size' y otras variables.

#### Instrucciones

1.  Realiza una tabulación cruzada, estableciendo `Company_Size` como índice, y las columnas a las clases en `Experience`.

In [None]:
# Cross-tabulate Company_Size and Experience
print(pd.crosstab(salaries['Company_Size'], salaries['Experience']))

2.  Cruza 'Job_Category' y las clases de 'Company_Size' como nombres de columna.

In [None]:
# Cross-tabulate Job_Category and Company_Size
print(pd.crosstab(salaries['Job_Category'], salaries['Company_Size']))

3.  Actualiza `pd.crosstab()` para que devuelva los valores medios de `Salary_USD`.

In [None]:
# Cross-tabulate Job_Category and Company_Size
print(pd.crosstab(salaries['Job_Category'], salaries['Company_Size'], values= salaries['Salary_USD'], aggfunc='mean'))

Ésta es una función útil para examinar la combinación de frecuencias, así como para encontrar estadísticas agregadas. ¡Parece que el salario medio más alto es para roles de datos gerenciales en grandes empresas!

## Generar nuevas Características

-   Correlación

In [None]:
#| echo: true
#| eval: false
sns.heatmap(planes.corr(numeric_only=True), annot=True)
plt.show()

![](images/paste-72.png)

-   Viendo el tipo de datos

In [None]:
#| echo: true
#| eval: false
print(planes.dtypes)

![](images/paste-73.png)

-   Total Stops

In [None]:
#| echo: true
#| eval: false
print(planes['Total_Stops'].value_counts())

![](images/paste-74.png)

Se observa que es necesario eliminar algunos caracteres.

-   Limpiando Total Stops

In [None]:
#| echo: true
#| eval: false
planes['Total_Stops'] = planes['Total_Stops'].str.replace(' stops', '')
planes['Total_Stops'] = planes['Total_Stops'].str.replace(' stop', '')
planes['Total_Stops'] = planes['Total_Stops'].str.replace('non-stop', '0')
planes['Total_Stops'] = planes['Total_Stops'].astype(int)

-   Correlación

In [None]:
#| echo: true
#| eval: false
sns.heatmap(planes.corr(numeric_only=True), annot=True)
plt.show()

![](images/paste-75.png)

-   Fechas

In [None]:
#| echo: true
#| eval: false
print(planes.dtypes)

![](images/paste-76.png)

-   Extrayendo el mes y el día de la semana

In [None]:
#| echo: true
#| eval: false
planes['month'] = planes['Date_of_Journey'].dt.month
planes['weekday'] = planes['Date_of_Journey'].dt.weekday
print(planes[['month', 'weekday', 'Date_of_Journey']].head())

![](images/paste-77.png)

-   Tiempos de salidas y llegadas

In [None]:
#| echo: true
#| eval: false
planes['Dep_Hour'] = planes['Dep_Time'].dt.hour
planes['Arrival_Hour'] = planes['Arrival_Time'].dt.hour

-   Correlación

![](images/paste-78.png)

No hay correlaciones, pero no lo sabríamos si no se hubieran generado nuevas características.

-   Creando características

In [None]:
#| echo: true
#| eval: false
print(planes['Price'].describe())

![](images/paste-79.png)

| Rango             | Tipo de tiquete |
|-------------------|-----------------|
| \<= 5228          | Economy         |
| \> 5528 \<= 8355  | Premium Economy |
| \> 8355 \<= 12373 | Business Class  |
| \> 12373          | First Class     |

-   Estadística descriptiva

In [None]:
#| echo: true
#| eval: false
twenty_fifth = planes['Price'].quantile(0.25)
median = planes['Price'].median()
seventy_fifth = planes['Price'].quantile(0.75)
maximum = planes['Price'].max()

-   Etiquetas y bins

In [None]:
#| echo: true
#| eval: false
labels = ['Economy', 'Premium Economy', 'Business Class', 'First Class']
bins = [0, twenty_fifth, median, seventy_fifth, maximum]

-   pd.cut()

![](images/paste-80.png)

In [None]:
#| echo: true
#| eval: false
planes['Price_Category'] = pd.cut(planes['Price'], labels=labels, bins=bins)

-   Categoría de precios

In [None]:
#| echo: true
#| eval: false
print(planes[['Price', 'Price_Category']].head())

![](images/paste-81.png)

-   Categoría de precio por aerolínea

In [None]:
#| echo: true
#| eval: false
sns.countplot(data=planes, x='Airline', hue='Price_Category')
plt.show()

![](images/paste-82.png)

### Extraer características para la correlación

En este ejercicio trabajarás con una versión del conjunto de datos `salaries` que contiene una nueva columna llamada "\`date_of_response".

El conjunto de datos se ha leído comjo un DataFrame de pandas, con "`date_of_response`" como tipo de datos `datetime`.

Tu tarea consiste en extraer los atributos fecha-hora de esta columna y, a continuación, crear un mapa de calor para visualizar los coeficientes de correlación entre las variables.

::: {.callout-important collapse="true"}
Para realizar el ejercicio fue necesario bajar el DataFrame de Datacamp teniendo en cuenta la nueva columna, y cambiando el tipo de formato de la columna `date_of_response` usando los comandos:

In [None]:
#| echo: true
#| eval: false
print(salaries.to_csv(index=false))

:::

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
ruta = './data/salaries_2.csv'
salaries = pd.read_csv(ruta)

# Cambia el tipo de datos de date_of_response
salaries['date_of_response'] = pd.to_datetime(salaries['date_of_response'])
salaries.head()

#### Instrucciones

-   Extrae el mes de "`date_of_response`", almacenándolo como una columna llamada "`month`".

-   Crea la columna "`weekday`", que contiene el día de la semana en que los participantes completaron la encuesta.

-   Traza un mapa de calor, incluyendo las puntuaciones del coeficiente de correlación de Pearson.

In [None]:
# Get the month of the response
salaries['month'] = salaries['date_of_response'].dt.month

# Extract the weekday of the response
salaries['weekday'] = salaries['date_of_response'].dt.weekday

# Create a heatmap
sns.heatmap(salaries.corr(numeric_only=True), annot=True)
plt.show()

¡Fantástica creación de características! Parece que no hay relaciones significativas entre nuestras variables numéricas, así que veamos si convertir los datos numéricos en clases ofrece información adicional.

### Cálculo de los percentiles salariales

Tu tarea consiste en convertir la columna "`Salary_USD`" en categorías basadas en sus percentiles . Primero tienes que encontrar los percentiles y almacenarlos como variables.

#### Instrucciones

-   Halla el percentil 25 de "`Salary_USD`"

-   Guarda la mediana de "`Salary_USD`" como `salaries_median`.

-   Obtén el percentil 75 de los salaries

In [None]:
# Find the 25th percentile 
twenty_fifth = salaries['Salary_USD'].quantile(0.25)

# Save the median
salaries_median = salaries['Salary_USD'].median()

# Gather the 75th percentile
seventy_fifth = salaries['Salary_USD'].quantile(0.75)

print(twenty_fifth, salaries_median, seventy_fifth)

¡Parece que el rango intercuartil está entre 60881 y 143225 dólares! ¡Ahora usemos estas variables para agregar una columna categórica de salario en el DataFrame

### Categorizar los salarios

¡Ahora es el momento de crear una nueva categoría! Utilizarás las variables `twenty_fifth`, `salaries_median` y `seventy_fifth`, que creaste en el ejercicio anterior, para dividir los salarios en diferentes etiquetas.

El resultado será una nueva columna llamada "`salary_level`", que incorporarás a una visualización para analizar el salario de los encuestados y en empresas de distintos tamaños.

#### Instrucciones

1.  Crea `salaries_labels`, una lista que contenga "`entry`", "`mid`", "`senior`" y "`exec`".

In [None]:
# Create salary labels
salary_labels = ['entry', 'mid', 'senior', 'exec']

2.  Termina `salary_ranges`, añadiendo el percentil 25, la mediana, el percentil 75 y el valor más grande de "`Salary_USD`"

In [None]:
# Create the salary ranges list
salary_ranges = [0, twenty_fifth, salaries_median, seventy_fifth, salaries['Salary_USD'].max()]

3.  Divide "`Salary_USD`" en función de las etiquetas y rangos que hayas creado.

In [None]:
# Create salary_level
salaries['salary_level'] = pd.cut(salaries['Salary_USD'], bins=salary_ranges, labels=salary_labels)

4.  Utiliza `sns.countplot()` para visualizar el reconteo de "`Company_Size`", factrorizando las etiquetas de nivel salarial.

In [None]:
# Plot the count of salary levels at companies of different sizes
sns.countplot(data=salaries, x='Company_Size', hue='salary_level')
plt.show()

Al usar `pd.cut()` para dividir los datos numéricos en categorías, se puede ver que una gran proporción de trabajadores en empresas pequeñas reciben salarios de nivel de "entrada", mientras que más personal en empresas medianas son recompensados con salarios de nivel "senior". ¡Ahora vamos a ver cómo generar hipótesis a medida que se llega al final de la fase de EDA!

## Generar hipótesis

Generar hipótesis es una tarea fundamental para los científicos de datos.

Al realizar EDA, la pregunta que debemos hacernos es ¿Cómo sabemos que lo que estamos observando es verdadero?

Por ejemplo:

-   Si recopilamos nuevos datos sobre vuelos de un período de tiempo diferente ¿observaríamos los mismos resultados?

-   Detectar relaciones, diferencias y patrones:

    -   Usamos **Prueba de hipótesis**

-   La prueba de hipótesis requiere previo a la recolección de datos:

    -   Generar una hipótesis o pregunta.
    -   Una decisión en la se pueda usar una prueba estadística

-   Data snooping

    -   Los análisis de datos excesivos, la generación de múltiples hipótesis y la ejecución de múltiples pruebas estadísticas

-   Generación de Hipótesis

    -   Se realiza usando análisis exploratorio de datos

-   Próximos pasos

    -   Diseñar nuestro experimento.
    -   Envuelve pasos como:
        -   Elegir una muestra
        -   Calcular cuántos puntos de datos necesitamos
        -   Decidir que prueba estadística ejecutar.

### Comparar salarios

¡El análisis exploratorio de datos es un paso crucial en la generación de hipótesis!

Se te ha ocurrido una idea que te gustaría investigar: ¿los profesionales de los datos cobran más en Estados Unidos que en Gran Bretaña?

Tendrás que subconjuntar los datos en "`Employee_Location`" y elaborar un gráfico que muestre el salario medio entre los dos grupos.

#### Instrucciones

-   Filtra `salaries` donde "`Employee_Location`" es "`US`" o "`GB`", guardando como `usa_and_gb`.

-   Utiliza `usa_and_gb` para crear un gráfico de barras que visualice "`Salary_USD`" frete a "`Employee_Location`".

In [None]:
# Filter for employees in the US or GB
usa_and_gb = salaries[salaries['Employee_Location'].isin(['US', 'GB'])]

# Create a barplot of salaries by location
sns.barplot(data=usa_and_gb, x='Employee_Location', y='Salary_USD')
plt.show()

Al subconfigurar los datos, pudiste comparar directamente los salarios entre EE.UU. y Gran Bretaña. La visualización sugiere que has generado una hipótesis que vale la pena investigar formalmente para determinar si existe una diferencia real o no.

### Elegir una hipótesis

Has visto cómo las visualizaciones pueden utilizarse para generar hipótesis, ¡lo que las convierte en una parte crucial del análisis exploratorio de datos!

En este ejercicio, generarás un diagrama de barras para inspeccionar cómo difieren los salarios según el tamaño de la empresa y la situación laboral.

Como referencia, hay cuatro valores:

| Valor | Significado       |
|-------|-------------------|
| `CT`  | Contratista       |
| `FL`  | Autónomo          |
| `PT`  | A tiempo parcial  |
| `FT`  | A tiempo completo |

#### Instrucciones

1. Elabora un diagrama de barras comparando "`Salary_USD`" por "`Company_Size`", factorizando "`Employment_Status`".


In [None]:
# Create a bar plot  of salary versus company size, factoring in employment status
sns.barplot(data=salaries, x='Company_Size', y='Salary_USD', hue='Employment_Status')
plt.show()

2. **Pregunta**
¿ Cuál es una hipótesis razonable que se puede generar a partir de esta trama?

**Respuestas Posibles**

- [ ] Por término medio, las pequeñas empresas pagan menos a los empleados a tiempo parcial que las grandes empresas.
- [ ] Los autónomos ganan más en las empresas medianas que en las pequeñas o grandes.
- [X] Por término medio, las grandes empresas pagan más a los contratistas que las medianas.
- [ ] No se puede generar ninguna hipótesis a partir de este gráfico.

Los contratistas parecen se mejor pagados por las grandes empresas en promedio según los datos, ¡así que esta es una hipótesis razonable!