# **Práctica aplicada: Manipulación de Datos (Data Wrangling)**  

En esta práctica, tendrás la oportunidad de aplicar habilidades esenciales para abordar diversos desafíos en el manejo de datos. Te enfocarás en la gestión de datos faltantes, la corrección de tipos de datos en un DataFrame, así como en la ejecución de procesos de estandarización y normalización de atributos clave en el conjunto de datos.

¡Es una excelente oportunidad para fortalecer tu comprensión de estos procesos fundamentales en el analisis y ciencia de datos!


## **Objetivos**  
Después de completar esta practica, serás capaz de:  

- Manejar datos faltantes de diferentes maneras.  
- Corregir los tipos de datos según los requerimientos del análisis.  
- Estandarizar y normalizar atributos adecuados del conjunto de datos.  
- Visualizar los datos mediante gráficos de barras agrupadas utilizando *Binning*.  
- Convertir datos categóricos en variables indicadoras numéricas.  



## **Importación de bibliotecas requeridas**  

En Google Colab, es recomendable importar todas las bibliotecas necesarias en una sola celda para facilitar la ejecución y mantener el código ordenado.  



In [1]:
# Importación de bibliotecas necesarias
import pandas as pd  # Manejo y manipulación de datos en estructuras tipo DataFrame
import numpy as np  # Operaciones matemáticas y funciones avanzadas para matrices y arreglos
import matplotlib.pyplot as plt  # Herramientas de visualización de datos

# Instalación de la librería skillsnetwork en Google Colab si no está disponible
try:
    import skillsnetwork
except ImportError:
    !pip install skillsnetwork
    import skillsnetwork  # Descarga de conjuntos de datos desde Skills Network

# Configuración opcional para mejorar la visualización de los DataFrames en la salida
pd.set_option('display.max_columns', None)  # Muestra todas las columnas sin truncar
pd.set_option('display.precision', 2)  # Limita la precisión decimal a 2 cifras

# Configuración para visualizar gráficos directamente en Colab
%matplotlib inline

# Mensaje de confirmación
print("Bibliotecas importadas correctamente.")

Collecting skillsnetwork
  Downloading skillsnetwork-0.21.10-py3-none-any.whl.metadata (2.0 kB)
Collecting jedi>=0.16 (from ipython->skillsnetwork)
  Downloading jedi-0.19.2-py2.py3-none-any.whl.metadata (22 kB)
Downloading skillsnetwork-0.21.10-py3-none-any.whl (26 kB)
Downloading jedi-0.19.2-py2.py3-none-any.whl (1.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m37.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: jedi, skillsnetwork
Successfully installed jedi-0.19.2 skillsnetwork-0.21.10
Bibliotecas importadas correctamente.


## **Descarga del conjunto de datos actualizado**  

Ejecuta la siguiente celda para descargar el conjunto de datos más reciente.  

La función proporcionada descargará el archivo directamente en el entorno de Google Colab.  


In [2]:
# Importar la biblioteca necesaria para la descarga
import gdown

# Definir el ID del archivo en Google Drive
file_id = "1I-1Tt0jRaMUmv5pjFWSUwePgHxph21bD"
dataset_filename = "datos_actualizados.csv"  # Nombre con el que se guardará el archivo

# Construcción de la URL de descarga directa
download_url = f"https://drive.google.com/uc?id={file_id}"

# Descargar el archivo
gdown.download(download_url, dataset_filename, quiet=False)

# Mensaje de confirmación
print(f"Conjunto de datos descargado y guardado como '{dataset_filename}'")

Downloading...
From: https://drive.google.com/uc?id=1I-1Tt0jRaMUmv5pjFWSUwePgHxph21bD
To: /content/datos_actualizados.csv
100%|██████████| 12.5k/12.5k [00:00<00:00, 10.9MB/s]

Conjunto de datos descargado y guardado como 'datos_actualizados.csv'





In [5]:
df = pd.read_csv("datos_actualizados.csv")

In [4]:
# Mostrar un resumen del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 238 entries, 0 to 237
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Unnamed: 0      238 non-null    int64  
 1   Manufacturer    238 non-null    object 
 2   Category        238 non-null    int64  
 3   Screen          238 non-null    object 
 4   GPU             238 non-null    int64  
 5   OS              238 non-null    int64  
 6   CPU_core        238 non-null    int64  
 7   Screen_Size_cm  234 non-null    float64
 8   CPU_frequency   238 non-null    float64
 9   RAM_GB          238 non-null    int64  
 10  Storage_GB_SSD  238 non-null    int64  
 11  Weight_kg       233 non-null    float64
 12  Price           238 non-null    int64  
dtypes: float64(3), int64(8), object(2)
memory usage: 24.3+ KB


In [6]:
df.head()  # Mostrar las primeras filas del DataFrame

Unnamed: 0.1,Unnamed: 0,Manufacturer,Category,Screen,GPU,OS,CPU_core,Screen_Size_cm,CPU_frequency,RAM_GB,Storage_GB_SSD,Weight_kg,Price
0,0,Acer,4,IPS Panel,2,1,5,35.56,1.6,8,256,1.6,978
1,1,Dell,3,Full HD,1,1,3,39.62,2.0,4,256,2.2,634
2,2,Dell,3,Full HD,1,1,7,39.62,2.7,8,256,2.2,946
3,3,Dell,4,IPS Panel,2,1,5,33.78,1.6,8,128,1.22,1244
4,4,HP,4,Full HD,2,1,7,39.62,1.8,8,256,1.91,837


## **Actualización de la columna `Screen_Size_cm`**  

Para mejorar la precisión y consistencia de los datos, redondearemos todos los valores de la columna `Screen_Size_cm` a dos decimales utilizando la función `numpy.round()`.  

In [7]:
# Verificar si la columna 'Screen_Size_cm' existe en el DataFrame
if 'Screen_Size_cm' in df.columns:
    # Redondear los valores a dos decimales usando numpy.round()
    df['Screen_Size_cm'] = np.round(df['Screen_Size_cm'], 2)

    # Mostrar los primeros registros para verificar el cambio
    print("Columna 'Screen_Size_cm' actualizada con valores redondeados:")
    print(df[['Screen_Size_cm']].head())
else:
    print("Error: La columna 'Screen_Size_cm' no se encuentra en el DataFrame.")

Columna 'Screen_Size_cm' actualizada con valores redondeados:
   Screen_Size_cm
0           35.56
1           39.62
2           39.62
3           33.78
4           39.62


## **Ejercicio - 1**  
### **Evaluar el conjunto de datos en busca de valores faltantes**  

En el preprocesamiento anterior, los datos faltantes fueron convertidos del símbolo `'?'` a `numpy.NaN`. *Pandas* trata los valores `NaN` y `Null` de manera equivalente.  

Por lo tanto, podemos identificar directamente las columnas que contienen valores nulos en el conjunto de datos. Escribe un código que detecte qué columnas tienen datos faltantes.  

In [9]:
# Escribe aqui tu codigo


<details><summary>Haz clic aquí para ver la solución</summary>

```python
# Identificar los valores nulos en el DataFrame
missing_data = df.isnull()

# Mostrar las primeras filas de la matriz booleana que indica valores nulos
print(missing_data.head())

# Iterar sobre cada columna y contar la cantidad de valores nulos
for column in missing_data.columns.values.tolist():
    print(f"Columna: {column}")
    print(missing_data[column].value_counts())  # Muestra el conteo de valores nulos y no nulos
    print("")  # Línea en blanco para mejorar la legibilidad
```

</details>

## **Ejercicio - 2**  
### **Reemplazar con el valor medio**  

Los valores faltantes en atributos con datos continuos se deben reemplazar con el valor promedio (media). En este caso, los valores en el atributo `"Weight_kg"` son continuos, y algunos valores están faltando. Escribe un código para reemplazar los valores faltantes en la columna de peso con el valor promedio de ese atributo.  


In [13]:
# Escribe aqui tu codigo


<details><summary>Haz clic aquí para ver la solución</summary>

```python
# Reemplazar los valores faltantes con la media sin usar inplace=True
df["Weight_kg"] = df["Weight_kg"].replace(np.nan, avg_weight)

# Verificar el cambio mostrando las primeras filas de la columna 'Weight_kg'
print("Primeras filas de la columna 'Weight_kg' después del reemplazo:")
print(df[['Weight_kg']].head())
```

</details>

## **Reemplazar con el valor más frecuente**  

Los valores faltantes en atributos con datos categóricos se deben reemplazar con el valor más frecuente (moda). En este caso, el atributo `"Screen_Size_cm"` es categórico, y algunos valores están faltando. Escribe un código para reemplazar los valores faltantes en esta columna con el valor más frecuente de ese atributo.  


In [27]:
# Escribe aqui tu codigo


<details><summary>Haz clic aquí para ver la solución</summary>

```python
# Reemplazar los valores faltantes con el valor más frecuente (moda)
common_screen_size = df['Screen_Size_cm'].value_counts().idxmax()  # Obtener el valor más frecuente
df["Screen_Size_cm"] = df["Screen_Size_cm"].replace(np.nan, common_screen_size)  # Reemplazar NaN con el valor más frecuente

# Verificar el cambio mostrando las primeras filas de la columna 'Screen_Size_cm'
print("Primeras filas de la columna 'Screen_Size_cm' después del reemplazo:")
print(df[['Screen_Size_cm']].head())
```

</details>

## **Ejercicio - 3**  
### **Corregir los tipos de datos**  

Tanto la columna `"Weight_kg"` como la columna `"Screen_Size_cm"` tienen el tipo de dato `"Object"`, pero ambas deberían tener el tipo de dato `"float"`. Escribe un código para corregir el tipo de datos de estas dos columnas.  


In [16]:
# Escribe aqui tu codigo


<details><summary>Haz clic aquí para ver la solución</summary>

```python
# Corregir el tipo de datos de las columnas a 'float'
df['Weight_kg'] = df['Weight_kg'].astype(float)  # Convertir 'Weight_kg' a tipo float
df['Screen_Size_cm'] = df['Screen_Size_cm'].astype(float)  # Convertir 'Screen_Size_cm' a tipo float

# Verificar los tipos de datos después de la conversión
print("Tipos de datos después de la corrección:")
print(df.dtypes)
```

</details>

## **Ejercicio - 4**  
### **Estandarización de los datos**  

El valor de la columna `Screen_Size_cm` generalmente se expresa en pulgadas, y el valor de la columna `Weight_kg` debe estar en libras. Utiliza las siguientes unidades de conversión y escribe un código para modificar las columnas del `DataFrame` en consecuencia. También actualiza sus nombres:

- 1 pulgada = 2.54 cm
- 1 kg = 2.205 libras


In [18]:
# Escribe aqui tu codigo


<details><summary>Haz clic aquí para ver la solución</summary>

```python
# Convertir Screen_Size_cm de cm a pulgadas
df['Screen_Size_inch'] = df['Screen_Size_cm'] / 2.54  # Convertir a pulgadas

# Convertir Weight_kg de kg a libras
df['Weight_lbs'] = df['Weight_kg'] * 2.205  # Convertir a libras

# Eliminar las columnas originales para mantener el DataFrame limpio
df.drop(['Screen_Size_cm', 'Weight_kg'], axis=1, inplace=True)

# Verificar los cambios mostrando las primeras filas del DataFrame
print("Primeras filas del DataFrame después de la estandarización:")
print(df.head())
```

</details>

## **Normalización de los Datos**  

A menudo es necesario normalizar un atributo de datos continuos. Escribe un código para normalizar el atributo `"CPU_frequency"` con respecto al valor máximo disponible en el conjunto de datos.  


In [20]:
# Escribe aqui tu codigo


<details><summary>Haz clic aquí para ver la solución</summary>

```python
# Normalizar el atributo 'CPU_frequency' con respecto al valor máximo
df['CPU_frequency'] = df['CPU_frequency'] / df['CPU_frequency'].max()

# Verificar la normalización mostrando las primeras filas de la columna 'CPU_frequency'
print("Primeras filas de la columna 'CPU_frequency' después de la normalización:")
print(df[['CPU_frequency']].head())
```

</details>

## **Ejercicio - 5**  
### **Binning y grafica**  

El *Binning* es un proceso que consiste en crear un atributo categórico dividiendo los valores de un dato continuo en un número especificado de grupos. En este caso, escribe un código para crear 3 grupos para el atributo `"Price"`. Estos grupos serán nombrados como `"Low"`, `"Medium"` y `"High"`. El nuevo atributo se llamará `"Price-binned"`.  
Crear una gráfica de barras que muestre la distribución de los valores en los grupos `"Low"`, `"Medium"` y `"High"`.

In [29]:
# Escribe aqui tu codigo


<details><summary>Haz clic aquí para ver la solución</summary>

```python
# Definir los límites de los bins (valores de 'Price' para dividir en 3 categorías)
bins = [df['Price'].min(), df['Price'].quantile(0.33), df['Price'].quantile(0.66), df['Price'].max()]

# Definir las etiquetas para los bins
labels = ['Low', 'Medium', 'High']

# Crear una nueva columna 'Price-binned' con los valores categorizados
df['Price-binned'] = pd.cut(df['Price'], bins=bins, labels=labels, include_lowest=True)

# Eliminar la columna original 'Price'
df.drop(['Price'], axis=1, inplace=True)

# Gráfica de barras para visualizar la distribución de los grupos 'Price-binned'
plt.figure(figsize=(8, 6))
df['Price-binned'].value_counts().plot(kind='bar', color=['green', 'yellow', 'red'])
plt.title('Distribución de los grupos de precios')
plt.xlabel('Grupo de Precios')
plt.ylabel('Cantidad de Elementos')
plt.xticks(rotation=0)
plt.show()
```

</details>

## **Ejercicio - 6**  
### **Variables Indicadoras**  

Convierte el atributo `"Screen"` del conjunto de datos en 2 variables indicadoras: `"Screen-IPS_panel"` y `"Screen-Full_HD"`. Luego, elimina el atributo `"Screen"` del conjunto de datos.  


In [24]:
# Escribe aqui tu codigo


<details><summary>Haz clic aquí para ver la solución</summary>

```python
# Crear las variables indicadoras basadas en los valores presentes en 'Screen'
df['Screen-IPS_panel'] = df['Screen'].apply(lambda x: 1 if 'IPS' in str(x) else 0)
df['Screen-Full_HD'] = df['Screen'].apply(lambda x: 1 if 'Full HD' in str(x) else 0)

# Eliminar la columna original 'Screen'
df.drop(['Screen'], axis=1, inplace=True)
```

</details>

## **Verificación final de los cambios en el conjunto de datos**  

Este conjunto de datos, ahora finalizado, es el que utilizarás en todos los módulos posteriores. Imprime el contenido de `dataframe.head()` para verificar los cambios realizados en el conjunto de datos.  


In [26]:
# Verificar las primeras filas del DataFrame después de todas las modificaciones
print("Primeras filas del DataFrame después de los cambios realizados:")
print(df.head())

## ¡Felicidades! Has completado la práctica con éxito 🎉

Has aprendido a:

- Manejar datos faltantes.
- Corregir tipos de datos.
- Estandarizar y normalizar atributos.
- Crear variables indicadoras.
- Realizar *binning*.

¡Excelente trabajo!

 ¡Sigue adelante! 😊