| **Inicio** | **atrás 2** | **Siguiente 4** |
|----------- |-------------- |---------------|
| [🏠](../../../README.md) | [⏪](./2.INTRODUCCION_A_PANDAS.ipynb)| [⏩](./4.LIMPIEZA_Y_PREPARACION_DE_DATOS.ipynb)|

# **3. VISUALIZACIÓN EN PYTHON (MATPLOTLIB)**

## **Búsqueda y eliminación de datos duplicados por filas y columnas**

En pandas, puedes utilizar funciones para buscar y eliminar datos duplicados tanto por filas como por columnas en un DataFrame. Aquí tienes una explicación detallada con ejemplos:

In [1]:
import pandas as pd

# Creación del DataFrame
data = {'Nombre': ['Juan', 'María', 'Pedro', 'María'],
        'Edad': [25, 30, 35, 30],
        'Altura': [170, 165, 180, 165]}
df = pd.DataFrame(data)
print("DataFrame original:")
print(df)

# Búsqueda de datos duplicados por filas
duplicados_filas = df.duplicated()
print("\nFilas duplicadas:")
print(duplicados_filas)

# Eliminación de datos duplicados por filas
df_sin_duplicados_filas = df.drop_duplicates()
print("\nDataFrame sin filas duplicadas:")
print(df_sin_duplicados_filas)

# Búsqueda de datos duplicados por columnas
duplicados_columnas = df.duplicated(subset=['Nombre'])
print("\nColumnas duplicadas:")
print(duplicados_columnas)

# Eliminación de datos duplicados por columnas
df_sin_duplicados_columnas = df.drop_duplicates(subset=['Nombre'])
print("\nDataFrame sin columnas duplicadas:")
print(df_sin_duplicados_columnas)

DataFrame original:
  Nombre  Edad  Altura
0   Juan    25     170
1  María    30     165
2  Pedro    35     180
3  María    30     165

Filas duplicadas:
0    False
1    False
2    False
3     True
dtype: bool

DataFrame sin filas duplicadas:
  Nombre  Edad  Altura
0   Juan    25     170
1  María    30     165
2  Pedro    35     180

Columnas duplicadas:
0    False
1    False
2    False
3     True
dtype: bool

DataFrame sin columnas duplicadas:
  Nombre  Edad  Altura
0   Juan    25     170
1  María    30     165
2  Pedro    35     180


En este ejemplo, creamos un DataFrame `df` con tres columnas: '`Nombre`', '`Edad`' y '`Altura`'. Algunas filas y columnas contienen datos duplicados. A continuación, aplicamos las siguientes operaciones:

* **Búsqueda de datos duplicados por filas:** Utilizamos el método `duplicated()` sin especificar ninguna columna. Esto devuelve una serie de valores booleanos que indican si cada fila es duplicada o no.

* **Eliminación de datos duplicados por filas:** Utilizamos el método `drop_duplicates()` sin especificar ninguna columna. Esto crea un nuevo DataFrame `df_sin_duplicados_filas` que excluye las filas duplicadas.

* **Búsqueda de datos duplicados por columnas:** Utilizamos el método `duplicated()` especificando la columna '`Nombre`'. Esto devuelve una serie de valores booleanos que indican si cada valor en la columna '`Nombre`' es duplicado o no.

* **Eliminación de datos duplicados por columnas:** Utilizamos el método `drop_duplicates()` especificando la columna '`Nombre`'. Esto crea un nuevo DataFrame `df_sin_duplicados_columnas` que excluye las filas con valores duplicados en la columna '`Nombre`'.

En ambos casos, la función `drop_duplicates()` conserva la primera aparición de una fila o columna duplicada y elimina las apariciones posteriores.

Recuerda que también puedes especificar múltiples columnas en los métodos `duplicated()` y `drop_duplicates()` para buscar y eliminar duplicados basados en una combinación de columnas.

## **Transformación de Datos**

La transformación de datos es el proceso de modificar o manipular los datos existentes con el objetivo de obtener una representación más útil, comprensible o adecuada para su análisis o uso posterior. Esta etapa es esencial en el flujo de trabajo de análisis de datos, ya que permite preparar y limpiar los datos antes de aplicar técnicas de análisis o modelado.

La transformación de datos puede involucrar una variedad de operaciones, que incluyen:

1. **Limpieza de datos:** Esto implica identificar y corregir errores, eliminar valores atípicos o inconsistentes, tratar los valores perdidos o nulos, y estandarizar los formatos de datos para garantizar la coherencia y la integridad de los datos.

2. **Normalización:** Consiste en escalar los valores de las variables para que estén dentro de un rango específico, como 0 a 1, o estandarizarlos utilizando la media y desviación estándar. Esto es especialmente útil cuando se trabaja con variables de diferentes escalas, ya que ayuda a evitar que ciertas variables dominen el análisis debido a su escala.

3. **Transformación de variables:** Implica aplicar funciones matemáticas o estadísticas a las variables para obtener nuevas representaciones o características de los datos. Esto puede incluir transformaciones logarítmicas, exponenciales, raíces cuadradas, entre otras.

4. **Agregación de datos:** Consiste en combinar datos individuales en grupos más grandes, como sumarizar datos por categorías o intervalos de tiempo, calcular estadísticas agregadas (como la media o la suma) o crear variables derivadas a partir de múltiples variables existentes.

5. **Codificación de variables categóricas:** Si hay variables categóricas en los datos, es posible que sea necesario codificarlas como variables numéricas para que los algoritmos de análisis puedan procesarlas. Esto puede incluir técnicas como la codificación `one-hot`, donde se crea una columna binaria para cada categoría, o la codificación ordinal, donde se asignan valores numéricos a las categorías en función de su orden o relevancia.

Estas son solo algunas de las operaciones comunes de transformación de datos. El enfoque y las técnicas específicas utilizadas pueden variar según el contexto del problema y los requisitos del análisis. Es importante tener en cuenta que la transformación de datos debe realizarse de manera cuidadosa y bien documentada, para garantizar la calidad y la reproducibilidad de los resultados obtenidos.

A continuación, se muestra un ejemplo de código Python que ilustra algunas transformaciones de datos utilizando la biblioteca pandas:

In [7]:
import pandas as pd
import math
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50],
        'Categoría': ['A', 'B', 'A', 'C', 'B']}
df = pd.DataFrame(data)

# Limpieza de datos: eliminar filas con valores nulos
df = df.dropna()

# Normalización: escalar los valores de la columna A al rango [0, 1]
df['A'] = (df['A'] - df['A'].min()) / (df['A'].max() - df['A'].min())

# Transformación de variables: calcular el logaritmo de la columna B
df['B'] = df['B'].apply(lambda x: math.log(x))

# Agregación de datos: calcular la suma de las columnas A y B
df['Suma'] = df['A'] + df['B']

# Codificación de variables categóricas: convertir una variable categórica en una variable dummy
df = pd.get_dummies(df, columns=['Categoría'])

print(df)

      A         B      Suma  Categoría_A  Categoría_B  Categoría_C
0  0.00  2.302585  2.302585            1            0            0
1  0.25  2.995732  3.245732            0            1            0
2  0.50  3.401197  3.901197            1            0            0
3  0.75  3.688879  4.438879            0            0            1
4  1.00  3.912023  4.912023            0            1            0


En este ejemplo, aplicamos varias transformaciones de datos al DataFrame `df`:

* **Limpieza de datos:** Utilizamos el método `dropna()` para eliminar las filas que contienen valores nulos.

* **Normalización:** Utilizamos la fórmula de escalamiento min-max para escalar los valores de la columna '`A`' al rango `[0, 1]`.

* **Transformación de variables:** Aplicamos la función logaritmo a los valores de la columna '`B`' utilizando el método `apply()` y una función `lambda`.

* **Agregación de datos:** Calculamos la suma de las columnas '`A`' y '`B`' y guardamos el resultado en una nueva columna '`Suma`'.

* **Codificación de variables categóricas:** Utilizamos el método `get_dummies()` para convertir una columna categórica '`Categoría`' en variables dummy, creando columnas binarias correspondientes a cada categoría.

Estas transformaciones son solo ejemplos y pueden variar según tus necesidades y los datos con los que estés trabajando. Recuerda que es importante entender tus datos y aplicar las transformaciones adecuadas para obtener resultados significativos en tu análisis.

## **Preprocesamiento de datos con Python**

El preprocesamiento de datos es una etapa fundamental en cualquier tarea de análisis de datos y aprendizaje automático. Consiste en realizar una serie de transformaciones y manipulaciones en los datos brutos para prepararlos adecuadamente antes de aplicar algoritmos o modelos. El objetivo principal del preprocesamiento de datos es mejorar la calidad de los datos, eliminar ruidos y redundancias, y garantizar que los datos sean adecuados para su posterior análisis.

El preprocesamiento de datos implica diferentes técnicas y pasos, que pueden variar según el tipo de datos y la naturaleza del problema. Algunas de las técnicas comunes utilizadas en el preprocesamiento de datos son:

1. **Limpieza de datos:** Esto implica eliminar o tratar los valores faltantes, corregir errores en los datos, eliminar valores atípicos (outliers) y manejar valores duplicados.

2. **Integración de datos:** En ocasiones, los datos pueden estar distribuidos en múltiples fuentes o en diferentes formatos. La integración de datos implica combinar y fusionar los datos en una sola estructura coherente.

3. **Transformación de datos:** Esto incluye la normalización de variables numéricas para que estén en la misma escala, la estandarización de datos para que tengan una media de cero y una desviación estándar de uno, y la transformación de variables categóricas en representaciones numéricas adecuadas.

4. **Reducción de dimensionalidad:** Cuando los datos tienen muchas variables o características, puede ser útil reducir la dimensionalidad para simplificar el análisis. Esto se puede lograr mediante técnicas como Análisis de Componentes Principales (PCA) o selección de características.

5. **Discretización de datos:** En algunos casos, puede ser necesario convertir variables continuas en variables discretas o categóricas. Esto se puede hacer mediante la segmentación de rangos o el uso de algoritmos de agrupamiento.

6. **Codificación de variables categóricas:** Las variables categóricas deben ser codificadas en representaciones numéricas para que puedan ser utilizadas por algoritmos de aprendizaje automático. Esto se puede hacer mediante técnicas como la codificación one-hot (dummy encoding) o la codificación ordinal.

7. **Manejo de desequilibrios de clases:** Si los datos están desequilibrados, es decir, una clase está sobre-representada en comparación con otras, se pueden aplicar técnicas de muestreo para equilibrar las clases, como el submuestreo, el sobremuestreo o la generación sintética de muestras.

Estos son solo algunos ejemplos de las técnicas de preprocesamiento de datos que se pueden utilizar. La elección de las técnicas dependerá del problema específico y los datos con los que se está trabajando. Es importante tener en cuenta que el preprocesamiento de datos es un paso crítico para garantizar la calidad y confiabilidad de los resultados en cualquier análisis de datos o proyecto de aprendizaje automático.

## **Formato y normalización de datos**

El formato y la normalización de datos son procesos importantes en el preprocesamiento de datos que se realizan para garantizar que los datos estén en un estado adecuado para su análisis o modelado. A continuación, se explica brevemente cada uno de estos conceptos:

1. **Formato de datos:**

El formato de datos se refiere a la estructura y presentación de los datos. A menudo, los datos pueden venir en diferentes formatos, como archivos CSV, Excel, JSON, bases de datos, entre otros. Durante el preprocesamiento, es común convertir los datos a un formato más conveniente o compatible con las herramientas y bibliotecas de análisis de datos que se utilizarán. Por ejemplo, es posible que deba leer los datos de un archivo CSV y cargarlos en un DataFrame de Pandas para facilitar su manipulación y análisis.

2. **Normalización de datos:**

La normalización de datos es un proceso para escalar los valores de los datos a un rango específico o estandarizarlos para que tengan una distribución común. Esto es útil cuando las variables en los datos tienen diferentes rangos o unidades de medida. La normalización permite comparar y analizar los datos de manera más efectiva. Algunas técnicas comunes de normalización incluyen:

* **Min-Max scaling:** Escala los valores al rango [0, 1] dividiendo cada valor por el valor máximo y restando el valor mínimo.
* **Z-score normalization:** Estándariza los valores para que tengan una media de cero y una desviación estándar de uno restando la media y dividiendo por la desviación estándar.

2. **Escalamiento decimal:**

 Mueve el punto decimal de los valores para ajustarlos a una escala específica, como escalar los valores entre -1 y 1.
La normalización de datos es especialmente importante cuando se utilizan algoritmos basados en distancias o que son sensibles a las escalas de las variables, como el análisis de conglomerados o los algoritmos de aprendizaje automático basados en la distancia euclidiana.

Es importante destacar que el formato y la normalización de datos pueden variar según el tipo de datos y el problema específico. Algunas bibliotecas populares en Python para trabajar con el formato y la normalización de datos son Pandas y Scikit-learn, que ofrecen diversas funciones y métodos para realizar estas tareas de manera eficiente.

![Formato y normalización de datos](../img/Formato%20y%20normalizaci%C3%B3n%20de%20datos.jpg "Formato y normalización de datos")

| **Inicio** | **atrás 2** | **Siguiente 4** |
|----------- |-------------- |---------------|
| [🏠](../../../README.md) | [⏪](./2.INTRODUCCION_A_PANDAS.ipynb)| [⏩](./4.LIMPIEZA_Y_PREPARACION_DE_DATOS.ipynb)|