# Transformaciones
Las transformaciones de datos son un paso fundamental en el análisis y preparación de datos. Consisten en modificar, reorganizar o limpiar los datos para que estén en un formato adecuado para el análisis o modelado. A continuación, se explican algunos conceptos básicos y ejemplos prácticos.

## ¿Qué son las transformaciones de datos?
Las transformaciones de datos implican aplicar operaciones a los datos para:

1. **Limpiar datos**: Eliminar valores nulos, duplicados o inconsistencias.
2. **Reformatear datos**: Cambiar el formato de columnas, como convertir fechas o cadenas a números.
3. **Crear nuevas columnas**: Generar columnas derivadas de otras, como calcular porcentajes o diferencias.
4. **Reorganizar datos**: Ordenar, agrupar o pivotar datos para facilitar el análisis.

## Transformaciones comunes

1. **Normalización**: Escalar los datos para que estén en un rango específico.
2. **Codificación**: Convertir datos categóricos en valores numéricos.
3. **Agrupación**: Agrupar datos por categorías y calcular estadísticas.
4. **Pivotar datos**: Transformar filas en columnas o viceversa.

## Importancia de las transformaciones

Las transformaciones de datos son esenciales para:

- **Preparar datos para modelos de aprendizaje automático**.
- **Reducir errores y mejorar la calidad de los datos**.
- **Facilitar el análisis y la visualización**.

<hr>

### Ahora que hemos entrado en contexto sobre qué son las transformaciones, vamos a ver como realizarlas. Para ello vamos a usar la biblioteca de **Pandas** y **Polars**

# ¿Qué es Pandas?

Pandas es una biblioteca de Python de código abierto que proporciona herramientas de análisis y manipulación de datos de alto rendimiento y fáciles de usar. Es ampliamente utilizada en el ámbito de la ciencia de datos, análisis estadístico y aprendizaje automático debido a su capacidad para manejar y procesar grandes volúmenes de datos de manera eficiente.

## ¿En qué se basa?

Pandas se basa en dos estructuras de datos principales:

- **Series**: Una estructura unidimensional similar a una lista o un array de NumPy, pero con etiquetas para los índices.
- **DataFrame**: Una estructura bidimensional similar a una tabla en una base de datos o una hoja de cálculo, con filas e índices etiquetados.

Estas estructuras permiten realizar operaciones complejas de análisis y manipulación de datos de manera sencilla.

## Funciones principales

Pandas incluye una amplia gama de funcionalidades, entre las que destacan:

- **Lectura y escritura de datos**: Importar y exportar datos desde/para múltiples formatos como CSV, Excel, JSON, SQL, y más.
- **Limpieza de datos**: Manejo de valores nulos, duplicados y transformación de datos.
- **Filtrado y selección**: Selección de filas y columnas basadas en condiciones.
- **Agrupación y agregación**: Agrupar datos y calcular estadísticas como suma, promedio, conteo, etc.
- **Manipulación de datos**: Ordenar, fusionar, concatenar y pivotar datos.
- **Análisis temporal**: Manejo de datos de series temporales, incluyendo fechas y frecuencias.

## ¿Para qué se usa Pandas?

Pandas es ideal para:

- **Análisis exploratorio de datos (EDA)**: Examinar y resumir datos para descubrir patrones y tendencias.
- **Preparación de datos**: Transformar datos en un formato adecuado para el análisis o modelado.
- **Análisis estadístico**: Calcular métricas y realizar operaciones estadísticas.
- **Integración con otras bibliotecas**: Trabajar junto con bibliotecas como NumPy y Matplotlib para análisis y visualización de datos.

## Mejores casos de uso

Pandas es especialmente útil en los siguientes escenarios:

1. **Análisis financiero**: Procesar datos de mercado y realizar cálculos financieros.
2. **Ciencia de datos**: Preparar conjuntos de datos para modelos de aprendizaje automático.
3. **Análisis de series temporales**: Trabajar con datos de tiempo como precios de acciones o datos meteorológicos.
4. **Limpieza de datos**: Transformar datos desordenados en un formato estructurado y limpio.
5. **Automatización de informes**: Generar informes basados en datos de manera programática.

## Instalación

Para instalar Pandas, puedes usar `pip`

In [None]:
pip install pandas

# Ejemplo Básico con Pandas
Vamos a realizar un ejemplo básico de cómo usar Pandas para cargar y filtrar datos de un archivo CSV ubicado en la carpeta de "Recursos".

**Instrucción**: Completa el código para cargar un CSV y filtrar los datos de una columna, comprobando si son > 25

# Ejemplo Básico de Transformación con Pandas
A continuación realizaremos un ejemplo paso a paso de cómo realizar transformaciones comunes con Pandas (Creación, Eliminación, Rellenado de valores nulos, Filtrado, Ordenación):

Usa el siguiente DataFrame:

```python
#DataFrame con datos de ejemplo 
data = {'Nombre': ['Ana', 'Luis', 'María', 'Juan'],
        'Edad': [25, 30, None, 22],
        'Salario': [3000, 4000, 3500, None]}
```

**Instrucción**: Elimina las edades con valores nulos.

**Instrucción**: Establece un valor por defecto para los salarios con valores nulos.

**Instrucción**: Crea una nueva columna llamada "Salario_anual" cuyo valor sea el Salario multiplicado por 12.

**Instrucción**: Crea un DataFrame con las personas que tienen una Edad superior a 25 años.

**Instrucción**: Crea un DataFrame con los datos ordenados por salario en orden descentente.

<hr>

# ¿Qué es Polars?

Polars es una biblioteca de Python diseñada para el análisis y manipulación de datos, similar a Pandas, pero optimizada para un rendimiento más alto. Está escrita en Rust, lo que le permite ser extremadamente rápida y eficiente en el manejo de grandes volúmenes de datos. Polars es especialmente útil en escenarios donde el rendimiento y la escalabilidad son críticos.

## ¿En qué se basa?

Polars utiliza estructuras de datos optimizadas para el procesamiento de datos en memoria:

- **Series**: Una estructura unidimensional similar a las Series de Pandas, que representa una columna de datos.
- **DataFrame**: Una estructura bidimensional que organiza los datos en filas y columnas, diseñada para ser altamente eficiente en operaciones paralelas.

Estas estructuras están diseñadas para aprovechar al máximo los recursos del hardware, como la memoria y los núcleos de CPU.

## Funciones principales

Polars incluye una amplia gama de funcionalidades, entre las que destacan:

- **Lectura y escritura de datos**: Soporte para múltiples formatos como CSV, Parquet, JSON, y más.
- **Manipulación de datos**: Filtrado, selección, ordenación y agrupación de datos.
- **Operaciones en columnas**: Creación de nuevas columnas, transformación de datos y cálculos vectorizados.
- **Procesamiento en paralelo**: Aprovecha múltiples núcleos de CPU para acelerar las operaciones.
- **Soporte para datos de series temporales**: Manejo eficiente de datos con marcas de tiempo.

## ¿Para qué se usa Polars?

Polars es ideal para:

- **Procesamiento de grandes volúmenes de datos**: Manejo eficiente de datasets que no caben en memoria.
- **Análisis de datos de alto rendimiento**: Realizar operaciones complejas en grandes conjuntos de datos de manera rápida.
- **Procesamiento en pipelines**: Integración en flujos de trabajo de datos donde la velocidad es crucial.
- **Análisis de series temporales**: Trabajar con datos de tiempo de manera eficiente.


## Mejores casos de uso

Polars es especialmente útil en los siguientes escenarios:

1. **Big Data**: Procesar grandes volúmenes de datos que requieren un rendimiento superior.
2. **Análisis en tiempo real**: Realizar cálculos rápidos en datos que cambian constantemente.
3. **Procesamiento distribuido**: Integración con sistemas de procesamiento distribuido como Apache Arrow.
4. **Optimización de pipelines de datos**: Reducir el tiempo de ejecución en flujos de trabajo complejos.


## Instalación

Para instalar Polars, puedes usar `pip`

In [None]:
pip install polars

# Ejemplo Básico con Polars
Vamos a realizar un ejemplo básico de cómo usar Polars para cargar y filtrar datos de un archivo CSV  ubicado en la carpeta de "Recursos", observaréis que es muy similar al uso de Pandas:


**Instrucción**: Completa el código para cargar un CSV y filtrar los datos de una columna, comprobando si son > 25

# Ejemplo Básico de Transformación con Polars
A continuación realizaremos un ejemplo paso a paso de cómo realizar transformaciones comunes con Polars (Creación, Eliminación, Rellenado de valores nulos, Filtrado, Ordenación):

Usa el siguiente DataFrame:

```python
#DataFrame con datos de ejemplo 
data = {'Nombre': ['Ana', 'Luis', 'María', 'Juan'],
        'Edad': [25, 30, None, 22],
        'Salario': [3000, 4000, 3500, None]}
```

**Instrucción**: Elimina las edades con valores nulos.

**Instrucción**: Establece un valor por defecto para los salarios con valores nulos.

**Instrucción**: Crea una nueva columna llamada "Salario_anual" cuyo valor sea el Salario multiplicado por 12.

**Instrucción**: Crea un DataFrame con las personas que tienen una Edad superior a 25 años.

**Instrucción**: Crea un DataFrame con los datos ordenados por salario en orden descentente.

# Comparativa entre Pandas y Polars
| **Característica**        | **Pandas**                                   | **Polars**                                   |
|---------------------------|----------------------------------------------|----------------------------------------------|
| **Rendimiento**           | Bueno para datasets pequeños y medianos      | Excelente para grandes volúmenes de datos    |
| **Paralelismo**           | Limitado                                     | Soporte completo para procesamiento paralelo |
| **Manejo de memoria**     | Menos eficiente                              | Muy eficiente                                |
| **Facilidad de uso**      | Muy fácil, con una curva de aprendizaje baja | Fácil, pero requiere aprender nuevas APIs    |
| **Soporte para Big Data** | Limitado                                     | Excelente, compatible con Apache Arrow       |
| **Casos de uso ideales**  | Análisis exploratorio y preparación de datos | Procesamiento de datos a gran escala         |

<hr>

### ¡Bien! Ahora que hemos aprendido un poco sobre Pandas y Polars, vamos a ver la librería de NumPy, la cual será nuestra mayor aliada para la realización de operaciones matemáticas.


# ¿Qué es NumPy?

NumPy es una biblioteca fundamental para la computación científica en Python. Proporciona soporte para trabajar con arrays multidimensionales y una amplia colección de funciones matemáticas de alto rendimiento para operar con ellos. Es ampliamente utilizada en análisis de datos, aprendizaje automático, simulaciones científicas y más.


## ¿En qué se basa?

NumPy se basa en la estructura de datos llamada **ndarray** (array multidimensional), que permite realizar operaciones matemáticas de manera eficiente y vectorizada.

- **ndarray**: Una estructura de datos que representa un array multidimensional homogéneo (todos los elementos deben ser del mismo tipo).

Esta estructura está optimizada para realizar operaciones matemáticas y lógicas de manera rápida, aprovechando las capacidades del hardware.


## Funciones principales

NumPy incluye una amplia gama de funcionalidades, entre las que destacan:

- **Creación de arrays**: Generar arrays desde listas, rangos, o mediante funciones como `arange`, `linspace` y `random`.
- **Operaciones matemáticas**: Suma, resta, multiplicación, división, potencias, raíces, etc., aplicadas de manera vectorizada.
- **Manipulación de arrays**: Cambio de forma, transposición, concatenación y división de arrays.
- **Funciones estadísticas**: Cálculo de media, mediana, desviación estándar, varianza, etc.
- **Álgebra lineal**: Operaciones con matrices, determinantes, inversas, descomposiciones, etc.
- **Manejo de datos faltantes**: Uso de máscaras y valores especiales como `np.nan` (NaN = Not A Number).


## ¿Para qué se usa NumPy?

NumPy es ideal para:

- **Cálculos matemáticos y científicos**: Realizar operaciones complejas de manera eficiente.
- **Procesamiento de datos**: Manipular y transformar datos en arrays multidimensionales.
- **Simulaciones**: Crear modelos matemáticos y realizar simulaciones numéricas.
- **Aprendizaje automático**: Preparar datos para modelos de machine learning.
- **Gráficos y visualización**: Generar datos para visualizaciones con bibliotecas como Matplotlib.


## Mejores casos de uso

NumPy es especialmente útil en los siguientes escenarios:

1. **Procesamiento de imágenes**: Trabajar con datos de imágenes representados como arrays.
2. **Simulaciones científicas**: Resolver ecuaciones diferenciales, simulaciones físicas, etc.
3. **Análisis de datos**: Realizar cálculos estadísticos y transformaciones de datos.
4. **Optimización matemática**: Resolver problemas de optimización y álgebra lineal.
5. **Preparación de datos**: Transformar datos en un formato adecuado para modelos de aprendizaje automático.


## Instalación

Para instalar NumPy, puedes usar `pip`

In [None]:
pip install numpy

## Ejemplo básico de cómo usar NumPy para crear y manipular arrays

Vamos a realizar un ejemplo básico de cómo usar NumPy para crear y manipular arrays.

**Instrucción**: Crea un array unidimensional(array) y otro bidimensional(matriz)

**Instrucción**: Realiza operaciones matemáticas (Array multiplicado por 2, Suma de los elementos de la matriz)

**Instrucción**: Crea un array con valores aleatorios

**Instrucción**: Calcula la media y la desviación estándar

**Instrucción**: Normaliza los datos (restamos la media y dividimos por la desviación estándar)

**Instrucción**: Transpon el array creado en la primera instrucción

**Instrucción**: Filtra los elementos del array inicial mayores a 50

<hr>