<a href="https://colab.research.google.com/github/vchavez-17/BootCamp_1/blob/master/M02_S04_Completo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 `Manipulación de tipos de datos y strings`

##  Objetivo

Explorar y aplicar técnicas de manipulación de tipos de datos y cadenas de texto en pandas, facilitando la transformación y análisis de datos con python.

---

##  Comencemos

La manipulación de tipos de datos y strings es esencial para asegurar que tus datos estén en el formato correcto para el análisis. Pandas ofrece herramientas poderosas para transformar y manejar datos de manera eficiente.

---

##  **Manipulación de tipos de datos**

###  **Casting básico con `astype()`**

El casting con `astype()` te permite cambiar el tipo de datos de las columnas en un DataFrame, lo cual es bastante útil para asegurar que los datos sean del tipo correcto para realizar operaciones específicas, de analítica o visualización.

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': ['1', '2', '3', '4'],
    'B': [1.1, 2.2, 3.3, 4.4],
    'C': ['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01'],
    'D': [1212883200000, 1296518400000, 1327881600000, 1361923200000]
})

# Convertir la columna 'A' a tipo entero
df['A'] = df['A'].astype(int)

# Convertir la columna 'C' a tipo datetime usando pd.to_datetime
df['C'] = pd.to_datetime(df['C'])

# Convertir la columna 'D' a tipo datetime en milisegundos
df = df.astype({'D': 'datetime64[ms]'})

# Mostrar los tipos de datos para verificar las conversiones
df.dtypes

# Salida esperada:
# A             int64
# B           float64
# C    datetime64[ns]
# D    datetime64[ns]
# dtype: object

Unnamed: 0,0
A,int64
B,float64
C,datetime64[ns]
D,datetime64[ms]


###  **Casting de tipos numéricos con `to_numeric()`**

Para convertir columnas a tipos numéricos, puedes usar `pd.to_numeric()`, que ofrece más control sobre cómo manejar valores no convertibles, como la capacidad de convertirlos en NaN o ignorarlos.

In [None]:
# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': ['1', '2', '3', '4'],
    'B': ['1.1', '2.2', '3.3', '4.4']
})

# Convertir la columna 'A' a tipo float usando to_numeric
df['A'] = pd.to_numeric(df['A'])

# Mostrar los tipos de datos para verificar las conversiones
df.dtypes

###  **Control de errores en el casting**

Es crucial manejar los posibles errores que puedan surgir durante el proceso de casting. Tanto `pd.to_numeric()` como `pd.to_datetime()` permiten especificar el parámetro `errors` para controlar cómo se manejan los errores, lo cual no está disponible en `astype()`.


In [None]:
# Crear un DataFrame de ejemplo con datos no convertibles
df = pd.DataFrame({
    'A': ['1', '2', 'three', '4'],
    'B': ['1.1', 'two.point.two', '3.3', '4.4']
})

# Intentar convertir la columna 'A' a tipo entero, con manejo de errores
df['A'] = pd.to_numeric(df['A'], errors='coerce')

# Intentar convertir la columna 'B' a tipo float, con manejo de errores
df['B'] = pd.to_numeric(df['B'], errors='coerce')

# Nostrar el dataframe resultante
df.head()

| Tipo de Error   | Descripción                                                                 |
|-----------------|-----------------------------------------------------------------------------|
| `errors='raise'`  | Genera una excepción si se encuentra un valor no convertible (comportamiento predeterminado). |
| `errors='coerce'` | Convierte los valores no convertibles en NaN (valores faltantes).           |
| `errors='ignore'` | Deja los valores no convertibles tal como están, sin realizar el casting.   |

---

##  **Manipulación de cadenas de texto**

La manipulación de cadenas de texto puede incluir tareas como cambiar a minúsculas, eliminar espacios, reemplazar caracteres, y más. Aquí hay algunos métodos comunes para trabajar con strings en Pandas.

###  **Manipulación de strings**

Pandas proporciona una propiedad especial `.str` que te permite acceder a métodos de manipulación de strings, como `lower()`, `upper()`, `strip()`, `replace()`, y `split()`, entre otros. Estos métodos son vectorizados, lo que significa que se aplican a todos los elementos de una columna de manera eficiente.

In [None]:
# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'Nombres': ['John Doe', 'Jane Smith', 'Alice Johnson'],
    'Emails': ['john.doe@example.com', 'jane.smith@example.com', 'alice.johnson@example.com']
})

# Convertir a minúsculas
df['Nombres'] = df['Nombres'].str.lower()

# Dividir la columna 'Nombres' en dos columnas
df[['Nombre', 'Apellido']] = df['Nombres'].str.split(' ', expand=True)

# Extraer el dominio de los correos electrónicos
df['Dominio'] = df['Emails'].str.split('@').str[1]

print(df)

###  **Métodos populares para manipulación de strings**

| Método              | Descripción                                         |
|---------------------|-----------------------------------------------------|
| `str.lower()`       | Convierte todas las cadenas a minúsculas            |
| `str.upper()`       | Convierte todas las cadenas a mayúsculas            |
| `str.strip()`       | Elimina los espacios en blanco al inicio y al final |
| `str.replace(a, b)` | Reemplaza todas las apariciones de `a` por `b`      |
| `str.split(sep)`    | Divide la cadena en una lista utilizando `sep` como separador |

Estos métodos son muy útiles para transformar y limpiar datos textuales en tus DataFrames.

---

###  **Notas**

Pandas proporciona estructuras de datos de alto nivel y herramientas de análisis de datos. Algunas de las características clave de Pandas son:

- **Optimización**: Pandas está construido sobre NumPy, aprovechando algoritmos compilados en C para operaciones vectorizadas rápidas.

- **Gestión de memoria**: Utiliza `BlockManager` para almacenar datos de forma flexible y manejar tipos heterogéneos, a diferencia del almacenamiento contiguo de NumPy.

- **Extensibilidad**: Además del análisis de datos, Pandas se expande con APIs como `GeoPandas` para análisis geoespacial y `Pandas TA` para el trading.

- **Aplicaciones industriales**: Usado en finanzas para análisis cuantitativo, en biotecnología para datos genómicos, y otros campos que gestionan datos complejos.

- **Interoperabilidad con SQL**: Permite la interacción directa con bases de datos SQL, facilitando la carga y manipulación avanzada de datos en `DataFrames`.

NumPy es una librería de Python que proporciona soporte para arreglos y matrices multidimensionales, junto con una colección de funciones matemáticas de alto nivel para operar con estos arreglos.---



 `Técnicas avanzadas de filtrado en dataframes`

##  Objetivo

Desarrollar habilidades para aplicar técnicas avanzadas de filtrado en dataframes de pandas, permitiendo seleccionar y manipular datos para análisis específicos y extracción de información relevante.

---

##  Comencemos

El filtrado avanzado es esencial en el análisis de datos, permitiendo extraer subconjuntos de datos basados en condiciones específicas, se puede realizar, por ejemplo, para seleccionar columnas específicas, filtrar datos de texto o aplicar filtros booleanos para extraer datos que cumplen con ciertas condiciones.

---

##  **Técnicas avanzadas de filtrado en dataframes**

###  **Creación del dataframe general:**

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Carmen', 'José', 'Elena', 'Juan'],
    'Edad': [25, 30, 22, 27, 31, 19],
    'Ciudad': ['Tokio', 'Moscú', 'Londres', 'París', 'Sídney', 'Ciudad de México'],
    'Puntuación': [85, 88, 90, 95, 82, 78],
    'Ocupación': ['Estudiante', 'Ingeniero', 'Estudiante', 'Doctor', 'Arquitecto', 'Estudiante']
})
df.head(10)

### **Uso del método `filter()`:**

Pandas permite filtrar datos usando el método `filter()`, que puede ser útil para seleccionar **`columnas específicas`** de un DataFrame basado en etiquetas o condiciones de contenido.

In [None]:
# Filtrar columnas por nombres que contienen ciertas letras
df_filtrado = df.filter(like='Nombre')
df_filtrado.head(10)

In [None]:
# Filtrar columnas por nombres específicos
df_filtrado = df.filter(items=['Nombre', 'Edad', 'Ciudad'])
df_filtrado.head(10)

###  **Aplicación de filtros de texto:**

Pandas permite filtrar datos de texto en columnas de un DataFrame, utilizando métodos específicos como `str.contains()` para seleccionar filas que contienen una cadena de texto en particular.


In [None]:
# Filtrar filas por ciudad que contienen la letra 'T'
df_filtrado = df[df['Ciudad'].str.contains('T')]
df_filtrado.head(10)

### **Aplicación de filtros booleanos:**

Los filtros booleanos son expresiones que resultan en `True` o `False` para cada fila del DataFrame, permitiendo extraer datos que cumplen con una condición específica.

In [None]:
# Aplicar filtro booleano para seleccionar personas mayores de 25 años
df_filtrado = df[df['Edad'] > 25]
df_filtrado.head(10)


In [None]:
# Aplicar filtro booleano para seleccionar personas con puntuación mayor o igual a 85
df_filtrado = df[df['Puntuación'] >= 85]
df_filtrado.head(10)

### **Filtros complejos con múltiples condiciones:**

En Pandas, al aplicar filtros en DataFrames, se requiere el uso de operadores lógicos específicos para realizar operaciones element-wise sobre matrices de NumPy. En lugar de los operadores estándar de Python (and, or, not), se utilizan:

- **`&`** para **AND**
- **`|`** para **OR**
- **`~`** para **NOT**

In [None]:
# Seleccionar filas donde (Edad < 31) y (Ocupación es 'Estudiante')
df_filtrado_and = df[(df['Edad'] < 31) & (df['Ocupación'] == 'Estudiante')]
df_filtrado_and.head()

# Seleccionar filas donde (Edad < 30) o (Puntuación es igual a 85)
df_filtrado_or = df[(df['Edad'] < 30) | (df['Puntuación'] == 85)]
df_filtrado_or.head()

# Seleccionar filas donde (Ocupación no es 'Estudiante')
df_filtrado_not = df[~(df['Ocupación'] == 'Estudiante')]
df_filtrado_not.head()

### **Notas:**

1. **Usa filtros booleanos para condiciones simples**: Para condiciones básicas, los filtros booleanos son una forma eficiente de seleccionar datos.

2. **Usa filter() para seleccionar columnas**: Si necesitas seleccionar columnas específicas, el método filter() es una opción rápida y sencilla.

3. **Usa operadores lógicos para múltiples condiciones**: Al combinar condiciones, recuerda usar los operadores lógicos adecuados para obtener los resultados esperados.

4. **Agrupa condiciones con paréntesis**: Para evitar errores de precedencia, agrupa las condiciones con paréntesis para asegurar que las operaciones se realicen en el orden correcto.

---
#Ejercicio 01: Limpieza y conversión de datos

##  Objetivo

 Aplicar técnicas de limpieza y conversión de datos para transformar un dataframe con datos sucios en un formato más estructurado y manejable.

---

## Desarrollo

1. **Generar un dataframe con valores aleatorios**:

```python
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo con datos sucios
def create_dirty_data(num_rows):
    np.random.seed(0)  # Para reproducibilidad

    # Generar datos aleatorios para cada columna
    nombres = [f'Nombre_{i}' for i in range(num_rows)]
    edades = np.random.choice(['25', '30', '22', '27', '31 años', '19', 'not available', ''], num_rows)
    ciudades = np.random.choice(['Tokio', 'Moscú', 'Londres', 'París ', 'Sídney', 'Ciudad de México', '   ', '', 'Moscú   '], num_rows)
    puntuaciones = np.random.choice(['85', '88', '90.5', '95', '82', 'setenta y ocho', '', 'NaN'], num_rows)
    ocupaciones = np.random.choice(['Estudiante', 'Ingeniero', 'Estudiante', 'Doctor', 'Arquitecto', 'Estudiante ', ''], num_rows)
    fechas = np.random.choice(['2021-01-01', '2021-02-01', 'not available', '2021-04-01', '2021-05-01', '2021/06/01', '01-07-2021'], num_rows)
    precios = np.random.choice(['100.50', '200', 'not a number', '150.75', '200.00', '250.10', '', 'NaN'], num_rows)
    cantidades = np.random.choice(['1', 'two', '3', '4', 'five', '6', '', 'NaN'], num_rows)

    df = pd.DataFrame({
        'Nombre': nombres,
        'Edad': edades,
        'Ciudad': ciudades,
        'Puntuación': puntuaciones,
        'Ocupación': ocupaciones,
        'Fecha de Compra': fechas,
        'Precio Unitario': precios,
        'Cantidad': cantidades
    })

    return df

# Crear un DataFrame con 200 datos sucios
df_dirty = create_dirty_data(250)
df_dirty.head()
```
---

## Instrucciones

1. **Conversión de datos**: Convierte los siguientes campos a su tipo de dato correspondiente, tratando cualquier valor no convertible como `NaN`
   - `'Edad'`.
   - `'Puntuación'`.
   - `'Precio Unitario'`.
   - `'Cantidad'`.
   - `'Fecha de Compra'`.

2. **Limpieza de espacios**:
   - Elimina espacios en blanco al inicio y al final de los valores en las columnas `'Nombre'`, `'Ciudad'`, y `'Ocupación'`.
   - Reemplaza los valores vacíos en `'Ciudad'` y `'Ocupación'` por `'Desconocida'`.

3. **Llenado de `NaN`**:
   - Rellena los valores `NaN` en las columnas `'Edad'`, `'Puntuación'`, `'Precio Unitario'`, y `'Cantidad'` con la mediana de la columna respectiva.
   - Rellena los valores `NaN` en las columnas `'Ciudad'` y `'Ocupación'` con `'Desconocida'`.
   - Rellena los valores `NaT` en la columna `'Fecha de Compra'` con la fecha actual.

4. **Mostrar el dataframe actualizado**:
   - Muestra el dataframe resultante después de aplicar las transformaciones.

---


---
 `Ordenamiento y transformación de dataframes`

## Objetivo

Desarrollar habilidades para ordenar y transformar dataframes en Pandas, utilizando métodos como `sort`, `map`, y `apply` para organizar datos y aplicar funciones que mejoran el análisis y la presentación de información.

---

## Comencemos

Ordenar y transformar Dataframes son técnicas esenciales en el análisis de datos, permitiendo no solo organizar la información de manera más efectiva, sino también aplicar transformaciones específicas para preparar los datos para análisis posteriores.

---

## **Técnicas de ordenamiento y transformación en dataframes**

### **Creación del dataframe general:**

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo con datos de pacientes en un hospital
df = pd.DataFrame({
    'Paciente': ['John Smith', 'Laura Jones', 'Gary White', 'Sonia Taylor', 'Raj Patel', 'Emily Howard', 'Bruce Wayne', 'Clark Kent', 'Diana Prince', 'Peter Parker'],
    'Edad': [28, 34, 22, 45, 30, 26, 40, 35, 32, 29],
    'Diagnóstico': ['Apendicitis', 'Fractura de brazo', 'Gripe', 'Diabetes Tipo 2', 'Hipertensión', 'Alergias', 'Anemia', 'Bronquitis', 'Artritis', 'Quemaduras leves'],
    'Días Hospitalizado': [3, 5, 2, 7, 3, 1, 4, 6, 5, 2],
    'Costo del Tratamiento ($)': [1500, 3000, 200, 5000, 1000, 300, 1200, 1800, 2500, 500]
})
df.head(10)

### **Ordenamiento de dataframes**

La función `sort_values` permite ordenar un Dataframes por una o más columnas, facilitando la visualización y el análisis de datos de manera más efectiva.

In [None]:
# Ordenar renglones por la columna 'Edad' en orden ascendente
df_ordenado = df.sort_values(by='Edad')
df_ordenado.head(10)

In [None]:
# Ordenar renglones por la columna 'Costo del Tratamiento ($)' en orden descendente
df_ordenado = df.sort_values(by='Costo del Tratamiento ($)', ascending=False)
df_ordenado.head(10)

In [None]:
# Ordenar renglones por las columnas 'Edad' y 'Días Hospitalizado'
df_ordenado = df.sort_values(by=['Edad', 'Días Hospitalizado'], ascending=[True, False])
df_ordenado.head(10)

---

### **Transformación con `map` y `apply`**

Estas funciones son útiles para realizar transformaciones específicas en los datos, permitiendo tanto cambios simples como operaciones más complejas en todo el Dataframes.

#### Uso de `map` en una Serie:

Recuerda que `map` es una función que se aplica a una Serie de Pandas, permitiendo mapear valores existentes a nuevos valores basados en un diccionario o función específica.

In [None]:
# Supongamos que necesitamos codificar la columna de 'Diagnóstico' para un análisis anónimo.
diagnostico_codificado = {
    'Apendicitis': 'D01',
    'Fractura de brazo': 'D02',
    'Gripe': 'D03',
    'Diabetes Tipo 2': 'D04',
    'Hipertensión': 'D05',
    'Alergias': 'D06',
    'Anemia': 'D07',
    'Bronquitis': 'D08',
    'Artritis': 'D09',
    'Quemaduras leves': 'D10'
}
df['Diagnóstico Codificado'] = df['Diagnóstico'].map(diagnostico_codificado)
df[['Diagnóstico', 'Diagnóstico Codificado']]

In [None]:
# Función para categorizar edades
def categorizar_edad(edad):
    if edad < 30:
        return '20-29 años'
    elif edad < 40:
        return '30-39 años'
    elif edad < 50:
        return '40-49 años'
    else:
        return '50+ años'

# Aplicar map con una función para transformar las edades
df['Grupo de Edad'] = df['Edad'].map(categorizar_edad)
df[['Paciente', 'Edad', 'Grupo de Edad']]

---

#### Uso de `apply` en un dataframe:

La función `apply` se utiliza para aplicar una función a lo largo de los renglones o columnas de un Dataframes, permitiendo realizar operaciones más complejas y personalizadas en los datos.

- **Ejemplo de cálculo de costo por día hospitalizado:**

In [None]:
# Calcular el costo estimado del tratamiento por día hospitalizado
df['Costo por Día'] = df.apply(lambda row: round(row['Costo del Tratamiento ($)'] / row['Días Hospitalizado'], 2), axis=1)
df[['Paciente', 'Costo del Tratamiento ($)', 'Días Hospitalizado', 'Costo por Día']]

- **Ejemplo de ajuste de costo por días hospitalizados:**

In [None]:
# Ajustar el costo del tratamiento basado en el número de días hospitalizados
def ajustar_costo(row):
  descuento = 100 * (row['Días Hospitalizado'] - 1)  # $100 descuento por cada día 'ADICIONAL', no por el primero.
  return row['Costo del Tratamiento ($)'] - descuento

# Aplicar la función a lo largo de los renglones
df['Costo Ajustado ($)'] = df.apply(ajustar_costo, axis=1)
df[['Paciente', 'Días Hospitalizado', 'Costo del Tratamiento ($)', 'Costo Ajustado ($)']].head(10)

---

### **Notas:**

- `apply()`:
Es notable por permitir la ejecución de funciones complejas y personalizadas en múltiples columnas de Dataframes, facilitando operaciones avanzadas como lógicas condicionales y manipulaciones de fechas, además de poder retornar múltiples valores nuevos desde una sola aplicación.

- `map()`:
Está optimizado para `Series`, siendo ideal para transformaciones eficientes utilizando diccionarios, otras Series o funciones, especialmente útil para codificaciones rápidas y conversión de datos categóricos con alineación automática de índices.

- `sort_values()`:
Permite un ordenamiento avanzado por múltiples columnas con criterios variables y la opción de aplicar transformaciones a datos antes del ordenamiento, además de manejar `NaNs`, mejorando la preparación de datos para análisis o visualización.

---

`Combinación y agrupación de datos`

## Objetivo

Aprender a combinar y agrupar dataframes en Pandas para unificar datos de múltiples fuentes y realizar análisis estadísticos complejos mediante técnicas de `merge` y `groupby`.

---

## Comencemos

Combinar y agrupar son técnicas fundamentales en el análisis de datos que facilitan la integración de información de diversas fuentes y la realización de análisis detallados sobre subconjuntos específicos de datos.

---

## **Técnicas de combinación y agrupación en dataframes**

### **Creación de dataframes generales:**

In [None]:
import pandas as pd

# DataFrame de Clientes
clientes = pd.DataFrame({
    'cliente_id': [101, 102, 103, 104],
    'nombre': ['Alice Johnson', 'Bob Smith', 'Charlie Davis', 'Diana Prince'],
    'email': ['alice@example.com', 'bob@example.com', 'charlie@example.com', 'diana@example.com'],
    'región': ['Norte', 'Sur', 'Este', 'Oeste']
})
clientes.head()

In [None]:
# DataFrame de Pedidos
pedidos = pd.DataFrame({
    'pedido_id': ['P001', 'P002', 'P003', 'P004', 'P005', 'P006'],
    'cliente_id': [101, 103, 105, 104, 101, 102],  # Incluye IDs que no existen y repeticiones
    'total': [250, 150, 450, 300, 320, 110],
    'fecha': ['2021-01-10', '2021-02-15', '2021-03-20', '2021-04-22', '2021-05-25', '2021-06-15'],
    'categoría': ['Electrónica', 'Ropa', 'Electrónica', 'Libros', 'Alimentos', 'Ropa']
})
pedidos.head(10)

### **Merge de dataframes**

La función `merge` en Pandas permite combinar dos o más DataFrames en función de una o más claves comunes, similar a un `JOIN` en SQL.


### 🔦 **Ejemplos de uso de inner, left y right join:**

In [None]:
# Inner Join
df_inner = pd.merge(clientes, pedidos, on='cliente_id', how='inner')
df_inner.head(10)


In [None]:
# Left Join
df_left = pd.merge(clientes, pedidos, on='cliente_id', how='left')
df_left.head(10)


In [None]:
# Right Join
df_right = pd.merge(clientes, pedidos, on='cliente_id', how='right')
df_right.head(10)

### Parámetros de `merge`

| Parámetro    | Descripción                                                                                                             |
|--------------|-------------------------------------------------------------------------------------------------------------------------|
| `on`         | Nombre de la columna o lista de nombres de columnas para unir las tablas. Las columnas deben existir en ambos DataFrames.|
| `how`        | Tipo de merge/join: 'left', 'right', 'outer', 'inner'. Por defecto es 'inner'.                                          |
| `left_on`    | Columnas del DataFrame izquierdo para hacer el join si los nombres de las columnas en ambos DataFrames no coinciden.    |
| `right_on`   | Columnas del DataFrame derecho para hacer el join si los nombres de las columnas en ambos DataFrames no coinciden.      |
| `left_index` | Si es `True`, usa el índice (filas) del DataFrame izquierdo como su clave de join. Por defecto es `False`.              |
| `right_index`| Si es `True`, usa el índice (filas) del DataFrame derecho como su clave de join. Por defecto es `False`.                |
| `suffixes`   | Una tupla de strings para añadir a los nombres de columnas duplicadas que no son claves de join. Por defecto es `('_x', '_y')`. |


---


### **Agrupación de datos con `groupby`**

La función `groupby` en Pandas permite agrupar datos en un Dataframes en función de una o más columnas, permitiendo realizar operaciones estadísticas y de agregación en los grupos resultantes.

Algunas funciones de agregación comunes incluyen `sum`, `mean`, `count`, `min`, `max`, `std`, `var`, entre otras.

### **Ejemplos de uso de groupby:**

In [None]:
# Realizamos un left join para obtener un DataFrame completo
df_merged = pd.merge(clientes, pedidos, on='cliente_id', how='left')
df_merged.head(10)

In [None]:
# Ejemplo 1: Total de Pedidos por Región
total_por_región = df_merged.groupby('región')['total'].sum()
print(total_por_región)

# Ejemplo 2: Número de Pedidos por Categoría y Región
conteo_pedidos_categoría = df_merged.groupby(['región', 'categoría'])['pedido_id'].count()
print(conteo_pedidos_categoría)

# Ejemplo 3: Promedio del Total de Pedidos por Mes
# Convertir 'fecha' a datetime
df_merged['fecha'] = pd.to_datetime(df_merged['fecha'])

# Extraer el mes y año de la fecha
df_merged['mes_año'] = df_merged['fecha'].dt.to_period('M')

# Calcular el promedio de ventas por mes
promedio_ventas_mes = df_merged.groupby('mes_año')['total'].mean()
print(promedio_ventas_mes)

---

### **Notas:**

- **`merge`** puede ser utilizado no solo para combinar dos Dataframes basados en claves coincidentes, sino también para realizar left, right, y outer joins, proporcionando una flexibilidad comparable a las bases de datos relacionales.
- **`groupby`** no solo es útil para sumar o promediar datos, sino que también puede ser utilizado para aplicar una multitud de funciones estadísticas, transformaciones personalizadas y filtrados complejos dentro de los grupos.

---

`Ejercicio 02: Análisis de datos de tráfico en una ciudad`

## Objetivo

Aplicar técnicas de ordenamiento, transformación, combinación y agrupación en un dataframe que contiene datos de tráfico en una ciudad para identificar patrones de congestión y correlaciones con factores meteorológicos.

---

## Desarrollo

1. **Generar un dataframe con valores aleatorios**:

Contamos con dos dataframes que representan datos de tráfico y datos meteorológicos.

```python
import pandas as pd
import numpy as np

# Generar datos para el DataFrame de tráfico
np.random.seed(0)
fechas_trafico = pd.date_range(start='2024-07-01', periods=30, freq='D')
horas_trafico = ['08:00', '17:00']
zonas_trafico = ['Centro', 'Norte', 'Sur', 'Este', 'Oeste']

# Crear DataFrame de tráfico con 150 datos
df_trafico = pd.DataFrame(
    {
      'fecha': np.tile(fechas_trafico, len(horas_trafico) * len(zonas_trafico)),
      'hora': np.repeat(horas_trafico * len(fechas_trafico), len(zonas_trafico)),
      'zona': np.tile(zonas_trafico, len(fechas_trafico) * len(horas_trafico)),
      'vehiculos': np.random.randint(100, 500, size=(len(fechas_trafico) * len(horas_trafico) * len(zonas_trafico)))
  }
)

# Crear DataFrame meteorológico con 30 días de datos
df_meteorologico = pd.DataFrame(
    {
      'fecha': fechas_trafico,
      'temperatura': np.random.uniform(25, 35, size=len(fechas_trafico)),
      'precipitacion': np.random.uniform(0, 10, size=len(fechas_trafico))
  }
)
```
---

## Instrucciones

1. **Ordenar datos de tráfico:**
   - Ordena el DataFrame de tráfico por fecha y hora en orden ascendente.

2. **Transformar datos:**
   - Incrementa la columna `vehiculos` en un formato que permita visualizar mejor la cantidad de vehículos (por ejemplo, en miles).
   - Limpia cualquier espacio en blanco en la columna `zona`.

3. **Combinar dataframes:**
   - Combina el DataFrame de tráfico con el DataFrame meteorológico usando la columna `fecha` para unir los datos.

4. **Agrupar y analizar:**
   - Agrupa los datos combinados por `zona` y `hora` para calcular el promedio de vehículos y la temperatura máxima en cada zona por hora.
   - Calcula la cantidad promedio de vehículos en función de la `precipitacion` para identificar si hay una correlación entre la precipitación y el tráfico.

5. **Mostrar resultados:**
   - Muestra los resultados obtenidos en un nuevo DataFrame.

---

¡Buena suerte con el análisis de datos de tráfico! Asegúrate de verificar las relaciones entre el tráfico y el clima para obtener conclusiones útiles.

---
