<a href="https://colab.research.google.com/github/vchavez-17/BootCamp_1/blob/master/M02_S04_Completo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 `Manipulaci칩n de tipos de datos y strings`

##  Objetivo

Explorar y aplicar t칠cnicas de manipulaci칩n de tipos de datos y cadenas de texto en pandas, facilitando la transformaci칩n y an치lisis de datos con python.

---

##  Comencemos

La manipulaci칩n de tipos de datos y strings es esencial para asegurar que tus datos est칠n en el formato correcto para el an치lisis. Pandas ofrece herramientas poderosas para transformar y manejar datos de manera eficiente.

---

##  **Manipulaci칩n de tipos de datos**

###  **Casting b치sico con `astype()`**

El casting con `astype()` te permite cambiar el tipo de datos de las columnas en un DataFrame, lo cual es bastante 칰til para asegurar que los datos sean del tipo correcto para realizar operaciones espec칤ficas, de anal칤tica o visualizaci칩n.

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': ['1', '2', '3', '4'],
    'B': [1.1, 2.2, 3.3, 4.4],
    'C': ['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01'],
    'D': [1212883200000, 1296518400000, 1327881600000, 1361923200000]
})

# Convertir la columna 'A' a tipo entero
df['A'] = df['A'].astype(int)

# Convertir la columna 'C' a tipo datetime usando pd.to_datetime
df['C'] = pd.to_datetime(df['C'])

# Convertir la columna 'D' a tipo datetime en milisegundos
df = df.astype({'D': 'datetime64[ms]'})

# Mostrar los tipos de datos para verificar las conversiones
df.dtypes

# Salida esperada:
# A             int64
# B           float64
# C    datetime64[ns]
# D    datetime64[ns]
# dtype: object

Unnamed: 0,0
A,int64
B,float64
C,datetime64[ns]
D,datetime64[ms]


###  **Casting de tipos num칠ricos con `to_numeric()`**

Para convertir columnas a tipos num칠ricos, puedes usar `pd.to_numeric()`, que ofrece m치s control sobre c칩mo manejar valores no convertibles, como la capacidad de convertirlos en NaN o ignorarlos.

In [None]:
# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': ['1', '2', '3', '4'],
    'B': ['1.1', '2.2', '3.3', '4.4']
})

# Convertir la columna 'A' a tipo float usando to_numeric
df['A'] = pd.to_numeric(df['A'])

# Mostrar los tipos de datos para verificar las conversiones
df.dtypes

###  **Control de errores en el casting**

Es crucial manejar los posibles errores que puedan surgir durante el proceso de casting. Tanto `pd.to_numeric()` como `pd.to_datetime()` permiten especificar el par치metro `errors` para controlar c칩mo se manejan los errores, lo cual no est치 disponible en `astype()`.


In [None]:
# Crear un DataFrame de ejemplo con datos no convertibles
df = pd.DataFrame({
    'A': ['1', '2', 'three', '4'],
    'B': ['1.1', 'two.point.two', '3.3', '4.4']
})

# Intentar convertir la columna 'A' a tipo entero, con manejo de errores
df['A'] = pd.to_numeric(df['A'], errors='coerce')

# Intentar convertir la columna 'B' a tipo float, con manejo de errores
df['B'] = pd.to_numeric(df['B'], errors='coerce')

# Nostrar el dataframe resultante
df.head()

| Tipo de Error   | Descripci칩n                                                                 |
|-----------------|-----------------------------------------------------------------------------|
| `errors='raise'`  | Genera una excepci칩n si se encuentra un valor no convertible (comportamiento predeterminado). |
| `errors='coerce'` | Convierte los valores no convertibles en NaN (valores faltantes).           |
| `errors='ignore'` | Deja los valores no convertibles tal como est치n, sin realizar el casting.   |

---

##  **Manipulaci칩n de cadenas de texto**

La manipulaci칩n de cadenas de texto puede incluir tareas como cambiar a min칰sculas, eliminar espacios, reemplazar caracteres, y m치s. Aqu칤 hay algunos m칠todos comunes para trabajar con strings en Pandas.

###  **Manipulaci칩n de strings**

Pandas proporciona una propiedad especial `.str` que te permite acceder a m칠todos de manipulaci칩n de strings, como `lower()`, `upper()`, `strip()`, `replace()`, y `split()`, entre otros. Estos m칠todos son vectorizados, lo que significa que se aplican a todos los elementos de una columna de manera eficiente.

In [None]:
# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'Nombres': ['John Doe', 'Jane Smith', 'Alice Johnson'],
    'Emails': ['john.doe@example.com', 'jane.smith@example.com', 'alice.johnson@example.com']
})

# Convertir a min칰sculas
df['Nombres'] = df['Nombres'].str.lower()

# Dividir la columna 'Nombres' en dos columnas
df[['Nombre', 'Apellido']] = df['Nombres'].str.split(' ', expand=True)

# Extraer el dominio de los correos electr칩nicos
df['Dominio'] = df['Emails'].str.split('@').str[1]

print(df)

###  **M칠todos populares para manipulaci칩n de strings**

| M칠todo              | Descripci칩n                                         |
|---------------------|-----------------------------------------------------|
| `str.lower()`       | Convierte todas las cadenas a min칰sculas            |
| `str.upper()`       | Convierte todas las cadenas a may칰sculas            |
| `str.strip()`       | Elimina los espacios en blanco al inicio y al final |
| `str.replace(a, b)` | Reemplaza todas las apariciones de `a` por `b`      |
| `str.split(sep)`    | Divide la cadena en una lista utilizando `sep` como separador |

Estos m칠todos son muy 칰tiles para transformar y limpiar datos textuales en tus DataFrames.

---

###  **Notas**

Pandas proporciona estructuras de datos de alto nivel y herramientas de an치lisis de datos. Algunas de las caracter칤sticas clave de Pandas son:

- **Optimizaci칩n**: Pandas est치 construido sobre NumPy, aprovechando algoritmos compilados en C para operaciones vectorizadas r치pidas.

- **Gesti칩n de memoria**: Utiliza `BlockManager` para almacenar datos de forma flexible y manejar tipos heterog칠neos, a diferencia del almacenamiento contiguo de NumPy.

- **Extensibilidad**: Adem치s del an치lisis de datos, Pandas se expande con APIs como `GeoPandas` para an치lisis geoespacial y `Pandas TA` para el trading.

- **Aplicaciones industriales**: Usado en finanzas para an치lisis cuantitativo, en biotecnolog칤a para datos gen칩micos, y otros campos que gestionan datos complejos.

- **Interoperabilidad con SQL**: Permite la interacci칩n directa con bases de datos SQL, facilitando la carga y manipulaci칩n avanzada de datos en `DataFrames`.

NumPy es una librer칤a de Python que proporciona soporte para arreglos y matrices multidimensionales, junto con una colecci칩n de funciones matem치ticas de alto nivel para operar con estos arreglos.---



 `T칠cnicas avanzadas de filtrado en dataframes`

##  Objetivo

Desarrollar habilidades para aplicar t칠cnicas avanzadas de filtrado en dataframes de pandas, permitiendo seleccionar y manipular datos para an치lisis espec칤ficos y extracci칩n de informaci칩n relevante.

---

##  Comencemos

El filtrado avanzado es esencial en el an치lisis de datos, permitiendo extraer subconjuntos de datos basados en condiciones espec칤ficas, se puede realizar, por ejemplo, para seleccionar columnas espec칤ficas, filtrar datos de texto o aplicar filtros booleanos para extraer datos que cumplen con ciertas condiciones.

---

##  **T칠cnicas avanzadas de filtrado en dataframes**

###  **Creaci칩n del dataframe general:**

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Carmen', 'Jos칠', 'Elena', 'Juan'],
    'Edad': [25, 30, 22, 27, 31, 19],
    'Ciudad': ['Tokio', 'Mosc칰', 'Londres', 'Par칤s', 'S칤dney', 'Ciudad de M칠xico'],
    'Puntuaci칩n': [85, 88, 90, 95, 82, 78],
    'Ocupaci칩n': ['Estudiante', 'Ingeniero', 'Estudiante', 'Doctor', 'Arquitecto', 'Estudiante']
})
df.head(10)

### **Uso del m칠todo `filter()`:**

Pandas permite filtrar datos usando el m칠todo `filter()`, que puede ser 칰til para seleccionar **`columnas espec칤ficas`** de un DataFrame basado en etiquetas o condiciones de contenido.

In [None]:
# Filtrar columnas por nombres que contienen ciertas letras
df_filtrado = df.filter(like='Nombre')
df_filtrado.head(10)

In [None]:
# Filtrar columnas por nombres espec칤ficos
df_filtrado = df.filter(items=['Nombre', 'Edad', 'Ciudad'])
df_filtrado.head(10)

###  **Aplicaci칩n de filtros de texto:**

Pandas permite filtrar datos de texto en columnas de un DataFrame, utilizando m칠todos espec칤ficos como `str.contains()` para seleccionar filas que contienen una cadena de texto en particular.


In [None]:
# Filtrar filas por ciudad que contienen la letra 'T'
df_filtrado = df[df['Ciudad'].str.contains('T')]
df_filtrado.head(10)

### **Aplicaci칩n de filtros booleanos:**

Los filtros booleanos son expresiones que resultan en `True` o `False` para cada fila del DataFrame, permitiendo extraer datos que cumplen con una condici칩n espec칤fica.

In [None]:
# Aplicar filtro booleano para seleccionar personas mayores de 25 a침os
df_filtrado = df[df['Edad'] > 25]
df_filtrado.head(10)


In [None]:
# Aplicar filtro booleano para seleccionar personas con puntuaci칩n mayor o igual a 85
df_filtrado = df[df['Puntuaci칩n'] >= 85]
df_filtrado.head(10)

### **Filtros complejos con m칰ltiples condiciones:**

En Pandas, al aplicar filtros en DataFrames, se requiere el uso de operadores l칩gicos espec칤ficos para realizar operaciones element-wise sobre matrices de NumPy. En lugar de los operadores est치ndar de Python (and, or, not), se utilizan:

- **`&`** para **AND**
- **`|`** para **OR**
- **`~`** para **NOT**

In [None]:
# Seleccionar filas donde (Edad < 31) y (Ocupaci칩n es 'Estudiante')
df_filtrado_and = df[(df['Edad'] < 31) & (df['Ocupaci칩n'] == 'Estudiante')]
df_filtrado_and.head()

# Seleccionar filas donde (Edad < 30) o (Puntuaci칩n es igual a 85)
df_filtrado_or = df[(df['Edad'] < 30) | (df['Puntuaci칩n'] == 85)]
df_filtrado_or.head()

# Seleccionar filas donde (Ocupaci칩n no es 'Estudiante')
df_filtrado_not = df[~(df['Ocupaci칩n'] == 'Estudiante')]
df_filtrado_not.head()

### **Notas:**

1. **Usa filtros booleanos para condiciones simples**: Para condiciones b치sicas, los filtros booleanos son una forma eficiente de seleccionar datos.

2. **Usa filter() para seleccionar columnas**: Si necesitas seleccionar columnas espec칤ficas, el m칠todo filter() es una opci칩n r치pida y sencilla.

3. **Usa operadores l칩gicos para m칰ltiples condiciones**: Al combinar condiciones, recuerda usar los operadores l칩gicos adecuados para obtener los resultados esperados.

4. **Agrupa condiciones con par칠ntesis**: Para evitar errores de precedencia, agrupa las condiciones con par칠ntesis para asegurar que las operaciones se realicen en el orden correcto.

---
#Ejercicio 01: Limpieza y conversi칩n de datos

##  Objetivo

 Aplicar t칠cnicas de limpieza y conversi칩n de datos para transformar un dataframe con datos sucios en un formato m치s estructurado y manejable.

---

## Desarrollo

1. **Generar un dataframe con valores aleatorios**:

```python
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo con datos sucios
def create_dirty_data(num_rows):
    np.random.seed(0)  # Para reproducibilidad

    # Generar datos aleatorios para cada columna
    nombres = [f'Nombre_{i}' for i in range(num_rows)]
    edades = np.random.choice(['25', '30', '22', '27', '31 a침os', '19', 'not available', ''], num_rows)
    ciudades = np.random.choice(['Tokio', 'Mosc칰', 'Londres', 'Par칤s ', 'S칤dney', 'Ciudad de M칠xico', '   ', '', 'Mosc칰   '], num_rows)
    puntuaciones = np.random.choice(['85', '88', '90.5', '95', '82', 'setenta y ocho', '', 'NaN'], num_rows)
    ocupaciones = np.random.choice(['Estudiante', 'Ingeniero', 'Estudiante', 'Doctor', 'Arquitecto', 'Estudiante ', ''], num_rows)
    fechas = np.random.choice(['2021-01-01', '2021-02-01', 'not available', '2021-04-01', '2021-05-01', '2021/06/01', '01-07-2021'], num_rows)
    precios = np.random.choice(['100.50', '200', 'not a number', '150.75', '200.00', '250.10', '', 'NaN'], num_rows)
    cantidades = np.random.choice(['1', 'two', '3', '4', 'five', '6', '', 'NaN'], num_rows)

    df = pd.DataFrame({
        'Nombre': nombres,
        'Edad': edades,
        'Ciudad': ciudades,
        'Puntuaci칩n': puntuaciones,
        'Ocupaci칩n': ocupaciones,
        'Fecha de Compra': fechas,
        'Precio Unitario': precios,
        'Cantidad': cantidades
    })

    return df

# Crear un DataFrame con 200 datos sucios
df_dirty = create_dirty_data(250)
df_dirty.head()
```
---

## Instrucciones

1. **Conversi칩n de datos**: Convierte los siguientes campos a su tipo de dato correspondiente, tratando cualquier valor no convertible como `NaN`
   - `'Edad'`.
   - `'Puntuaci칩n'`.
   - `'Precio Unitario'`.
   - `'Cantidad'`.
   - `'Fecha de Compra'`.

2. **Limpieza de espacios**:
   - Elimina espacios en blanco al inicio y al final de los valores en las columnas `'Nombre'`, `'Ciudad'`, y `'Ocupaci칩n'`.
   - Reemplaza los valores vac칤os en `'Ciudad'` y `'Ocupaci칩n'` por `'Desconocida'`.

3. **Llenado de `NaN`**:
   - Rellena los valores `NaN` en las columnas `'Edad'`, `'Puntuaci칩n'`, `'Precio Unitario'`, y `'Cantidad'` con la mediana de la columna respectiva.
   - Rellena los valores `NaN` en las columnas `'Ciudad'` y `'Ocupaci칩n'` con `'Desconocida'`.
   - Rellena los valores `NaT` en la columna `'Fecha de Compra'` con la fecha actual.

4. **Mostrar el dataframe actualizado**:
   - Muestra el dataframe resultante despu칠s de aplicar las transformaciones.

---


---
 `Ordenamiento y transformaci칩n de dataframes`

## Objetivo

Desarrollar habilidades para ordenar y transformar dataframes en Pandas, utilizando m칠todos como `sort`, `map`, y `apply` para organizar datos y aplicar funciones que mejoran el an치lisis y la presentaci칩n de informaci칩n.

---

## Comencemos

Ordenar y transformar Dataframes son t칠cnicas esenciales en el an치lisis de datos, permitiendo no solo organizar la informaci칩n de manera m치s efectiva, sino tambi칠n aplicar transformaciones espec칤ficas para preparar los datos para an치lisis posteriores.

---

## **T칠cnicas de ordenamiento y transformaci칩n en dataframes**

### **Creaci칩n del dataframe general:**

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo con datos de pacientes en un hospital
df = pd.DataFrame({
    'Paciente': ['John Smith', 'Laura Jones', 'Gary White', 'Sonia Taylor', 'Raj Patel', 'Emily Howard', 'Bruce Wayne', 'Clark Kent', 'Diana Prince', 'Peter Parker'],
    'Edad': [28, 34, 22, 45, 30, 26, 40, 35, 32, 29],
    'Diagn칩stico': ['Apendicitis', 'Fractura de brazo', 'Gripe', 'Diabetes Tipo 2', 'Hipertensi칩n', 'Alergias', 'Anemia', 'Bronquitis', 'Artritis', 'Quemaduras leves'],
    'D칤as Hospitalizado': [3, 5, 2, 7, 3, 1, 4, 6, 5, 2],
    'Costo del Tratamiento ($)': [1500, 3000, 200, 5000, 1000, 300, 1200, 1800, 2500, 500]
})
df.head(10)

### **Ordenamiento de dataframes**

La funci칩n `sort_values` permite ordenar un Dataframes por una o m치s columnas, facilitando la visualizaci칩n y el an치lisis de datos de manera m치s efectiva.

In [None]:
# Ordenar renglones por la columna 'Edad' en orden ascendente
df_ordenado = df.sort_values(by='Edad')
df_ordenado.head(10)

In [None]:
# Ordenar renglones por la columna 'Costo del Tratamiento ($)' en orden descendente
df_ordenado = df.sort_values(by='Costo del Tratamiento ($)', ascending=False)
df_ordenado.head(10)

In [None]:
# Ordenar renglones por las columnas 'Edad' y 'D칤as Hospitalizado'
df_ordenado = df.sort_values(by=['Edad', 'D칤as Hospitalizado'], ascending=[True, False])
df_ordenado.head(10)

---

### **Transformaci칩n con `map` y `apply`**

Estas funciones son 칰tiles para realizar transformaciones espec칤ficas en los datos, permitiendo tanto cambios simples como operaciones m치s complejas en todo el Dataframes.

#### Uso de `map` en una Serie:

Recuerda que `map` es una funci칩n que se aplica a una Serie de Pandas, permitiendo mapear valores existentes a nuevos valores basados en un diccionario o funci칩n espec칤fica.

In [None]:
# Supongamos que necesitamos codificar la columna de 'Diagn칩stico' para un an치lisis an칩nimo.
diagnostico_codificado = {
    'Apendicitis': 'D01',
    'Fractura de brazo': 'D02',
    'Gripe': 'D03',
    'Diabetes Tipo 2': 'D04',
    'Hipertensi칩n': 'D05',
    'Alergias': 'D06',
    'Anemia': 'D07',
    'Bronquitis': 'D08',
    'Artritis': 'D09',
    'Quemaduras leves': 'D10'
}
df['Diagn칩stico Codificado'] = df['Diagn칩stico'].map(diagnostico_codificado)
df[['Diagn칩stico', 'Diagn칩stico Codificado']]

In [None]:
# Funci칩n para categorizar edades
def categorizar_edad(edad):
    if edad < 30:
        return '20-29 a침os'
    elif edad < 40:
        return '30-39 a침os'
    elif edad < 50:
        return '40-49 a침os'
    else:
        return '50+ a침os'

# Aplicar map con una funci칩n para transformar las edades
df['Grupo de Edad'] = df['Edad'].map(categorizar_edad)
df[['Paciente', 'Edad', 'Grupo de Edad']]

---

#### Uso de `apply` en un dataframe:

La funci칩n `apply` se utiliza para aplicar una funci칩n a lo largo de los renglones o columnas de un Dataframes, permitiendo realizar operaciones m치s complejas y personalizadas en los datos.

- **Ejemplo de c치lculo de costo por d칤a hospitalizado:**

In [None]:
# Calcular el costo estimado del tratamiento por d칤a hospitalizado
df['Costo por D칤a'] = df.apply(lambda row: round(row['Costo del Tratamiento ($)'] / row['D칤as Hospitalizado'], 2), axis=1)
df[['Paciente', 'Costo del Tratamiento ($)', 'D칤as Hospitalizado', 'Costo por D칤a']]

- **Ejemplo de ajuste de costo por d칤as hospitalizados:**

In [None]:
# Ajustar el costo del tratamiento basado en el n칰mero de d칤as hospitalizados
def ajustar_costo(row):
  descuento = 100 * (row['D칤as Hospitalizado'] - 1)  # $100 descuento por cada d칤a 'ADICIONAL', no por el primero.
  return row['Costo del Tratamiento ($)'] - descuento

# Aplicar la funci칩n a lo largo de los renglones
df['Costo Ajustado ($)'] = df.apply(ajustar_costo, axis=1)
df[['Paciente', 'D칤as Hospitalizado', 'Costo del Tratamiento ($)', 'Costo Ajustado ($)']].head(10)

---

### **Notas:**

- `apply()`:
Es notable por permitir la ejecuci칩n de funciones complejas y personalizadas en m칰ltiples columnas de Dataframes, facilitando operaciones avanzadas como l칩gicas condicionales y manipulaciones de fechas, adem치s de poder retornar m칰ltiples valores nuevos desde una sola aplicaci칩n.

- `map()`:
Est치 optimizado para `Series`, siendo ideal para transformaciones eficientes utilizando diccionarios, otras Series o funciones, especialmente 칰til para codificaciones r치pidas y conversi칩n de datos categ칩ricos con alineaci칩n autom치tica de 칤ndices.

- `sort_values()`:
Permite un ordenamiento avanzado por m칰ltiples columnas con criterios variables y la opci칩n de aplicar transformaciones a datos antes del ordenamiento, adem치s de manejar `NaNs`, mejorando la preparaci칩n de datos para an치lisis o visualizaci칩n.

---

`Combinaci칩n y agrupaci칩n de datos`

## Objetivo

Aprender a combinar y agrupar dataframes en Pandas para unificar datos de m칰ltiples fuentes y realizar an치lisis estad칤sticos complejos mediante t칠cnicas de `merge` y `groupby`.

---

## Comencemos

Combinar y agrupar son t칠cnicas fundamentales en el an치lisis de datos que facilitan la integraci칩n de informaci칩n de diversas fuentes y la realizaci칩n de an치lisis detallados sobre subconjuntos espec칤ficos de datos.

---

## **T칠cnicas de combinaci칩n y agrupaci칩n en dataframes**

### **Creaci칩n de dataframes generales:**

In [None]:
import pandas as pd

# DataFrame de Clientes
clientes = pd.DataFrame({
    'cliente_id': [101, 102, 103, 104],
    'nombre': ['Alice Johnson', 'Bob Smith', 'Charlie Davis', 'Diana Prince'],
    'email': ['alice@example.com', 'bob@example.com', 'charlie@example.com', 'diana@example.com'],
    'regi칩n': ['Norte', 'Sur', 'Este', 'Oeste']
})
clientes.head()

In [None]:
# DataFrame de Pedidos
pedidos = pd.DataFrame({
    'pedido_id': ['P001', 'P002', 'P003', 'P004', 'P005', 'P006'],
    'cliente_id': [101, 103, 105, 104, 101, 102],  # Incluye IDs que no existen y repeticiones
    'total': [250, 150, 450, 300, 320, 110],
    'fecha': ['2021-01-10', '2021-02-15', '2021-03-20', '2021-04-22', '2021-05-25', '2021-06-15'],
    'categor칤a': ['Electr칩nica', 'Ropa', 'Electr칩nica', 'Libros', 'Alimentos', 'Ropa']
})
pedidos.head(10)

### **Merge de dataframes**

La funci칩n `merge` en Pandas permite combinar dos o m치s DataFrames en funci칩n de una o m치s claves comunes, similar a un `JOIN` en SQL.


### 游댡 **Ejemplos de uso de inner, left y right join:**

In [None]:
# Inner Join
df_inner = pd.merge(clientes, pedidos, on='cliente_id', how='inner')
df_inner.head(10)


In [None]:
# Left Join
df_left = pd.merge(clientes, pedidos, on='cliente_id', how='left')
df_left.head(10)


In [None]:
# Right Join
df_right = pd.merge(clientes, pedidos, on='cliente_id', how='right')
df_right.head(10)

### Par치metros de `merge`

| Par치metro    | Descripci칩n                                                                                                             |
|--------------|-------------------------------------------------------------------------------------------------------------------------|
| `on`         | Nombre de la columna o lista de nombres de columnas para unir las tablas. Las columnas deben existir en ambos DataFrames.|
| `how`        | Tipo de merge/join: 'left', 'right', 'outer', 'inner'. Por defecto es 'inner'.                                          |
| `left_on`    | Columnas del DataFrame izquierdo para hacer el join si los nombres de las columnas en ambos DataFrames no coinciden.    |
| `right_on`   | Columnas del DataFrame derecho para hacer el join si los nombres de las columnas en ambos DataFrames no coinciden.      |
| `left_index` | Si es `True`, usa el 칤ndice (filas) del DataFrame izquierdo como su clave de join. Por defecto es `False`.              |
| `right_index`| Si es `True`, usa el 칤ndice (filas) del DataFrame derecho como su clave de join. Por defecto es `False`.                |
| `suffixes`   | Una tupla de strings para a침adir a los nombres de columnas duplicadas que no son claves de join. Por defecto es `('_x', '_y')`. |


---


### **Agrupaci칩n de datos con `groupby`**

La funci칩n `groupby` en Pandas permite agrupar datos en un Dataframes en funci칩n de una o m치s columnas, permitiendo realizar operaciones estad칤sticas y de agregaci칩n en los grupos resultantes.

Algunas funciones de agregaci칩n comunes incluyen `sum`, `mean`, `count`, `min`, `max`, `std`, `var`, entre otras.

### **Ejemplos de uso de groupby:**

In [None]:
# Realizamos un left join para obtener un DataFrame completo
df_merged = pd.merge(clientes, pedidos, on='cliente_id', how='left')
df_merged.head(10)

In [None]:
# Ejemplo 1: Total de Pedidos por Regi칩n
total_por_regi칩n = df_merged.groupby('regi칩n')['total'].sum()
print(total_por_regi칩n)

# Ejemplo 2: N칰mero de Pedidos por Categor칤a y Regi칩n
conteo_pedidos_categor칤a = df_merged.groupby(['regi칩n', 'categor칤a'])['pedido_id'].count()
print(conteo_pedidos_categor칤a)

# Ejemplo 3: Promedio del Total de Pedidos por Mes
# Convertir 'fecha' a datetime
df_merged['fecha'] = pd.to_datetime(df_merged['fecha'])

# Extraer el mes y a침o de la fecha
df_merged['mes_a침o'] = df_merged['fecha'].dt.to_period('M')

# Calcular el promedio de ventas por mes
promedio_ventas_mes = df_merged.groupby('mes_a침o')['total'].mean()
print(promedio_ventas_mes)

---

### **Notas:**

- **`merge`** puede ser utilizado no solo para combinar dos Dataframes basados en claves coincidentes, sino tambi칠n para realizar left, right, y outer joins, proporcionando una flexibilidad comparable a las bases de datos relacionales.
- **`groupby`** no solo es 칰til para sumar o promediar datos, sino que tambi칠n puede ser utilizado para aplicar una multitud de funciones estad칤sticas, transformaciones personalizadas y filtrados complejos dentro de los grupos.

---

`Ejercicio 02: An치lisis de datos de tr치fico en una ciudad`

## Objetivo

Aplicar t칠cnicas de ordenamiento, transformaci칩n, combinaci칩n y agrupaci칩n en un dataframe que contiene datos de tr치fico en una ciudad para identificar patrones de congesti칩n y correlaciones con factores meteorol칩gicos.

---

## Desarrollo

1. **Generar un dataframe con valores aleatorios**:

Contamos con dos dataframes que representan datos de tr치fico y datos meteorol칩gicos.

```python
import pandas as pd
import numpy as np

# Generar datos para el DataFrame de tr치fico
np.random.seed(0)
fechas_trafico = pd.date_range(start='2024-07-01', periods=30, freq='D')
horas_trafico = ['08:00', '17:00']
zonas_trafico = ['Centro', 'Norte', 'Sur', 'Este', 'Oeste']

# Crear DataFrame de tr치fico con 150 datos
df_trafico = pd.DataFrame(
    {
      'fecha': np.tile(fechas_trafico, len(horas_trafico) * len(zonas_trafico)),
      'hora': np.repeat(horas_trafico * len(fechas_trafico), len(zonas_trafico)),
      'zona': np.tile(zonas_trafico, len(fechas_trafico) * len(horas_trafico)),
      'vehiculos': np.random.randint(100, 500, size=(len(fechas_trafico) * len(horas_trafico) * len(zonas_trafico)))
  }
)

# Crear DataFrame meteorol칩gico con 30 d칤as de datos
df_meteorologico = pd.DataFrame(
    {
      'fecha': fechas_trafico,
      'temperatura': np.random.uniform(25, 35, size=len(fechas_trafico)),
      'precipitacion': np.random.uniform(0, 10, size=len(fechas_trafico))
  }
)
```
---

## Instrucciones

1. **Ordenar datos de tr치fico:**
   - Ordena el DataFrame de tr치fico por fecha y hora en orden ascendente.

2. **Transformar datos:**
   - Incrementa la columna `vehiculos` en un formato que permita visualizar mejor la cantidad de veh칤culos (por ejemplo, en miles).
   - Limpia cualquier espacio en blanco en la columna `zona`.

3. **Combinar dataframes:**
   - Combina el DataFrame de tr치fico con el DataFrame meteorol칩gico usando la columna `fecha` para unir los datos.

4. **Agrupar y analizar:**
   - Agrupa los datos combinados por `zona` y `hora` para calcular el promedio de veh칤culos y la temperatura m치xima en cada zona por hora.
   - Calcula la cantidad promedio de veh칤culos en funci칩n de la `precipitacion` para identificar si hay una correlaci칩n entre la precipitaci칩n y el tr치fico.

5. **Mostrar resultados:**
   - Muestra los resultados obtenidos en un nuevo DataFrame.

---

춰Buena suerte con el an치lisis de datos de tr치fico! Aseg칰rate de verificar las relaciones entre el tr치fico y el clima para obtener conclusiones 칰tiles.

---
