<a href="https://colab.research.google.com/github/EderLara/CuadernosPythonParaML/blob/main/Tutorial_Pandas_Elemental.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **PANDAS**.

[Pandas](https://pandas.pydata.org/) es una de las herramientas más fundamentales y poderosas para cualquier persona que trabaje con datos en Python. [Polars](https://pola.rs/) es una alternativa más nueva que está ganando mucha tracción por su rendimiento, pero entender Pandas primero te dará una base muy sólida.

* Tutorial [Polars Elemental](https://colab.research.google.com/drive/1ytYKsVm17o5l6-m4UNviBaC8_KQrZymP?usp=sharing)
---

##1. **¿Qué es Pandas?**
  * Pandas es una biblioteca de Python de código abierto que proporciona estructuras de datos de alto rendimiento y fáciles de usar, junto con herramientas de análisis de datos. Su nombre deriva de "Panel Data" (Datos de Panel), un término econométrico para conjuntos de datos estructurados multidimensionales.

##2. **¿Por qué usar Pandas?**

  * Manejo eficiente de datos tabulares: Es ideal para trabajar con datos organizados en filas y columnas, como los que encontrarías en una hoja de cálculo, una tabla de base de datos SQL o un archivo CSV.
  * Limpieza y preparación de datos: Ofrece muchísimas funciones para limpiar datos desordenados (missing values, datos incorrectos, etc.) y transformarlos para el análisis.
  * Análisis y exploración: Facilita el cálculo de estadísticas, la agrupación de datos, el filtrado, la selección y la exploración en general.
  * Entrada/Salida (I/O): Permite leer y escribir datos fácilmente desde y hacia diversos formatos de archivo (CSV, Excel, JSON, SQL, etc.).
  * Integración: Se integra muy bien con otras bibliotecas científicas de Python como NumPy, Matplotlib (para visualización) y Scikit-learn (para machine learning).

##3. **Estructuras de Datos Principales:**

Pandas introduce dos estructuras de datos principales que son la base de casi todo lo que harás:

  * Series: Es un array unidimensional etiquetado capaz de contener cualquier tipo de dato (enteros, strings, números de punto flotante, objetos de Python, etc.). Piensa en ella como una sola columna de una hoja de cálculo o un diccionario ordenado. Cada elemento en una Series tiene una etiqueta asociada, llamada índice (index).

  * DataFrame: Es una estructura de datos tabular bidimensional, similar a una hoja de cálculo de Excel, una tabla SQL o un diccionario de objetos Series. Un DataFrame tiene tanto un índice de filas como un índice de columnas. Es la estructura más utilizada en Pandas.

---

### **Instalación**

Si necesitas instalarlo manualmente en tu entorno de Python, puedes hacerlo usando pip:

```
pip install pandas
```

### **Uso**
Para usar Pandas en tus scripts, la convención es importarlo con el alias pd:

```
import pandas as pd
import numpy as np # A menudo se usa junto con Pandas
```

---




# **Tabla de Contenido**
### 1. Introducción y Estructuras de Datos: Series y DataFrame.
### 2. Inspección Básica: head, tail, info, describe, shape, dtypes.
### 3. Selección y Filtrado: [], .loc[], .iloc[], boolean indexing.
### 4. Manipulación de Datos: Añadir/eliminar columnas, modificar valores, fillna, dropna, rename, astype, sort.
### 5. Agrupación: groupby(), agg().
### 6. Combinación: concat(), merge(), join().
### 7. Entrada/Salida: read_csv(), read_excel(), to_csv(), to_excel().
### 8. Funciones Avanzadas: Fechas con .dt, .plot(), duplicados, pivot_table, apply/map, texto con .str.

---
# **Creación de Series y DataFrames**

## **Series:**

Una Series se puede crear a partir de varias estructuras de datos de Python:

  1. Desde una lista:
  ```
  import pandas as pd

  # Creando una Serie desde una lista
  datos_lista = [10, 20, 30, 40, 50]
  serie_lista = pd.Series(datos_lista)

  print("Serie desde una lista:")
  print(serie_lista)
  
  print("\nÍndice de la serie:", serie_lista.index)
  print("Valores de la serie:", serie_lista.values)
  print("Tipo de datos:", serie_lista.dtype)
  # ------------------------------------------------------- #
  # Salida Esperada:
  # ------------------------------------------------------- #
  Serie desde una lista:
  0    10
  1    20
  2    30
  3    40
  4    50
  dtype: int64

  Índice de la serie: RangeIndex(start=0, stop=5, step=1)
  Valores de la serie: [10 20 30 40 50]
  Tipo de datos: int64
  # ------------------------------------------------------- #
  Pandas asigna automáticamente un índice numérico (0, 1, 2...) si no se especifica uno.
  ```

  2. Desde una lista con índice personalizado:
  ```
    import pandas as pd

    datos_lista = [10, 20, 30]
    indices_personalizados = ['a', 'b', 'c']
    serie_con_indice = pd.Series(data=datos_lista, index=indices_personalizados)
    print("\nSerie con índice personalizado:")
    print(serie_con_indice)
    print("Accediendo por etiqueta:", serie_con_indice['b'])

    # ------------------------------------------------------- #
    # Salida Esperada:
    # ------------------------------------------------------- #
    Serie con índice personalizado:
    a    10
    b    20
    c    30
    dtype: int64
    Accediendo por etiqueta: 20
    # ------------------------------------------------------- #

  ```

3. Desde un diccionario:
    * Las claves del diccionario se convierten en el índice y los valores del diccionario en los valores de la Series.
    ```
      import pandas as pd

      datos_diccionario = {'Juan': 25, 'Ana': 30, 'Luis': 22, 'Sofia': 27}
      serie_diccionario = pd.Series(datos_diccionario)
      print("\nSerie desde un diccionario:")
      print(serie_diccionario)
      print("Edad de Ana:", serie_diccionario['Ana'])
    ```


In [None]:
import pandas as pd
import numpy as np

In [None]:
""" Series con Pandas """

# Ejemplo 1: Serie con fechas como índice
fechas = pd.date_range(start='2024-01-01', periods=5)
valores = [10, 20, 15, 25, 30]
serie_fechas = pd.Series(valores, index=fechas)
print("Serie con fechas como índice:\n", serie_fechas)


# Ejemplo 2: Serie con etiquetas de texto personalizadas
etiquetas = ['A', 'B', 'C', 'D', 'E']
serie_etiquetas = pd.Series(valores, index=etiquetas)
print("\nSerie con etiquetas de texto:\n", serie_etiquetas)

# Ejemplo 3: Serie a partir de un diccionario
diccionario = {'A': 10, 'B': 20, 'C': 15}
serie_diccionario = pd.Series(diccionario)
print("\nSerie desde un diccionario:\n", serie_diccionario)

# Ejemplo 4: Serie con valores mixtos y NaN (Not a Number)
datos_mixtos = [10, 'Hola', 3.14, None, True]
serie_mixta = pd.Series(datos_mixtos)
print("\nSerie con valores mixtos:\n", serie_mixta)
print("\nInformación de la serie mixta:\n", serie_mixta.info())

# Ejemplo 5: Accediendo a elementos de la serie
print("\nAcceso por posición (índice numérico):", serie_fechas[0])
print("\nAcceso por etiqueta:", serie_etiquetas['C'])


## **Dataframes**
Un DataFrame se puede crear de muchas maneras:

  1. Desde un diccionario de listas o Series:
    * Cada clave del diccionario se convierte en una columna, y las listas (o Series) asociadas a esas claves se convierten en los datos de esas columnas. Todas las listas/Series deben tener la misma longitud.
    ```
      import pandas as pd

      datos_df = {
          'Nombre': ['Ana', 'Luis', 'Marta', 'Juan'],
          'Edad': [28, 34, 29, 42],
          'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
      }
      df_desde_dic_listas = pd.DataFrame(datos_df)
      print("\nDataFrame desde un diccionario de listas:")
      print(df_desde_dic_listas)

      # ------------------------------------------------------- #
      # Salida Esperada:
      # ------------------------------------------------------- #
      DataFrame desde un diccionario de listas:
        Nombre  Edad     Ciudad
      0    Ana    28     Madrid
      1   Luis    34  Barcelona
      2  Marta    29   Valencia
      3   Juan    42    Sevilla
    ```

  2. Desde un diccionario de listas con índice personalizado:
  ```
    import pandas as pd

    datos_df = {
        'Manzanas': [3, 2, 0, 1],
        'Naranjas': [0, 3, 7, 2]
    }
    indices_df = ['TiendaA', 'TiendaB', 'TiendaC', 'TiendaD']
    df_con_indice = pd.DataFrame(datos_df, index=indices_df)
    print("\nDataFrame con índice personalizado:")
    print(df_con_indice)

    # ------------------------------------------------------- #
    # Salida Esperada:
    # ------------------------------------------------------- #

    DataFrame con índice personalizado:
            Manzanas  Naranjas
    TiendaA         3         0
    TiendaB         2         3
    TiendaC         0         7
    TiendaD         1         2

    ```
  3. Desde una lista de diccionarios:
    * Cada diccionario en la lista se convierte en una fila del DataFrame. Las claves de los diccionarios se convierten en los nombres de las columnas.
    ```
      import pandas as pd

      lista_de_diccionarios = [
          {'Nombre': 'Carlos', 'Edad': 25, 'Profesion': 'Ingeniero'},
          {'Nombre': 'Laura', 'Edad': 30, 'Profesion': 'Doctora'},
          {'Nombre': 'Pedro', 'Edad': 22} # Nota: Falta 'Profesion' aquí
      ]
      df_desde_lista_dic = pd.DataFrame(lista_de_diccionarios)
      print("\nDataFrame desde una lista de diccionarios:")
      print(df_desde_lista_dic)

      # ------------------------------------------------------- #
      # Salida Esperada:
      # ------------------------------------------------------- #

      DataFrame desde una lista de diccionarios:
        Nombre  Edad  Profesion
      0  Carlos    25  Ingeniero
      1   Laura    30    Doctora
      2   Pedro    22        NaN        # Pandas maneja la clave faltante (Profesion para Pedro) introduciendo un NaN (Not a Number), que es la forma estándar de Pandas para representar valores ausentes.
    ```
    
  4. Desde un array de NumPy (con nombres de columna e índice opcionales):
    ```
    import pandas as pd
    import numpy as np

    array_np = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
    df_desde_numpy = pd.DataFrame(array_np, columns=['A', 'B', 'C'], index=['Fila1', 'Fila2', 'Fila3'])
    print("\nDataFrame desde un array de NumPy:")
    print(df_desde_numpy)

    # ------------------------------------------------------- #
    # Salida Esperada:
    # ------------------------------------------------------- #
    DataFrame desde un array de NumPy:
           A  B  C
    Fila1  1  2  3
    Fila2  4  5  6
    Fila3  7  8  9
    ```

In [None]:
""" Creando Dataframes desde una lista """

# Ejemplo 1: DataFrame a partir de una lista de listas
data = [['Alice', 25, 'Ingeniera'],
        ['Bob', 30, 'Doctor'],
        ['Charlie', 28, 'Abogada']]
df1 = pd.DataFrame(data, columns=['Nombre', 'Edad', 'Profesión'])
print("DataFrame 1:\n", df1)

# Ejemplo 2: DataFrame a partir de una lista de diccionarios
data = [{'Nombre': 'Alice', 'Edad': 25, 'Profesión': 'Ingeniera'},
        {'Nombre': 'Bob', 'Edad': 30, 'Profesión': 'Doctor'},
        {'Nombre': 'Charlie', 'Edad': 28, 'Profesión': 'Abogada'}]
df2 = pd.DataFrame(data)
print("\nDataFrame 2:\n", df2)


# Ejemplo 3: DataFrame con índice personalizado a partir de una lista de listas
data = [['Alice', 25, 'Ingeniera'],
        ['Bob', 30, 'Doctor'],
        ['Charlie', 28, 'Abogada']]

index_personalizado = ['A', 'B', 'C'] # Índice personalizado

df3 = pd.DataFrame(data, index=index_personalizado, columns=['Nombre', 'Edad', 'Profesión'])
print("\nDataFrame 3 (con índice personalizado):\n", df3)


# Ejemplo 4: DataFrame a partir de una lista de tuplas
data = [('Alice', 25, 'Ingeniera'),
        ('Bob', 30, 'Doctor'),
        ('Charlie', 28, 'Abogada')]
df4 = pd.DataFrame(data, columns=['Nombre', 'Edad', 'Profesión'])
print("\nDataFrame 4 (a partir de tuplas):\n", df4)


---

# **Inspección y Exploración Básica de Datos.**

Pandas ofrece varios métodos y atributos muy útiles para la inspección y exploración básica de datos.

* Creación de un dataset (También podemos cargar desde el explorador de archivos):

In [None]:
import pandas as pd
import numpy as np                    # Lo usaremos para generar algunos datos y NaN

# Creando un DataFrame de ejemplo más completo
datos_ejemplo = {
    'ID_Producto': [101, 102, 103, 104, 105, 106, 107, 108],
    'Nombre_Producto': ['Manzana', 'Banana', 'Naranja', 'Manzana', 'Uva', 'Pera', 'Banana', 'Kiwi'],
    'Categoría': ['Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta'],
    'Precio_Unitario': [1.2, 0.5, 0.8, 1.2, 2.5, 1.5, 0.6, np.nan], # Incluimos un NaN
    'Stock_Disponible': [100, 150, np.nan, 80, 60, 120, 140, 75],  # Incluimos un NaN
    'Fecha_Ingreso': pd.to_datetime(['2024-01-10', '2024-01-11', '2024-01-10', '2024-01-12',
                                   '2024-01-13', '2024-01-11', '2024-01-14', '2024-01-15']),
    'En_Oferta': [False, True, False, False, True, True, False, True]
}

df = pd.DataFrame(datos_ejemplo)

print("DataFrame de ejemplo creado:")
print(df)
print("\n" + "="*50 + "\n")           # Separador visual

## **Herramientas de Inspección**

* `head(n)` y `tail(n)`: Ver las primeras/últimas filas:
  * Estos métodos te permiten ver una muestra de tus datos, por defecto las primeras 5 filas con head() y las últimas 5 con tail(). Puedes pasar un número n como argumento para ver una cantidad diferente de filas.

In [None]:
print("Primeras 3 filas del DataFrame (df.head(3)):")
print(df.head(3))

print("\nÚltimas 2 filas del DataFrame (df.tail(2)):")
print(df.tail(2))
print("\n" + "="*50 + "\n")

* `shape`: Dimensiones del DataFrame:
  * Es un atributo (no un método, por eso no lleva paréntesis) que devuelve una tupla con el número de filas y el número de columnas.

In [None]:
print("Dimensiones del DataFrame (filas, columnas) (df.shape):")
print(df.shape)
print(f"El DataFrame tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
print("\n" + "="*50 + "\n")

* `info()`: Resumen conciso del DataFrame
  * Este método es extremadamente útil. Proporciona información sobre el índice, las columnas, los tipos de datos de cada columna, la cantidad de valores no nulos y el uso de memoria.

In [None]:
print("Información concisa del DataFrame (df.info()):")
df.info()
print("\n" + "="*50 + "\n")

De `info()` aprendemos rápidamente:

* Hay 8 filas (entradas).
* Los nombres de las columnas y cuántos valores no nulos tiene cada una (esto ayuda a identificar columnas con datos faltantes, como Precio_Unitario y Stock_Disponible).
* El tipo de dato (Dtype) de cada columna (object usualmente significa string, datetime64[ns] para fechas, etc.).

* `describe()`: Estadísticas descriptivas
  * Este método genera estadísticas descriptivas para las columnas numéricas por defecto (count, mean, std, min, 25th percentile, median (50th), 75th percentile, max).

In [None]:
print("Estadísticas descriptivas para columnas numéricas (df.describe()):")
print(df.describe())

# Para incluir estadísticas de columnas no numéricas (como strings/objects):
print("\nEstadísticas descriptivas para columnas de tipo 'object' (df.describe(include='object')):")
print(df.describe(include='object'))

# Para incluir todas las columnas (numéricas y no numéricas):
print("\nEstadísticas descriptivas para TODAS las columnas (df.describe(include='all')):")
print(df.describe(include='all', datetime_is_numeric=True)) # datetime_is_numeric para tratar fechas
print("\n" + "="*50 + "\n")

"""
Para columnas object, describe() muestra count (conteo), unique (valores únicos), top (valor más frecuente) y freq (frecuencia del valor más frecuente).
"""

* `dtypes`: Tipos de datos de cada columna
  * Es un atributo que devuelve una Serie con el tipo de dato de cada columna.

In [None]:
print("Tipos de datos de cada columna (df.dtypes):")
print(df.dtypes)
print("\n" + "="*50 + "\n")

* `columns`: Nombres de las columnas
  * Un atributo que devuelve un objeto Index con los nombres de todas las columnas.

In [None]:
print("Nombres de las columnas (df.columns):")
print(df.columns)
print("Lista de nombres de columnas:", list(df.columns))
print("\n" + "="*50 + "\n")

* `index:` Índice del DataFrame
  * Un atributo que devuelve el objeto Index de las filas.

In [None]:
print("Índice del DataFrame (df.index):")
print(df.index)
print("\n" + "="*50 + "\n")

"""
En este caso, es un RangeIndex porque no especificamos uno personalizado al crear el DataFrame.
"""

* `value_counts()`: Frecuencia de valores en una Serie (columna)
  * Este método se aplica a una Serie (una columna de un DataFrame) y cuenta cuántas veces aparece cada valor único. Es muy útil para columnas categóricas.

In [None]:
print("Frecuencia de valores en la columna 'Nombre_Producto' (df['Nombre_Producto'].value_counts()):")
print(df['Nombre_Producto'].value_counts())

print("\nFrecuencia de valores en la columna 'En_Oferta' (df['En_Oferta'].value_counts()):")
print(df['En_Oferta'].value_counts())
print("\n" + "="*50 + "\n")

* `nunique()`: Número de valores únicos
  * Se puede aplicar a una Serie para obtener el número de valores distintos en esa columna, o a un DataFrame para obtenerlo por cada columna.

In [None]:
print("Número de valores únicos en la columna 'Nombre_Producto' (df['Nombre_Producto'].nunique()):")
print(df['Nombre_Producto'].nunique())

print("\nNúmero de valores únicos por cada columna (df.nunique()):")
print(df.nunique())
print("\n" + "="*50 + "\n")

# **Selección y Filtrado de Datos**

En esta sección usaremos el mismo dataframe:


```
import pandas as pd
import numpy as np

# DataFrame de ejemplo (el mismo del Paso 2)
datos_ejemplo = {
    'ID_Producto': [101, 102, 103, 104, 105, 106, 107, 108],
    'Nombre_Producto': ['Manzana', 'Banana', 'Naranja', 'Manzana', 'Uva', 'Pera', 'Banana', 'Kiwi'],
    'Categoría': ['Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta'],
    'Precio_Unitario': [1.2, 0.5, 0.8, 1.2, 2.5, 1.5, 0.6, np.nan],
    'Stock_Disponible': [100, 150, np.nan, 80, 60, 120, 140, 75],
    'Fecha_Ingreso': pd.to_datetime(['2024-01-10', '2024-01-11', '2024-01-10', '2024-01-12',
                                   '2024-01-13', '2024-01-11', '2024-01-14', '2024-01-15']),
    'En_Oferta': [False, True, False, False, True, True, False, True]
}
df = pd.DataFrame(datos_ejemplo)

```



In [None]:
print("DataFrame original:")
print(df)
print("\n" + "="*50 + "\n")

## **Selección de columnas**
  * Seleccionar una sola columna (devuelve una Serie):
    * Puedes usar corchetes [ ] con el nombre de la columna:

In [None]:
# Seleccionar la columna 'Nombre_Producto'
nombres_productos = df['Nombre_Producto']

print("Columna 'Nombre_Producto' (es una Serie):")
print(nombres_productos)
print("Tipo de datos de la selección:", type(nombres_productos))
print("\n" + "="*50 + "\n")

* Seleccionar múltiples columnas (devuelve un DataFrame):
    * Usa una lista de nombres de columnas dentro de los corchetes [[ ]].

In [None]:
# Seleccionar las columnas 'Nombre_Producto' y 'Precio_Unitario'
seleccion_columnas = df[['Nombre_Producto', 'Precio_Unitario', 'Stock_Disponible']]

print("DataFrame con columnas seleccionadas:")
print(seleccion_columnas)
print("Tipo de datos de la selección:", type(seleccion_columnas))
print("\n" + "="*50 + "\n")

* Seleccionar usando notación de punto . (para una sola columna):
    * Si el nombre de la columna es un identificador válido de Python (sin espacios, no empieza con número, no es una palabra clave, etc.), puedes usar la notación de punto. Es más conciso, pero menos flexible.

In [None]:
# Seleccionar la columna 'Categoría' usando notación de punto
categorias = df.Categoría     # Equivalente a df['Categoría']

print("Columna 'Categoría' usando notación de punto:")
print(categorias)
# ¡Cuidado! df.ID_Producto funcionaría, pero si la columna se llamara "ID Producto" (con espacio), no.
print("\n" + "="*50 + "\n")

## **Selección de Filas (y Columnas) con loc e iloc**

Pandas proporciona dos métodos principales para la selección basada en índices:

  * df.loc[]: Se basa en etiquetas (labels) del índice y nombres de columnas.
  * df.iloc[]: Se basa en la posición entera (integer position) del índice y columnas (desde 0).

Nuestro DataFrame df actual tiene un RangeIndex (0, 1, 2,... 7). En este caso, las etiquetas del índice son los enteros de la posición, por lo que loc e iloc pueden parecer similares para la selección simple de filas, ¡pero conceptualmente son diferentes! `loc` usa la etiqueta 3, mientras `iloc` usa la fila en la posición 3.

  * **Usando `loc` (selección basada en etiquetas):**

In [None]:
print("--- Selección con loc ---")
# Seleccionar una fila por su etiqueta de índice
fila_con_etiqueta_2 = df.loc[2] # Fila con índice (label) 2
print("\nFila con etiqueta de índice 2:")
print(fila_con_etiqueta_2) # Devuelve una Serie

# Seleccionar múltiples filas por sus etiquetas de índice
filas_etiquetas_0_3_5 = df.loc[[0, 3, 5]]
print("\nFilas con etiquetas de índice 0, 3 y 5:")
print(filas_etiquetas_0_3_5) # Devuelve un DataFrame

# "Slicing" de filas por etiquetas de índice (¡OJO! con loc, el final es INCLUIDO)
slice_filas_loc = df.loc[1:4] # Filas desde etiqueta 1 HASTA etiqueta 4 (inclusive)
print("\nSlice de filas por etiqueta [1:4]:")
print(slice_filas_loc)

# Seleccionar un valor específico (escalar) por etiqueta de fila y nombre de columna
precio_producto_103 = df.loc[2, 'Precio_Unitario'] # Fila con etiqueta 2, columna 'Precio_Unitario'
print(f"\nPrecio del producto en fila con etiqueta 2: {precio_producto_103}")

# Seleccionar todas las filas para columnas específicas
nombres_y_precios = df.loc[:, ['Nombre_Producto', 'Precio_Unitario']]
print("\nTodas las filas, columnas 'Nombre_Producto' y 'Precio_Unitario':")
print(nombres_y_precios)

# Seleccionar un subconjunto de filas y columnas por etiquetas
subconjunto_loc = df.loc[0:2, ['Nombre_Producto', 'Categoría', 'Precio_Unitario']] # Filas 0,1,2 y esas 3 columnas
print("\nSubconjunto con loc (filas 0-2, columnas específicas):")
print(subconjunto_loc)
print("\n" + "="*50 + "\n")

  * **Usando `iloc` (selección basada en posición entera):**
    * Siempre usa enteros para las posiciones, empezando en 0.

In [None]:
print("--- Selección con iloc ---")
# Seleccionar una fila por su posición entera
fila_posicion_1 = df.iloc[1] # La segunda fila (posición 1)
print("\nFila en posición 1:")
print(fila_posicion_1) # Devuelve una Serie

# Seleccionar múltiples filas por sus posiciones enteras
filas_posiciones_0_3_5 = df.iloc[[0, 3, 5]]
print("\nFilas en posiciones 0, 3 y 5:")
print(filas_posiciones_0_3_5) # Devuelve un DataFrame

# "Slicing" de filas por posiciones enteras (¡OJO! con iloc, el final es EXCLUIDO, como en Python)
slice_filas_iloc = df.iloc[1:4] # Filas desde posición 1 HASTA posición 3 (la 4 no se incluye)
print("\nSlice de filas por posición [1:4]:")
print(slice_filas_iloc)

# Seleccionar un valor específico (escalar) por posición de fila y posición de columna
# Nombre_Producto está en posición 1, Precio_Unitario en posición 3
valor_pos_1_3 = df.iloc[1, 3] # Fila en posición 1, columna en posición 3 (Precio_Unitario de Banana)
print(f"\nValor en [fila_pos=1, col_pos=3]: {valor_pos_1_3}")

# Seleccionar todas las filas para columnas en posiciones específicas
# ID_Producto (pos 0), Nombre_Producto (pos 1), En_Oferta (pos 6)
columnas_pos_0_1_6 = df.iloc[:, [0, 1, 6]]
print("\nTodas las filas, columnas en posiciones 0, 1 y 6:")
print(columnas_pos_0_1_6)

# Seleccionar un subconjunto de filas y columnas por posiciones
# Filas en posiciones 0 y 1, y columnas en posiciones 1, 2, 3
subconjunto_iloc = df.iloc[0:2, 1:4]
print("\nSubconjunto con iloc (filas 0-1, columnas 1-3):")
print(subconjunto_iloc)
print("\n" + "="*50 + "\n")

## **Filtrado Condicional (Boolean Indexing)**
  * Crear una condición booleana (devuelve una Serie de True/False):

In [None]:
# Condición: Productos con Precio_Unitario > 1.0
condicion_precio = df['Precio_Unitario'] > 1.0

print("Serie booleana para Precio_Unitario > 1.0:")
print(condicion_precio)
print("\n" + "="*50 + "\n")

  * Usar la condición para filtrar el DataFrame:
    * Pasas la Serie booleana dentro de los corchetes del DataFrame.

In [None]:
productos_caros = df[condicion_precio]
# Alternativamente, de forma directa:
# productos_caros = df[df['Precio_Unitario'] > 1.0]

print("Productos con Precio_Unitario > 1.0:")
print(productos_caros)
print("\n" + "="*50 + "\n")

  * Combinar múltiples condiciones:

    * `&` para `AND` (ambas condiciones deben ser verdaderas)
    * `|` para `OR` (al menos una condición debe ser verdadera)
    * `~` para `NOT` (negar una condición) ¡Importante! Envuelve cada condición individual entre paréntesis () cuando combines.

In [None]:
# Condición: Productos 'En_Oferta' Y con 'Stock_Disponible' < 100
condicion_oferta_poco_stock = (df['En_Oferta'] == True) & (df['Stock_Disponible'] < 100)
ofertas_limitadas = df[condicion_oferta_poco_stock]

print("Productos en oferta Y con stock < 100:")
print(ofertas_limitadas)

# Condición: Nombre_Producto es 'Manzana' O 'Naranja'
condicion_manzana_o_naranja = (df['Nombre_Producto'] == 'Manzana') | (df['Nombre_Producto'] == 'Naranja')
manzanas_o_naranjas = df[condicion_manzana_o_naranja]

print("\nProductos que son 'Manzana' O 'Naranja':")
print(manzanas_o_naranjas)
print("\n" + "="*50 + "\n")

  * Uso de `.isin()`:
    * Para filtrar filas donde el valor de una columna esté presente en una lista de valores.

In [None]:
# Productos que son 'Uva', 'Pera' o 'Kiwi'
frutas_seleccionadas = ['Uva', 'Pera', 'Kiwi']
df_frutas_seleccionadas = df[df['Nombre_Producto'].isin(frutas_seleccionadas)]
print("Productos que son Uva, Pera o Kiwi:")
print(df_frutas_seleccionadas)
print("\n" + "="*50 + "\n")

  * Uso de `.isnull()` / `.notnull():`
    * Para encontrar o excluir filas con valores ausentes (NaN).

In [None]:
# Productos con Precio_Unitario ausente (NaN)
precio_ausente = df[df['Precio_Unitario'].isnull()]
print("Productos con Precio_Unitario ausente:")
print(precio_ausente)

# Productos con Stock_Disponible NO ausente
stock_presente = df[df['Stock_Disponible'].notnull()]
print("\nProductos con Stock_Disponible presente:")
print(stock_presente)
print("\n" + "="*50 + "\n")

# **Manipulación de Datos**
Es donde transformamos y damos forma a nuestros datos para prepararlos para el análisis, la visualización o el modelado. Aquí es donde Pandas realmente brilla.

Para este ejercicio seguiremos con nuestro dataset de ejemplo:



```
import pandas as pd
import numpy as np

# Recreamos nuestro DataFrame de ejemplo
datos_ejemplo = {
    'ID_Producto': [101, 102, 103, 104, 105, 106, 107, 108],
    'Nombre_Producto': ['Manzana', 'Banana', 'Naranja', 'Manzana', 'Uva', 'Pera', 'Banana', 'Kiwi'],
    'Categoría': ['Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta'],
    'Precio_Unitario': [1.2, 0.5, 0.8, 1.2, 2.5, 1.5, 0.6, np.nan],
    'Stock_Disponible': [100, 150, np.nan, 80, 60, 120, 140, 75],
    'Fecha_Ingreso': pd.to_datetime(['2024-01-10', '2024-01-11', '2024-01-10', '2024-01-12',
                                   '2024-01-13', '2024-01-11', '2024-01-14', '2024-01-15']),
    'En_Oferta': [False, True, False, False, True, True, False, True]
}
df = pd.DataFrame(datos_ejemplo)

print("DataFrame original para Manipulación de datos:")
print(df)
print("\n" + "="*50 + "\n")
```



In [None]:
print("DataFrame original para Manipulación de datos:")
print(df)
print("\n" + "="*50 + "\n")

In [None]:
# Para los ejemplos de manipulación, a veces es útil trabajar con una copia
df_manip = df.copy()

## **Añadir Nuevas Columnas**

  * Asignando un valor escalar (el mismo valor para todas las filas):

In [None]:
df_manip['País_Origen'] = 'Colombia'
print("DataFrame con nueva columna 'País_Origen':")
print(df_manip.head())
print("\n" + "="*50 + "\n")

  * Creando una columna a partir de columnas existentes:

In [None]:
# Calcular el valor total del stock (Precio * Stock)
# Primero, vamos a rellenar los NaN en Precio y Stock para este cálculo (veremos fillna() más adelante)
df_manip['Precio_Unitario_NoNaN'] = df_manip['Precio_Unitario'].fillna(0) # Rellenamos NaN con 0 temporalmente
df_manip['Stock_Disponible_NoNaN'] = df_manip['Stock_Disponible'].fillna(0) # Rellenamos NaN con 0 temporalmente

df_manip['Valor_Total_Stock'] = df_manip['Precio_Unitario_NoNaN'] * df_manip['Stock_Disponible_NoNaN']
print("DataFrame con columna 'Valor_Total_Stock':")
print(df_manip[['Nombre_Producto', 'Precio_Unitario_NoNaN', 'Stock_Disponible_NoNaN', 'Valor_Total_Stock']].head())

# Eliminamos las columnas temporales que creamos para el cálculo
df_manip = df_manip.drop(columns=['Precio_Unitario_NoNaN', 'Stock_Disponible_NoNaN'])
print("\n" + "="*50 + "\n")

  * Creando una columna basada en una condición (usando `np.where` o una función con `apply`):

In [None]:
# Marcar si el producto es "Premium" si su precio es > 1.5
df_manip['Es_Premium'] = np.where(df_manip['Precio_Unitario'] > 1.5, 'Sí', 'No')
# Si Precio_Unitario es NaN, también será 'No' porque la condición será False o generará error si no se maneja
# Para ser más robustos con NaN:
df_manip['Es_Premium_v2'] = 'No' # Valor por defecto
df_manip.loc[df_manip['Precio_Unitario'] > 1.5, 'Es_Premium_v2'] = 'Sí'
df_manip.loc[df_manip['Precio_Unitario'].isnull(), 'Es_Premium_v2'] = 'Desconocido' # Manejo explícito de NaN

print("DataFrame con columna 'Es_Premium_v2':")
print(df_manip[['Nombre_Producto', 'Precio_Unitario', 'Es_Premium_v2']].head())
print("\n" + "="*50 + "\n")

## **Modificar Columnas**

  * Reasignando todos los valores de una columna:

In [None]:
# Supongamos que la categoría de todos los productos cambia
# df_manip['Categoría'] = 'Fruta Tropical' # Esto cambiaría todas las filas
# print("DataFrame con 'Categoría' modificada:")
# print(df_manip.head())
# print("\n" + "="*50 + "\n")
# Comentado para no afectar demasiado los siguientes ejemplos.

  * Usando `Series.apply()` o `Series.map()` para transformaciones elemento a elemento:

    * `apply()` es más general, puede usarse con funciones que devuelven un escalar o una Serie.
    * `map()` es útil para sustituir valores basados en un diccionario o aplicar una función simple.

In [None]:
# Convertir Nombre_Producto a mayúsculas usando apply con una función lambda
df_manip['Nombre_Producto_Mayus'] = df_manip['Nombre_Producto'].apply(lambda x: x.upper())

# Crear una columna 'IVA_Producto' aplicando un 19% al precio unitario
def calcular_iva(precio):
    if pd.isna(precio):
        return np.nan
    return precio * 0.19

df_manip['IVA_Producto'] = df_manip['Precio_Unitario'].apply(calcular_iva)

print("DataFrame con 'Nombre_Producto_Mayus' e 'IVA_Producto':")
print(df_manip[['Nombre_Producto', 'Nombre_Producto_Mayus', 'Precio_Unitario', 'IVA_Producto']].head())
print("\n" + "="*50 + "\n")

  * Usando `.replace()` para sustituir valores específicos:

In [None]:
# Supongamos que queremos estandarizar 'Banana' a 'Banano'
df_manip['Nombre_Producto'] = df_manip['Nombre_Producto'].replace('Banana', 'Banano')
print("DataFrame con 'Banana' reemplazado por 'Banano':")
print(df_manip['Nombre_Producto'].value_counts())
print("\n" + "="*50 + "\n")

## **Eliminar Columnas y Filas con drop()**

  * `axis=0` para filas (por defecto).
  * `axis=1` para columnas.
  * `inplace=True` para modificar el DataFrame original (¡úsalo con cuidado!). Por defecto es False y devuelve una copia.

In [None]:
df_copia_para_drop = df_manip.copy() # Trabajamos en una copia para no afectar df_manip

# Eliminar una columna
df_copia_para_drop = df_copia_para_drop.drop('País_Origen', axis=1)
print("DataFrame después de eliminar 'País_Origen':")
print(df_copia_para_drop.head())

# Eliminar múltiples columnas
df_copia_para_drop = df_copia_para_drop.drop(columns=['Es_Premium', 'Es_Premium_v2']) # Otra forma de especificar columnas
print("\nDataFrame después de eliminar 'Es_Premium' y 'Es_Premium_v2':")
print(df_copia_para_drop.head())

# Eliminar una fila por su etiqueta de índice (ej. la fila con índice 0)
df_copia_para_drop = df_copia_para_drop.drop(0, axis=0) # o simplemente df_copia_para_drop.drop(0)
print("\nDataFrame después de eliminar la fila con índice 0:")
print(df_copia_para_drop.head())

# Eliminar usando inplace (modifica df_copia_para_drop directamente)
# df_copia_para_drop.drop('IVA_Producto', axis=1, inplace=True)
# print("\nDataFrame después de eliminar 'IVA_Producto' con inplace=True:")
# print(df_copia_para_drop.head())
print("\n" + "="*50 + "\n")

## Manejo de Valores Ausentes (NaN)

  * Contar valores ausentes (repaso):

In [None]:
print("Valores ausentes por columna en df_manip:")
print(df_manip.isnull().sum())
print("\n" + "="*50 + "\n")

* Eliminar filas/columnas con valores ausentes: `dropna()`:


In [None]:
df_sin_na_filas = df_manip.dropna() # Elimina cualquier fila con al menos un NaN
print("DataFrame después de df_manip.dropna() (elimina filas con NaN):")
print(df_sin_na_filas) # Observa que las filas con NaN en Precio o Stock desaparecieron

df_sin_na_columnas = df_manip.dropna(axis=1) # Elimina cualquier columna con al menos un NaN
print("\nDataFrame después de df_manip.dropna(axis=1) (elimina columnas con NaN):")
print(df_sin_na_columnas.head()) # Observa que Precio y Stock desaparecieron
print("\n" + "="*50 + "\n")

* Rellenar valores ausentes: `fillna()`:

In [None]:
# Rellenar todos los NaN con un valor específico (ej. 0)
df_relleno_0 = df_manip.fillna(0)
print("DataFrame con NaN rellenados con 0:")
print(df_relleno_0[['Precio_Unitario', 'Stock_Disponible']].head())

# Rellenar NaN en 'Precio_Unitario' con la media de esa columna
media_precio = df_manip['Precio_Unitario'].mean()
df_manip['Precio_Unitario_Relleno'] = df_manip['Precio_Unitario'].fillna(media_precio)
print("\nDataFrame con 'Precio_Unitario' NaN rellenado con la media:")
print(df_manip[['Nombre_Producto', 'Precio_Unitario', 'Precio_Unitario_Relleno']].head())

# Rellenar usando el método 'ffill' (forward fill) - propaga el último valor válido hacia adelante
df_manip['Stock_ffill'] = df_manip['Stock_Disponible'].fillna(method='ffill')
print("\nDataFrame con 'Stock_Disponible' NaN rellenado con ffill:")
print(df_manip[['Nombre_Producto', 'Stock_Disponible', 'Stock_ffill']])
print("\n" + "="*50 + "\n")

  * Renombrar Columnas e Índices con `rename()`

In [None]:
df_renombrado = df_manip.rename(
    columns={
        'ID_Producto': 'ID',
        'Nombre_Producto': 'Producto',
        'Precio_Unitario_Relleno': 'Precio_Final'
    },
    index={0: 'Prod_A', 1: 'Prod_B'} # Renombra algunas etiquetas del índice
)
print("DataFrame con columnas e índices renombrados:")
print(df_renombrado.head())
print("\n" + "="*50 + "\n")

* Cambiar Tipos de Datos con `astype()`:

In [None]:
# df_manip aún tiene Stock_Disponible con NaN. Para convertir a int, primero rellenamos.
df_manip['Stock_Disponible'] = df_manip['Stock_Disponible'].fillna(0)
df_manip['Stock_Entero'] = df_manip['Stock_Disponible'].astype(int)

# Convertir 'Categoría' a tipo 'category' (más eficiente para strings con pocas variantes)
df_manip['Categoría_Tipo'] = df_manip['Categoría'].astype('category')

print("Tipos de datos después de astype():")
print(df_manip[['Stock_Entero', 'Categoría_Tipo']].dtypes)
print(df_manip.head())
print("\n" + "="*50 + "\n")

## **Ordenar Datos**
  * `sort_values()`: Ordenar por los valores de una o más columnas.

In [None]:
# Ordenar por 'Precio_Unitario' de forma descendente
df_ordenado_precio = df_manip.sort_values(by='Precio_Unitario', ascending=False)
print("DataFrame ordenado por Precio_Unitario (descendente):")
print(df_ordenado_precio[['Nombre_Producto', 'Precio_Unitario']].head())

# Ordenar por 'Categoría' (alfabético) y luego por 'Stock_Disponible' (ascendente)
df_ordenado_multi = df_manip.sort_values(by=['Categoría', 'Stock_Disponible'])
print("\nDataFrame ordenado por Categoría y luego por Stock_Disponible:")
print(df_ordenado_multi.head())
print("\n" + "="*50 + "\n")

`sort_index()`: Ordenar por las etiquetas del índice.

In [None]:
df_ordenado_indice = df_renombrado.sort_index(ascending=False) # Usamos el df con índices renombrados
print("DataFrame (df_renombrado) ordenado por índice (descendente):")
print(df_ordenado_indice.head())
print("\n" + "="*50 + "\n")

## **Resetear el Índice con reset_index()**
Útil después de filtrados o reordenamientos que pueden dejar el índice desordenado o con huecos.

In [None]:
df_indice_reseteado = df_ordenado_precio.reset_index()                # El índice antiguo se convierte en una columna 'index'
print("DataFrame con índice reseteado (el índice antiguo es ahora una columna):")
print(df_indice_reseteado.head())

df_indice_reseteado_drop = df_ordenado_precio.reset_index(drop=True)  # El índice antiguo se descarta
print("\nDataFrame con índice reseteado (el índice antiguo se descarta):")
print(df_indice_reseteado_drop.head())
print("\n" + "="*50 + "\n")

# **Agrupación de Datos (Group By)**
Es una de las capacidades más potentes y flexibles de Pandas para el análisis de datos. Te permite realizar operaciones sobre subconjuntos de tus datos definidos por alguna característica común.

Este proceso se conoce a menudo como "Split-Apply-Combine" (Dividir-Aplicar-Combinar):

  * Split (Dividir): El DataFrame se divide en grupos basados en los valores de una o más columnas (las "claves de agrupación").
  * Apply (Aplicar): Se aplica una función a cada grupo de forma independiente. Esta función puede ser una agregación (como calcular la suma o la media), una transformación (como estandarizar los datos dentro del grupo) o una filtración (como descartar grupos pequeños).
  * Combine (Combinar): Los resultados de aplicar la función a cada grupo se combinan en una nueva estructura de datos (generalmente un DataFrame o una Serie)

In [None]:
# Agrupación de Datos (Group By):
import pandas as pd
import numpy as np

"""
  Hemos modificado un poco el DataFrame para tener más variedad en 'Categoría' y 'Nombre_Producto' y añadido 'Valoracion_Cliente' para tener más columnas numéricas.
"""

# Recreamos nuestro DataFrame de ejemplo
datos_ejemplo = {
    'ID_Producto': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110],
    'Nombre_Producto': ['Manzana', 'Banana', 'Naranja', 'Manzana', 'Uva', 'Pera', 'Banana', 'Kiwi', 'Manzana', 'Banana'],
    'Categoría': ['Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta', 'Fruta Procesada', 'Fruta Procesada'],
    'Precio_Unitario': [1.2, 0.5, 0.8, 1.2, 2.5, 1.5, 0.6, np.nan, 3.0, 2.2],
    'Stock_Disponible': [100, 150, 80, 80, 60, 120, 140, 75, 50, 90], # Eliminamos NaN en Stock para simplificar agregaciones
    'Valoracion_Cliente': [4.5, 4.0, 4.2, 4.5, 4.8, 3.9, 4.1, 4.6, 3.5, 4.3]
}
df = pd.DataFrame(datos_ejemplo)

print("DataFrame original para el Paso 5:")
print(df)
print("\n" + "="*50 + "\n")

  * Usando `groupby()` Agrupar por una sola columna:
    * El método `groupby()` crea un objeto DataFrameGroupBy. Por sí solo no muestra mucho, necesita que le apliques una función (como una agregación).

In [None]:
# Agrupar por 'Nombre_Producto'
agrupado_por_nombre = df.groupby('Nombre_Producto')

print("Tipo de objeto después de groupby:", type(agrupado_por_nombre))
# <class 'pandas.core.groupby.generic.DataFrameGroupBy'>

# Ahora aplicamos una función de agregación, por ejemplo, la media del Precio_Unitario para cada producto
media_precio_por_producto = agrupado_por_nombre['Precio_Unitario'].mean()
print("\nMedia del Precio Unitario por Nombre_Producto:")
print(media_precio_por_producto)

# Podemos calcular el stock total por producto
stock_total_por_producto = agrupado_por_nombre['Stock_Disponible'].sum()
print("\nStock Total por Nombre_Producto:")
print(stock_total_por_producto)
print("\n" + "="*50 + "\n")

  * Agrupar por múltiples columnas:
    * Puedes pasar una lista de nombres de columnas a `groupby()`. Esto crea un índice jerárquico (MultiIndex).

In [None]:
# Agrupar por 'Categoría' y luego por 'Nombre_Producto'
agrupado_multi = df.groupby(['Categoría', 'Nombre_Producto'])

# Calcular la media de las columnas numéricas para estas agrupaciones
media_multi_agrupacion = agrupado_multi.mean() # Calcula media para todas las columnas numéricas aplicables
print("\nMedia de columnas numéricas por Categoría y Nombre_Producto:")
print(media_multi_agrupacion[['Precio_Unitario', 'Stock_Disponible', 'Valoracion_Cliente']])
print("\n" + "="*50 + "\n")

## **Funciones de Agregación Comunes**

Puedes aplicar directamente varias funciones de agregación a un objeto GroupBy:

  * `count()`: Número de valores no nulos por grupo.
  * `size()`: Número total de filas por grupo (incluye NaN).
  * `sum()`: Suma de los valores.
  * `mean()`: Media de los valores.
  * `median()`: Mediana de los valores.
  * `min()`: Valor mínimo.
  * `max()`: Valor máximo.
  * `std()`: Desviación estándar.
  * `var()`: Varianza.
  * `first()`: Primer valor no nulo.
  * `last()`: Último valor no nulo.
  * `nunique()`: Número de valores únicos.

In [None]:
agrupado_categoria = df.groupby('Categoría')

print("Conteo de productos (no nulos) por categoría (count()):")
print(agrupado_categoria.count()) # Muestra conteo para cada columna

print("\nTamaño de cada categoría (size()):")
print(agrupado_categoria.size()) # Devuelve una Serie con el tamaño de cada grupo

print("\nPrecio Unitario Mínimo y Máximo por Categoría:")
print(agrupado_categoria['Precio_Unitario'].min())
print(agrupado_categoria['Precio_Unitario'].max())

print("\nMedia de Stock y Valoración por Categoría:")
print(agrupado_categoria[['Stock_Disponible', 'Valoracion_Cliente']].mean())
print("\n" + "="*50 + "\n")

## Usando el método `agg()` para Múltiples Agregaciones

El método `agg()` (o su alias `aggregate()`) es muy flexible:

  * Aplicar una lista de funciones de agregación:

In [None]:
# Aplicar suma, media y conteo al Precio_Unitario por Categoría
agregaciones_precio = agrupado_categoria['Precio_Unitario'].agg(['sum', 'mean', 'count', 'std'])
print("Múltiples agregaciones para Precio_Unitario por Categoría:")
print(agregaciones_precio)
print("\n" + "="*50 + "\n")

  * Aplicar diferentes funciones a diferentes columnas:
    * Se pasa un diccionario donde las claves son los nombres de las columnas y los valores son las funciones (o listas de funciones) a aplicar.

In [None]:
agregaciones_especificas = df.groupby('Categoría').agg(
    precio_medio=('Precio_Unitario', 'mean'),             # Nueva forma de nombrar columnas resultado
    stock_total=('Stock_Disponible', 'sum'),
    valoracion_min=('Valoracion_Cliente', 'min'),
    valoracion_max=('Valoracion_Cliente', 'max'),
    numero_productos=('ID_Producto', 'count')
)
print("Agregaciones específicas por Categoría con nombres de columna personalizados:")
print(agregaciones_especificas)
print("\n" + "="*50 + "\n")

# Forma más antigua (también funciona):
# agregaciones_especificas_v_antigua = df.groupby('Categoría').agg(
#     {'Precio_Unitario': 'mean',
#      'Stock_Disponible': 'sum',
#      'Valoracion_Cliente': ['min', 'max'],
#      'ID_Producto': 'count'}
# )
# print("Agregaciones específicas por Categoría (forma antigua):")
# print(agregaciones_especificas_v_antigua)

  * Aplicar funciones personalizadas (lambda o definidas):

In [None]:
def rango_precios(serie_precios):
    # Ignorar NaNs para min/max si existen, o devolver NaN si todo es NaN
    if serie_precios.isnull().all():
        return np.nan
    return serie_precios.max() - serie_precios.min()

agregaciones_custom = df.groupby('Categoría').agg(
    precio_medio=('Precio_Unitario', 'mean'),
    rango_de_precios=('Precio_Unitario', rango_precios), # Usando función definida
    variedad_productos=('Nombre_Producto', lambda x: x.nunique()) # Usando lambda
)
print("Agregaciones con funciones personalizadas por Categoría:")
print(agregaciones_custom)
print("\n" + "="*50 + "\n")

## **Iterar sobre Grupos**

  * Puedes iterar sobre un objeto GroupBy si necesitas hacer algo más complejo con cada grupo. Cada iteración te da el nombre (o tupla de nombres si agrupaste por múltiples columnas) del grupo y el sub-DataFrame correspondiente a ese grupo.

In [None]:
print("Iterando sobre los grupos de 'Nombre_Producto':")
for nombre_prod, grupo_df in df.groupby('Nombre_Producto'):
    print(f"\n--- Grupo: {nombre_prod} ---")
    print(f"Número de items en este grupo: {len(grupo_df)}")
    print(grupo_df[['Categoría', 'Precio_Unitario', 'Stock_Disponible']].head(2)) # Mostrar solo algunas columnas y filas
print("\n" + "="*50 + "\n")

## **Seleccionar un Grupo Específico con `get_group()`**

* La agrupación es una herramienta analítica muy poderosa. Te permite segmentar tus datos y realizar cálculos comparativos o resumidos sobre esos segmentos de manera eficiente.

In [None]:
agrupado_categoria = df.groupby('Categoría')
grupo_frutas = agrupado_categoria.get_group('Fruta')
print("DataFrame solo para la categoría 'Fruta':")
print(grupo_frutas)
print("\n" + "="*50 + "\n")

# **Combinar y fusionar diferentes DataFrames**

En el mundo real, es muy común que los datos que necesitas para un análisis estén distribuidos en múltiples archivos o tablas. Pandas nos ofrece herramientas muy poderosas para combinar estos DataFrames de diversas maneras, similar a lo que harías con JOINs en SQL.

Las principales formas de combinar DataFrames en Pandas son:

* **Concatenación (`pd.concat()`):** "Pegar" DataFrames uno debajo del otro (apilar filas) o uno al lado del otro (añadir columnas).
* **Fusión tipo SQL (`pd.merge()`):** Combinar DataFrames basándose en los valores de una o más columnas comunes (claves), similar a los JOIN de SQL.
* **Unión por Índice (`.join()`):** Un método de instancia que permite unir DataFrames principalmente por sus índices.

## **Concatenación con `pd.concat()`**

La concatenación es útil cuando tienes DataFrames con la misma estructura (o similar) y quieres unirlos.

In [None]:
""" Creando DataFrames de ejemplo: """

import pandas as pd

df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7'],
    'C': ['C4', 'C5', 'C6', 'C7'],
    'D': ['D4', 'D5', 'D6', 'D7']
}, index=[4, 5, 6, 7]) # Índices diferentes para mostrar cómo se manejan

df3 = pd.DataFrame({
    'A': ['A8', 'A9', 'A10', 'A11'],
    'B': ['B8', 'B9', 'B10', 'B11'],
    'C': ['C8', 'C9', 'C10', 'C11'],
    'D': ['D8', 'D9', 'D10', 'D11']
}, index=[0, 1, 2, 3]) # Índices que se solapan con df1

print("df1:")
print(df1)
print("\ndf2:")
print(df2)
print("\ndf3 (índices duplicados con df1):")
print(df3)
print("\n" + "="*50 + "\n")

## **Concatenación por Filas (axis=0, comportamiento por defecto):**
Apila los DataFrames uno debajo del otro.

In [None]:
# Concatenar df1 y df2
concatenado_filas = pd.concat([df1, df2])
print("Concatenación de df1 y df2 por filas (índices originales):")
print(concatenado_filas)

# Concatenar df1 y df3 (índices duplicados)
concatenado_indices_duplicados = pd.concat([df1, df3])
print("\nConcatenación de df1 y df3 (índices duplicados):")
print(concatenado_indices_duplicados)
# Si intentas seleccionar por índice duplicado, ej. .loc[0], obtendrás múltiples filas

# Para evitar índices duplicados, puedes resetear el índice:
concatenado_reset_index = pd.concat([df1, df3], ignore_index=True)
print("\nConcatenación de df1 y df3 con ignore_index=True:")
print(concatenado_reset_index)
print("\n" + "="*50 + "\n")

## **Concatenación por Columnas `(axis=1)`:**
"Pega" los DataFrames uno al lado del otro. La alineación se basa en el índice. Si los índices no coinciden perfectamente, se introducirán valores NaN.

In [None]:
df4 = pd.DataFrame({
    'E': ['E0', 'E1', 'E2', 'E3'],
    'F': ['F0', 'F1', 'F2', 'F3']
}, index=[0, 1, 2, 3])

df5 = pd.DataFrame({
    'G': ['G0', 'G1', 'G2', 'G3'],
    'H': ['H0', 'H1', 'H2', 'H3']
}, index=[2, 3, 4, 5]) # Índices parcialmente solapados y parcialmente nuevos

concatenado_columnas = pd.concat([df1, df4], axis=1)
print("Concatenación de df1 y df4 por columnas (mismos índices):")
print(concatenado_columnas)

concatenado_columnas_indices_dif = pd.concat([df1, df5], axis=1)
print("\nConcatenación de df1 y df5 por columnas (índices diferentes):")
print(concatenado_columnas_indices_dif) # Observa los NaN

# Para mantener solo las filas donde los índices coinciden en ambos DataFrames (join='inner')
concatenado_columnas_inner = pd.concat([df1, df5], axis=1, join='inner')
print("\nConcatenación de df1 y df5 por columnas con join='inner':")
print(concatenado_columnas_inner)
print("\n" + "="*50 + "\n")

---
## **Fusión tipo SQL con `pd.merge()`**

`pd.merge()` es la función principal para combinar DataFrames de forma similar a los JOIN en bases de datos relacionales.

In [None]:
""" Creamos dataframes para el ejercicio: """
df_clientes = pd.DataFrame({
    'ID_Cliente': [1, 2, 3, 4, 5],
    'Nombre': ['Ana', 'Luis', 'Marta', 'Juan', 'Sofia'],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Madrid']
})

df_pedidos = pd.DataFrame({
    'ID_Pedido': [101, 102, 103, 104, 105, 106],
    'ID_Cliente': [1, 2, 1, 3, 5, 7], # Cliente 7 no está en df_clientes
    'Producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Webcam', 'Impresora'],
    'Cantidad': [1, 2, 1, 1, 1, 1]
})

df_productos = pd.DataFrame({
    'Nombre_Prod': ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Webcam', 'SSD'],
    'Precio': [1200, 25, 75, 300, 50, 150]
})

print("df_clientes:")
print(df_clientes)
print("\ndf_pedidos:")
print(df_pedidos)
print("\ndf_productos:")
print(df_productos)
print("\n" + "="*50 + "\n")

### **Merge con una clave común (on):**
Por defecto, `pd.merge()` realiza un inner join.

In [None]:
# Unir clientes con sus pedidos
df_clientes_pedidos = pd.merge(df_clientes, df_pedidos, on='ID_Cliente')
print("Merge (inner join por defecto) de clientes y pedidos en 'ID_Cliente':")
print(df_clientes_pedidos)
# Nota: El cliente 4 (Juan) no aparece porque no tiene pedidos. El pedido del cliente 7 no aparece porque el cliente no está en df_clientes.
print("\n" + "="*50 + "\n")

### **Tipos de Merge `(how)`:**

* **`how='inner'` (por defecto):** Solo filas donde la clave de unión existe en ambos DataFrames.
* **`how='outer'`:** Todas las filas de ambos DataFrames. Si no hay coincidencia, se rellena con NaN.
* **`how='left'`:** Todas las filas del DataFrame izquierdo y las coincidentes del derecho. Si no hay coincidencia en el derecho, se rellena con NaN.
* **`how='right'`:** Todas las filas del DataFrame derecho y las coincidentes del izquierdo. Si no hay coincidencia en el izquierdo, se rellena con NaN.

In [None]:
# Left Join: Todos los clientes, y sus pedidos si los tienen
df_left_join = pd.merge(df_clientes, df_pedidos, on='ID_Cliente', how='left')
print("Left Join de clientes y pedidos:")
print(df_left_join) # Juan (cliente 4) aparece con NaN en las columnas de pedido.

# Right Join: Todos los pedidos, y la información del cliente si existe
df_right_join = pd.merge(df_clientes, df_pedidos, on='ID_Cliente', how='right')
print("\nRight Join de clientes y pedidos:")
print(df_right_join) # El pedido del cliente 7  aparece con NaN en la info del cliente.

# Outer Join: Todos los clientes y todos los pedidos
df_outer_join = pd.merge(df_clientes, df_pedidos, on='ID_Cliente', how='outer')
print("\nOuter Join de clientes y pedidos:")
print(df_outer_join)
print("\n" + "="*50 + "\n")

### **Merge con claves con nombres diferentes (left_on, right_on):**

In [None]:
## Merge con claves con nombres diferentes (left_on, right_on):
# Unir df_pedidos con df_productos.
# La columna de producto en df_pedidos es 'Producto' y en df_productos es 'Nombre_Prod'
df_pedidos_con_precio = pd.merge(df_pedidos, df_productos,
                                 left_on='Producto', right_on='Nombre_Prod',
                                 how='left') # Queremos todos los pedidos, y el precio si el producto existe
print("Merge de pedidos y productos con claves de nombres diferentes:")
print(df_pedidos_con_precio)
# Nota: Si hay un producto en df_pedidos que no está en df_productos, su precio será NaN.
# La columna 'Nombre_Prod' (de df_productos) se incluye. Podemos eliminarla si no la necesitamos.
# df_pedidos_con_precio = df_pedidos_con_precio.drop('Nombre_Prod', axis=1)
print("\n" + "="*50 + "\n")

### **Merge con múltiples claves:**
Si necesitas unir por más de una columna, pasa una lista a `on.`

```
# Ejemplo conceptual (necesitaríamos DFs adecuados)
# df_merged_multi = pd.merge(dfA, dfB, on=['Clave1', 'Clave2'])
```



### **Manejo de columnas con nombres duplicados (no claves) con suffixes:**
Si los DataFrames que unes tienen columnas (que no son las claves de unión) con el mismo nombre, merge añadirá sufijos `_x` y `_y` por defecto. Puedes personalizarlos.

In [None]:
df_info_adicional_cliente = pd.DataFrame({
    'ID_Cliente': [1, 2, 6],
    'Ciudad': ['Barcelona', 'Valencia', 'Bilbao'], # 'Ciudad' también existe en df_clientes
    'Telefono': ['555-111', '555-222', '555-333']
})

df_merged_sufijos = pd.merge(df_clientes, df_info_adicional_cliente, on='ID_Cliente', how='left',
                             suffixes=('_Cliente', '_Adicional'))
print("Merge con manejo de sufijos para columnas duplicadas:")
print(df_merged_sufijos)
print("\n" + "="*50 + "\n")

---
## **Unión con el método `.join()`**

El método `.join()` de un DataFrame es una forma conveniente de combinar columnas de otro DataFrame. Por defecto, une por los índices.

  * Creando DataFrames de ejemplo para .join():

In [None]:
df_izq = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                       'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2'])

df_der = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                       'D': ['D0', 'D1', 'D2']},
                      index=['K0', 'K2', 'K3']) # Índices parcialmente coincidentes

df_der_col_clave = pd.DataFrame({'Clave': ['K0', 'K1', 'K2'],
                                 'E': ['E0', 'E1', 'E2']})

print("df_izq:")
print(df_izq)
print("\ndf_der:")
print(df_der)
print("\ndf_der_col_clave:")
print(df_der_col_clave)
print("\n" + "="*50 + "\n")

### **Unir por índice (comportamiento por defecto, es un left join):**

In [None]:
join_por_indice = df_izq.join(df_der) # Es un left join por defecto
print("Join de df_izq y df_der por índice (left join):")
print(join_por_indice)

join_por_indice_outer = df_izq.join(df_der, how='outer')
print("\nOuter Join de df_izq y df_der por índice:")
print(join_por_indice_outer)

# Si hay columnas con el mismo nombre, necesitas sufijos
df_izq_duplicado = df_izq.rename(columns={'B':'X'})
df_der_duplicado = df_der.rename(columns={'C':'X'})
join_sufijos = df_izq_duplicado.join(df_der_duplicado, lsuffix='_izq', rsuffix='_der', how='inner')
print("\nInner Join con sufijos para columnas 'X' duplicadas:")
print(join_sufijos)
print("\n" + "="*50 + "\n")

### **Unir una columna del DataFrame izquierdo con el índice del DataFrame derecho:**
Para esto, el DataFrame derecho primero debe tener su columna clave como índice usando `set_index().`

In [None]:
# df_izq tiene un índice K0, K1, K2
# df_der_col_clave tiene una columna 'Clave' con K0, K1, K2 y otra columna 'E'
# Queremos añadir la columna 'E' a df_izq donde el índice de df_izq coincida con 'Clave' de df_der_col_clave

# Opción 1: Establecer 'Clave' como índice en el DF derecho y luego unir
join_col_a_indice = df_izq.join(df_der_col_clave.set_index('Clave'))
print("Join de df_izq con el índice de df_der_col_clave (creado desde su columna 'Clave'):")
print(join_col_a_indice)

# Opción 2: El método 'on' en join se refiere a la columna del DataFrame IZQUIERDO
# mientras que el DataFrame DERECHO se une usando su índice.
# Esto es un poco menos común o más confuso que usar merge para uniones basadas en columnas.

df_izq_con_clave = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                               'B': ['B0', 'B1', 'B2'],
                               'Clave_Union': ['K0', 'K1', 'K0']}, # Columna para unir
                              index=['idx0','idx1','idx2'])

df_der_con_indice = pd.DataFrame({'E': ['E_K0', 'E_K1', 'E_K2', 'E_K3']},
                                index=['K0', 'K1', 'K2', 'K3']) # Índice para unir

join_col_on = df_izq_con_clave.join(df_der_con_indice, on='Clave_Union')
print("\nJoin usando 'on' para columna de df_izq_con_clave y el índice de df_der_con_indice:")
print(join_col_on)
print("\n" + "="*50 + "\n")

*Generalmente, para uniones basadas en columnas, pd.merge() es más explícito y flexible. `.join()` brilla cuando la unión se basa principalmente en los índices.*

---
# **Entrada y Salida de Datos (I/O).**

Una de las tareas más fundamentales en cualquier proyecto de análisis de datos es la capacidad de leer datos desde diversas fuentes y, una vez procesados, guardarlos o exportarlos. Pandas es excepcionalmente bueno en esto, ofreciendo funciones para una amplia variedad de formatos de archivo.

## **Leer Datos desde Archivos**

Las funciones de lectura en Pandas generalmente comienzan con `pd.read_*.`

* Leer Archivos CSV (Valores Separados por Comas) con `pd.read_csv()`
    * Los archivos CSV son uno de los formatos más comunes para almacenar datos tabulares. Son archivos de texto plano donde los valores suelen estar separados por comas (aunque se pueden usar otros delimitadores).

*Como no podemos cargar archivos locales directamente en este entorno, vamos a simular el contenido de un archivo CSV usando una cadena de texto y luego leerlo con Pandas.*

In [None]:
import pandas as pd
import io # Necesario para simular archivos en memoria

# 1. Simular el contenido de un archivo CSV
csv_data_string = """ID_Sensor,Fecha,Temperatura,Humedad,Ciudad
S001,2025-05-01,25.5,60,Medellín
S002,2025-05-01,22.1,55,Bogotá
S003,2025-05-01,30.2,70,Cartagena
S001,2025-05-02,26.0,62,Medellín
S002,2025-05-02,N/A,58,Bogotá
S003,2025-05-02,31.0,72,Cartagena
"""
# En un caso real, usarías: df_csv = pd.read_csv("ruta/a/tu/archivo.csv")

# Usamos io.StringIO para que Pandas lea la cadena como si fuera un archivo
df_csv = pd.read_csv(io.StringIO(csv_data_string))
print("DataFrame leído desde la cadena CSV simulada:")
print(df_csv)
print("\nTipos de datos iniciales:")
print(df_csv.dtypes) # Observa que Fecha es object y Temperatura/Humedad pueden ser object si hay no numéricos
print("\n" + "="*50 + "\n")

# Parámetros comunes de pd.read_csv():
# sep (o delimiter): Especifica el delimitador. Por defecto es ','.
# Si tuvieras un CSV separado por punto y coma:
csv_data_semicolon = "Nombre;Edad;País\nAna;30;Colombia\nLuis;25;México"
df_semicolon = pd.read_csv(io.StringIO(csv_data_semicolon), sep=';')
print("DataFrame leído desde CSV con punto y coma como separador:")
print(df_semicolon)
print("\n" + "="*50 + "\n")

# header: Fila a usar como encabezado (nombres de columna). header=0 es por defecto.
# names: Lista de nombres de columna a usar, útil si el archivo no tiene encabezado (usar header=None).
csv_no_header = "val1,val2,val3\n10,20,30\n40,50,60"
df_no_header = pd.read_csv(io.StringIO(csv_no_header), header=None, names=['ColA', 'ColB', 'ColC'])
print("DataFrame leído desde CSV sin encabezado, con nombres de columna provistos:")
print(df_no_header)
print("\n" + "="*50 + "\n")

# index_col: Columna a usar como índice del DataFrame.
df_csv_con_indice = pd.read_csv(io.StringIO(csv_data_string), index_col='ID_Sensor')
print("DataFrame CSV con 'ID_Sensor' como índice:")
print(df_csv_con_indice.head())
print("\n" + "="*50 + "\n")

# usecols: Lista de columnas que quieres leer (para ahorrar memoria si solo necesitas algunas).
df_csv_columnas_selectas = pd.read_csv(io.StringIO(csv_data_string), usecols=['Fecha', 'Temperatura', 'Ciudad'])
print("DataFrame CSV solo con columnas 'Fecha', 'Temperatura', 'Ciudad':")
print(df_csv_columnas_selectas)
print("\n" + "="*50 + "\n")

# dtype: Especificar tipos de datos para columnas al leer.
# na_values: Lista de strings adicionales que deben ser reconocidos como NaN (además de los estándar).
# skiprows: Número de filas a saltar al inicio del archivo.
# nrows: Número de filas a leer (útil para inspeccionar archivos muy grandes).
df_csv_avanzado = pd.read_csv(
    io.StringIO(csv_data_string),
    dtype={'Humedad': 'float64'}, # Forzar Humedad a float
    na_values=['N/A', 'no disponible'], # 'N/A' ya es reconocido, pero es un ejemplo
    skiprows=[1], # Saltar la primera fila de datos (S001,2025-05-01...) después del encabezado
    nrows=3 # Leer solo las siguientes 3 filas de datos
)
print("DataFrame CSV con opciones avanzadas (dtype, na_values, skiprows, nrows):")
print(df_csv_avanzado)
print(df_csv_avanzado.dtypes)
print("\n" + "="*50 + "\n")

**Nota importante** *sobre parse_dates: Si tienes columnas de fecha en formato de texto, `pd.read_csv() `tiene un parámetro `parse_dates=['NombreColumnaFecha1', 'NombreColumnaFecha2']` que intenta convertir esas columnas a tipo datetime automáticamente durante la lectura, lo cual es muy conveniente.*

## **Leer Archivos Excel con pd.read_excel()**

Pandas puede leer archivos .xls y .xlsx. Para esto, a menudo necesita que tengas instaladas librerías adicionales como openpyxl (para .xlsx) o xlrd (para formatos .xls más antiguos). Si no las tienes, Pandas te lo indicará.

`pip install openpyxl xlrd`

Simularemos la lectura de un archivo Excel. Primero, crearemos un "archivo" Excel en memoria.

In [None]:
import pandas as pd
import io

# Crear un DataFrame de ejemplo para "guardarlo" en un buffer de Excel
df_para_excel = pd.DataFrame({
    'Trimestre': ['T1_2025', 'T2_2025', 'T3_2025'],
    'Ventas_ProductoA': [1500, 1700, 1600],
    'Ventas_ProductoB': [800, 950, 900]
})

df_para_excel_hoja2 = pd.DataFrame({
    'Mes': ['Ene', 'Feb', 'Mar'],
    'Gastos': [500, 550, 520]
})

# "Guardar" en un buffer de bytes en formato Excel
buffer_excel = io.BytesIO()
with pd.ExcelWriter(buffer_excel, engine='openpyxl') as writer: # engine='xlsxwriter' es otra opción
    df_para_excel.to_excel(writer, sheet_name='Ventas_Trimestrales', index=False)
    df_para_excel_hoja2.to_excel(writer, sheet_name='Gastos_Mensuales', index=False)
buffer_excel.seek(0)                            # Regresar el puntero al inicio del buffer para leerlo

# En un caso real, usarías: df_excel = pd.read_excel("ruta/a/tu/archivo.xlsx")

# Leer la primera hoja por defecto (o por índice 0)
df_excel_hoja1 = pd.read_excel(buffer_excel, sheet_name=0)
print("DataFrame leído desde la primera hoja del Excel simulado:")
print(df_excel_hoja1)
print("\n" + "="*50 + "\n")

# Leer una hoja específica por su nombre
df_excel_gastos = pd.read_excel(buffer_excel, sheet_name='Gastos_Mensuales')
print("DataFrame leído desde la hoja 'Gastos_Mensuales':")
print(df_excel_gastos)
print("\n" + "="*50 + "\n")

# Leer todas las hojas en un diccionario de DataFrames
# (necesitamos reabrir el buffer o resetearlo si no se hace bien la primera vez)
buffer_excel.seek(0) # Asegurar que el buffer está al inicio
diccionario_hojas_excel = pd.read_excel(buffer_excel, sheet_name=None)
print("Diccionario con todas las hojas del Excel:")
for nombre_hoja, df_hoja in diccionario_hojas_excel.items():
    print(f"\n--- Hoja: {nombre_hoja} ---")
    print(df_hoja)
print("\n" + "="*50 + "\n")

# Otros parámetros útiles en read_excel:
# -----------------------------------------------------
# header:       Fila a usar como encabezado.
# names:        Nombres para las columnas.
# index_col:    Columna a usar como índice.
# usecols:      Columnas específicas a leer.
# dtype:        Para especificar tipos de datos.

### ***Mención de Otros Formatos de Lectura Comunes:***

* **JSON (pd.read_json()):** Para leer archivos en formato JavaScript Object Notation. Puede manejar diferentes orientaciones de JSON (records, columns, etc.).
* **SQL (pd.read_sql(), pd.read_sql_query(), pd.read_sql_table())**: Para leer datos directamente desde bases de datos relacionales. Requiere una conexión de base de datos (ej. con sqlalchemy).
* **HTML (pd.read_html()):** Intenta extraer tablas de páginas HTML. Devuelve una lista de DataFrames.
* **Pickle (pd.read_pickle()):** Para leer archivos en el formato binario específico de Pandas (pickle). Es rápido pero no es portable entre diferentes versiones de Pandas o para otros lenguajes.

¡Y muchos más! (HDF5, Parquet, Stata, SAS, etc.)

---
# **Escribir Datos a Archivos**

Las funciones de escritura en Pandas generalmente comienzan con df.to_*.

### **Escribir a Archivos CSV con `df.to_csv()`**

In [None]:
# Usaremos el df_csv que leímos antes
print("DataFrame que vamos a 'guardar' en CSV:")
print(df_csv)

# Simular la escritura a un buffer (en un caso real, darías una ruta de archivo)
buffer_escritura_csv = io.StringIO()
df_csv.to_csv(buffer_escritura_csv)
print("\nContenido del CSV 'guardado' en el buffer (incluye índice por defecto):")
print(buffer_escritura_csv.getvalue())

# Parámetros comunes de df.to_csv():
# index=False: Muy común, para no escribir el índice del DataFrame como una columna en el CSV.
buffer_escritura_csv_no_index = io.StringIO()
df_csv.to_csv(buffer_escritura_csv_no_index, index=False)
print("\nContenido del CSV 'guardado' sin el índice:")
print(buffer_escritura_csv_no_index.getvalue())

# sep: Para especificar el delimitador (por defecto es ',').
# header=False: Para no escribir la fila de encabezado (nombres de columna).
# columns: Para especificar un subconjunto de columnas a escribir.
# mode='a': Para añadir a un archivo existente en lugar de sobrescribirlo (mode='w' es por defecto).
# encoding: Para especificar la codificación del archivo (ej. 'utf-8').

# Ejemplo: df_csv.to_csv("mi_archivo_salida.csv", index=False, sep=';', encoding='utf-8')
print("\n" + "="*50 + "\n")

## **Escribir a Archivos Excel con `df.to_excel()`**

In [None]:
# Usaremos df_excel_hoja1
print("DataFrame que vamos a 'guardar' en Excel:")
print(df_excel_hoja1)

# Simular la escritura a un buffer de bytes
buffer_escritura_excel = io.BytesIO()
df_excel_hoja1.to_excel(buffer_escritura_excel, sheet_name='MisDatos', index=False)
# Para verificar, tendríamos que leer este buffer_escritura_excel de nuevo,
# pero la idea es que esto crearía un archivo Excel.
print("\n(Simulación) DataFrame 'guardado' en un buffer de Excel.")
print("Parámetros comunes: sheet_name, index=False, header=True (por defecto)")

# Para escribir múltiples DataFrames en diferentes hojas de un mismo archivo Excel:
# with pd.ExcelWriter('mi_archivo_multihoja.xlsx', engine='openpyxl') as writer:
#     df1.to_excel(writer, sheet_name='Datos_Set_1', index=False)
#     df2.to_excel(writer, sheet_name='Datos_Set_2', index=False)
print("\n" + "="*50 + "\n")

---

# **Funciones Útiles y Operaciones Avanzadas.**

Esta sección te mostrará algunas funcionalidades adicionales de Pandas que son extremadamente útiles para refinar tus análisis, trabajar con tipos de datos específicos y realizar transformaciones más complejas.



In [None]:
""" Dataset para la sección """
import pandas as pd
import numpy as np

# DataFrame de ejemplo para el Paso 8
datos_avanzados = {
    'ID_Venta': range(1, 11),
    'Fecha_Venta': pd.to_datetime([
        '2025-01-15 10:30:00', '2025-01-15 14:45:00', '2025-01-16 09:15:00',
        '2025-01-16 16:00:00', '2025-01-17 11:00:00', '2025-01-17 11:00:00', # Fecha duplicada
        '2025-02-01 10:00:00', '2025-02-01 12:30:00', '2025-02-02 15:00:00',
        '2025-02-02 18:00:00'
    ]),
    'Vendedor': ['Ana', 'Luis', 'Ana', 'Carlos', 'Luis', 'Luis', 'Ana', 'Carlos', 'Luis', 'Ana'],
    'Producto': [
        'Laptop MODELO Z', 'Mouse Inalámbrico X', 'Teclado Mecánico Y', 'Monitor 24" HD',
        'Laptop MODELO Z', 'Webcam Pro 1080p', 'SSD Externo 1TB', 'Mouse Inalámbrico X',
        'Monitor 24" HD', 'Teclado Mecánico Y'
    ],
    'Region': ['Norte', 'Sur', 'Norte', 'Este', 'Sur', 'Sur', 'Norte', 'Este', 'Sur', 'Norte'],
    'Cantidad': [1, 2, 1, 1, 1, 3, 1, 1, 2, 2],
    'Precio_Unitario': [1200, 25, 70, 150, 1200, 50, 80, 25, 150, 70],
    'Cliente_ID': ['C001', 'C002', 'C003', 'C001', 'C004', 'C004', 'C005', 'C002', 'C001', 'C003']
}
df_adv = pd.DataFrame(datos_avanzados)
df_adv['Total_Venta'] = df_adv['Cantidad'] * df_adv['Precio_Unitario']

print("DataFrame original para el Paso 8:")
print(df_adv)
print("\n" + "="*50 + "\n")

## **Manejo de Fechas y Horas (`.dt accessor`)**

Si tienes una columna de tipo datetime (puedes convertirla con `pd.to_datetime())`, el accesor `.dt` te permite extraer muchas partes de la fecha/hora.

In [None]:
print("--- Manejo de Fechas y Horas ---")
# Asegurarse de que 'Fecha_Venta' es datetime (ya lo hicimos al crear)
# df_adv['Fecha_Venta'] = pd.to_datetime(df_adv['Fecha_Venta'])

df_adv['Año_Venta'] = df_adv['Fecha_Venta'].dt.year
df_adv['Mes_Venta'] = df_adv['Fecha_Venta'].dt.month
df_adv['Dia_Venta'] = df_adv['Fecha_Venta'].dt.day
df_adv['Hora_Venta'] = df_adv['Fecha_Venta'].dt.hour
df_adv['Dia_Semana_Num'] = df_adv['Fecha_Venta'].dt.dayofweek # Lunes=0, Domingo=6
df_adv['Dia_Semana_Nombre'] = df_adv['Fecha_Venta'].dt.day_name(locale='es_ES.UTF-8') # Especificar locale para nombres en español
df_adv['Nombre_Mes'] = df_adv['Fecha_Venta'].dt.month_name(locale='es_ES.UTF-8')

print("DataFrame con columnas de fecha extraídas:")
print(df_adv[['Fecha_Venta', 'Año_Venta', 'Nombre_Mes', 'Dia_Venta', 'Hora_Venta', 'Dia_Semana_Nombre']].head())

# Formatear fecha como string
df_adv['Fecha_Formateada'] = df_adv['Fecha_Venta'].dt.strftime('%d/%m/%Y %H:%M')
print("\nFecha formateada:")
print(df_adv[['Fecha_Venta', 'Fecha_Formateada']].head())
print("\n" + "="*50 + "\n")

## **Visualización Básica con `.plot()`**

Pandas se integra con Matplotlib para ofrecer funciones de trazado rápidas directamente desde DataFrames y Series. Para gráficos más personalizados, usarías Matplotlib o Seaborn directamente.

In [None]:
# Es posible que necesites instalar matplotlib: pip install matplotlib
print("--- Visualización Básica ---")
# Para que los gráficos se muestren en entornos como Jupyter, a veces se necesita:
# %matplotlib inline

# Ventas totales por vendedor
ventas_por_vendedor = df_adv.groupby('Vendedor')['Total_Venta'].sum()
print("\nVentas totales por vendedor:")
print(ventas_por_vendedor)

# Gráfico de barras de ventas por vendedor
# En un script .py, necesitarías plt.show() de matplotlib.pyplot
# En Colab/Jupyter, el gráfico suele aparecer automáticamente.
print("\nGenerando gráfico de barras (puede no mostrarse en todos los entornos de texto):")
grafico_vendedores = ventas_por_vendedor.plot(kind='bar', title='Ventas Totales por Vendedor')
# Para mostrarlo si no aparece:
# import matplotlib.pyplot as plt
# plt.ylabel("Total Ventas")
# plt.tight_layout()
# plt.show()

# Gráfico de línea de cantidad de productos vendidos a lo largo del tiempo (simplificado)
# df_adv.sort_values('Fecha_Venta')['Cantidad'].plot(kind='line', figsize=(10,5), title='Cantidad Vendida en el Tiempo')
# plt.show()

print("Los gráficos se generan; su visualización depende del entorno.")
print("\n" + "="*50 + "\n")

## **Manejo de Datos Duplicados**

* **`.duplicated()`:** Devuelve una Serie booleana indicando si cada fila es un duplicado de una fila anterior.
* **`.drop_duplicates()`:** Elimina filas duplicadas.

In [None]:
print("--- Manejo de Datos Duplicados ---")
# Añadamos una fila duplicada para el ejemplo
fila_duplicada_datos = {
    'ID_Venta': 11, 'Fecha_Venta': pd.to_datetime('2025-01-17 11:00:00'),
    'Vendedor': 'Luis', 'Producto': 'Laptop MODELO Z', 'Region': 'Sur',
    'Cantidad': 1, 'Precio_Unitario': 1200, 'Cliente_ID': 'C004',
    'Total_Venta': 1200 # Calculado: 1 * 1200
}
df_con_duplicados = pd.concat([df_adv, pd.DataFrame([fila_duplicada_datos])], ignore_index=True)


print(f"Número de filas antes de añadir duplicado: {len(df_adv)}")
print(f"Número de filas después de añadir duplicado: {len(df_con_duplicados)}")

# Revisar duplicados basados en todas las columnas
duplicados_todos = df_con_duplicados.duplicated(keep=False) # keep=False marca todos los duplicados como True
print("\nFilas completamente duplicadas (keep=False):")
print(df_con_duplicados[duplicados_todos])

# Revisar duplicados basados en un subconjunto de columnas
duplicados_subset = df_con_duplicados.duplicated(subset=['Fecha_Venta', 'Vendedor', 'Producto'], keep='first')
print("\nBoolean Series para duplicados en subset (keep='first'):")
print(duplicados_subset.tail()) # Muestra el final para ver el nuevo duplicado

# Eliminar duplicados, manteniendo la primera aparición
df_sin_duplicados = df_con_duplicados.drop_duplicates(keep='first')
print(f"\nNúmero de filas después de drop_duplicates: {len(df_sin_duplicados)}")

# Eliminar duplicados basados en un subconjunto, manteniendo la última aparición
df_sin_duplicados_subset_last = df_con_duplicados.drop_duplicates(
    subset=['Fecha_Venta', 'Vendedor', 'Producto'],
    keep='last'
)
print(f"Número de filas después de drop_duplicates en subset (keep='last'): {len(df_sin_duplicados_subset_last)}")
print("\n" + "="*50 + "\n")

## **Pivot Tables con `.pivot_table()`**

Las tablas pivote son una forma de resumir y reorganizar datos. Son similares a las tablas dinámicas de Excel.

In [None]:
print("--- Pivot Tables ---")
# Queremos ver el total de ventas ('Total_Venta') por cada 'Vendedor' (índice/filas)
# y para cada 'Region' (columnas)
tabla_pivote_ventas = pd.pivot_table(
    df_adv,
    values='Total_Venta',   # Valores a agregar
    index='Vendedor',       # Filas de la tabla pivote
    columns='Region',       # Columnas de la tabla pivote
    aggfunc='sum',          # Función de agregación (suma por defecto es media si no se especifica)
    fill_value=0            # Rellenar NaN (donde no hay combinación) con 0
)
print("Tabla Pivote: Suma de 'Total_Venta' por Vendedor y Región:")
print(tabla_pivote_ventas)

# Múltiples valores y funciones de agregación
tabla_pivote_compleja = pd.pivot_table(
    df_adv,
    index='Vendedor',
    columns='Region',
    values=['Cantidad', 'Total_Venta'],
    aggfunc={'Cantidad': 'sum', 'Total_Venta': [np.sum, np.mean, 'count']}, # 'count' es de las ventas
    fill_value=0
)
print("\nTabla Pivote Compleja:")
print(tabla_pivote_compleja)
print("\n" + "="*50 + "\n")

## **Uso de `apply()`, `map()`**

* **`Series.apply(func)`:** Aplica una función a cada elemento de una Serie. La función puede ser una lambda o una función definida.
* **`Series.map(arg)`:** Similar a apply para transformaciones elemento a elemento, pero también puede tomar un diccionario o una Serie para mapear valores.
* **`DataFrame.apply(func, axis=0|1)`:** Aplica una función a lo largo de un eje del DataFrame.
  * **`axis=0:`** Aplica la función a cada columna (la función recibe la columna como una Serie).
  * **`axis=1:`** Aplica la función a cada fila (la función recibe la fila como una Serie).
* **`DataFrame.map(func)` (Pandas 2.1.0+):** Aplica una función elemento por elemento a todo el DataFrame.
  * *Antes de Pandas 2.1.0*, `applymap(func)` hacía esto, pero ahora está deprecado. La alternativa era `df.apply(lambda col: col.map(func))` o bucles.

In [None]:
print("--- Uso de apply, map ---")
# Series.apply()
df_adv['Longitud_Nombre_Producto'] = df_adv['Producto'].apply(len)
print("Longitud de nombres de producto (Series.apply):")
print(df_adv[['Producto', 'Longitud_Nombre_Producto']].head())

# Series.map() para reemplazar valores
mapeo_region = {'Norte': 'N', 'Sur': 'S', 'Este': 'E', 'Oeste': 'O'}
df_adv['Region_Abrev'] = df_adv['Region'].map(mapeo_region)
print("\nRegiones abreviadas (Series.map):")
print(df_adv[['Region', 'Region_Abrev']].head())

# DataFrame.apply() para operar por filas (axis=1)
def categoria_precio(fila):
    if pd.isna(fila['Precio_Unitario']):
        return "Desconocido"
    if fila['Precio_Unitario'] > 1000:
        return "Muy Caro"
    elif fila['Precio_Unitario'] > 100:
        return "Caro"
    else:
        return "Barato"

df_adv['Categoria_Precio_Fila'] = df_adv.apply(categoria_precio, axis=1)
print("\nCategoría de precio basada en la fila (DataFrame.apply axis=1):")
print(df_adv[['Producto', 'Precio_Unitario', 'Categoria_Precio_Fila']].head())

# DataFrame.map() (Pandas 2.1.0+) para aplicar una función a cada elemento
# Supongamos que queremos añadir " (verificado)" a todos los productos si son strings
# Como 'Producto' es la única columna de strings relevante, lo haremos en esa serie.
# Si tuvieramos múltiples columnas de texto:
# df_texto = df_adv.select_dtypes(include='object')
# df_texto_verificado = df_texto.map(lambda x: f"{x} (verificado)" if isinstance(x, str) else x)
# print(df_texto_verificado.head())
# Para este ejemplo, nos enfocamos en una columna:
df_adv['Producto_Verificado'] = df_adv['Producto'].map(lambda x: f"{x} (verificado)")
print("\nProducto verificado (Series.map):")
print(df_adv[['Producto', 'Producto_Verificado']].head())

print("\n" + "="*50 + "\n")

## **Trabajo con Datos de Texto `(.str accessor)`**

Para Series que contienen strings, el accesor `.str` te da acceso a un montón de métodos vectorizados para manipular texto.

In [None]:
print("--- Métodos de String (.str) ---")
df_adv['Producto_Minusculas'] = df_adv['Producto'].str.lower()
print("Producto en minúsculas:")
print(df_adv[['Producto', 'Producto_Minusculas']].head())

df_adv['Contiene_Laptop'] = df_adv['Producto'].str.contains('Laptop', case=False) # case=False ignora may/min
print("\n¿Producto contiene 'Laptop'?:")
print(df_adv[['Producto', 'Contiene_Laptop']].head())

# Extraer el modelo si el producto es una laptop
# Esto usa expresiones regulares, que es un tema más avanzado.
df_adv['Modelo_Extraido'] = df_adv['Producto'].str.extract(r'MODELO (\w+)', expand=True)
print("\nModelo extraído de 'Laptop MODELO Z':")
print(df_adv[['Producto', 'Modelo_Extraido']].head())

# Dividir el nombre del producto en palabras
# df_adv['Palabras_Producto'] = df_adv['Producto'].str.split(' ')
# print("\nPalabras del producto:")
# print(df_adv[['Producto', 'Palabras_Producto']].head())
print("\n" + "="*50 + "\n")