# Introducción a Pandas: Conceptos Clave y Operaciones Esenciales para Principiantes en Análisis de Datos

> - Pandas es una librería de Python fundamental para manipulación y análisis de datos, basada en estructuras llamadas DataFrames y Series.
> - DataFrames son tablas bidimensionales con filas y columnas etiquetadas, mientras que Series son arreglos unidimensionales indexados.
> - Operaciones básicas incluyen creación de DataFrames, lectura/escritura de archivos CSV/Excel, selección y filtrado de datos, manipulación de columnas, y manejo de valores faltantes.
> - Pandas permite aplicar funciones a datos, combinar DataFrames mediante merge y concat, y realizar agregaciones estadísticas con groupby y agg.
> - La integración con Matplotlib facilita la visualización de datos para análisis exploratorio.

---
#### Video completo en: [El loco de los datos](https://www.youtube.com/@ellocodelosdatos)
## Introducción

Pandas es una librería de Python diseñada para la manipulación y análisis de datos estructurados, que ha devenido en una herramienta indispensable en el ecosistema de ciencia de datos. Para quienes se inician en el análisis y procesamiento de datos, entender qué es Pandas y dominar sus operaciones básicas es un paso crucial para avanzar en la ciencia de datos, el aprendizaje automático y la estadística aplicada.

Este notebook está orientado a principiantes sin experiencia previa en Pandas, y tiene como objetivo explicar de manera clara y pedagógica qué es Pandas, sus conceptos fundamentales y las operaciones más esenciales, con ejemplos prácticos y enlaces a la documentación oficial.

## Conceptos Fundamentales de Pandas

### ¿Qué es Pandas?

Pandas es una librería de Python de código abierto, desarrollada para facilitar la manipulación y análisis de datos tabulares. Su nombre proviene de "Panel Data", un término econométrico para conjuntos de datos estructurados. Pandas proporciona estructuras de datos rápidas, flexibles y expresivas, diseñadas para que el trabajo con datos etiquetados o relacionales sea intuitivo y eficiente.

Pandas está construido sobre NumPy, lo que le permite aprovechar las capacidades de cálculo numérico y manejo de arrays multidimensionales, y se integra con otras librerías como Matplotlib para visualización y SciPy para análisis estadístico.

### Analogía para principiantes

Para quienes no tienen experiencia previa, Pandas puede entenderse como una hoja de cálculo en Excel, pero con superpoderes para programadores. Mientras Excel permite manipular datos en filas y columnas de forma manual, Pandas automatiza estas operaciones mediante código, permitiendo análisis más complejos, manipulación de grandes volúmenes de datos y automatización de tareas repetitivas.

### Estructuras de datos principales: DataFrame y Series

- **Series**: Es una estructura unidimensional indexada, similar a un array o lista, pero con etiquetas asociadas a cada elemento. Puede contener distintos tipos de datos (numéricos, texto, fechas) y es la base para las columnas de un DataFrame.
- **DataFrame**: Es una estructura bidimensional, similar a una tabla en una base de datos o una hoja de cálculo, compuesta por Series que representan sus columnas. Los DataFrames tienen índices para filas y columnas, lo que permite acceder a los datos de forma flexible.

```mermaid
graph TD
    A[Pandas] --> B[Serie]
    A --> C[DataFrame]

    B -->|Estructura| D[Unidimensional]
    B -->|Índices| E[Etiquetas]
    B -->|Ejemplo| F["Series: [10, 20, 30, 40] con índices: ['a', 'b', 'c', 'd']"]

    C -->|Estructura| G[Bidimensional]
    C -->|Filas| H[Índices]
    C -->|Columnas| I[Etiquetas]
    C -->|Ejemplo| J["DataFrame: Tabla con columnas 'Nombre', 'Edad', 'Ciudad' y filas etiquetadas"]

    style A fill:#f9f,stroke:#333
    style B fill:#bbf,stroke:#333
    style C fill:#bbf,stroke:#333
    style D fill:#f96,stroke:#333
    style E fill:#f96,stroke:#333
    style F fill:#f96,stroke:#333
    style G fill:#f96,stroke:#333
    style H fill:#f96,stroke:#333
    style I fill:#f96,stroke:#333
    style J fill:#f96,stroke:#333
```
**Serie**
| Index | Nombre      |
|--------|-------------|
| 1      | Laptop      |
| 2      | Teléfono    |
| 3      | Tablet      |
| 4      | Monitor     |
| 5      | Auriculares |

**Dataframe**
  Index | Código    | Nombre      | Precio   |
 |--------|-----------|-------------|----------|
 | 1      | PROD001   | Laptop      | \$1200.50 |
 | 2      | PROD002   | Teléfono    | \$899.99  |
 | 3      | PROD003   | Tablet      | \$349.99  |
 | 4      | PROD004   | Monitor     | \$249.99  |
 | 5      | PROD005   | Auriculares | \$99.99   |

Ambas estructuras están construidas sobre NumPy y permiten operaciones aritméticas, slicing, y manipulación de datos con métodos específicos.

### Índices y etiquetas

Pandas usa índices para identificar filas y columnas. El índice de filas se denomina `index` y el de columnas `columns`. Estos índices pueden ser numéricos (por defecto) o personalizados (etiquetas). Los índices son inmutables, lo que significa que no pueden modificarse directamente, aunque sí pueden reemplazarse por nuevos conjuntos de etiquetas.

### Tipos de datos en Pandas

Pandas soporta una amplia variedad de tipos de datos, entre ellos:
- `int64`, `float64`: Números enteros y decimales.
- `object`: Datos de texto o mixtos.
- `datetime64`: Fechas y horas.
- `bool`: Valores booleanos.

El tipo de dato (`dtype`) es relevante porque determina qué operaciones pueden realizarse sobre los datos (por ejemplo, operaciones matemáticas en numéricos vs. manipulación de texto en objetos).

## Operaciones Básicas Esenciales de Pandas

### Instalación

`pip install pandas`

### Creación de DataFrames y Series

Pandas permite crear DataFrames y Series a partir de diversas fuentes: diccionarios, listas, archivos CSV, Excel, JSON y bases de datos.

In [11]:
import pandas as pd

- **Desde diccionarios**:

In [12]:
data = {'Nombre': ['Ana', 'Luis', 'Juan'], 
        'Edad': [28, 34, 29]
       }
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad
0,Ana,28
1,Luis,34
2,Juan,29


- **Desde listas de diccionarios**:

In [13]:
# Desde listas de diccionarios:
data = [{'Nombre': 'Ana', 'Edad': 28}, 
        {'Nombre': 'Luis', 'Edad': 34}]
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad
0,Ana,28
1,Luis,34


- **Desde archivos CSV**:

Carga básica

In [14]:
df = pd.read_csv('productos_ejemplo.csv')  # Lectura de CSV
df

Unnamed: 0,Producto,Fecha,Valor
0,Laptop,2025-01-15,1200.5
1,Teléfono,2025-02-20,899.99
2,Tablet,2025-03-10,349.99
3,Monitor,2025-04-05,249.99
4,Teclado,2025-05-12,59.99
5,Ratón,2025-06-18,25.5
6,Impresora,2025-07-22,149.99
7,Auriculares,2025-08-30,99.99


Carga con separador diferente

In [16]:
df = pd.read_csv('productos_ejemplo_punto_coma.csv',sep=";")  # Lectura de CSV
df

Unnamed: 0,Producto,Fecha,Valor
0,Laptop,2025-01-15,1200.5
1,Teléfono,2025-02-20,899.99
2,Tablet,2025-03-10,349.99
3,Monitor,2025-04-05,249.99
4,Teclado,2025-05-12,59.99
5,Ratón,2025-06-18,25.5
6,Impresora,2025-07-22,149.99
7,Auriculares,2025-08-30,99.99


Carga ignorando filas **Aplica para todos los eventos de carga**

In [17]:
df = pd.read_csv('productos_ejemplo_reporte.csv')  # Lectura de CSV
print(df)
df = pd.read_csv('productos_ejemplo_reporte.csv',skiprows=1)  # Lectura de CSV
df

                       Reporte de ventas
Producto    Fecha                  Valor
Laptop      2025-01-15            1200.5
Teléfono    2025-02-20            899.99
Tablet      2025-03-10            349.99
Monitor     2025-04-05            249.99
Teclado     2025-05-12             59.99
Ratón       2025-06-18              25.5
Impresora   2025-07-22            149.99
Auriculares 2025-08-30             99.99


Unnamed: 0,Producto,Fecha,Valor
0,Laptop,2025-01-15,1200.5
1,Teléfono,2025-02-20,899.99
2,Tablet,2025-03-10,349.99
3,Monitor,2025-04-05,249.99
4,Teclado,2025-05-12,59.99
5,Ratón,2025-06-18,25.5
6,Impresora,2025-07-22,149.99
7,Auriculares,2025-08-30,99.99


Carga solo algunas columnas con tipos de datos específicos

In [19]:
dfDatos = pd.read_csv('productos_ejemplo.csv',usecols=["Producto","Valor"])  # Lectura de CSV
print(dfDatos.info())
dfDatos = pd.read_csv('productos_ejemplo.csv',usecols=["Producto","Valor"],dtype={"Valor":str})  # Lectura de CSV
print(dfDatos)
print(dfDatos.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Producto  8 non-null      object 
 1   Valor     8 non-null      float64
dtypes: float64(1), object(1)
memory usage: 256.0+ bytes
None
      Producto   Valor
0       Laptop  1200.5
1     Teléfono  899.99
2       Tablet  349.99
3      Monitor  249.99
4      Teclado   59.99
5        Ratón    25.5
6    Impresora  149.99
7  Auriculares   99.99
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Producto  8 non-null      object
 1   Valor     8 non-null      object
dtypes: object(2)
memory usage: 256.0+ bytes
None


- **Desde archivos Excel**:

    Carga básica, carga la primera hoja del archivo

In [20]:
df = pd.read_excel('productos_ejemplo.xlsx')  # Lectura de Excel
df

Unnamed: 0,Producto,Fecha,Valor
0,Laptop,2025-01-15,1200.5
1,Teléfono,2025-02-20,899.99
2,Tablet,2025-03-10,349.99
3,Monitor,2025-04-05,249.99
4,Teclado,2025-05-12,59.99
5,Ratón,2025-06-18,25.5
6,Impresora,2025-07-22,149.99
7,Auriculares,2025-08-30,99.99


    Carga hoja específica del archivo

In [21]:
dfCategorias = pd.read_excel('productos_ejemplo.xlsx', sheet_name="Productos2")  # Lectura de Excel
dfCategorias

Unnamed: 0,Categoria,Producto,Fecha,Valor,Utilidad
0,Computadores,Laptop,2025-01-15,1200.5,300
1,Móviles,Teléfono,2025-02-20,899.99,100
2,Móviles,Tablet,2025-03-10,349.99,20
3,Accesorios,Monitor,2025-04-05,249.99,30
4,Accesorios,Teclado,2025-05-12,59.99,5
5,Accesorios,Ratón,2025-06-18,25.5,5
6,Impresión,Impresora,2025-07-22,149.99,15
7,Accesorios,Auriculares,2025-08-30,99.99,10


- **Desde JSON**:

In [22]:
df = pd.read_json('productos_ejemplo.json')
df

Unnamed: 0,Producto,Fecha,Valor
0,Laptop,2025-01-15,1200.5
1,Teléfono,2025-02-20,899.99
2,Tablet,2025-03-10,349.99
3,Monitor,2025-04-05,249.99
4,Teclado,2025-05-12,59.99
5,Ratón,2025-06-18,25.5
6,Impresora,2025-07-22,149.99
7,Auriculares,2025-08-30,99.99


- **Desde Base de datos**:

In [23]:
import sqlite3
conn = sqlite3.connect('productos.db')
df = pd.read_sql('SELECT * FROM productos', conn)
df

Unnamed: 0,id,producto,fecha,valor
0,1,Laptop,2025-01-15,1200.5
1,2,Teléfono,2025-02-20,899.99
2,3,Tablet,2025-03-10,349.99
3,4,Monitor,2025-04-05,249.99
4,5,Teclado,2025-05-12,59.99
5,6,Ratón,2025-06-18,25.5
6,7,Impresora,2025-07-22,149.99
7,8,Auriculares,2025-08-30,99.99


Documentación: [Creación de DataFrames](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe), [Lectura de CSV](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html), [Lectura de Excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html), [Lectura de JSON](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html), [Lectura de SQL](https://pandas.pydata.org/docs/reference/api/pandas.read_sql.html).

### Lectura y escritura de datos

Pandas facilita la carga y guardado de datos en diversos formatos:

- **Escritura a CSV**: `df.to_csv('nuevo_archivo.csv', index=False)`
- **Escritura a Excel**: `df.to_excel('nuevo_archivo.xlsx', index=False)`
- **Escritura a JSON**: `df.to_json('data.json')`

Documentación: [Lectura y escritura de CSV](https://pandas.pydata.org/docs/user_guide/io.html#io-read-csv-table), [Lectura y escritura de Excel](https://pandas.pydata.org/docs/user_guide/io.html#excel-files), [Lectura y escritura de JSON](https://pandas.pydata.org/docs/user_guide/io.html#json).

### Inspección de datos

Para explorar un DataFrame, Pandas ofrece métodos que permiten visualizar y resumir los datos:

In [24]:
n=5
df.head(n) # Muestra las primeras n filas.

Unnamed: 0,id,producto,fecha,valor
0,1,Laptop,2025-01-15,1200.5
1,2,Teléfono,2025-02-20,899.99
2,3,Tablet,2025-03-10,349.99
3,4,Monitor,2025-04-05,249.99
4,5,Teclado,2025-05-12,59.99


In [25]:
df.tail(n) # Muestra las últimas n filas.

Unnamed: 0,id,producto,fecha,valor
3,4,Monitor,2025-04-05,249.99
4,5,Teclado,2025-05-12,59.99
5,6,Ratón,2025-06-18,25.5
6,7,Impresora,2025-07-22,149.99
7,8,Auriculares,2025-08-30,99.99


In [26]:
df.info() # Resumen de columnas, tipos de datos y memoria.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   id        8 non-null      int64  
 1   producto  8 non-null      object 
 2   fecha     8 non-null      object 
 3   valor     8 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 384.0+ bytes


In [27]:
print("Solo campos numéricos")
print(df.describe()) # Estadísticas descriptivas (media, desviación estándar, percentiles).
print("")
print("Solo campos no numéricos")
print(df.describe(include='object')) # Estadísticas descriptivas (media, desviación estándar, percentiles).
print("")
print("Todos los campos")
print(df.describe(include='all')) # Estadísticas descriptivas (media, desviación estándar, percentiles).

Solo campos numéricos
            id        valor
count  8.00000     8.000000
mean   4.50000   379.492500
std    2.44949   434.379334
min    1.00000    25.500000
25%    2.75000    89.990000
50%    4.50000   199.990000
75%    6.25000   487.490000
max    8.00000  1200.500000

Solo campos no numéricos
       producto       fecha
count         8           8
unique        8           8
top      Laptop  2025-01-15
freq          1           1

Todos los campos
             id producto       fecha        valor
count   8.00000        8           8     8.000000
unique      NaN        8           8          NaN
top         NaN   Laptop  2025-01-15          NaN
freq        NaN        1           1          NaN
mean    4.50000      NaN         NaN   379.492500
std     2.44949      NaN         NaN   434.379334
min     1.00000      NaN         NaN    25.500000
25%     2.75000      NaN         NaN    89.990000
50%     4.50000      NaN         NaN   199.990000
75%     6.25000      NaN         NaN   487

In [28]:
df.shape # Dimensiones del DataFrame (filas, columnas).

(8, 4)

In [29]:
df.columns # Nombres de las columnas.

Index(['id', 'producto', 'fecha', 'valor'], dtype='object')

In [30]:
df.dtypes # Tipos de datos de cada columna.

id            int64
producto     object
fecha        object
valor       float64
dtype: object

Documentación: [Inspección de datos](https://pandas.pydata.org/docs/user_guide/basics.html#basics-df-info).

### Selección de datos

Pandas permite seleccionar datos por etiqueta, posición y condiciones booleanas:

In [31]:
df

Unnamed: 0,id,producto,fecha,valor
0,1,Laptop,2025-01-15,1200.5
1,2,Teléfono,2025-02-20,899.99
2,3,Tablet,2025-03-10,349.99
3,4,Monitor,2025-04-05,249.99
4,5,Teclado,2025-05-12,59.99
5,6,Ratón,2025-06-18,25.5
6,7,Impresora,2025-07-22,149.99
7,8,Auriculares,2025-08-30,99.99


- **Usando loc**

In [32]:
# Seleccionar la fila con índice 3
fila = df.loc[3]
print(fila)

id                   4
producto       Monitor
fecha       2025-04-05
valor           249.99
Name: 3, dtype: object


In [34]:
# Seleccionar el producto de la fila con índice 2
producto = df.loc[3, 'producto']
print(producto)

Monitor


In [35]:
# Seleccionar las filas de índice 1 a 4 y las columnas 'producto' y 'valor'
sub_df = df.loc[1:4, ['producto', 'valor']]
print(sub_df)

   producto   valor
1  Teléfono  899.99
2    Tablet  349.99
3   Monitor  249.99
4   Teclado   59.99


In [38]:
df['valor']>100

0     True
1     True
2     True
3     True
4    False
5    False
6     True
7    False
Name: valor, dtype: bool

In [39]:
# Seleccionar filas donde el valor sea mayor a 100
filas_mayor_100 = df.loc[df['valor'] > 100]
print(filas_mayor_100)

   id   producto       fecha    valor
0   1     Laptop  2025-01-15  1200.50
1   2   Teléfono  2025-02-20   899.99
2   3     Tablet  2025-03-10   349.99
3   4    Monitor  2025-04-05   249.99
6   7  Impresora  2025-07-22   149.99


In [40]:
# Seleccionar las columnas 'producto' y 'valor' donde el valor sea menor a 100
sub_df_cond = df.loc[df['valor'] < 100, ['producto', 'valor']]
print(sub_df_cond)

      producto  valor
4      Teclado  59.99
5        Ratón  25.50
7  Auriculares  99.99


In [41]:
df.loc[0, 'valor'] # Por etiqueta df.loc['etiqueta_fila', 'nombre_columna']

1200.5

- **Usando iloc** Por índices de filas y columnas

In [42]:
# Seleccionar el valor de la primera fila y la tercera columna (posición 2)
valor = df.iloc[0, 2]
print(valor)

2025-01-15


In [45]:
# Seleccionar las primeras tres filas y las primeras dos columnas
sub_df = df.iloc[0:4, 1:3]
print(sub_df)

   producto       fecha
0    Laptop  2025-01-15
1  Teléfono  2025-02-20
2    Tablet  2025-03-10
3   Monitor  2025-04-05


In [46]:
# Seleccionar las filas en las posiciones 0, 2 y 4
filas_no_consecutivas = df.iloc[[0, 2, 4]]
print(filas_no_consecutivas)

   id producto       fecha    valor
0   1   Laptop  2025-01-15  1200.50
2   3   Tablet  2025-03-10   349.99
4   5  Teclado  2025-05-12    59.99


In [49]:
# Seleccionar todas las filas y las columnas en las posiciones 1 y 3
sub_df_columnas = df.iloc[:, [1, 3]]
print(sub_df_columnas)

      producto    valor
0       Laptop  1200.50
1     Teléfono   899.99
2       Tablet   349.99
3      Monitor   249.99
4      Teclado    59.99
5        Ratón    25.50
6    Impresora   149.99
7  Auriculares    99.99


In [50]:
# Seleccionar las filas de la posición 2 a 4 y las columnas de la posición 1 a 3
rango_filas_columnas = df.iloc[2:5, 1:4]
print(rango_filas_columnas)

  producto       fecha   valor
2   Tablet  2025-03-10  349.99
3  Monitor  2025-04-05  249.99
4  Teclado  2025-05-12   59.99


- **Usando dataframes**

In [60]:
df[df['valor'] > 100] # Filtrado booleano

Unnamed: 0,id,producto,fecha,valor
0,1,Laptop,2025-01-15,1200.5
1,2,Teléfono,2025-02-20,899.99
2,3,Tablet,2025-03-10,349.99
3,4,Monitor,2025-04-05,249.99
6,7,Impresora,2025-07-22,149.99


In [54]:
df[(df['valor'] > 100) & (df['fecha'] >= '2025-03-01')] # Combinación de condiciones AND

Unnamed: 0,id,producto,fecha,valor
2,3,Tablet,2025-03-10,349.99
3,4,Monitor,2025-04-05,249.99
6,7,Impresora,2025-07-22,149.99


In [55]:
df[(df['valor'] > 1000) | (df['fecha'] >= '2025-04-01')] # Combinación de condiciones OR

Unnamed: 0,id,producto,fecha,valor
0,1,Laptop,2025-01-15,1200.5
3,4,Monitor,2025-04-05,249.99
4,5,Teclado,2025-05-12,59.99
5,6,Ratón,2025-06-18,25.5
6,7,Impresora,2025-07-22,149.99
7,8,Auriculares,2025-08-30,99.99


In [56]:
df[df["producto"].str.contains('l')] # Elementos que contengan la letra l. Puede ser cualquier cadena de texto

Unnamed: 0,id,producto,fecha,valor
1,2,Teléfono,2025-02-20,899.99
2,3,Tablet,2025-03-10,349.99
4,5,Teclado,2025-05-12,59.99
7,8,Auriculares,2025-08-30,99.99


Usando el método query

In [58]:
query_1 = df.query('valor > 100')
print(query_1)

   id   producto       fecha    valor
0   1     Laptop  2025-01-15  1200.50
1   2   Teléfono  2025-02-20   899.99
2   3     Tablet  2025-03-10   349.99
3   4    Monitor  2025-04-05   249.99
6   7  Impresora  2025-07-22   149.99


In [61]:
query_3 = df.query('100 < valor < 500') # Seleccionar productos con un valor entre 100 y 500:
print(query_3)

   id   producto       fecha   valor
2   3     Tablet  2025-03-10  349.99
3   4    Monitor  2025-04-05  249.99
6   7  Impresora  2025-07-22  149.99


In [62]:
# Seleccionar productos con un valor mayor a 100 y que sean 'Laptop' o 'Teléfono' or:
query_5 = df.query('valor > 100 & (producto == "Laptop" | producto == "Teléfono")')
print(query_5)

   id  producto       fecha    valor
0   1    Laptop  2025-01-15  1200.50
1   2  Teléfono  2025-02-20   899.99


Documentación: [Selección de datos](https://pandas.pydata.org/docs/user_guide/indexing.html#indexing), [Filtrado booleano](https://pandas.pydata.org/docs/user_guide/boolean_indexing.html).

### Manipulación de datos

**Modificando datos**

In [63]:
# Cambiar el valor del producto 'Ratón' a 30.00
print(df)
df.loc[df['producto'] == 'Ratón', 'valor'] = 30.00
print(df)

   id     producto       fecha    valor
0   1       Laptop  2025-01-15  1200.50
1   2     Teléfono  2025-02-20   899.99
2   3       Tablet  2025-03-10   349.99
3   4      Monitor  2025-04-05   249.99
4   5      Teclado  2025-05-12    59.99
5   6        Ratón  2025-06-18    25.50
6   7    Impresora  2025-07-22   149.99
7   8  Auriculares  2025-08-30    99.99
   id     producto       fecha    valor
0   1       Laptop  2025-01-15  1200.50
1   2     Teléfono  2025-02-20   899.99
2   3       Tablet  2025-03-10   349.99
3   4      Monitor  2025-04-05   249.99
4   5      Teclado  2025-05-12    59.99
5   6        Ratón  2025-06-18    30.00
6   7    Impresora  2025-07-22   149.99
7   8  Auriculares  2025-08-30    99.99


In [64]:
# Cambiar el valor en la fila 1, columna 3 a 1000.00 no es posible
print(df)
df.iloc[1, 3] = 1000.00
print(df)

   id     producto       fecha    valor
0   1       Laptop  2025-01-15  1200.50
1   2     Teléfono  2025-02-20   899.99
2   3       Tablet  2025-03-10   349.99
3   4      Monitor  2025-04-05   249.99
4   5      Teclado  2025-05-12    59.99
5   6        Ratón  2025-06-18    30.00
6   7    Impresora  2025-07-22   149.99
7   8  Auriculares  2025-08-30    99.99
   id     producto       fecha    valor
0   1       Laptop  2025-01-15  1200.50
1   2     Teléfono  2025-02-20  1000.00
2   3       Tablet  2025-03-10   349.99
3   4      Monitor  2025-04-05   249.99
4   5      Teclado  2025-05-12    59.99
5   6        Ratón  2025-06-18    30.00
6   7    Impresora  2025-07-22   149.99
7   8  Auriculares  2025-08-30    99.99


**Insertando datos**

In [67]:
len(df)

8

In [68]:
# Agregar un nuevo registro con un índice específico
df.loc[len(df)] = [9, 'Cámara', '2025-09-10', 499.99]
print(df)

   id     producto       fecha    valor
0   1       Laptop  2025-01-15  1200.50
1   2     Teléfono  2025-02-20  1000.00
2   3       Tablet  2025-03-10   349.99
3   4      Monitor  2025-04-05   249.99
4   5      Teclado  2025-05-12    59.99
5   6        Ratón  2025-06-18    30.00
6   7    Impresora  2025-07-22   149.99
7   8  Auriculares  2025-08-30    99.99
8   9       Cámara  2025-09-10   499.99


In [69]:
# Crear un nuevo DataFrame con el registro a agregar
nuevo_registro = pd.DataFrame({
    'id': [10],
    'producto': ['Cargador'],
    'fecha': ['2025-09-10'],
    'valor': [199.99]
})

# Concatenar el nuevo registro al DataFrame original
df = pd.concat([df, nuevo_registro], ignore_index=True)
print(df)

   id     producto       fecha    valor
0   1       Laptop  2025-01-15  1200.50
1   2     Teléfono  2025-02-20  1000.00
2   3       Tablet  2025-03-10   349.99
3   4      Monitor  2025-04-05   249.99
4   5      Teclado  2025-05-12    59.99
5   6        Ratón  2025-06-18    30.00
6   7    Impresora  2025-07-22   149.99
7   8  Auriculares  2025-08-30    99.99
8   9       Cámara  2025-09-10   499.99
9  10     Cargador  2025-09-10   199.99


**Adición de columnas**

In [70]:
df['utilidad'] = df['valor'] * 0.3  # Crear columna
df

Unnamed: 0,id,producto,fecha,valor,utilidad
0,1,Laptop,2025-01-15,1200.5,360.15
1,2,Teléfono,2025-02-20,1000.0,300.0
2,3,Tablet,2025-03-10,349.99,104.997
3,4,Monitor,2025-04-05,249.99,74.997
4,5,Teclado,2025-05-12,59.99,17.997
5,6,Ratón,2025-06-18,30.0,9.0
6,7,Impresora,2025-07-22,149.99,44.997
7,8,Auriculares,2025-08-30,99.99,29.997
8,9,Cámara,2025-09-10,499.99,149.997
9,10,Cargador,2025-09-10,199.99,59.997


In [74]:
df.drop('utilidad', axis=1, inplace=True)  # Eliminar columna
df

Unnamed: 0,id,producto,fecha,valor
0,1,Laptop,2025-01-15,1200.5
1,2,Teléfono,2025-02-20,1000.0
2,3,Tablet,2025-03-10,349.99
3,4,Monitor,2025-04-05,249.99
4,5,Teclado,2025-05-12,59.99
5,6,Ratón,2025-06-18,30.0
6,7,Impresora,2025-07-22,149.99
7,8,Auriculares,2025-08-30,99.99
8,9,Cámara,2025-09-10,499.99
9,10,Cargador,2025-09-10,199.99


In [75]:
df.rename(columns={'valor': 'precio'}, inplace=True) # Renombrar columna
df

Unnamed: 0,id,producto,fecha,precio
0,1,Laptop,2025-01-15,1200.5
1,2,Teléfono,2025-02-20,1000.0
2,3,Tablet,2025-03-10,349.99
3,4,Monitor,2025-04-05,249.99
4,5,Teclado,2025-05-12,59.99
5,6,Ratón,2025-06-18,30.0
6,7,Impresora,2025-07-22,149.99
7,8,Auriculares,2025-08-30,99.99
8,9,Cámara,2025-09-10,499.99
9,10,Cargador,2025-09-10,199.99


In [78]:
dfCategorias.sort_values(by='Valor', ascending=False)  # Ordenar por columna  ascending=True Asencendente ascending=False descendente

Unnamed: 0,Categoria,Producto,Fecha,Valor,Utilidad
0,Computadores,Laptop,2025-01-15,1200.5,300
1,Móviles,Teléfono,2025-02-20,899.99,100
2,Móviles,Tablet,2025-03-10,349.99,20
3,Accesorios,Monitor,2025-04-05,249.99,30
6,Impresión,Impresora,2025-07-22,149.99,15
7,Accesorios,Auriculares,2025-08-30,99.99,10
4,Accesorios,Teclado,2025-05-12,59.99,5
5,Accesorios,Ratón,2025-06-18,25.5,5


In [81]:
dfCategorias.sort_values(by=['Categoria','Valor'], ascending=[True,False])  # Ordenar por varias columnas  ascending=True Asencendente ascending=False descendente

Unnamed: 0,Categoria,Producto,Fecha,Valor,Utilidad
3,Accesorios,Monitor,2025-04-05,249.99,30
7,Accesorios,Auriculares,2025-08-30,99.99,10
4,Accesorios,Teclado,2025-05-12,59.99,5
5,Accesorios,Ratón,2025-06-18,25.5,5
0,Computadores,Laptop,2025-01-15,1200.5,300
6,Impresión,Impresora,2025-07-22,149.99,15
1,Móviles,Teléfono,2025-02-20,899.99,100
2,Móviles,Tablet,2025-03-10,349.99,20


In [84]:
dfCategorias.sort_index(ascending=True)  # Ordenar por índice

Unnamed: 0,Categoria,Producto,Fecha,Valor,Utilidad
0,Computadores,Laptop,2025-01-15,1200.5,300
1,Móviles,Teléfono,2025-02-20,899.99,100
2,Móviles,Tablet,2025-03-10,349.99,20
3,Accesorios,Monitor,2025-04-05,249.99,30
4,Accesorios,Teclado,2025-05-12,59.99,5
5,Accesorios,Ratón,2025-06-18,25.5,5
6,Impresión,Impresora,2025-07-22,149.99,15
7,Accesorios,Auriculares,2025-08-30,99.99,10


In [85]:
df.loc[1:3,"precio"]=None
df.loc[5,"id"]=None
print(df)
df.isna()  # Detectar valores faltantes

     id     producto       fecha   precio
0   1.0       Laptop  2025-01-15  1200.50
1   2.0     Teléfono  2025-02-20      NaN
2   3.0       Tablet  2025-03-10      NaN
3   4.0      Monitor  2025-04-05      NaN
4   5.0      Teclado  2025-05-12    59.99
5   NaN        Ratón  2025-06-18    30.00
6   7.0    Impresora  2025-07-22   149.99
7   8.0  Auriculares  2025-08-30    99.99
8   9.0       Cámara  2025-09-10   499.99
9  10.0     Cargador  2025-09-10   199.99


Unnamed: 0,id,producto,fecha,precio
0,False,False,False,False
1,False,False,False,True
2,False,False,False,True
3,False,False,False,True
4,False,False,False,False
5,True,False,False,False
6,False,False,False,False
7,False,False,False,False
8,False,False,False,False
9,False,False,False,False


In [86]:
df.isna().sum() # Detectar cantidad de valores faltantes

id          1
producto    0
fecha       0
precio      3
dtype: int64

In [87]:
df.dropna()  # Eliminar filas con valores faltantes

Unnamed: 0,id,producto,fecha,precio
0,1.0,Laptop,2025-01-15,1200.5
4,5.0,Teclado,2025-05-12,59.99
6,7.0,Impresora,2025-07-22,149.99
7,8.0,Auriculares,2025-08-30,99.99
8,9.0,Cámara,2025-09-10,499.99
9,10.0,Cargador,2025-09-10,199.99


In [88]:
df.dropna(subset=["precio"])  # Eliminar filas con valores faltantes en determinadas columnas

Unnamed: 0,id,producto,fecha,precio
0,1.0,Laptop,2025-01-15,1200.5
4,5.0,Teclado,2025-05-12,59.99
5,,Ratón,2025-06-18,30.0
6,7.0,Impresora,2025-07-22,149.99
7,8.0,Auriculares,2025-08-30,99.99
8,9.0,Cámara,2025-09-10,499.99
9,10.0,Cargador,2025-09-10,199.99


In [91]:
df.fillna(value=0)  # Rellenar valores faltantes

Unnamed: 0,id,producto,fecha,precio
0,1.0,Laptop,2025-01-15,1200.5
1,2.0,Teléfono,2025-02-20,0.0
2,3.0,Tablet,2025-03-10,0.0
3,4.0,Monitor,2025-04-05,0.0
4,5.0,Teclado,2025-05-12,59.99
5,0.0,Ratón,2025-06-18,30.0
6,7.0,Impresora,2025-07-22,149.99
7,8.0,Auriculares,2025-08-30,99.99
8,9.0,Cámara,2025-09-10,499.99
9,10.0,Cargador,2025-09-10,199.99


In [92]:
df["precio"]=df["precio"].fillna(value=0)  # Rellenar valores faltantes solo  columnas seleccionadas
df

Unnamed: 0,id,producto,fecha,precio
0,1.0,Laptop,2025-01-15,1200.5
1,2.0,Teléfono,2025-02-20,0.0
2,3.0,Tablet,2025-03-10,0.0
3,4.0,Monitor,2025-04-05,0.0
4,5.0,Teclado,2025-05-12,59.99
5,,Ratón,2025-06-18,30.0
6,7.0,Impresora,2025-07-22,149.99
7,8.0,Auriculares,2025-08-30,99.99
8,9.0,Cámara,2025-09-10,499.99
9,10.0,Cargador,2025-09-10,199.99


**Agrupaciones**

In [93]:
# Agrupar por categoría y obtener un resumen completo:
dfCategorias.groupby('Categoria').describe()

Unnamed: 0_level_0,Fecha,Fecha,Fecha,Fecha,Fecha,Fecha,Fecha,Fecha,Valor,Valor,Valor,Valor,Valor,Utilidad,Utilidad,Utilidad,Utilidad,Utilidad,Utilidad,Utilidad,Utilidad
Unnamed: 0_level_1,count,mean,min,25%,50%,75%,max,std,count,mean,...,max,std,count,mean,min,25%,50%,75%,max,std
Categoria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Accesorios,4,2025-06-08 12:00:00,2025-04-05 00:00:00,2025-05-02 18:00:00,2025-05-30 12:00:00,2025-07-06 06:00:00,2025-08-30 00:00:00,,4.0,108.8675,...,249.99,98.882961,4.0,12.5,5.0,5.0,7.5,15.0,30.0,11.902381
Computadores,1,2025-01-15 00:00:00,2025-01-15 00:00:00,2025-01-15 00:00:00,2025-01-15 00:00:00,2025-01-15 00:00:00,2025-01-15 00:00:00,,1.0,1200.5,...,1200.5,,1.0,300.0,300.0,300.0,300.0,300.0,300.0,
Impresión,1,2025-07-22 00:00:00,2025-07-22 00:00:00,2025-07-22 00:00:00,2025-07-22 00:00:00,2025-07-22 00:00:00,2025-07-22 00:00:00,,1.0,149.99,...,149.99,,1.0,15.0,15.0,15.0,15.0,15.0,15.0,
Móviles,2,2025-03-01 00:00:00,2025-02-20 00:00:00,2025-02-24 12:00:00,2025-03-01 00:00:00,2025-03-05 12:00:00,2025-03-10 00:00:00,,2.0,624.99,...,899.99,388.90873,2.0,60.0,20.0,40.0,60.0,80.0,100.0,56.568542


In [94]:
dfCategorias.groupby('Categoria')['Valor'].mean()  # Agrupar y calcular media

Categoria
Accesorios       108.8675
Computadores    1200.5000
Impresión        149.9900
Móviles          624.9900
Name: Valor, dtype: float64

In [96]:
dfGrupo=dfCategorias.groupby('Categoria')['Valor'].mean().reset_index()  # Agrupar y calcular media resetea índice para obtener un dataframe
dfGrupo

Unnamed: 0,Categoria,Valor
0,Accesorios,108.8675
1,Computadores,1200.5
2,Impresión,149.99
3,Móviles,624.99


In [97]:
max_por_categoria_producto = dfCategorias.groupby(['Categoria', 'Producto'])['Valor'].max()
print(max_por_categoria_producto)
max_por_categoria_producto = dfCategorias.groupby(['Categoria', 'Producto'])['Valor'].max().reset_index()
print(max_por_categoria_producto)

Categoria     Producto   
Accesorios    Auriculares      99.99
              Monitor         249.99
              Ratón            25.50
              Teclado          59.99
Computadores  Laptop         1200.50
Impresión     Impresora       149.99
Móviles       Tablet          349.99
              Teléfono        899.99
Name: Valor, dtype: float64
      Categoria     Producto    Valor
0    Accesorios  Auriculares    99.99
1    Accesorios      Monitor   249.99
2    Accesorios        Ratón    25.50
3    Accesorios      Teclado    59.99
4  Computadores       Laptop  1200.50
5     Impresión    Impresora   149.99
6       Móviles       Tablet   349.99
7       Móviles     Teléfono   899.99


In [98]:
dfCategorias.groupby('Categoria').agg({'Valor': ['mean', 'max'], 'Utilidad': 'sum'})  # Agregaciones múltiples

Unnamed: 0_level_0,Valor,Valor,Utilidad
Unnamed: 0_level_1,mean,max,sum
Categoria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Accesorios,108.8675,249.99,50
Computadores,1200.5,1200.5,300
Impresión,149.99,149.99,15
Móviles,624.99,899.99,120


In [100]:
dfCategorias.groupby('Categoria').agg({'Valor': ['mean', 'max'], 'Utilidad': 'sum'}).reset_index()  # Agregaciones múltiples personalizadas

Unnamed: 0_level_0,Categoria,Valor,Valor,Utilidad
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,sum
0,Accesorios,108.8675,249.99,50
1,Computadores,1200.5,1200.5,300
2,Impresión,149.99,149.99,15
3,Móviles,624.99,899.99,120


In [103]:
#Agrupar por categoría y calcular el mínimo, máximo y rango con nombres personalizados
agrupacion_rango = dfCategorias.groupby('Categoria')['Valor'].agg(
    minimo='min',
    maximo='max',
    cant_productos = 'count',
    rango=lambda x: x.max() - x.min()
).rename(columns={'<lambda>': 'rango'})
print(agrupacion_rango)

               minimo   maximo  cant_productos   rango
Categoria                                             
Accesorios      25.50   249.99               4  224.49
Computadores  1200.50  1200.50               1    0.00
Impresión      149.99   149.99               1    0.00
Móviles        349.99   899.99               2  550.00


In [105]:
# Agrupar por categoría y aplicar múltiples funciones con nombres personalizados:
agrupacion_multiple = dfCategorias.groupby('Categoria').agg(
    promedio_valor=('Valor', 'mean'),
    total_valor=('Valor', 'sum'),
    cantidad_productos=('Producto', 'count')
).reset_index()
print(agrupacion_multiple)

      Categoria  promedio_valor  total_valor  cantidad_productos
0    Accesorios        108.8675       435.47                   4
1  Computadores       1200.5000      1200.50                   1
2     Impresión        149.9900       149.99                   1
3       Móviles        624.9900      1249.98                   2


In [106]:
# Agrupación con una fórmula personalizada
def rango(valores):
    return valores.max() - valores.min()

rango_por_categoria = dfCategorias.groupby('Categoria')['Valor'].agg(rango)
print(rango_por_categoria)

Categoria
Accesorios      224.49
Computadores      0.00
Impresión         0.00
Móviles         550.00
Name: Valor, dtype: float64


In [107]:
dfCategorias

Unnamed: 0,Categoria,Producto,Fecha,Valor,Utilidad
0,Computadores,Laptop,2025-01-15,1200.5,300
1,Móviles,Teléfono,2025-02-20,899.99,100
2,Móviles,Tablet,2025-03-10,349.99,20
3,Accesorios,Monitor,2025-04-05,249.99,30
4,Accesorios,Teclado,2025-05-12,59.99,5
5,Accesorios,Ratón,2025-06-18,25.5,5
6,Impresión,Impresora,2025-07-22,149.99,15
7,Accesorios,Auriculares,2025-08-30,99.99,10


**Transformar datos con funciones**

In [110]:
dfCategorias['Utilidad'].apply(lambda x: x * 2)  # Aplicar función a columna

0    600
1    200
2     40
3     60
4     10
5     10
6     30
7     20
Name: Utilidad, dtype: int64

In [111]:
# Aplicar función a registro con varias columnas
def calculaPorcUtilidad(x):
    resultado = x["Utilidad"]/x.Valor
    return resultado
    
dfCategorias['porc_utilidad']=dfCategorias.apply(calculaPorcUtilidad,axis=1)  
print(dfCategorias)

      Categoria     Producto      Fecha    Valor  Utilidad  porc_utilidad
0  Computadores       Laptop 2025-01-15  1200.50       300       0.249896
1       Móviles     Teléfono 2025-02-20   899.99       100       0.111112
2       Móviles       Tablet 2025-03-10   349.99        20       0.057144
3    Accesorios      Monitor 2025-04-05   249.99        30       0.120005
4    Accesorios      Teclado 2025-05-12    59.99         5       0.083347
5    Accesorios        Ratón 2025-06-18    25.50         5       0.196078
6     Impresión    Impresora 2025-07-22   149.99        15       0.100007
7    Accesorios  Auriculares 2025-08-30    99.99        10       0.100010


In [112]:
# Aplicar función a registro con varias columnas
def clasifica_por_Utilidad(x):
    if x["porc_utilidad"]<=0.15:
        resultado= "Utilidad baja"
    else:
        resultado= "Utilidad Alta"    
    return resultado
dfCategorias['ClaseUtilidad']=dfCategorias.apply(clasifica_por_Utilidad,axis=1)  
dfCategorias

Unnamed: 0,Categoria,Producto,Fecha,Valor,Utilidad,porc_utilidad,ClaseUtilidad
0,Computadores,Laptop,2025-01-15,1200.5,300,0.249896,Utilidad Alta
1,Móviles,Teléfono,2025-02-20,899.99,100,0.111112,Utilidad baja
2,Móviles,Tablet,2025-03-10,349.99,20,0.057144,Utilidad baja
3,Accesorios,Monitor,2025-04-05,249.99,30,0.120005,Utilidad baja
4,Accesorios,Teclado,2025-05-12,59.99,5,0.083347,Utilidad baja
5,Accesorios,Ratón,2025-06-18,25.5,5,0.196078,Utilidad Alta
6,Impresión,Impresora,2025-07-22,149.99,15,0.100007,Utilidad baja
7,Accesorios,Auriculares,2025-08-30,99.99,10,0.10001,Utilidad baja


**Pivot con datos**

In [113]:
dfCategorias.pivot_table(values="Producto",index="Categoria",columns="ClaseUtilidad",aggfunc ="count") # Sin resetear índice

ClaseUtilidad,Utilidad Alta,Utilidad baja
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1
Accesorios,1.0,3.0
Computadores,1.0,
Impresión,,1.0
Móviles,,2.0


In [114]:
dfCategoriasPivot=dfCategorias.pivot_table(values="Producto",index="Categoria",columns="ClaseUtilidad",aggfunc ="count").reset_index() # Resetando índice para lograr DataFrame
dfCategoriasPivot

ClaseUtilidad,Categoria,Utilidad Alta,Utilidad baja
0,Accesorios,1.0,3.0
1,Computadores,1.0,
2,Impresión,,1.0
3,Móviles,,2.0


**Unpivot con datos - Melt**

In [116]:
dfCategoriasPivot.melt(id_vars="Categoria",var_name="Clase Utilidad",value_name="Cantidad")

Unnamed: 0,Categoria,Clase Utilidad,Cantidad
0,Accesorios,Utilidad Alta,1.0
1,Computadores,Utilidad Alta,1.0
2,Impresión,Utilidad Alta,
3,Móviles,Utilidad Alta,
4,Accesorios,Utilidad baja,3.0
5,Computadores,Utilidad baja,
6,Impresión,Utilidad baja,1.0
7,Móviles,Utilidad baja,2.0


Documentación: [Manipulación de datos](https://pandas.pydata.org/docs/user_guide/basics.html#basics-manipulation), [Aplicación de funciones](https://pandas.pydata.org/docs/user_guide/apply.html), [Agregación](https://pandas.pydata.org/docs/user_guide/groupby.html).

### Combinación de DataFrames

- **Merge (join)**: Combina DataFrames por una columna común.
- **Concat**: Concatena DataFrames a lo largo de filas o columnas.

Documentación: [Merge y concat](https://pandas.pydata.org/docs/user_guide/merging.html).

In [117]:
df1 = pd.read_excel("./productos_ejemplo.xlsx",sheet_name="Productos")
df2 = pd.read_excel("./productos_ejemplo.xlsx",sheet_name="Paises")
df3 = pd.read_excel("./productos_ejemplo.xlsx",sheet_name="Paises2")

**Inner join = Solo los productos que estén en ambos dataframes**

In [120]:
# Inner join
pd.merge(df1, df2, on='Producto', how='inner')

Unnamed: 0,Producto,Fecha,Valor,País
0,Laptop,2025-01-15,1200.5,USA
1,Teléfono,2025-02-20,899.99,USA
2,Monitor,2025-04-05,249.99,Corea del sur
3,Ratón,2025-06-18,25.5,China
4,Impresora,2025-07-22,149.99,USA
5,Auriculares,2025-08-30,99.99,China


**Left join = Todos los productos de la tabla df1 y solo los que estén en df2**

In [121]:
# left join
pd.merge(df1, df2, on='Producto', how='left') 

Unnamed: 0,Producto,Fecha,Valor,País
0,Laptop,2025-01-15,1200.5,USA
1,Teléfono,2025-02-20,899.99,USA
2,Tablet,2025-03-10,349.99,
3,Monitor,2025-04-05,249.99,Corea del sur
4,Teclado,2025-05-12,59.99,
5,Ratón,2025-06-18,25.5,China
6,Impresora,2025-07-22,149.99,USA
7,Auriculares,2025-08-30,99.99,China


**Right join = Todos los productos de la tabla df2 y solo los que estén en df1**

In [122]:
# left join
pd.merge(df1, df2, on='Producto', how='right') 

Unnamed: 0,Producto,Fecha,Valor,País
0,Laptop,2025-01-15,1200.5,USA
1,Teléfono,2025-02-20,899.99,USA
2,Monitor,2025-04-05,249.99,Corea del sur
3,Ratón,2025-06-18,25.5,China
4,Impresora,2025-07-22,149.99,USA
5,Auriculares,2025-08-30,99.99,China
6,Cargador,NaT,,China
7,Bateria,NaT,,Corea del sur


**Outer join = Todos los productos de ambos dataframes tanto los que existen en ambas tablas como los que no**

In [123]:
# left join
pd.merge(df1, df2, on='Producto', how='outer') 

Unnamed: 0,Producto,Fecha,Valor,País
0,Auriculares,2025-08-30,99.99,China
1,Bateria,NaT,,Corea del sur
2,Cargador,NaT,,China
3,Impresora,2025-07-22,149.99,USA
4,Laptop,2025-01-15,1200.5,USA
5,Monitor,2025-04-05,249.99,Corea del sur
6,Ratón,2025-06-18,25.5,China
7,Tablet,2025-03-10,349.99,
8,Teclado,2025-05-12,59.99,
9,Teléfono,2025-02-20,899.99,USA


**Cuando el nombre de campo de relación es diferente**

In [126]:
pd.merge(df1, df3, left_on='Producto',right_on='NombreProducto', how='inner') 

Unnamed: 0,Producto,Fecha,Valor,NombreProducto,País
0,Laptop,2025-01-15,1200.5,Laptop,USA
1,Teléfono,2025-02-20,899.99,Teléfono,USA
2,Monitor,2025-04-05,249.99,Monitor,Corea del sur
3,Ratón,2025-06-18,25.5,Ratón,China
4,Impresora,2025-07-22,149.99,Impresora,USA
5,Auriculares,2025-08-30,99.99,Auriculares,China


**Merge con columnas que existen en ambos dataframes**

In [127]:
df1["Tipo"]="Importado"
df2["Tipo"]="Importado"
pd.merge(df1, df2, on='Producto', how='outer') 

Unnamed: 0,Producto,Fecha,Valor,Tipo_x,País,Tipo_y
0,Auriculares,2025-08-30,99.99,Importado,China,Importado
1,Bateria,NaT,,,Corea del sur,Importado
2,Cargador,NaT,,,China,Importado
3,Impresora,2025-07-22,149.99,Importado,USA,Importado
4,Laptop,2025-01-15,1200.5,Importado,USA,Importado
5,Monitor,2025-04-05,249.99,Importado,Corea del sur,Importado
6,Ratón,2025-06-18,25.5,Importado,China,Importado
7,Tablet,2025-03-10,349.99,Importado,,
8,Teclado,2025-05-12,59.99,Importado,,
9,Teléfono,2025-02-20,899.99,Importado,USA,Importado


In [128]:
pd.merge(df1, df2, on='Producto', how='outer',suffixes=["_ventas","_maestro"]) 

Unnamed: 0,Producto,Fecha,Valor,Tipo_ventas,País,Tipo_maestro
0,Auriculares,2025-08-30,99.99,Importado,China,Importado
1,Bateria,NaT,,,Corea del sur,Importado
2,Cargador,NaT,,,China,Importado
3,Impresora,2025-07-22,149.99,Importado,USA,Importado
4,Laptop,2025-01-15,1200.5,Importado,USA,Importado
5,Monitor,2025-04-05,249.99,Importado,Corea del sur,Importado
6,Ratón,2025-06-18,25.5,Importado,China,Importado
7,Tablet,2025-03-10,349.99,Importado,,
8,Teclado,2025-05-12,59.99,Importado,,
9,Teléfono,2025-02-20,899.99,Importado,USA,Importado


**Concatenando dataframes**

In [129]:
pd.concat([df1, df2], axis=0)  # Concatena filas

Unnamed: 0,Producto,Fecha,Valor,Tipo,País
0,Laptop,2025-01-15,1200.50,Importado,
1,Teléfono,2025-02-20,899.99,Importado,
2,Tablet,2025-03-10,349.99,Importado,
3,Monitor,2025-04-05,249.99,Importado,
4,Teclado,2025-05-12,59.99,Importado,
...,...,...,...,...,...
3,Ratón,NaT,,Importado,China
4,Impresora,NaT,,Importado,USA
5,Auriculares,NaT,,Importado,China
6,Cargador,NaT,,Importado,China


In [132]:
pd.concat([df1, df2], axis=1)  # Concatena columnas

Unnamed: 0,Producto,Fecha,Valor,Tipo,Producto.1,País,Tipo.1
0,Laptop,2025-01-15,1200.5,Importado,Laptop,USA,Importado
1,Teléfono,2025-02-20,899.99,Importado,Teléfono,USA,Importado
2,Tablet,2025-03-10,349.99,Importado,Monitor,Corea del sur,Importado
3,Monitor,2025-04-05,249.99,Importado,Ratón,China,Importado
4,Teclado,2025-05-12,59.99,Importado,Impresora,USA,Importado
5,Ratón,2025-06-18,25.5,Importado,Auriculares,China,Importado
6,Impresora,2025-07-22,149.99,Importado,Cargador,China,Importado
7,Auriculares,2025-08-30,99.99,Importado,Bateria,Corea del sur,Importado


### Operaciones con fechas

- Convertir columna a datetime:
- Extraer año, mes, día:

Documentación: [Manejo de fechas](https://pandas.pydata.org/docs/user_guide/timeseries.html).

In [133]:
df['fecha'] = pd.to_datetime(df['fecha'])

In [134]:
df['año'] = df['fecha'].dt.year
df['mes'] = df['fecha'].dt.month
df['dia'] = df['fecha'].dt.day

In [135]:
df

Unnamed: 0,id,producto,fecha,precio,año,mes,dia
0,1.0,Laptop,2025-01-15,1200.5,2025,1,15
1,2.0,Teléfono,2025-02-20,0.0,2025,2,20
2,3.0,Tablet,2025-03-10,0.0,2025,3,10
3,4.0,Monitor,2025-04-05,0.0,2025,4,5
4,5.0,Teclado,2025-05-12,59.99,2025,5,12
5,,Ratón,2025-06-18,30.0,2025,6,18
6,7.0,Impresora,2025-07-22,149.99,2025,7,22
7,8.0,Auriculares,2025-08-30,99.99,2025,8,30
8,9.0,Cámara,2025-09-10,499.99,2025,9,10
9,10.0,Cargador,2025-09-10,199.99,2025,9,10


## Conclusión

Pandas es una librería poderosa y versátil que facilita la manipulación y análisis de datos en Python. Sus estructuras principales, DataFrame y Series, permiten manejar datos tabulares de manera eficiente. Las operaciones básicas cubren la creación, lectura, inspección, selección, manipulación, combinación y visualización de datos.

Para seguir aprendiendo, se recomienda explorar la [documentación oficial de Pandas](https://pandas.pydata.org/docs/), realizar ejercicios prácticos y consultar tutoriales en plataformas como Kaggle, W3Schools y libros especializados como "Python for Data Analysis" de Wes McKinney.