# Introducción

Pandas es una de las librerías más utilizadas en Python para la manipulación y análisis de datos. Está construida sobre NumPy y permite trabajar de forma eficiente con datos tabulares (como hojas de cálculo o tablas de bases de datos).
Su principal objetivo es hacer que el análisis de datos sea más rápido, sencillo y expresivo.

¿Por qué usar Pandas?

* Manejo eficiente de grandes volúmenes de datos.

* Funciones integradas para limpieza, transformación y agregación.

* Soporte para múltiples formatos: CSV, Excel, SQL, JSON, entre otros.

* Integración con librerías de visualización como Matplotlib o Seaborn.

# Instalar Pandas

pip install pandas

en jupyter:

!pip install pandas


# Importar pandas

import pandas as pd


In [None]:
!pip install pandas

In [None]:
import pandas as pd


print (pd)

## Estructuras de datos principales en Pandas

Pandas ofrece dos estructuras de datos fundamentales:

### Series

Estructura unidimensional (similar a un array o columna de Excel).

Tiene etiquetas (índices) asociadas a cada valor.



In [None]:
serie = pd.Series([10, 20, 30])

print( type(serie) )
print()
print(serie)

serie2 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])

print()
print(serie2)

# Acceso aleatorio y subconjuntos en una Serie de Pandas

Una Serie es una estructura unidimensional con valores e índices. 

En Pandas, podemos acceder a sus elementos de distintas formas: por posición, por etiqueta, o mediante máscaras lógicas.

### Acceso por posición
Podemos usar índices enteros con iloc:

```
print(serie.iloc[3])
```

### Acceso por etiqueta

Si la Serie tiene un índice con etiquetas:

```
print(serie['a']) 
```


### Subconjuntos con slicing

 ```
print(serie[1:4]) 

print(serie['b':'d'])
```

### Subconjuntos por condición

Podemos usar condiciones booleanas:

```
print(serie[serie > 25])    # Elementos mayores a 25
print(serie[serie % 20 == 0])  # Múltiplos de 20
```

In [26]:
serie = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])

# DataFrame

Estructura bidimensional (similar a una tabla con filas y columnas).

* Se compone de múltiples Series.

```
datos = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 35, 42],
    'Ciudad': ['CDMX', 'Monterrey', 'Guadalajara']
}


df = pd.DataFrame(datos)
print(df)

print( type(df["Nombre"]) )

print( df["Nombre"][0] )

```


# Carga de archivos

### CSV (archivos de texto separados por comas)

df = pd.read_csv('archivo.csv')

### Excel:

df = pd.read_excel('archivo.xlsx', sheet_name='Hoja1')

### JSON:

df = pd.read_json('archivo.json')

### Archivos de texto con separadores personalizados:

df = pd.read_csv('archivo.txt', sep='\t')  # separado por tabs

### Parámetros útiles:

```
header=0 - especifica qué fila usar como encabezados
index_col=0 - usa la primera columna como índice
encoding='utf-8' - especifica la codificación de caracteres
skiprows=2 - omite las primeras 2 filas
usecols=['col1', 'col2'] - carga solo columnas específicas
```

In [82]:
df = pd.read_csv('datasets/ventas_empresa.csv',)

print( df )

    ID_Venta       Fecha              Producto       Categoria  Cantidad  \
0      V0001  2025-06-09          Impresora HP         Oficina         1   
1      V0002  2025-05-24   Parlantes Bluetooth           Audio         5   
2      V0003  2025-04-29  Cargador Inalámbrico      Accesorios         2   
3      V0004  2024-11-17      Smartwatch Apple       Wearables         1   
4      V0005  2025-03-29             iPhone 14       Teléfonos         1   
..       ...         ...                   ...             ...       ...   
495    V0496  2024-09-23          Cámara Canon      Fotografía         1   
496    V0497  2025-05-28              iPad Air         Tablets         1   
497    V0498  2025-05-21              iPad Air         Tablets         5   
498    V0499  2025-01-07   Parlantes Bluetooth           Audio         3   
499    V0500  2025-02-22        Disco Duro 1TB  Almacenamiento         9   

     Precio_Unitario  Subtotal  Descuento_Porcentaje  Descuento_Monto  \
0            2

# Acceso a datos

```
df['Fecha']                  # Seleccionar una columna
df[['Fecha','Producto']]     # Seleccionar varias columnas
df.iloc[0]                   # Selección por posición
df.loc[0, 'Producto']        # Selección por etiqueta
df[['Producto','Fecha']].loc[0] # Seleccionar varias columnas y un renglon
df[['Producto','Fecha']][0:-1]  # Seleccionar varias columnas con seleccion de renglones
```

In [7]:
print( type(df["Impuestos"]) )

<class 'pandas.core.series.Series'>


In [76]:
df[['Producto','Fecha']][1:3] # Seleccionar varias columnas

df.iloc[0].iloc[2]

'Impresora HP'

# Exploracion de datos

```
df.head()        # Primeras filas
df.tail()        # Últimas filas
df.info()        # Información general
df.describe()    # Estadísticas descriptivas
df.shape         # Dimensiones (filas, columnas)
```

# Limpieza y transformación

* Manejo de valores nulos
```
df.isnull().sum()   # Contar nulos
df.dropna()         # Eliminar filas con nulos
df.fillna(0)        # Rellenar con valor
```
* Filtrado y condiciones
```
df[df['Cantidad'] > 30]         # Filtrar por condición
df[df['Ciudad'] == 'CDMX']      # Filtrar por valor
```
* Ordenamiento
  
```
df_ordenado = df.sort_values('Producto', ascending=False)
```



# Establecer el tipo de datos de columnas en un DataFrame

Usar .astype() para convertir columnas

```
df = pd.DataFrame({
    "id": [1, 2, 3],
    "edad": [25, 30, 35],
    "activo": ["True", "False", "True"]
})

# Convertir una columna a otro tipo

df["id"] = df["id"].astype("int64")
df["edad"] = df["edad"].astype("float64")
df["activo"] = df["activo"].astype("bool")

print(df.dtypes)
```

### Convertir varias columnas a la vez

```
df = df.astype({
    "id": "int32",
    "edad": "float32"
})
print(df.dtypes)
```

### Convertir columna a fecha

pd.to_datetime()

```
import pandas as pd

df = pd.DataFrame({
    "id": [1, 2, 3],
    "fecha": ["2025-09-18", "2025-09-17", "2025-08-30"]
})

# Convertir la columna 'fecha' a tipo datetime
df["fecha"] = pd.to_datetime(df["fecha"])
print(df.dtypes)
```

* Especificar formato de fecha

```
df = pd.DataFrame({
    "evento": ["a", "b", "c"],
    "fecha": ["18/09/2025", "17/09/2025", "30/08/2025"]
})

df["fecha"] = pd.to_datetime(df["fecha"], format="%d/%m/%Y")
print(df)
```

* Manejo de errores en conversión

errors="coerce" → convierte las fechas inválidas en NaT (Not a Time).

errors="ignore" → deja el valor como estaba si no puede convertirlo.

```
df = pd.DataFrame({"fecha": ["2025-09-18", "no_fecha", "2025-08-30"]})
df["fecha"] = pd.to_datetime(df["fecha"], errors="coerce")
print(df)
```

### Convertir columna a Numero

```

```


# Agregación y agrupamiento

groupby(<campo>).funcion()

* Funcionas mas utilizadas:

| Función      | Descripción                |
| ------------ | -------------------------- |
| `.sum()`     | Suma de valores            |
| `.mean()`    | Promedio                   |
| `.median()`  | Mediana                    |
| `.min()`     | Valor mínimo               |
| `.max()`     | Valor máximo               |
| `.count()`   | Número de valores no nulos |
| `.nunique()` | Número de valores únicos   |
| `.std()`     | Desviación estándar        |
| `.var()`     | Varianza                   |
| `.first()`   | Primer valor               |
| `.last()`    | Último valor               |

```
df2 = df.groupby('Producto')['Cantidad'].mean()
```

* Usar varias funciones a la vez:

```
df.groupby("categoria")["valor"].agg(["sum", "mean", "max"])
```

* Agrupación por varias columnas

df.groupby(["columna1", "columna2"]).funcion()

```
df = pd.DataFrame({
    "ciudad": ["CDMX", "CDMX", "Monterrey", "Monterrey", "CDMX"],
    "producto": ["A", "B", "A", "B", "A"],
    "ventas": [100, 200, 150, 300, 250]
})

df.groupby(["ciudad", "producto"])["ventas"].sum()
```



In [None]:
df2 = df.groupby('Producto')['Cantidad'].mean()

df2

# Visualización rápida

pandas.plot() es una funcionalidad integrada en pandas que permite crear visualizaciones de datos de manera rápida y sencilla directamente desde DataFrames y Series. 

* Sintaxis básica

### Para DataFrames
df.plot(kind='line', x=None, y=None, **kwargs)

### Para Series
series.plot(kind='line', **kwargs)

## Tipos de gráficos principales

### Gráfico de líneas (por defecto)
```python
df.plot()  # o df.plot(kind='line')
```

### Gráfico de barras
```python
df.plot(kind='bar')        # barras verticales
df.plot(kind='barh')       # barras horizontales
```

### Histograma
```python
df.plot(kind='hist', bins=20)
```

### Gráfico de dispersión
```python
df.plot(kind='scatter', x='columna1', y='columna2')
```

### Gráfico de caja (boxplot)
```python
df.plot(kind='box')
```

### Gráfico de área
```python
df.plot(kind='area')
```

### Gráfico circular
```python
df.plot(kind='pie', y='columna')
```

## Parámetros importantes

| Parámetro | Descripción | Ejemplo |
|-----------|-------------|---------|
| `figsize` | Tamaño de la figura (ancho, alto) | `figsize=(10, 6)` |
| `title` | Título del gráfico | `title='Mi Gráfico'` |
| `xlabel`, `ylabel` | Etiquetas de los ejes | `xlabel='Tiempo'` |
| `color` | Color o lista de colores | `color='red'` o `color=['red', 'blue']` |
| `alpha` | Transparencia (0-1) | `alpha=0.7` |
| `grid` | Mostrar cuadrícula | `grid=True` |
| `legend` | Mostrar leyenda | `legend=True/False` |
| `subplots` | Crear subgráficos para cada columna | `subplots=True` |

## Ejemplos prácticos

### Ejemplo 1: Gráfico de líneas básico
```python
import pandas as pd
import matplotlib.pyplot as plt

# Crear datos de ejemplo
data = {
    'mes': ['Ene', 'Feb', 'Mar', 'Abr', 'May'],
    'ventas': [100, 150, 120, 180, 200],
    'gastos': [80, 90, 85, 95, 110]
}
df = pd.DataFrame(data)

# Gráfico de líneas
df.set_index('mes')[['ventas', 'gastos']].plot(
    kind='line',
    figsize=(10, 6),
    title='Ventas vs Gastos por Mes',
    grid=True,
    marker='o'
)
plt.ylabel('Cantidad ($)')
plt.show()
```

### Ejemplo 2: Gráfico de barras
```python
# Gráfico de barras con personalización
df.set_index('mes')[['ventas', 'gastos']].plot(
    kind='bar',
    figsize=(8, 5),
    title='Comparación Mensual',
    color=['skyblue', 'lightcoral'],
    alpha=0.8
)
plt.xticks(rotation=45)
plt.show()
```

### Ejemplo 3: Histograma
```python
# Generar datos aleatorios para histograma
import numpy as np
np.random.seed(42)
datos = pd.Series(np.random.normal(100, 15, 1000))

datos.plot(
    kind='hist',
    bins=30,
    title='Distribución de Datos',
    alpha=0.7,
    color='green'
)
plt.xlabel('Valores')
plt.ylabel('Frecuencia')
plt.show()
```

### Ejemplo 4: Gráfico de dispersión
```python
# Crear datos para dispersión
np.random.seed(42)
scatter_data = pd.DataFrame({
    'altura': np.random.normal(170, 10, 100),
    'peso': np.random.normal(70, 15, 100)
})

scatter_data.plot(
    kind='scatter',
    x='altura',
    y='peso',
    title='Relación Altura vs Peso',
    alpha=0.6,
    color='purple',
    figsize=(8, 6)
)
plt.show()
```

## Subgráficos (Subplots)

```python
# Crear subgráficos separados para cada columna
df.set_index('mes')[['ventas', 'gastos']].plot(
    subplots=True,
    figsize=(12, 8),
    layout=(2, 1),  # 2 filas, 1 columna
    title='Análisis Separado'
)
plt.tight_layout()
plt.show()
```

## Personalización avanzada

```python
# Combinando pandas.plot() con matplotlib
fig, ax = plt.subplots(figsize=(10, 6))

df.set_index('mes')['ventas'].plot(
    ax=ax,
    kind='line',
    color='blue',
    linewidth=2,
    marker='o',
    markersize=8,
    label='Ventas'
)

df.set_index('mes')['gastos'].plot(
    ax=ax,
    kind='line',
    color='red',
    linewidth=2,
    marker='s',
    markersize=6,
    label='Gastos'
)

ax.set_title('Análisis Financiero Mensual', fontsize=16, fontweight='bold')
ax.set_ylabel('Cantidad ($)', fontsize=12)
ax.grid(True, alpha=0.3)
ax.legend(loc='upper left')

plt.tight_layout()
plt.show()
```

## Tipos de gráficos disponibles

| Tipo | Comando | Descripción |
|------|---------|-------------|
| Líneas | `kind='line'` | Gráfico de líneas (por defecto) |
| Barras | `kind='bar'` | Barras verticales |
| Barras horizontales | `kind='barh'` | Barras horizontales |
| Histograma | `kind='hist'` | Distribución de frecuencias |
| Dispersión | `kind='scatter'` | Puntos x-y |
| Área | `kind='area'` | Gráfico de área apilada |
| Circular | `kind='pie'` | Gráfico circular |
| Caja | `kind='box'` | Diagrama de caja y bigotes |
| Hexagonal | `kind='hexbin'` | Gráfico hexagonal (dispersión) |
| Densidad | `kind='density'` o `kind='kde'` | Estimación de densidad |


In [None]:
df = pd.read_csv('datasets/ventas_empresa.csv',)
df['Cantidad'].plot(kind='hist')
df.plot(x='Producto', y='Cantidad', kind='bar')

# Principales métodos de exportación

### CSV (Comma Separated Values)

```
df.to_csv('archivo.csv')
```

* Con parámetros personalizados
```
df.to_csv('archivo.csv', 
          index=False,           # No incluir índice
          sep=';',              # Separador personalizado
          encoding='utf-8',     # Codificación
          header=True)          # Incluir encabezados
```

### Excel

```
# Archivo Excel simple
df.to_excel('archivo.xlsx', sheet_name='Datos')

# Multiple hojas
with pd.ExcelWriter('archivo.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Hoja1')
    df2.to_excel(writer, sheet_name='Hoja2')

```

### HTML

```
df.to_html('tabla.html', index=False)
```