# Pandas desde cero

Aprenderemos la teoría básica de Pandas, cómo crear y manipular Series y DataFrames, funciones útiles y técnicas de indexación y filtrado.

---

## 1. Introducción y Configuración

### 1.1 ¿Qué es Pandas?

Pandas es la librería de Python para el análisis y manipulación de datos.  
Ofrece estructuras de datos de alto rendimiento como **Series** (1D) y **DataFrame** (2D) con etiquetas en filas y columnas.

### 1.2 Instalación e Importación

```bash
pip install pandas


In [1]:
!pip install pandas

Defaulting to user installation because normal site-packages is not writeable


In [2]:
import pandas as pd


## 2. Teoría Básica de Series y DataFrames

### 2.1 Estructuras Principales

- **Series**: arreglo unidimensional con etiquetas (índice).  
- **DataFrame**: tabla bidimensional con filas y columnas etiquetadas.

### 2.2 Creación de Series y DataFrames


In [3]:
# Series a partir de lista y diccionario
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
s2 = pd.Series({'x': 1, 'y': 2, 'z': 3})

# DataFrame a partir de diccionario de listas
df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Eva'],
    'Edad': [23, 19, 31],
    'Puntaje': [88.5, 92.3, 79.4]
})

# DataFrame a partir de lista de diccionarios
data = [
    {'A': 1, 'B': 2},
    {'A': 3, 'B': 4, 'C': 5}
]
df2 = pd.DataFrame(data)

## 3. Atributos Clave de un DataFrame

| Atributo     | Descripción                                 |
|--------------|---------------------------------------------|
| `df.shape`   | Tupla (filas, columnas)                     |
| `df.size`    | Número total de elementos                   |
| `df.ndim`    | Número de dimensiones (siempre 2 para DF)   |
| `df.columns` | Etiquetas de columnas                       |
| `df.index`   | Etiquetas de filas                          |
| `df.dtypes`  | Tipo de dato de cada columna                |

```python

In [4]:
print(df.shape)
print(df.columns)
print(df.dtypes)


(3, 3)
Index(['Nombre', 'Edad', 'Puntaje'], dtype='object')
Nombre      object
Edad         int64
Puntaje    float64
dtype: object


## 4. Operaciones Básicas

- `df.head(n)`         : primeras *n* filas  
- `df.tail(n)`         : últimas *n* filas  
- `df.info()`          : resumen de índice, columnas y tipos  
- `df.describe()`      : estadísticas descriptivas de columnas numéricas  
- `df['col']` o `df.col`: acceso a columna  
- `df[['col1','col2']]`: acceso a múltiples columnas  
- `df['col'] = ...`    : crear o modificar columna  


In [5]:
# Mostrar las primeras 3 filas
print(df.head(3))

# Crear y acceder a una columna
print(df['Edad'])
df['Mayor'] = df['Edad'] >= 18
print(df.head(3))

  Nombre  Edad  Puntaje
0    Ana    23     88.5
1   Luis    19     92.3
2    Eva    31     79.4
0    23
1    19
2    31
Name: Edad, dtype: int64
  Nombre  Edad  Puntaje  Mayor
0    Ana    23     88.5   True
1   Luis    19     92.3   True
2    Eva    31     79.4   True


## 5. Funciones Útiles

| Función                      | Descripción                                         |
|------------------------------|-----------------------------------------------------|
| `df.dropna()`                | Elimina filas con valores NA                        |
| `df.fillna(valor)`           | Rellena NA con un valor                             |
| `df.sort_values(by)`         | Ordena por una o más columnas                       |
| `df.groupby(col)`            | Agrupa por columna y permite agregaciones           |
| `df.merge(otro, on)`         | Combina dos DataFrames por columna clave            |
| `df.apply(func, axis)`       | Aplica función a filas (`axis=1`) o columnas (`axis=0`) |
| `pd.concat([df1, df2])`      | Concatena DataFrames                                |


In [6]:
# Ejemplo de groupby y agregación
df_group = df.groupby('Mayor')['Puntaje'].mean()
print(df_group)

# Merge de df y df2 por índice
df_merged = df.merge(df2, left_index=True, right_index=True, how='left')
print(df_merged)


Mayor
True    86.733333
Name: Puntaje, dtype: float64
  Nombre  Edad  Puntaje  Mayor    A    B    C
0    Ana    23     88.5   True  1.0  2.0  NaN
1   Luis    19     92.3   True  3.0  4.0  5.0
2    Eva    31     79.4   True  NaN  NaN  NaN


## 6. Indexación y Filtrado

### 6.1 `.loc` por etiqueta
- Selección basada en etiquetas de filas y columnas.

In [9]:
# Asignamos un índice a df2 para el ejemplo
df2.index = ['a', 'b']
# Filas 'a' y 'c', columnas 'A' y 'B'
print(df2.loc[['a','b'], ['A','C']])


   A    C
a  1  NaN
b  3  5.0


### 6.2 `.iloc` por posición
- Selección basada en posiciones numéricas.

In [None]:
# Filas 0-1, columnas 0-1
print(df.iloc[0:2, 0:2])


### 6.3 Filtrado booleano
- Usar condiciones para filtrar filas.

In [None]:
# Filtrar mayores de 25 años
print(df[df['Edad'] > 25])

# Varias condiciones combinadas
print(df[(df['Edad'] > 20) & (df['Puntaje'] > 80)])


## Práctica

1. Crea un DataFrame con las ventas diarias (columna `Ventas`) de 7 días y calcula la suma, media, mínima y máxima.  
2. Añade una columna `Descuento` con valor 5% y calcula `Venta_Neta`.  
3. Carga un CSV de ejemplo con `pd.read_csv()`, muestra sus 5 primeros registros y tipos de datos.  
4. Agrupa un DataFrame de transacciones por `Cliente` y calcula el total de compra por cliente.
