# Pandas desde cero

Aprenderemos la teoría básica de Pandas, cómo crear y manipular Series y DataFrames, funciones útiles y técnicas de indexación y filtrado.

---

## 1. Introducción y Configuración

### 1.1 ¿Qué es Pandas?

Pandas es la librería de Python para el análisis y manipulación de datos.  
Ofrece estructuras de datos de alto rendimiento como **Series** (1D) y **DataFrame** (2D) con etiquetas en filas y columnas.

### 1.2 Instalación e Importación

```bash
pip install pandas


# 🧮 Diferencias entre NumPy y pandas

En el ecosistema de Python para ciencia de datos, **NumPy** y **pandas** son dos bibliotecas fundamentales. Aunque se complementan, tienen enfoques distintos:

---

## 🔢 NumPy: Computación Numérica

- **Estructura principal:** `ndarray` (matriz multidimensional).
- **Datos homogéneos:** Todos los elementos deben ser del mismo tipo (por ejemplo, todos `float64`).
- **Ideal para:** Álgebra lineal, estadísticas, simulaciones, procesamiento de imágenes y señales.
- **Ventaja clave:** Muy rápido y eficiente en memoria para cálculos numéricos masivos.

```python
import numpy as np

a = np.array([1, 2, 3, 4])
print(a.mean())  # Media de los elementos

# 📊 Introducción a pandas

**pandas** es una biblioteca de Python diseñada para facilitar el análisis y manipulación de datos estructurados. Es especialmente útil cuando trabajamos con datos tabulares, como hojas de cálculo, archivos CSV o bases de datos.

---

## 🧱 Estructuras principales

- **Series:** Una columna con etiquetas. Similar a un array de NumPy, pero con índice.
- **DataFrame:** Una tabla bidimensional con filas y columnas etiquetadas. Es la estructura más usada.

```python
import pandas as pd

# Crear una Series
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])

# Crear un DataFrame
df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [23, 34, 45]
})


In [None]:
!pip install pandas

In [None]:
import pandas as pd


## 2. Teoría Básica de Series y DataFrames

### 2.1 Estructuras Principales

- **Series**: arreglo unidimensional con etiquetas (índice).  
- **DataFrame**: tabla bidimensional con filas y columnas etiquetadas.

### 2.2 Creación de Series y DataFrames


In [None]:
# Series a partir de lista y diccionario
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
s2 = pd.Series({'x': 1, 'y': 2, 'z': 3})

# DataFrame a partir de diccionario de listas
df = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Eva'],
    'Edad': [23, 19, 31],
    'Puntaje': [88.5, 92.3, 79.4]
})

# DataFrame a partir de lista de diccionarios
data = [
    {'A': 1, 'B': 2},
    {'A': 3, 'B': 4, 'C': 5}
]
df2 = pd.DataFrame(data)

## 3. Atributos Clave de un DataFrame

| Atributo     | Descripción                                 |
|--------------|---------------------------------------------|
| `df.shape`   | Tupla (filas, columnas)                     |
| `df.size`    | Número total de elementos                   |
| `df.ndim`    | Número de dimensiones (siempre 2 para DF)   |
| `df.columns` | Etiquetas de columnas                       |
| `df.index`   | Etiquetas de filas                          |
| `df.dtypes`  | Tipo de dato de cada columna                |

```python

In [None]:
print(df.shape)
print(df.columns)
print(df.dtypes)


## 4. Operaciones Básicas

- `df.head(n)`         : primeras *n* filas  
- `df.tail(n)`         : últimas *n* filas  
- `df.info()`          : resumen de índice, columnas y tipos  
- `df.describe()`      : estadísticas descriptivas de columnas numéricas  
- `df['col']` o `df.col`: acceso a columna  
- `df[['col1','col2']]`: acceso a múltiples columnas  
- `df['col'] = ...`    : crear o modificar columna  


In [None]:
# Mostrar las primeras 3 filas
print(df.head(3))

# Crear y acceder a una columna
print(df['Edad'])
df['Mayor'] = df['Edad'] >= 18
print(df.head(3))

## 5. Funciones Útiles

| Función                      | Descripción                                         |
|------------------------------|-----------------------------------------------------|
| `df.dropna()`                | Elimina filas con valores NA                        |
| `df.fillna(valor)`           | Rellena NA con un valor                             |
| `df.sort_values(by)`         | Ordena por una o más columnas                       |
| `df.groupby(col)`            | Agrupa por columna y permite agregaciones           |
| `df.merge(otro, on)`         | Combina dos DataFrames por columna clave            |
| `df.apply(func, axis)`       | Aplica función a filas (`axis=1`) o columnas (`axis=0`) |
| `pd.concat([df1, df2])`      | Concatena DataFrames                                |


In [None]:
# Ejemplo de groupby y agregación
df_group = df.groupby('Mayor')['Puntaje'].mean()
print(df_group)

# Merge de df y df2 por índice
df_merged = df.merge(df2, left_index=True, right_index=True, how='left')
print(df_merged)


## 6. Indexación y Filtrado

### 6.1 `.loc` por etiqueta
- Selección basada en etiquetas de filas y columnas.

In [None]:
# Asignamos un índice a df2 para el ejemplo
df2.index = ['a', 'b']
# Filas 'a' y 'c', columnas 'A' y 'B'
print(df2.loc[['a','b'], ['A','C']])


### 6.2 `.iloc` por posición
- Selección basada en posiciones numéricas.

In [None]:
# Filas 0-1, columnas 0-1
print(df.iloc[0:2, 0:2])


### 6.3 Filtrado booleano
- Usar condiciones para filtrar filas.

In [None]:
# Filtrar mayores de 25 años
print(df[df['Edad'] > 25])

# Varias condiciones combinadas
print(df[(df['Edad'] > 20) & (df['Puntaje'] > 80)])


## Ejercicios


In [None]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María'],
    'Edad': [23, 34, 45, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Bilbao']
}

df = pd.DataFrame(data)

- Selecciona solo las filas donde la edad sea mayor de 30.

- Extrae la segunda fila usando .iloc.

- Muestra solo las columnas "Nombre" y "Edad".

- Calcula la edad media.

- Muestra un resumen estadístico del DataFrame.

- Cuenta cuántas personas hay por ciudad.

Usaremos el dataset de iris desde la biblioteca seaborn, que lo carga como DataFrame

- Muestra cuántas especies distintas hay.

- Calcula la media del largo del pétalo por especie.

- Guarda el DataFrame en un CSV con iris.to_csv('iris.csv', index=False)

In [None]:
import seaborn as sns

iris = sns.load_dataset('iris')
print(iris.head())

## Práctica

1. Crea un DataFrame con las ventas diarias (columna `Ventas`) de 7 días y calcula la suma, media, mínima y máxima.  
2. Añade una columna `Descuento` con valor 5% y calcula `Venta_Neta`.  
3. Carga un CSV de ejemplo con `pd.read_csv()`, muestra sus 5 primeros registros y tipos de datos.  
4. Agrupa un DataFrame de transacciones por `Cliente` y calcula el total de compra por cliente.
