# Pandas DataFrame Cheat Sheet

```python
import pandas as pd


üì¶ Creaci√≥n de DataFrames
| M√©todo                                              | Explicaci√≥n                                      | Ejemplo                                               |
| --------------------------------------------------- | ------------------------------------------------ | ----------------------------------------------------- |
| `pd.DataFrame({'A':[1,2],'B':[3,4]})`               | Crear DataFrame desde diccionario                | `pd.DataFrame({'A':[1,2],'B':[3,4]})`                 |
| `pd.DataFrame([[1,2],[3,4]], columns=['A','B'])`    | Crear desde lista de listas con columnas         | `pd.DataFrame([[1,2],[3,4]], columns=['A','B'])`      |
| `pd.DataFrame.from_dict(dict_data, orient='index')` | Crear desde diccionario de listas o diccionarios | `pd.DataFrame.from_dict({'a':[1,2]}, orient='index')` |


üîç Atributos principales
| Atributo   | Explicaci√≥n                   | Ejemplo      |
| ---------- | ----------------------------- | ------------ |
| `.shape`   | Dimensiones (filas, columnas) | `df.shape`   |
| `.size`    | N√∫mero total de elementos     | `df.size`    |
| `.ndim`    | N√∫mero de dimensiones         | `df.ndim`    |
| `.columns` | Nombres de columnas           | `df.columns` |
| `.index`   | √çndice de filas               | `df.index`   |
| `.dtypes`  | Tipos de datos por columna    | `df.dtypes`  |
| `.values`  | Valores como ndarray          | `df.values`  |
| `.empty`   | True si est√° vac√≠o            | `df.empty`   |


‚öôÔ∏è Selecci√≥n y acceso
| M√©todo / Operaci√≥n     | Explicaci√≥n                         | Ejemplo                |
| ---------------------- | ----------------------------------- | ---------------------- |
| `df['A']`              | Acceder a columna                   | `df['A']`              |
| `df[['A','B']]`        | Acceder a varias columnas           | `df[['A','B']]`        |
| `df.loc[0]`            | Acceder por etiqueta / √≠ndice       | `df.loc[0]`            |
| `df.loc[0,'A']`        | Acceder por fila y columna          | `df.loc[0,'A']`        |
| `df.iloc[0]`           | Acceder por posici√≥n                | `df.iloc[0]`           |
| `df.iloc[0,1]`         | Acceder por fila y columna posici√≥n | `df.iloc[0,1]`         |
| `df.loc[0:2, 'A':'B']` | Slicing por etiquetas               | `df.loc[0:2, 'A':'B']` |
| `df.iloc[0:2,0:2]`     | Slicing por posiciones              | `df.iloc[0:2,0:2]`     |


üîÑ Operaciones de filtrado
| M√©todo / Operaci√≥n              | Explicaci√≥n                 | Ejemplo                         |
| ------------------------------- | --------------------------- | ------------------------------- |
| `df[df['A']>1]`                 | Filtrar filas por condici√≥n | `df[df['A']>1]`                 |
| `df[(df['A']>1) & (df['B']<4)]` | Condiciones combinadas      | `df[(df['A']>1) & (df['B']<4)]` |
| `df.query('A>1 & B<4')`         | Filtrado con query string   | `df.query('A>1 & B<4')`         |
| `df[df.isnull()]`               | Filas con valores nulos     | `df[df.isnull().any(axis=1)]`   |


üî¢ Estad√≠stica y resumen
| M√©todo                  | Explicaci√≥n                    | Ejemplo                  |
| ----------------------- | ------------------------------ | ------------------------ |
| `.head(n)` / `.tail(n)` | Primeros / √∫ltimos n filas     | `df.head(3)`             |
| `.info()`               | Informaci√≥n general            | `df.info()`              |
| `.describe()`           | Estad√≠sticas resumidas         | `df.describe()`          |
| `.value_counts()`       | Conteo de valores (Series)     | `df['A'].value_counts()` |
| `.mean()` / `.median()` | Media / mediana                | `df['A'].mean()`         |
| `.min()` / `.max()`     | M√≠nimo / m√°ximo                | `df.min()`               |
| `.sum()` / `.cumsum()`  | Suma / suma acumulada          | `df.sum()`               |
| `.std()` / `.var()`     | Desviaci√≥n est√°ndar / varianza | `df.std()`               |
| `.corr()`               | Correlaci√≥n entre columnas     | `df.corr()`              |


‚öôÔ∏è Manipulaci√≥n y limpieza
| M√©todo                       | Explicaci√≥n                           | Ejemplo                        |
| ---------------------------- | ------------------------------------- | ------------------------------ |
| `.sort_values('A')`          | Ordenar por columna                   | `df.sort_values('A')`          |
| `.sort_index()`              | Ordenar por √≠ndice                    | `df.sort_index()`              |
| `.rename(columns={'A':'X'})` | Renombrar columnas                    | `df.rename(columns={'A':'X'})` |
| `.drop('A', axis=1)`         | Eliminar columna                      | `df.drop('A', axis=1)`         |
| `.drop([0,1], axis=0)`       | Eliminar filas                        | `df.drop([0,1], axis=0)`       |
| `.fillna(valor)`             | Rellenar nulos                        | `df.fillna(0)`                 |
| `.dropna()`                  | Eliminar nulos                        | `df.dropna()`                  |
| `.astype(tipo)`              | Cambiar tipo de columna               | `df['A'].astype(float)`        |
| `.apply(func, axis=0)`       | Aplicar funci√≥n a columnas            | `df.apply(np.sqrt)`            |
| `.applymap(func)`            | Aplicar funci√≥n a todos los elementos | `df.applymap(lambda x: x*2)`   |


üîÑ Combinaci√≥n de DataFrames
| M√©todo                                 | Explicaci√≥n         | Ejemplo                         |
| -------------------------------------- | ------------------- | ------------------------------- |
| `pd.concat([df1, df2], axis=0)`        | Concatenar filas    | `pd.concat([df1, df2], axis=0)` |
| `pd.concat([df1, df2], axis=1)`        | Concatenar columnas | `pd.concat([df1, df2], axis=1)` |
| `df.merge(df2, on='key', how='inner')` | Merge / join        | `df.merge(df2, on='key')`       |
| `df.join(df2)`                         | Join por √≠ndice     | `df.join(df2)`                  |


‚è± Series temporales (si √≠ndice datetime)
| M√©todo                  | Explicaci√≥n         | Ejemplo                   |
| ----------------------- | ------------------- | ------------------------- |
| `.resample('M').mean()` | Agrupar por periodo | `df.resample('M').mean()` |
| `.shift(n)`             | Desplazar filas     | `df.shift(1)`             |
| `.rolling(n).mean()`    | Media m√≥vil         | `df.rolling(3).mean()`    |
| `.expanding().sum()`    | Suma acumulativa    | `df.expanding().sum()`    |

üíæ Entrada / salida
| M√©todo                          | Explicaci√≥n             | Ejemplo                         |
| ------------------------------- | ----------------------- | ------------------------------- |
| `pd.read_csv('archivo.csv')`    | Leer CSV                | `pd.read_csv('archivo.csv')`    |
| `.to_csv('archivo.csv')`        | Exportar CSV            | `df.to_csv('archivo.csv')`      |
| `pd.read_excel('archivo.xlsx')` | Leer Excel              | `pd.read_excel('archivo.xlsx')` |
| `.to_excel('archivo.xlsx')`     | Exportar Excel          | `df.to_excel('archivo.xlsx')`   |
| `.to_dict()`                    | Convertir a diccionario | `df.to_dict()`                  |
| `.to_numpy()`                   | Convertir a NumPy array | `df.to_numpy()`                 |
| `.to_json()`                    | Exportar JSON           | `df.to_json('archivo.json')`    |


# ‚úèÔ∏è C√≥mo manipular y editar valores en un DataFrame de Pandas

A continuaci√≥n se muestran las formas m√°s comunes de modificar datos en un DataFrame, usando como ejemplo el `data`:

```python
import pandas as pd

superficie = pd.Series({
    'Madrid': 604.3,
    'Par√≠s': 105.4,
    'Roma': 1285,
    'Berl√≠n': 891.8,
    'Londres': 1572
})

poblacion = pd.Series({
    'Madrid': 3266000,
    'Par√≠s': 2161000,
    'Roma': 2873000,
    'Berl√≠n': 3645000,
    'Londres': 8982000
})

data = pd.DataFrame({'area': superficie, 'pob': poblacion})
data["densidad"] = data["pob"] / data["area"]
```

## 1Ô∏è‚É£ Modificar una columna completa

### Sobrescribir toda la columna
```data["densidad"] = data["pob"] / data["area"]```

### Crear o modificar otra columna
```data["densidad_relativa"] = data["densidad"] / data["densidad"].max()```

## 2Ô∏è‚É£ Modificar una fila completa

### Cambiar todos los valores de Roma
```data.loc["Roma"] = [1300, 2900000, 2223]```

## 3Ô∏è‚É£ Modificar una celda espec√≠fica

###  Con loc
```data.loc["Madrid", "area"] = 610```

###  Con at (m√°s r√°pido para un √∫nico valor)
```data.at["Madrid", "pob"] = 3270000```

## 4Ô∏è‚É£ Modificar valores condicionalmente (m√°scaras)

###  Incrementar densidad en un 10% si es mayor de 5000
```data.loc[data["densidad"] > 5000, "densidad"] *= 1.1```

###  Clasificar ciudades seg√∫n densidad
```data.loc[data["densidad"] < 3000, "clasificaci√≥n"] = "baja"```
```data.loc[data["densidad"] >= 3000, "clasificaci√≥n"] = "alta"```

## 5Ô∏è‚É£ Modificar usando .apply() sobre columnas

### Redondear densidad a entero
```data["densidad"] = data["densidad"].apply(int)```

###  A√±adir 100 a todas las √°reas
```data["area"] = data["area"].apply(lambda x: x + 100)```

## 6Ô∏è‚É£ Modificar usando replace()

###  Cambiar nombres de ciudades
```data.index = data.index.str.replace("Madrid", "Madrid-Capital")```

## 7Ô∏è‚É£ Modificar usando mask() o where()

###  Donde la densidad es baja, poner NaN
```data["densidad_mascarada"] = data["densidad"].mask(data["densidad"] < 3000)```

###  Donde es alta, multiplicar por 2
```data["densidad_filtrada"] = data["densidad"].where(data["densidad"] < 5000, data["densidad"]*2)```

# üß† Ejemplos de uso de m√°scaras en Pandas

A partir del DataFrame base:

| Ciudad  | area   | pob      | densidad |
|----------|--------|----------|-----------|
| Madrid   | 604.3  | 3266000  | 5405.05   |
| Par√≠s    | 105.4  | 2161000  | 20497.16  |
| Roma     | 1285.0 | 2873000  | 2236.55   |
| Berl√≠n   | 891.8  | 3645000  | 4087.61   |
| Londres  | 1572.0 | 8982000  | 5712.79   |

---

## üìã Tabla de ejemplos

| N¬∫ | Tipo de m√°scara | Ejemplo de c√≥digo| Descripci√≥n  | Resultado esperado |
|----|------------------|-------------------|--------------------|--------------------|
| 1 | **Condici√≥n simple** | `data[data["densidad"] > 5000]` | Filtra filas seg√∫n una condici√≥n. | Madrid, Par√≠s y Londres |
| 2 | **Combinaci√≥n l√≥gica** | `data[(data["densidad"] > 4000) & (data["area"] < 1000)]` | Usa `&`, `| Madrid y Par√≠s |
| 3 | **Con .loc** | `data.loc[data["pob"] > 3000000, ["area", "densidad"]]` | Filtra filas y columnas a la vez.| Filas con >3M habs (Madrid, Berl√≠n, Londres) mostrando solo `area` y `densidad` |
| 4 | **Con query()** | `data.query("densidad > 5000 and area < 1000")` | Sintaxis estilo SQL.| Madrid y Par√≠s |
| 5 | **Asignaci√≥n condicional** | `data.loc[data["densidad"]<3000,"clasificaci√≥n"]="baja"`<br>`data.loc[data["densidad"]>=3000,"clasificaci√≥n"]="alta"` | Modifica columnas seg√∫n una condici√≥n.| Columna `clasificaci√≥n`: Roma ‚Üí baja, resto ‚Üí alta |
| 6 | **np.where()** | `data["tipo_area"]=np.where(data["area"]>1000,"amplia","compacta")` | Condicional vectorizado (tipo ternario).| Roma y Londres ‚Üí ‚Äúamplia‚Äù; resto ‚Üí ‚Äúcompacta‚Äù |
| 7 | **Condici√≥n en √≠ndice (str)** | `data[data.index.str.contains("r", case=False)]` | Filtra seg√∫n el nombre del √≠ndice. | Madrid, Par√≠s, Roma, Berl√≠n |
| 8 | **isin()** | `data[data.index.isin(["Madrid","Londres"])]` | Selecciona valores pertenecientes a un conjunto.| Muestra solo Madrid y Londres |
| 9 | **Negaci√≥n (~)** | `data[~(data["area"]>1000)]` | Niega una condici√≥n.| Madrid, Par√≠s, Berl√≠n |
| 10 | **M√°scaras encadenadas** | `mask=(data["densidad"]>4000)`<br>`submask=data["pob"]<4000000`<br>`data[mask & submask]` | Filtros progresivos.| Madrid y Par√≠s |
| 11 | **Funci√≥n con apply()** | `data[data["pob"].apply(lambda x: x%2==0)]` | Aplica funciones personalizadas.| Filas con poblaci√≥n par (todas en este caso) |
| 12 | **between()** | `data[data["densidad"].between(3000,6000)]` | Filtra por rangos de valores.| Madrid, Berl√≠n, Londres |
| 13 | **where()** | `data["densidad_filtrada"]=data["densidad"].where(data["densidad"]>5000)` | Reemplaza los que **no cumplen** con `NaN`.| Valores ‚â§5000 ‚Üí `NaN`, resto ‚Üí densidad |
| 14 | **mask()** | `data["densidad_mascarada"]=data["densidad"].mask(data["densidad"]>5000)` | Opuesto a `.where()`: reemplaza los que **s√≠ cumplen**.| Valores >5000 ‚Üí `NaN`, resto ‚Üí densidad |
| 15 | **np.logical_and()** | `data[np.logical_and(data["area"]<1000,data["pob"]>3000000)]` | Usa `np.logical_and`, `np.logical_or`, `np.logical_not`.| Madrid |
| 16 | **Eliminar con drop()** | `data.drop(data[data["densidad"]<3000].index)` | Usa el √≠ndice de la m√°scara para borrar filas.| Elimina Roma |
| 17 | **Agregaci√≥n condicionada** | `data.loc[data["densidad"]>5000,"pob"].mean()` | Calcula estad√≠sticas sobre subconjuntos.| Media ‚âà 4800000 (Madrid, Par√≠s, Londres) |
| 18 | **Con MultiIndex (conceptual)** | `data[data.index.get_level_values(1).str.contains("r")]` | Filtra seg√∫n valores de niveles del √≠ndice.| Ejemplo conceptual para MultiIndex |
| 19 | **Valores nulos** | `data[data["densidad"].notna()]` | Filtra datos faltantes. | Devuelve todas (ning√∫n NaN inicial) |
| 20 | **Modificaci√≥n condicional** | `data.loc[(data["densidad"]>5000)&(data["area"]<1000),"densidad"]*=1.1` | Modifica valores de forma condicional.| Incrementa densidad un 10% para Madrid y Par√≠s |

---

## üìé Notas

- Los operadores `&`, `|`, `~` **requieren par√©ntesis** en Pandas.  
- `where()` y `mask()` **mantienen el mismo tama√±o del DataFrame**, rellenando con `NaN`.  
- `np.where()` **devuelve arrays** que se alinean perfectamente con columnas de Pandas.  
- `.query()` y `.isin()` son excelentes para c√≥digo legible o filtros de texto.  
- Los m√©todos como `.between()` y `.notna()` son m√°s expresivos y r√°pidos que combinaciones l√≥gicas.
- Recordemos, antetodo, que el resultado de las m√°scaras siempre es una Serie booleana del mismo tama√±o que el DataFrame original
    - Cuando aplicas esa Serie booleana entre corchetes [], Pandas devuelve **solo las filas** donde la m√°scara es True
    - Si s√≥lo quieres los nombres de los √≠ndices que han sido True, se puede usar .index con la m√°scara: `data.index[mask]`

---