In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## **1. Transforming DataFrames**

---

### Introduction to DataFrame

* `df.head()` ‚Üí muestra las primeras filas del DataFrame (por defecto 5).
* `df.info()` ‚Üí da un resumen con tipos de datos, conteo de valores no nulos y memoria usada.
* `df.shape` ‚Üí devuelve una tupla con n√∫mero de filas y columnas `(rows, cols)`.
* `df.describe()` ‚Üí estad√≠sticas descriptivas b√°sicas de columnas num√©ricas (media, min, max, cuartiles).
* `df.values` ‚Üí devuelve los valores como un array de NumPy.
* `df.columns` ‚Üí lista con los nombres de columnas.
* `df.index` ‚Üí muestra los √≠ndices actuales del DataFrame.

---

#### Sorting and Subsetting

* `df.sort_values(by='col', ascending=True)` ‚Üí ordena el DataFrame por una o m√°s columnas.
* `df['col'].isin([val1, val2])` ‚Üí devuelve un boolean mask para filtrar filas que contienen ciertos valores.

---

### New Columns

* `df['new_col'] = ...` ‚Üí crea una nueva columna a partir de una operaci√≥n.
* `df.assign(new_col=df['col']*2)` ‚Üí crea columna nueva sin modificar el DataFrame original (a menos que se reasigne).

---

## **2. Aggregating DataFrames**

### Summarizing statistics

* `df.mean()` ‚Üí calcula el promedio (media) de cada columna num√©rica.
* `df.mode()` ‚Üí devuelve el/los valores m√°s frecuentes en cada columna.
* `df.min()` ‚Üí valor m√≠nimo en cada columna.
* `df.max()` ‚Üí valor m√°ximo en cada columna.
* `df.var()` ‚Üí varianza de cada columna num√©rica.
* `df.std()` ‚Üí desviaci√≥n est√°ndar.
* `df.sum()` ‚Üí suma de los valores.
* `df.quantile(q=0.5)` ‚Üí devuelve el cuantil especificado (por defecto la mediana con `0.5`).

---

### Cumulative statistics

* `df.add(other_df)` ‚Üí suma elemento a elemento con otro DataFrame o Serie (tambi√©n acepta constantes).
* `df.cumsum()` ‚Üí suma acumulada por columna.
* `df.cummax()` ‚Üí m√°ximo acumulado por columna.
* `df.cummin()` ‚Üí m√≠nimo acumulado por columna.
* `df.cumprod()` ‚Üí producto acumulado por columna.

---

### Counting

* `df.drop_duplicates(subset=['col'])` ‚Üí elimina duplicados basados en una o varias columnas.
* `df['col'].value_counts(sort=False, normalize=False)`

  * **sort=False** ‚Üí mantiene el orden original de aparici√≥n.
  * **normalize=True** ‚Üí devuelve proporciones en vez de conteos.

---

### Grouped summary statistics

* `df.groupby(['col1', 'col2'])['target_col'].agg(['mean','median','count'])`
  ‚Üí agrupa por una o m√°s columnas y aplica funciones de agregaci√≥n.

  * Se pueden pasar funciones predefinidas (`mean`, `max`, `min`, etc.) o personalizadas (con `lambda`).

---

### Pivot tables

* `df.pivot_table(values='val_col', index='row_col', columns='col_col', aggfunc='mean', fill_value=0, margins=True)`

  * **values** ‚Üí columna(s) con los valores a resumir.
  * **index** ‚Üí filas de la tabla din√°mica.
  * **columns** ‚Üí columnas de la tabla din√°mica.
  * **aggfunc** ‚Üí funci√≥n de agregaci√≥n (`mean`, `sum`, `count`, etc.).
  * **fill\_value** ‚Üí valor para reemplazar NaN en la tabla resultante.
  * **margins=True** ‚Üí agrega totales de fila y columna.

---


## **3. Slicing and Indexing DataFrames**

### Explicit indexes

* `df.set_index(['col1', 'col2'])` ‚Üí define una o varias columnas como √≠ndice (permite √≠ndices multinivel).
* `df.reset_index(drop=True)` ‚Üí elimina el √≠ndice actual y lo reemplaza por un num√©rico consecutivo.
* `df.sort_index(level=[0])` ‚Üí ordena por el √≠ndice (en caso de multinivel se puede especificar el nivel).

---

### Slicing lists

* `df.loc[row_start:row_end, col_start:col_end]`

  * **Strings**: el slicing con `loc` **incluye** el valor final.
  * **N√∫meros**: el slicing con `iloc` funciona como Python ‚Üí **excluye** el l√≠mite superior.
  * Ejemplo:

    ```python
    df.loc['A':'C', 'x':'z']   # incluye 'C' y 'z'
    df.iloc[0:3, 1:4]          # filas 0-2, cols 1-3
    ```

---

### Slicing and subsetting with `.loc` and `.iloc`

* `df.loc[rows, cols]` ‚Üí selecci√≥n por etiquetas (√≠ndices y nombres de columnas).
* `df.iloc[rows, cols]` ‚Üí selecci√≥n estrictamente posicional (n√∫meros de fila/columna).
* `df.loc[df['col'] > 100, ['col1','col2']]` ‚Üí subsetting por condici√≥n y columnas espec√≠ficas.

---

### Working with pivot tables

* `df_pivot.loc['USA', :]` ‚Üí acceder a una fila espec√≠fica de la tabla din√°mica.
* `df_pivot.droplevel([0])` ‚Üí elimina un nivel del √≠ndice jer√°rquico.
* `df['date'].dt.month` ‚Üí extrae el mes de una columna datetime.
* `df['date'].dt.year` ‚Üí extrae el a√±o.
* `df['date'].dt.day` ‚Üí extrae el d√≠a.

---


¬°Perfecto! üöÄ Aqu√≠ tienes la continuaci√≥n con la parte de **Creating and Visualizing DataFrames**.
Me enfoco en el uso de `.plot()` de Pandas, que internamente usa **Matplotlib**, y te detallo los **argumentos m√°s usados/interesantes** para hacer gr√°ficos directamente desde un DataFrame.

---

## **4. Creating and Visualizing DataFrames**

### Creating and Visualizing DataFrames

* `df.plot()` ‚Üí genera un gr√°fico por defecto (l√≠nea para series num√©ricas).
* `df.hist(bins=30)` ‚Üí histograma de columnas num√©ricas (`bins` define el n√∫mero de intervalos).
* `df.plot(kind='bar', title='My Chart')` ‚Üí gr√°fico de barras.

---

#### Argumentos principales de `.plot()`

```python
df.plot(
    kind='line',        # Tipo de gr√°fico: 'line', 'bar', 'barh', 'hist', 'box', 'kde', 'area', 'scatter', 'pie'
    x='col_x',          # Columna a usar como eje X
    y='col_y',          # Columna(s) a usar como eje Y
    title='T√≠tulo',     # T√≠tulo del gr√°fico
    figsize=(10,6),     # Tama√±o del gr√°fico en pulgadas (ancho, alto)
    color=['red','blue'], # Colores de las series
    grid=True,          # Mostrar rejilla
    alpha=0.7,          # Transparencia (0=transparente, 1=opaco)
    linestyle='--',     # Estilo de l√≠nea: '-', '--', '-.', ':'
    marker='o',         # Marcadores en puntos: 'o', 's', '^', etc.
    subplots=True,      # Crea un subplot por cada columna
    sharex=True,        # Compartir eje X en subplots
    sharey=False,       # Compartir eje Y en subplots
    legend=True,        # Mostrar leyenda
)
```

---

### Ejemplos r√°pidos

```python
# L√≠nea (default)
df.plot(y='col_y', x='col_x', kind='line', title='Evoluci√≥n')

# Barras
df.plot(kind='bar', x='Category', y='Value', color='skyblue', title='Categor√≠as')

# Histograma
df['col'].plot(kind='hist', bins=20, alpha=0.6, color='green', title='Distribuci√≥n')

# Dispersi√≥n
df.plot(kind='scatter', x='Height', y='Speed', alpha=0.5, color='red', title='Altura vs Velocidad')
```

---

### Missing Values

#### Detecting Missing Values
* `.isna()` ‚Üí Detecta valores nulos (`NaN` o `None`).
  * `.isna().any()` ‚Üí Devuelve `True` si alguna columna/serie contiene valores nulos.
  * `.isna().sum()` ‚Üí Cuenta cu√°ntos valores nulos hay en cada columna.
  * `.isna().sum().plot(kind='bar')` ‚Üí Grafica el n√∫mero total de valores nulos por columna.

#### Removing Missing Values
* `.dropna(axis=0, how='any', subset=None, inplace=False)`  
  - **axis** ‚Üí `0` para eliminar filas, `1` para eliminar columnas.  
  - **how** ‚Üí `"any"` (si hay alg√∫n `NaN`) o `"all"` (si todos los valores son `NaN`).  
  - **subset** ‚Üí lista de columnas donde verificar nulos.  
  - **inplace** ‚Üí `True` para modificar el DataFrame directamente.  

#### Replacing Missing Values
* `.fillna(value, method=None, axis=None, inplace=False, limit=None)`  
  - **value** ‚Üí valor escalar, dict o Serie para reemplazar los `NaN`.  
  - **method** ‚Üí `"ffill"` (rellenar hacia adelante) o `"bfill"` (hacia atr√°s).  
  - **limit** ‚Üí n√∫mero m√°ximo de valores consecutivos a rellenar.  
  - **inplace** ‚Üí `True` para modificar el DataFrame directamente.  

---

### Creating DataFrames

#### From Scratch
* `pd.DataFrame(data, columns=None, index=None)`  
  - **data** ‚Üí lista, dict, array, lista de dicts, dict de listas, etc.  
  - **columns** ‚Üí lista de nombres de columnas.  
  - **index** ‚Üí etiquetas personalizadas para filas.  

#### From List of Dictionaries (row-wise)
```python
data = [
    {"name": "Ana", "age": 25},
    {"name": "Luis", "age": 30},
]
df = pd.DataFrame(data)
```

#### From Dictionary of Lists (column-wise)
```python
data = {
    "name": ["Ana", "Luis"],
    "age": [25, 30]
}
df = pd.DataFrame(data)
```

#### Fromm data files
* `.read_csv("file.csv")`
* `.read_excel("file.xlsx")`
* `.read_json("file.json")`
* `.to_csv("output.csv", index=False)`
* `.to_excel("output.xlsx", index=False)`
* `.to_json("output.json")`