In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## **1. Transforming DataFrames**

---

### Introduction to DataFrame

* `df.head()` → muestra las primeras filas del DataFrame (por defecto 5).
* `df.info()` → da un resumen con tipos de datos, conteo de valores no nulos y memoria usada.
* `df.shape` → devuelve una tupla con número de filas y columnas `(rows, cols)`.
* `df.describe()` → estadísticas descriptivas básicas de columnas numéricas (media, min, max, cuartiles).
* `df.values` → devuelve los valores como un array de NumPy.
* `df.columns` → lista con los nombres de columnas.
* `df.index` → muestra los índices actuales del DataFrame.

---

#### Sorting and Subsetting

* `df.sort_values(by='col', ascending=True)` → ordena el DataFrame por una o más columnas.
* `df['col'].isin([val1, val2])` → devuelve un boolean mask para filtrar filas que contienen ciertos valores.

---

### New Columns

* `df['new_col'] = ...` → crea una nueva columna a partir de una operación.
* `df.assign(new_col=df['col']*2)` → crea columna nueva sin modificar el DataFrame original (a menos que se reasigne).

---

## **2. Aggregating DataFrames**

### Summarizing statistics

* `df.mean()` → calcula el promedio (media) de cada columna numérica.
* `df.mode()` → devuelve el/los valores más frecuentes en cada columna.
* `df.min()` → valor mínimo en cada columna.
* `df.max()` → valor máximo en cada columna.
* `df.var()` → varianza de cada columna numérica.
* `df.std()` → desviación estándar.
* `df.sum()` → suma de los valores.
* `df.quantile(q=0.5)` → devuelve el cuantil especificado (por defecto la mediana con `0.5`).

---

### Cumulative statistics

* `df.add(other_df)` → suma elemento a elemento con otro DataFrame o Serie (también acepta constantes).
* `df.cumsum()` → suma acumulada por columna.
* `df.cummax()` → máximo acumulado por columna.
* `df.cummin()` → mínimo acumulado por columna.
* `df.cumprod()` → producto acumulado por columna.

---

### Counting

* `df.drop_duplicates(subset=['col'])` → elimina duplicados basados en una o varias columnas.
* `df['col'].value_counts(sort=False, normalize=False)`

  * **sort=False** → mantiene el orden original de aparición.
  * **normalize=True** → devuelve proporciones en vez de conteos.

---

### Grouped summary statistics

* `df.groupby(['col1', 'col2'])['target_col'].agg(['mean','median','count'])`
  → agrupa por una o más columnas y aplica funciones de agregación.

  * Se pueden pasar funciones predefinidas (`mean`, `max`, `min`, etc.) o personalizadas (con `lambda`).

---

### Pivot tables

* `df.pivot_table(values='val_col', index='row_col', columns='col_col', aggfunc='mean', fill_value=0, margins=True)`

  * **values** → columna(s) con los valores a resumir.
  * **index** → filas de la tabla dinámica.
  * **columns** → columnas de la tabla dinámica.
  * **aggfunc** → función de agregación (`mean`, `sum`, `count`, etc.).
  * **fill\_value** → valor para reemplazar NaN en la tabla resultante.
  * **margins=True** → agrega totales de fila y columna.

---


## **3. Slicing and Indexing DataFrames**

### Explicit indexes

* `df.set_index(['col1', 'col2'])` → define una o varias columnas como índice (permite índices multinivel).
* `df.reset_index(drop=True)` → elimina el índice actual y lo reemplaza por un numérico consecutivo.
* `df.sort_index(level=[0])` → ordena por el índice (en caso de multinivel se puede especificar el nivel).

---

### Slicing lists

* `df.loc[row_start:row_end, col_start:col_end]`

  * **Strings**: el slicing con `loc` **incluye** el valor final.
  * **Números**: el slicing con `iloc` funciona como Python → **excluye** el límite superior.
  * Ejemplo:

    ```python
    df.loc['A':'C', 'x':'z']   # incluye 'C' y 'z'
    df.iloc[0:3, 1:4]          # filas 0-2, cols 1-3
    ```

---

### Slicing and subsetting with `.loc` and `.iloc`

* `df.loc[rows, cols]` → selección por etiquetas (índices y nombres de columnas).
* `df.iloc[rows, cols]` → selección estrictamente posicional (números de fila/columna).
* `df.loc[df['col'] > 100, ['col1','col2']]` → subsetting por condición y columnas específicas.

---

### Working with pivot tables

* `df_pivot.loc['USA', :]` → acceder a una fila específica de la tabla dinámica.
* `df_pivot.droplevel([0])` → elimina un nivel del índice jerárquico.
* `df['date'].dt.month` → extrae el mes de una columna datetime.
* `df['date'].dt.year` → extrae el año.
* `df['date'].dt.day` → extrae el día.

---


¡Perfecto! 🚀 Aquí tienes la continuación con la parte de **Creating and Visualizing DataFrames**.
Me enfoco en el uso de `.plot()` de Pandas, que internamente usa **Matplotlib**, y te detallo los **argumentos más usados/interesantes** para hacer gráficos directamente desde un DataFrame.

---

## **4. Creating and Visualizing DataFrames**

### Creating and Visualizing DataFrames

* `df.plot()` → genera un gráfico por defecto (línea para series numéricas).
* `df.hist(bins=30)` → histograma de columnas numéricas (`bins` define el número de intervalos).
* `df.plot(kind='bar', title='My Chart')` → gráfico de barras.

---

#### Argumentos principales de `.plot()`

```python
df.plot(
    kind='line',        # Tipo de gráfico: 'line', 'bar', 'barh', 'hist', 'box', 'kde', 'area', 'scatter', 'pie'
    x='col_x',          # Columna a usar como eje X
    y='col_y',          # Columna(s) a usar como eje Y
    title='Título',     # Título del gráfico
    figsize=(10,6),     # Tamaño del gráfico en pulgadas (ancho, alto)
    color=['red','blue'], # Colores de las series
    grid=True,          # Mostrar rejilla
    alpha=0.7,          # Transparencia (0=transparente, 1=opaco)
    linestyle='--',     # Estilo de línea: '-', '--', '-.', ':'
    marker='o',         # Marcadores en puntos: 'o', 's', '^', etc.
    subplots=True,      # Crea un subplot por cada columna
    sharex=True,        # Compartir eje X en subplots
    sharey=False,       # Compartir eje Y en subplots
    legend=True,        # Mostrar leyenda
)
```

---

### Ejemplos rápidos

```python
# Línea (default)
df.plot(y='col_y', x='col_x', kind='line', title='Evolución')

# Barras
df.plot(kind='bar', x='Category', y='Value', color='skyblue', title='Categorías')

# Histograma
df['col'].plot(kind='hist', bins=20, alpha=0.6, color='green', title='Distribución')

# Dispersión
df.plot(kind='scatter', x='Height', y='Speed', alpha=0.5, color='red', title='Altura vs Velocidad')
```

---

### Missing Values

#### Detecting Missing Values
* `.isna()` → Detecta valores nulos (`NaN` o `None`).
  * `.isna().any()` → Devuelve `True` si alguna columna/serie contiene valores nulos.
  * `.isna().sum()` → Cuenta cuántos valores nulos hay en cada columna.
  * `.isna().sum().plot(kind='bar')` → Grafica el número total de valores nulos por columna.

#### Removing Missing Values
* `.dropna(axis=0, how='any', subset=None, inplace=False)`  
  - **axis** → `0` para eliminar filas, `1` para eliminar columnas.  
  - **how** → `"any"` (si hay algún `NaN`) o `"all"` (si todos los valores son `NaN`).  
  - **subset** → lista de columnas donde verificar nulos.  
  - **inplace** → `True` para modificar el DataFrame directamente.  

#### Replacing Missing Values
* `.fillna(value, method=None, axis=None, inplace=False, limit=None)`  
  - **value** → valor escalar, dict o Serie para reemplazar los `NaN`.  
  - **method** → `"ffill"` (rellenar hacia adelante) o `"bfill"` (hacia atrás).  
  - **limit** → número máximo de valores consecutivos a rellenar.  
  - **inplace** → `True` para modificar el DataFrame directamente.  

---

### Creating DataFrames

#### From Scratch
* `pd.DataFrame(data, columns=None, index=None)`  
  - **data** → lista, dict, array, lista de dicts, dict de listas, etc.  
  - **columns** → lista de nombres de columnas.  
  - **index** → etiquetas personalizadas para filas.  

#### From List of Dictionaries (row-wise)
```python
data = [
    {"name": "Ana", "age": 25},
    {"name": "Luis", "age": 30},
]
df = pd.DataFrame(data)
```

#### From Dictionary of Lists (column-wise)
```python
data = {
    "name": ["Ana", "Luis"],
    "age": [25, 30]
}
df = pd.DataFrame(data)
```

#### Fromm data files
* `.read_csv("file.csv")`
* `.read_excel("file.xlsx")`
* `.read_json("file.json")`
* `.to_csv("output.csv", index=False)`
* `.to_excel("output.xlsx", index=False)`
* `.to_json("output.json")`