# Introducción a Pandas: Principales Funciones y Usos

En este Notebook, exploraremos **pandas**, una de las librerías más populares de Python para la manipulación y análisis de datos. Aprenderemos sus principales funciones y cómo usarlas en proyectos reales.

---

## 1. ¿Qué es Pandas?

**Pandas** es una librería de Python diseñada para trabajar con datos tabulares, como hojas de cálculo o bases de datos. Es especialmente útil para:
- Leer y escribir datos en diferentes formatos (CSV, Excel, JSON, etc.).
- Limpiar y transformar datos.
- Realizar análisis estadísticos.
- Visualizar datos (en combinación con otras librerías como Matplotlib o Seaborn).

### Instalación de Pandas
Si no tienes pandas instalado, puedes instalarlo con:
```bash
pip install pandas

# 2. Principales Estructuras de Datos en Pandas
Pandas tiene dos estructuras principales:

**1. Series:** es una estructura unidimensional, similar a una lista o columna en una tabla.

**2. DataFrame:** es una estructura bidimensional, similar a una tabla con filas y columnas.

# 3. Principales Funciones y Usos de Pandas

### 3.1. Crear un DataFrame

Un DataFrame es la estructura principal de pandas. Podemos crearlo a partir de un diccionario, una lista o leyendo un archivo.

### 3.2. Leer un Archivo CSV
Pandas puede leer archivos CSV directamente desde una URL o un archivo local.

**Lectura de otro tipo de archivos:**

- ```pd.read_excel(url)```
- ```pd.read_json(url)```
- ```pd.read_xml("archivo.xml")```


**Cargue local de archivos**

**Cargue de un archivo local:**

### 3.3. Explorar Datos
Pandas proporciona funciones útiles para explorar datos:

```head():``` Muestra las primeras filas.

```tail():``` Muestra las últimas filas.

```info():``` Proporciona información sobre el DataFrame.

```describe():``` Muestra estadísticas descriptivas.

### 3.4. Filtrar Datos

**Filtrado básico:**

**Filtrado loc e iloc:**

- ```loc:``` Se utiliza para seleccionar filas y columnas por etiquetas (nombres de filas y columnas).

- ```iloc:``` Se utiliza para seleccionar filas y columnas por índices numéricos (posición).

___loc___

___iloc___

### 3.5. Agregar columnas

Unnamed: 0,orderIdentifier,orderType,vendor.organizationIdentifier,buyer.organizationIdentifier,shipFromInstructionLocation.locationIdentifier,shipToLocation.locationIdentifier,orderStatus,createdDate,requestedShipDate,requestedDeliveryDate,plannedShipDate,plannedDeliveryDate,quantity,quantityUnits,totalValue,orderValueCurrency,lineCount,totalShippedQuantity,exclude,sourceLink
0,100044349,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-20T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,189,EA,236250.0,USD,3,,,http://lighttree.com/100044349
1,100044350,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,20,EA,25000.0,USD,3,,,http://lighttree.com/100044350
2,100044353,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-13T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,212,EA,265000.0,USD,3,,,http://lighttree.com/100044353
3,100055001,OUTBOUND,LightTree,AHTD,LT-2,AHTD - Bentonville,,2017-07-11T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,761,EA,59473.0,USD,3,,,http://lighttree.com/100055001
4,100055003,OUTBOUND,LightTree,AHTD,LT-2,AHTD - Bentonville,,2017-07-20T00:00:00,2021-08-11T00:00:00,2021-08-14T00:00:00,2021-08-11T00:00:00,2021-08-14T00:00:00,520,EA,47438.0,USD,3,,,http://lighttree.com/100055003


### 3.6. Eliminar columnas

### 3.7. Quitar duplicados

### 3.8. Agrupar datos

### 3.9. Merge

![Diagrama de JOINs en SQL](https://www.hostingplus.com.co/wp-content/uploads/2021/06/JOIN.jpg)

### 4. Exportar

### Otras funcionalidades

| **Tema**                        | **Descripción**                                                                 | **Funciones/Métodos Clave**                     | **Ejemplo y Resultado**                                                                 |
|----------------------------------|---------------------------------------------------------------------------------|-------------------------------------------------|-----------------------------------------------------------------------------------------|
| **Manejo de Datos Faltantes**    | Identificar, eliminar o rellenar datos faltantes.                               | `isna()`, `dropna()`, `fillna()`, `interpolate()`| ```df["columna"].fillna(df["columna"].mean(), inplace=True)```<br>**Resultado:** Rellena los valores faltantes con la media. |
| **Aplicar Funciones**            | Aplicar funciones personalizadas a columnas o filas.                            | `apply()`, `map()`, `applymap()`                | ```df["columna"] = df["columna"].apply(lambda x: x * 2)```<br>**Resultado:** Multiplica cada valor por 2. |
| **Ordenar Datos**                | Ordenar DataFrames por columnas o índices.                                      | `sort_values()`, `sort_index()`                 | ```df.sort_values("Value", ascending=False)```<br>**Resultado:** Ordena por "Value" de forma descendente. |
| **Pivot Tables**                 | Crear tablas dinámicas para resumir datos.                                      | `pivot_table()`                                | ```df.pivot_table(values="Value", index="Country Name", columns="Year", aggfunc="sum")```<br>**Resultado:** Tabla dinámica con la suma de "Value" por país y año. |
| **Melt y Pivot**                 | Transformar DataFrames entre formatos largo y ancho.                            | `melt()`, `pivot()`                            | ```df.melt(id_vars=["Country Name", "Year"], value_vars=["Value", "Value_2"])```<br>**Resultado:** Convierte el DataFrame a formato largo. |
| **Concatenación de DataFrames**  | Combinar DataFrames vertical u horizontalmente.                                 | `concat()`                                     | ```pd.concat([df1, df2], axis=0)```<br>**Resultado:** Combina dos DataFrames verticalmente. |
| **Manejo de Datos de Texto**     | Manipular columnas de texto (extraer, dividir, reemplazar).                     | `str.upper()`, `str.split()`, `str.replace()`  | ```df["columna"] = df["columna"].str.upper()```<br>**Resultado:** Convierte el texto a mayúsculas. |
| **Manejo de Fechas y Tiempos**   | Trabajar con columnas de fechas y realizar operaciones temporales.              | `pd.to_datetime()`, `dt.year`, `dt.month`      | ```df["fecha"] = pd.to_datetime(df["fecha"])```<br>**Resultado:** Convierte la columna a tipo `datetime`. |
| **Manejo de Datos Categóricos**  | Convertir columnas a tipo categórico y crear variables dummy.                   | `astype("category")`, `pd.get_dummies()`       | ```df["columna"] = df["columna"].astype("category")```<br>**Resultado:** Convierte la columna a tipo categórico. |
| **Manejo de Grandes Volúmenes**  | Leer y procesar archivos grandes en bloques.                                    | `chunksize` en `read_csv()`                    | ```for chunk in pd.read_csv("archivo.csv", chunksize=1000): procesar(chunk)```<br>**Resultado:** Lee el archivo en bloques de 1000 filas. |
| **Exportación de Datos**         | Guardar DataFrames en diferentes formatos (CSV, Excel, JSON, etc.).             | `to_csv()`, `to_excel()`, `to_json()`          | ```df.to_csv("datos.csv", index=False)```<br>**Resultado:** Guarda el DataFrame en un archivo CSV. |
| **Visualización de Datos**       | Crear gráficos directamente desde pandas.                                       | `plot()`, `hist()`, `boxplot()`                | ```df.plot(x="Year", y="Value", kind="line")```<br>**Resultado:** Genera un gráfico de líneas. |
| **Optimización de Código**       | Evitar bucles y usar operaciones vectorizadas.                                  | `eval()`, `query()`                            | ```df.query("Value > 1000000")```<br>**Resultado:** Filtra filas donde "Value" es mayor a 1,000,000. |
| **Trabajo con Multi-Index**      | Crear y manipular DataFrames con múltiples niveles de índice.                   | `set_index()`, `stack()`, `unstack()`          | ```df.set_index(["Country Name", "Year"])```<br>**Resultado:** Crea un DataFrame con Multi-Index. |
| **Casos Prácticos y Proyectos**  | Ejercicios y proyectos para aplicar lo aprendido en datasets reales.            | -                                              | **Ejemplo:** Análisis de ventas mensuales.<br>**Resultado:** Informe con insights clave. |