<a href="https://colab.research.google.com/github/GustavoBD-Dev/AnalyticalModelsWithPythonCourse/blob/Session-1/02_AdvancedFunctions_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Funciones avanzadas de Pandas**

Pandas ofrece una gama de funciones avanzadas que permiten una manipulación y análisis de datos más complejos. A continuación, se detallan algunas de las más destacadas:

### 1. **groupby()**
Permite agrupar datos por una o más columnas y aplicar funciones agregadas.
```python
df.groupby('column').agg({'value': 'mean'})
```

### 2. **pivot_table()**
Crea una tabla dinámica para resumir datos, permitiendo múltiples índices y funciones de agregación.
```python
df.pivot_table(index='row_index', columns='column_index', values='values', aggfunc='sum')
```

### 3. **crosstab()**
Calcula una tabla de contingencia para contar frecuencias entre dos o más variables categóricas.
```python
pd.crosstab(df['column1'], df['column2'])
```

### 4. **merge()**
Realiza combinaciones de `DataFrames` similar a SQL JOIN, basándose en columnas o índices.
```python
pd.merge(df1, df2, on='key', how='inner')
```

### 5. **concat()**
Concatena `DataFrames` a lo largo de un eje, útil para unir datos de diferentes fuentes.
```python
pd.concat([df1, df2], axis=0)
```

### 6. **join()**
Une `DataFrames` basándose en el índice o en columnas específicas, similar a `merge()` pero más sencillo.
```python
df1.join(df2, how='left')
```

### 7. **apply()**
Permite aplicar una función a lo largo de un eje de un `DataFrame` o `Series`.
```python
df['new_column'] = df['column'].apply(lambda x: x ** 2)
```

### 8. **transform()**
Aplica una función a cada grupo en un `groupby` y devuelve un objeto con el mismo índice.
```python
df['normalized'] = df.groupby('category')['value'].transform(lambda x: (x - x.mean()) / x.std())
```

### 9. **map()**
Mapea valores de una `Series` usando una función o un diccionario de mapeo.
```python
df['mapped'] = df['category'].map({'A': 1, 'B': 2})
```

### 10. **resample()**
Cambia la frecuencia temporal de datos, útil para series temporales.
```python
df_resampled = df.resample('M').sum()
```

### 11. **shift()**
Desplaza los datos hacia adelante o hacia atrás en el tiempo para análisis de series temporales.
```python
df['lagged'] = df['value'].shift(1)
```

### 12. **rolling()**
Calcula estadísticas móviles sobre una ventana deslizante.
```python
df['rolling_mean'] = df['value'].rolling(window=3).mean()
```

### 13. **expanding()**
Calcula estadísticas acumulativas a medida que se añaden más datos.
```python
df['expanding_mean'] = df['value'].expanding().mean()
```

### 14. **ewm()**
Aplica cálculos exponencialmente ponderados, útil para suavizar series temporales.
```python
df['ewm_mean'] = df['value'].ewm(span=5).mean()
```

### 15. **query()**
Permite realizar consultas SQL-like en un `DataFrame`, utilizando expresiones de cadena.
```python
df_filtered = df.query('column > 5 and another_column < 10')
```

#**Proceso ETL**

####**Extracción: Conectarse a distintas fuentes**

### 1. **Conexión a una Base de Datos SQLite**

**En Google Colab:**

```python
import sqlite3

conn = sqlite3.connect('example.db')
cursor = conn.cursor()
cursor.execute('''SELECT sqlite_version()''')
version = cursor.fetchone()
print("SQLite Version:", version)
conn.close()
```

**En VS Code:**

La sintaxis es la misma, pero asegúrate de que el archivo `example.db` esté en tu directorio de trabajo o proporciona una ruta completa.

```python
import sqlite3

conn = sqlite3.connect('example.db')
cursor = conn.cursor()
cursor.execute('''SELECT sqlite_version()''')
version = cursor.fetchone()
print("SQLite Version:", version)
conn.close()
```

### 2. **Conexión a una Base de Datos MySQL**

**En Google Colab:**

```python
!pip install mysql-connector-python

import mysql.connector

conn = mysql.connector.connect(
    host='your_host',
    user='your_user',
    password='your_password',
    database='your_database'
)

cursor = conn.cursor()
cursor.execute('''SHOW TABLES''')
tables = cursor.fetchall()
print("Tables:", tables)
conn.close()
```

**En VS Code:**

No necesitas usar `!pip install` ya que la instalación de paquetes se hace fuera del script, usando el terminal de VS Code o un archivo `requirements.txt`.

```python
import mysql.connector

conn = mysql.connector.connect(
    host='your_host',
    user='your_user',
    password='your_password',
    database='your_database'
)

cursor = conn.cursor()
cursor.execute('''SHOW TABLES''')
tables = cursor.fetchall()
print("Tables:", tables)
conn.close()
```

### 3. **Conexión a una Base de Datos PostgreSQL**

**En Google Colab:**

```python
!pip install psycopg2-binary

import psycopg2

conn = psycopg2.connect(
    dbname='your_database',
    user='your_user',
    password='your_password',
    host='your_host'
)

cursor = conn.cursor()
cursor.execute('''SELECT version()''')
version = cursor.fetchone()
print("PostgreSQL Version:", version)
conn.close()
```

**En VS Code:**

Instala el paquete usando el terminal:

```bash
pip install psycopg2-binary
```

Y usa el siguiente código en tu script:

```python
import psycopg2

conn = psycopg2.connect(
    dbname='your_database',
    user='your_user',
    password='your_password',
    host='your_host'
)

cursor = conn.cursor()
cursor.execute('''SELECT version()''')
version = cursor.fetchone()
print("PostgreSQL Version:", version)
conn.close()
```

### 4. **Conexión a una Base de Datos SQL Server**

**En Google Colab:**

```python
!pip install pyodbc

import pyodbc

conn = pyodbc.connect(
    'DRIVER={ODBC Driver 17 for SQL Server};'
    'SERVER=your_server;'
    'DATABASE=your_database;'
    'UID=your_user;'
    'PWD=your_password'
)

cursor = conn.cursor()
cursor.execute('''SELECT @@version''')
version = cursor.fetchone()
print("SQL Server Version:", version)
conn.close()
```

**En VS Code:**

Instala el paquete usando el terminal:

```bash
pip install pyodbc
```

Y usa el siguiente código:

```python
import pyodbc

conn = pyodbc.connect(
    'DRIVER={ODBC Driver 17 for SQL Server};'
    'SERVER=your_server;'
    'DATABASE=your_database;'
    'UID=your_user;'
    'PWD=your_password'
)

cursor = conn.cursor()
cursor.execute('''SELECT @@version''')
version = cursor.fetchone()
print("SQL Server Version:", version)
conn.close()
```

### 5. **Conexión a un Archivo CSV en Google Drive**

**En Google Colab:**

```python
import pandas as pd
from google.colab import drive

drive.mount('/content/drive')
df = pd.read_csv('/content/drive/My Drive/path_to_your_file.csv')
print(df.head())
```

**En VS Code:**

No necesitas montar Google Drive. Usa una ruta de archivo local en tu sistema:

```python
import pandas as pd

df = pd.read_csv('path_to_your_file.csv')
print(df.head())
```

### 6. **Conexión a un Archivo Excel en Google Drive**

**En Google Colab:**

```python
!pip install openpyxl

import pandas as pd
from google.colab import drive

drive.mount('/content/drive')
df = pd.read_excel('/content/drive/My Drive/path_to_your_file.xlsx')
print(df.head())
```

**En VS Code:**

Instala el paquete usando el terminal:

```bash
pip install openpyxl
```

Y usa el siguiente código:

```python
import pandas as pd

df = pd.read_excel('path_to_your_file.xlsx')
print(df.head())
```

### 7. **Conexión a un Google Sheet**

**En Google Colab:**

```python
!pip install gspread oauth2client

import gspread
from oauth2client.service_account import ServiceAccountCredentials

scope = ["https://spreadsheets.google.com/feeds", "https://www.googleapis.com/auth/drive"]
creds = ServiceAccountCredentials.from_json_keyfile_name('path_to_your_credentials.json', scope)
client = gspread.authorize(creds)
sheet = client.open('Your Spreadsheet Name').sheet1
data = sheet.get_all_records()
print(data)
```

**En VS Code:**

El proceso es el mismo, pero asegúrate de que el archivo de credenciales JSON esté en tu directorio de trabajo y usa una ruta local para el archivo.

```python
import gspread
from oauth2client.service_account import ServiceAccountCredentials

scope = ["https://spreadsheets.google.com/feeds", "https://www.googleapis.com/auth/drive"]
creds = ServiceAccountCredentials.from_json_keyfile_name('path_to_your_credentials.json', scope)
client = gspread.authorize(creds)
sheet = client.open('Your Spreadsheet Name').sheet1
data = sheet.get_all_records()
print(data)
```

### 8. **Conexión a una API Web**

**En Google Colab y VS Code:**

```python
import requests

response = requests.get('https://api.example.com/data')
data = response.json()
print(data)
```

In [None]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# Crear listas para las columnas
id_factura = [i for i in range(1, 101)]
fecha_inicio = datetime.now() - timedelta(days=365)
fecha = [(fecha_inicio + timedelta(days=random.randint(0, 365))).date() for _ in range(100)]
cliente = [f'Cliente_{i}' for i in range(1, 101)]
monto = [round(random.uniform(50, 1000), 2) for _ in range(100)]
metodo_pago = [random.choice(['Efectivo', 'Tarjeta de Crédito', 'Transferencia']) for _ in range(100)]
estado = [random.choice(['Pagada', 'Pendiente', 'Cancelada']) for _ in range(100)]

# Crear el DataFrame
df = pd.DataFrame({
    'ID_Factura': id_factura,
    'Fecha': fecha,
    'Cliente': cliente,
    'Monto': monto,
    'Método de Pago': metodo_pago,
    'Estado': estado
})

# Introducir algunos valores nulos y duplicados para limpieza de datos
df.loc[random.sample(range(100), 10), 'Monto'] = np.nan
df = pd.concat([df, df.sample(5, random_state=42)], ignore_index=True)

# Mostrar las primeras filas del DataFrame
df.head()

Unnamed: 0,ID_Factura,Fecha,Cliente,Monto,Método de Pago,Estado
0,1,2023-12-22,Cliente_1,,Tarjeta de Crédito,Cancelada
1,2,2024-05-05,Cliente_2,968.48,Transferencia,Cancelada
2,3,2023-11-15,Cliente_3,218.52,Efectivo,Pendiente
3,4,2024-02-28,Cliente_4,142.75,Transferencia,Pendiente
4,5,2024-05-30,Cliente_5,102.03,Tarjeta de Crédito,Cancelada


####**Transformación: Ejemplo en dataframe de facturas**

In [None]:
# Limpieza de Datos

# Rellenar valores nulos en la columna 'Monto' con la mediana de la columna
df['Monto'].fillna(df['Monto'].median(), inplace=True)

# Eliminar duplicados
df.drop_duplicates(inplace=True)

# Agregar una columna 'Atrasada' que indica si la factura está atrasada
# Asumimos que una factura es atrasada si la fecha es anterior a hoy
df['Atrasada'] = df['Fecha'] < datetime.now().date()

print("DataFrame Transformado:")
print(df.head())

DataFrame Transformado:
   ID_Factura       Fecha    Cliente   Monto      Método de Pago     Estado  \
0           1  2023-12-22  Cliente_1  372.91  Tarjeta de Crédito  Cancelada   
1           2  2024-05-05  Cliente_2  968.48       Transferencia  Cancelada   
2           3  2023-11-15  Cliente_3  218.52            Efectivo  Pendiente   
3           4  2024-02-28  Cliente_4  142.75       Transferencia  Pendiente   
4           5  2024-05-30  Cliente_5  102.03  Tarjeta de Crédito  Cancelada   

   Atrasada  
0      True  
1      True  
2      True  
3      True  
4      True  


####**Carga: Proceso de carga en distintas fuentes**

### 1. **Cargar Información en una Base de Datos SQLite**

**En Google Colab y VS Code:**

```python
# Cargar datos a la base de datos
df.to_sql('users', conn, if_exists='append', index=False)

# Verificar que los datos se hayan insertado
cursor.execute('SELECT * FROM users')
rows = cursor.fetchall()
print(rows)

# Cerrar la conexión
conn.close()
```

### 2. **Cargar Información en una Base de Datos MySQL**

**En Google Colab y VS Code:**
```python
# Cargar datos a la base de datos
for _, row in df.iterrows():
    cursor.execute('INSERT INTO users (name, age) VALUES (%s, %s)', (row['name'], row['age']))

conn.commit()

# Verificar que los datos se hayan insertado
cursor.execute('SELECT * FROM users')
rows = cursor.fetchall()
print(rows)

# Cerrar la conexión
conn.close()
```

### 3. **Cargar Información en una Base de Datos PostgreSQL**

**En Google Colab y VS Code:**

```python
# Cargar datos a la base de datos
for _, row in df.iterrows():
    cursor.execute('INSERT INTO users (name, age) VALUES (%s, %s)', (row['name'], row['age']))

conn.commit()

# Verificar que los datos se hayan insertado
cursor.execute('SELECT * FROM users')
rows = cursor.fetchall()
print(rows)

# Cerrar la conexión
conn.close()
```

### 4. **Cargar Información en una Base de Datos SQL Server**

**En Google Colab y VS Code:**
```python
# Cargar datos a la base de datos
for _, row in df.iterrows():
    cursor.execute('INSERT INTO users (name, age) VALUES (?, ?)', (row['name'], row['age']))

conn.commit()

# Verificar que los datos se hayan insertado
cursor.execute('SELECT * FROM users')
rows = cursor.fetchall()
print(rows)

# Cerrar la conexión
conn.close()
```

### 5. **Cargar Información en un Archivo CSV en Google Drive**

**En Google Colab:**

```python
# Guardar el DataFrame como un archivo CSV en Google Drive
df.to_csv('/content/drive/My Drive/path_to_your_file.csv', index=False)
```

**En VS Code:**

```python
# Guardar el DataFrame como un archivo CSV en tu sistema local
df.to_csv('path_to_your_file.csv', index=False)
```

### 6. **Cargar Información en un Archivo Excel en Google Drive**

**En Google Colab:**

```python
!pip install openpyxl

import pandas as pd
from google.colab import drive

# Guardar el DataFrame como un archivo Excel en Google Drive
df.to_excel('/content/drive/My Drive/path_to_your_file.xlsx', index=False)
```

**En VS Code:**

```python
# Guardar el DataFrame como un archivo Excel en tu sistema local
df.to_excel('path_to_your_file.xlsx', index=False)
```

### 7. **Cargar Información en un Google Sheet**

**En Google Colab y VS Code:**

Primero, asegúrate de tener las librerías necesarias instaladas:

```bash
pip install gspread oauth2client
```

Luego, utiliza el siguiente código para cargar datos:

```python
import gspread
from oauth2client.service_account import ServiceAccountCredentials
import pandas as pd

# Configurar la conexión con Google Sheets
scope = ["https://spreadsheets.google.com/feeds", "https://www.googleapis.com/auth/drive"]
creds = ServiceAccountCredentials.from_json_keyfile_name('path_to_your_credentials.json', scope)
client = gspread.authorize(creds)

# Abrir una hoja de cálculo y seleccionar la hoja
sheet = client.open('Your Spreadsheet Name').sheet1

# Crear un DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
}
df = pd.DataFrame(data)

# Cargar datos a Google Sheets
sheet.update([df.columns.values.tolist()] + df.values.tolist())
```

### 8. **Cargar Información a una API Web**

**En Google Colab y VS Code:**

```python
import requests

# Crear los datos que deseas enviar
data = {
    'name': 'Alice',
    'age': 25
}

# Hacer una solicitud POST a la API
response = requests.post('https://api.example.com/data', json=data)

# Verificar la respuesta
print(response.status_code)
print(response.json())
```