<a href="https://colab.research.google.com/github/GustavoBD-Dev/AnalyticalModelsWithPythonCourse/blob/Session-1/01_Review_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Refresher: Funcionalidades básicas de Pandas**

**Pandas** es una biblioteca fundamental en Python para la manipulación y análisis de datos. Proporciona estructuras de datos flexibles y eficientes, principalmente dos:

1. **DataFrame:** Una estructura de datos bidimensional, similar a una tabla en bases de datos o una hoja de cálculo, que permite almacenar y manipular datos en forma de filas y columnas. Cada columna puede tener un tipo de dato diferente (entero, flotante, cadena, etc.).

2. **Series:** Una estructura unidimensional similar a una lista o a una columna de un DataFrame, que también puede tener un índice personalizado para un acceso más eficiente a los datos.

####**Funcionalidades Clave:**
1. **Lectura y Escritura de Datos:** **Pandas** facilita la lectura y escritura de datos en diversos formatos, como CSV, Excel, SQL, y JSON, a través de métodos como read_csv(), to_excel(), read_sql(), etc.

2. **Manipulación de Datos:** Ofrece herramientas robustas para seleccionar, filtrar, agrupar y transformar datos. Las funciones como groupby(), pivot_table(), y merge() permiten realizar operaciones avanzadas de agregación y combinación de datos.

3. **Limpieza y Preprocesamiento:** Incluye métodos para manejar datos faltantes, eliminar duplicados y realizar transformaciones. Métodos como dropna(), fillna(), y apply() son útiles para preparar datos para el análisis.

4. **Análisis y Estadísticas:** Proporciona funciones para cálculos estadísticos y operaciones matemáticas sobre datos, como mean(), median(), std(), y describe().

3. **Manipulación de Fechas:** Ofrece soporte avanzado para trabajar con datos temporales mediante el uso de datetime y timedelta, facilitando operaciones de resampling, reindexing y comparación de fechas.

4. **Integración con Otras Bibliotecas:** Se integra bien con bibliotecas como NumPy, Matplotlib, y SciPy, permitiendo una cadena de procesamiento de datos y visualización fluida.
```python
import pandas as pd
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})
# Leer datos de un archivo CSV
df = pd.read_csv('archivo.csv')
# Manipular datos
df['C'] = df['A'] + df['B']
# Filtrar datos
df_filtered = df[df['A'] > 1]
# Agrupar datos
df_grouped = df.groupby('B').sum()
```

####**Ejercicios Individuales:**

In [None]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# Crear listas para las columnas
id_factura = [i for i in range(1, 101)]
fecha_inicio = datetime.now() - timedelta(days=365)
fecha = [(fecha_inicio + timedelta(days=random.randint(0, 365))).date() for _ in range(100)]
cliente = [f'Cliente_{i}' for i in range(1, 101)]
monto = [round(random.uniform(50, 1000), 2) for _ in range(100)]
metodo_pago = [random.choice(['Efectivo', 'Tarjeta de Crédito', 'Transferencia']) for _ in range(100)]
estado = [random.choice(['Pagada', 'Pendiente', 'Cancelada']) for _ in range(100)]

# Crear el DataFrame
df = pd.DataFrame({
    'ID_Factura': id_factura,
    'Fecha': fecha,
    'Cliente': cliente,
    'Monto': monto,
    'Método de Pago': metodo_pago,
    'Estado': estado
})

# Introducir algunos valores nulos y duplicados para limpieza de datos
df.loc[random.sample(range(100), 10), 'Monto'] = np.nan
df = pd.concat([df, df.sample(5, random_state=42)], ignore_index=True)

In [None]:
# Eduardo
df.head()

Unnamed: 0,ID_Factura,Fecha,Cliente,Monto,Método de Pago,Estado
0,1,2024-06-02,Cliente_1,567.43,Efectivo,Pagada
1,2,2023-12-04,Cliente_2,549.56,Efectivo,Cancelada
2,3,2023-11-26,Cliente_3,455.02,Transferencia,Pendiente
3,4,2023-08-31,Cliente_4,,Transferencia,Cancelada
4,5,2024-01-18,Cliente_5,892.43,Tarjeta de Crédito,Pagada


In [None]:
# Araceli
df.tail()

Unnamed: 0,ID_Factura,Fecha,Cliente,Monto,Método de Pago,Estado
100,84,2024-07-06,Cliente_84,400.28,Tarjeta de Crédito,Pagada
101,54,2023-10-14,Cliente_54,408.7,Transferencia,Pagada
102,71,2023-09-26,Cliente_71,702.55,Tarjeta de Crédito,Pendiente
103,46,2023-12-20,Cliente_46,918.9,Tarjeta de Crédito,Cancelada
104,45,2023-08-06,Cliente_45,900.58,Transferencia,Pagada


In [None]:
# Jose Alberto
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105 entries, 0 to 104
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ID_Factura      105 non-null    int64  
 1   Fecha           105 non-null    object 
 2   Cliente         105 non-null    object 
 3   Monto           95 non-null     float64
 4   Método de Pago  105 non-null    object 
 5   Estado          105 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 5.0+ KB


In [None]:
# Jose Maria
df.describe()

Unnamed: 0,ID_Factura,Monto
count,105.0,95.0
mean,50.952381,594.617263
std,28.573246,264.031739
min,1.0,106.74
25%,27.0,394.175
50%,51.0,667.3
75%,75.0,834.785
max,100.0,991.4


In [None]:
# Erick
df['Método de Pago'].value_counts()

Unnamed: 0_level_0,count
Método de Pago,Unnamed: 1_level_1
Tarjeta de Crédito,40
Transferencia,34
Efectivo,31


In [None]:
# Jorge Luis
agg_df = df.groupby('Método de Pago').agg({
    'Monto': ['mean', 'sum']
})
print(agg_df)

                         Monto          
                          mean       sum
Método de Pago                          
Efectivo            517.716071  14496.05
Tarjeta de Crédito  657.685526  24992.05
Transferencia       586.225517  17000.54


In [None]:
#
import pandas as pd

df['Fecha'] = pd.to_datetime(df['Fecha'])
df['Fecha_Numeric'] = df['Fecha'].astype('int64')

numerical_df = df.select_dtypes(include=['number'])

correlation_matrix = numerical_df.corr()
print(correlation_matrix)

               ID_Factura     Monto  Fecha_Numeric
ID_Factura       1.000000  0.003753        0.06827
Monto            0.003753  1.000000       -0.21530
Fecha_Numeric    0.068270 -0.215300        1.00000


In [None]:
#
df.isna().sum()

Unnamed: 0,0
ID_Factura,0
Fecha,0
Cliente,0
Monto,10
Método de Pago,0
Estado,0
Fecha_Numeric,0


In [None]:
# Gustavo
pivot_table = df.pivot_table(
    index='Método de Pago',
    columns='Estado',
    values='Monto',
    aggfunc='mean'
)

print(pivot_table)

Estado              Cancelada      Pagada   Pendiente
Método de Pago                                       
Efectivo            488.97200  585.071111  482.298889
Tarjeta de Crédito  607.72800  689.191667  665.279375
Transferencia       684.89375  584.285000  434.566000
