# Usando Pandas

## Pivot Tables

Las tablas dinámicas (o `pivot_tables`) son una de las técnicas más útiles en el análisis de datos. Sirven para resumir, analizar, explorar y presentar los datos de origen en un formato fácil de entender. Pandas ofrece una función llamada `pivot_table` que es extremadamente versátil y potente para realizar este tipo de operaciones.

### ¿Para qué sirven las tablas dinámicas?

1. **Resumir Datos**: Pueden resumir un conjunto de datos grande y complicado en un formato más simple.
2. **Analizar y Explorar**: Ayudan a explorar las relaciones entre variables y pueden ayudarte a responder preguntas específicas sobre tus datos.
3. **Presentación de Datos**: Facilitan la representación gráfica de los datos resumidos.

### Sintaxis Básica

La sintaxis básica de `pivot_table` en Pandas es la siguiente:

```python
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', ...)
```
- `data`: DataFrame que contiene los datos.
- `values`: Columna o columnas para agregar.
- `index`: Columna, o lista de columnas, para usar como índices de la tabla dinámica.
- `columns`: Columna o columnas para pivotar en nuevas columnas.
- `aggfunc`: Función para aplicar a `values` si hay más de una entrada (por defecto es 'mean').

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'Fecha': pd.date_range(start='2023-01-01', periods=20, freq='7D'),
    'Departamento': np.random.choice(['Electrónica', 'Ropa', 'Alimentos'], 20),
    'Ventas': np.random.randint(100, 2000, 20)
})
df

In [None]:
df.dtypes

In [None]:
# Crear una nueva columna 'Mes' basada en la columna 'Fecha'
df['Mes'] = df['Fecha'].dt.month_name()

In [None]:
df

In [None]:
# Creamos una tabla dinámica para resumir las ventas por `Departamento` y `Mes`:


# Crear una tabla dinámica
pivot_table = pd.pivot_table(df, values='Ventas', index='Mes',
                             columns='Departamento',
                             aggfunc=np.sum)

pivot_table

### Ejercicio Propuesto

1. Supongamos que además del DataFrame anterior, tenemos una columna adicional que representa el `Vendedor` para cada venta.
2. Utiliza `pivot_table` para crear una tabla dinámica que muestre las ventas totales por `Departamento` y `Vendedor`.
3. Guarda esta tabla dinámica en un nuevo archivo CSV.**texto en negrita**

### Gráficos con Plotly y Pivot Tables


In [None]:
pip install pandas plotly


### Ventas por Departamento y Mes

In [None]:
import plotly.express as px

# Generar el gráfico de barras
fig = px.bar(pivot_table.reset_index(), x='Mes', y=pivot_table.columns,
             title="Ventas Mensuales por Departamento")

# Mostrar el gráfico
fig.show()

### Tareas Propuestas

1. Modifica el código anterior para crear un gráfico de línea en lugar de un gráfico de barras.
2. Utiliza una tabla dinámica diferente como base para un nuevo gráfico. Podría ser ventas por vendedor y día de la semana, por ejemplo.


# Recopilación


## Creación de Dataframes

```python
pd.DataFrame(dict) # Desde diccionario
pd.read_csv(file) # Desde un csv
pd.read_excel (file) # Desde un excel
pd.read_json(json) # Desde un json
pd.read_html(uri) # Desde una web
pd.read_sql(sql) # Desde una base de datos
```

## Ordenación de valores e índices
```python
df.sort_values()  # Ordena los valores
df.sort_index() # Ordena el índice
```

## Búsqueda

 `loc` e `iloc` permiten acceder a un grupo de filas y columnas mediante etiquetas o índices.

### `loc`: Búsqueda basada en etiquetas

El atributo `loc` se basa en la etiqueta del índice para hacer la selección.


In [None]:
df = pd.DataFrame({
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
    'Edad': [24, 27, 22, 32],
    'Profesión': ['Ingeniero', 'Doctor', 'Arquitecto', 'Abogado']
}, index=['ID1', 'ID2', 'ID3', 'ID4'])
df

In [None]:
# Utilizar 'loc' para acceder a una fila por su etiqueta de índice
print(df.loc['ID1'])
print('*' * 80)
# Utilizar 'loc' para acceder a una celda específica por fila y nombre de columna
print(df.loc['ID1', 'Nombre'])

In [None]:
# `iloc`: Búsqueda basada en índices enteros

# acceder a la primera fila con iloc
print(df.iloc[0])

# primera celda del DataFrame
print(df.iloc[0, 0])



### Filtrado complejo

Seleccionar personas mayores de 25 años y solo mostrar su nombre y profesión.


In [None]:
# Con 'loc'
resultado = df.loc[df['Edad'] > 25, ['Nombre', 'Profesión']]
print(resultado)


### Query

El método `df.query()` en Pandas se usa para filtrar filas de un DataFrame mediante una expresión booleana. Es especialmente útil cuando tienes un DataFrame con muchas columnas y quieres aplicar una condición de filtro de una manera más legible y eficiente. Además, la expresión se escribe como un string, lo que hace que las consultas sean más fáciles de escribir y entender.


In [None]:
df = pd.DataFrame({
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
    'Edad': [24, 27, 22, 32],
    'Profesión': ['Ingeniero', 'Doctor', 'Arquitecto', 'Abogado']
})


In [None]:
# filtrar todas las filas donde la edad es mayor que 25

resultado = df.query("Edad > 25")
print(resultado)


In [None]:
# Más complejo
df = pd.DataFrame({
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Edad': [24, 27, 22, 32, 27],
    'Profesión': ['Ingeniero', 'Doctor', 'Arquitecto', 'Abogado', 'Doctor'],
    'Salario': [50000, 120000, 80000, 90000, 110000]
})


# Filas donde la edad es mayor que 25 y el salario es mayor que 100000,
# o son doctores

resultado = df.query("(Edad > 25 and Salario > 100000) or Profesión == 'Doctor'")
print(resultado)


In [None]:
#Puedes usar variables en tus consultas con `@`

min_salario = 100000
resultado = df.query("Salario == @min_salario")

# En este momento no funciona por un bug en la version https://github.com/pandas-dev/pandas/issues/54449

