# Pandas

## Pivot Table

In [7]:
import pandas as pd

- Reorganización de los datos: Permite reestructurar el conjunto de datos para que se presente de una manera más comprensible y útil. Los valores de una columna pueden convertirse en filas, y los de una fila en columnas.

- Agrupación de datos: Se puede agrupar datos por categorías o valores específicos, lo que permite resúmenes a nivel de grupo.

- Agregación de datos: Los datos numéricos se pueden sumar, promediar, contar o aplicar cualquier otra función agregada para obtener información relevante sobre los grupos de datos.

- Personalización: Puedes elegir qué columnas y filas utilizar como categorías, qué valores numéricos agregar, y cómo visualizar los datos (suma, promedio, conteo, etc.).

In [8]:
# DataFrame de ejemplo con datos ficticios
data = {
    'Año': [2020, 2020, 2021, 2021, 2022, 2022, 2023, 2023],
    'Sector': ['Agricultura', 'Industria', 'Agricultura', 'Servicios', 'Industria', 'Servicios', 'Agricultura', 'Industria'],
    'Ventas': [5000, 8000, 5200, 9000, 8100, 9500, 5300, 8200]
}

df = pd.DataFrame(data)

# Crear tabla pivote
pivot_table = pd.pivot_table(df, values='Ventas', index='Sector', columns='Año', aggfunc=['sum', 'mean'])

# Mostrar la tabla pivote
print(pivot_table)


                sum                            mean                        
Año            2020    2021    2022    2023    2020    2021    2022    2023
Sector                                                                     
Agricultura  5000.0  5200.0     NaN  5300.0  5000.0  5200.0     NaN  5300.0
Industria    8000.0     NaN  8100.0  8200.0  8000.0     NaN  8100.0  8200.0
Servicios       NaN  9000.0  9500.0     NaN     NaN  9000.0  9500.0     NaN


- df: Es el DataFrame sobre el que estamos creando la tabla pivote.
- values='Ventas': Especifica que queremos que los valores en la tabla pivote provengan de la columna Ventas (es decir, las cifras de ventas).
- index='Sector': Indica que los sectores económicos (Agricultura, Industria, Servicios) serán usados como las filas de la tabla pivote.
- columns='Año': Indica que los años (2020, 2021, 2022, 2023) serán usados como las columnas de la tabla pivote.
- aggfunc=['sum', 'mean']: Especifica que queremos agregar los datos de ventas usando las funciones de suma (sum) y promedio (mean). Esto quiere decir que la tabla mostrará tanto la suma de ventas para cada sector y año, como el promedio de ventas en esos años.

### CrossTabs

- Variables categóricas: Normalmente se usa para analizar la relación entre variables cualitativas (categóricas) o discretas.

- Frecuencias: Muestra el número de ocurrencias o frecuencias de combinaciones específicas de las categorías.

- Distribución conjunta: Permite observar cómo se distribuyen los valores de una variable en función de otra, l-o que puede ayudar a detectar asociaciones o patrones.

- Totalización: Puede incluir totales marginales, es decir, la suma de las frecuencias por filas y columnas, para mostrar las frecuencias totales de cada categoría.

In [13]:
# DataFrame de ejemplo
df = pd.DataFrame({
    'Nivel_Educativo': ['Primaria', 'Secundaria', 'Universitaria', 'Secundaria', 'Primaria', 'Universitaria', 'Primaria', 'Universitaria'],
    'Nivel_Ingreso': ['Bajo', 'Medio', 'Alto', 'Bajo', 'Bajo', 'Alto', 'Medio', 'Medio']
})

# Crear tabla cruzada
cross_table = pd.crosstab(df['Nivel_Educativo'], df['Nivel_Ingreso'])
print(cross_table)

Nivel_Ingreso    Alto  Bajo  Medio
Nivel_Educativo                   
Primaria            0     2      1
Secundaria          0     1      1
Universitaria       2     0      1


- Nivel_Educativo: Los niveles educativos de las personas, que pueden ser "Primaria", "Secundaria", o "Universitaria".
- Nivel_Ingreso: El nivel de ingreso de las personas, categorizado como "Bajo", "Medio", o "Alto".
- df['Nivel_Educativo']: Este parámetro especifica que queremos que los niveles educativos sean las filas de la tabla cruzada.
- df['Nivel_Ingreso']: Este parámetro indica que los niveles de ingreso serán las columnas de la tabla cruzada.
- pd.crosstab(): El método crosstab crea una tabla que cruza estas dos variables, contando la cantidad de veces que ocurre cada combinación de nivel educativo y nivel de ingreso.
El resultado de crosstab es una tabla donde:
- Las filas representan los distintos niveles educativos.
- Las columnas representan los distintos niveles de ingreso.
- Las celdas contienen el conteo de cuántas veces ocurre cada combinación de Nivel_Educativo y Nivel_Ingreso.