# **Librerias en Python**
Una libreria es una coleccion de calses y metodos los cuales nos permiten crear objetos sin la nececidad de programarlos explicitamente.

Existen muchas librerias en python, las mas utilizadas por nosostros en el curso seran las siguientes: numpy, pandas, matplotlib, seaborn, sklearn y keras.

# **01. Numpy (Numerical Python)**
NumPy es el paquete fundamental para la computación científica en Python. Es una libreria que proporciona herramientas para la generación de arreglos y una variedad de funcionalidades para realizar operaciones sobre estos, que generalmente se realizan de una manera más eficiente que lo que se puede lograr con funcionalidades propias de Python. NumPy sirve como bloque básico para una gran cantidad de paquetes científicos y de análisis de datos.

En el núcleo de la mayoría de los problemas encontramos un **arreglo**. Desde el punto de vista computacional, un arreglo es un bloque contiguo de memoria donde cada elemento tiene el mismo tipo.

En resumen, estas son las diferencias más importantes entre los arreglos de NumPy y las secuencias estándar de Python:

* Todos los elementos en un arreglo de NumPy deben ser del mismo tipo de dato y, por lo tanto, tendrán el mismo tamaño en memoria.
* Los arreglos de NumPy tienen un tamaño fijo en la creación, a diferencia de las listas de Python (que pueden crecer dinámicamente). Cambiar el tamaño de un `ndarray` creará un nuevo arreglo y eliminará el original.
* Los arreglos de NumPy facilitan las operaciones matemáticas avanzadas y de otro tipo en grandes cantidades de datos. Típicamente, tales operaciones se ejecutan de manera más eficiente que usando las secuencias integradas de Python.

# **Arreglos de numpy**

Los arreglos de numpy pueden tener diferente dimensionalidad

<p><img alt="Colaboratory logo" height="400px" src="https://i.imgur.com/gqeCxo2.png" align="left" hspace="10px" vspace="0px"></p>

# **Sintaxis**

In [None]:
#Instalación de la libreria numpy en colab
# !pip install numpy

#Instalación de la libreria numpy en VSCode
# py -m pip install --upgrade pip
# py -m pip install numpy

# pip install numpy

#Importación de la libreria numpy con alias de np
import numpy as np

#NOTA: No ejecutar los comandos al tiempo

# Numpy: **1D array ([vectores](https://es.khanacademy.org/math/multivariable-calculus/thinking-about-multivariable-function/x786f2022:vectors-and-matrices/a/vectors-and-notation-mvc))**


*   Un arreglo unidimensional es una colecion de tipos de datos los cuales se encuntran indexados ( tal y como las listas ). A diferencia de las listas, los arreglos 1D ( y en general los arreglos de cualquier dimension ) solo pueden contener un tipo de dato.
* Los arreglos de python soportan indexacion y slicing (se refiere a la capacidad de seleccionar un subconjunto de elementos de una lista)
* Para crear un arreglo 1D de python, podemos usar una lista de numpy
* Podemos construir un objeto `ndarray`, a partir de una lista de Python, mediante el constructor `array`: `np.array([1,4,5,7,8,9,4,3,8,9,4])`

In [None]:
import numpy as np
vector = np.array([1,4,5,7,8,9,4,3,8,9,4])
print(vector)

In [None]:
import numpy
vector = numpy.array([54, 567, 38])
print(vector)

In [None]:
# Cantidad de elementos del vector
print(len(vector))

# Indexacion del vector
print(vector[3], vector[6])

# Actualizacion de valores del vector
vector[3] = 50

# slicing del vector [indice_inicial:indice_fianl:paso]
print(vector[2:9])
print(vector[2:9:3])
print(vector[:])
print(vector[::5])

# Ciclos
for valor in vector:
  print(valor)

El objeto `ndarray` representa efectivamente un bloque de memoria de tamaño fijo, el cual contiene una serie de atributos y métodos que definen su estructura, segun su número de dimensiones.
# **Atributos**
* **`ndarray.shape`**: devuelve la dimensión de una matriz (número de filas y columnas).
* **`ndarray.ndim`**: devuelve la cantidad de dimensiones de una matriz.
* **`ndarray.size`**: devuelve la cantidad total de elementos en una matriz.
* **`ndarray.dtype`**: devuelve el tipo de datos de una matriz.
* **`ndarray.itemsize`**: devuelve el tamaño en bytes de cada elemento de una matriz.
* **`ndarray.data`**: devuelve los datos de una matriz en un objeto buffer.

In [None]:
import numpy as np
vector = np.array([1,4,5,7,8,9,4,3,8,9,4])
#vector = np.array([[1,4,5,7,8,9,4,3,8,9,4], [1,4,5,7,8,9,4,3,8,9,4]])
print(vector)

# Atributos par 1D
print("Tipo de arreglo: ",vector.dtype)
print("Tamaño del arreglo: ",vector.size)
print("Dimensiones del arreglo: ",vector.ndim)
print("Elementos de cada dimension del arreglo: ",vector.shape)

# **Métodos:**

* **`np.array()`**: crea una matriz a partir de una secuencia de datos.
* **`np.zeros()`**: crea una matriz de ceros con una forma específica.
* **`np.ones()`**: crea una matriz de unos con una forma específica.
* **`np.full()`**: crea una matriz con un valor constante con una forma específica.
* **`ndarray.reshape()`**: cambia la forma de una matriz.
* **`ndarray.transpose()`**: transpone una matriz.
* **`ndarray.flatten()`**: convierte una matriz en un array de una dimensión.
* **`ndarray.max()`**: devuelve el valor máximo de una matriz.
* **`ndarray.min()`**: devuelve el valor mínimo de una matriz.
* **`ndarray.sum()`**: devuelve la suma de los elementos de una matriz.
* **`ndarray.mean()`**: devuelve la media de los elementos de una matriz.
* **`ndarray.std()`**: devuelve la desviación estándar de los elementos de una matriz.
* **`np.dot()`**: realiza la multiplicación matricial entre dos matrices.
* **`np.random.rand()`**: genera una matriz de números aleatorios entre 0 y 1.

In [None]:
import numpy as np
# Metodo np.array() - crea una matriz a partir de una secuencia de datos.
lista = [1, 2, 3, 4, 5]
vector = np.array(lista)
print(vector, type(vector))
print()

# Metodo np.dot() - realiza la multiplicación matricial entre dos matrices.
matrizUno = np.array([2, 4, 6, 8])
matrizDos = np.array([3, 5, 7, 9])
resultado = np.dot(matrizUno, matrizDos)
print(resultado)
print()

# Metodos estadisticos
print("Suma es: ", vector.sum())
print("Promedio es: ", vector.mean())
print("Valor maximo : ", vector.max())
print("Valor minimo : ", vector.min())
print("Desviacion estandar: ", round(vector.std(), 2))

[1 2 3 4 5] <class 'numpy.ndarray'>

140

Suma es:  15
Promedio es:  3.0
Valor maximo :  5
Valor minimo :  1
Desviacion estandar:  1.41


# Numpy: **2D arrys ([Matrices](https://es.khanacademy.org/math/multivariable-calculus/thinking-about-multivariable-function/x786f2022:vectors-and-matrices/a/matrices--intro-mvc))**
Como se menciono anteriormente, es posible crear arreglos de mayor dimension. En este caso, veamos los arreglos 2D (tambien conocidos como matrices)

In [None]:
import numpy as np
matriz = np.array(([1, 2, 5, 4], [9, 5, 5, 7], [6, 0, 0, 8], [3, 9, 6, 5]))
print(matriz)

In [None]:
# Cantidad de elementos de la matriz
print(len(matriz))

# Indexacion de la matriz
print(matriz[2, 2])

# Actualizacion de un valor de la amtriz
matriz[2, 2] = 7

# slicing de la matriz [vector, indice_inicial:indice_fianl:paso]
print(matriz[2, :])

# Ciclos
for valor in matriz:
  print(valor)

In [None]:
# Atributos 2D
print("Tipo de matriz: ",matriz.dtype)
print("Tamaño de la matriz: ",matriz.size)
print("Dimensiones de la arreglo: ",matriz.ndim)
print("Elementos de cada dimension de la matriz: ",matriz.shape)

In [None]:
# Metodo np.array() - crea una matriz a partir de una secuencia de datos.
lista = [1, 2, 5, 4], [9, 5, 5, 7], [6, 0, 0, 8], [3, 9, 6, 5]
matriz = np.array(lista)
print(matriz, type(matriz))
print()

# Metodos propios de 2D
# Cambiar la forma de la matriz a 4x4 a 2X8
matriz_reshape = matriz.reshape(2, 8)
print("\nMatriz con forma cambiada:")
print(matriz_reshape)
print()

# Transponer la matriz
print("\nMatriz transpuesta:")
matriz_transpose = matriz.transpose()
print(matriz_transpose)
print()

# Aplanar la matriz 1D
print("\nMatriz aplanada:")
matriz_flatten = matriz.flatten()
print(matriz_flatten)

# **Aplicacion de matrices**
A continuación, se relacionan algunos ejemplos de aplicaciones comunes de la librería Numpy en Python:


*   **Operaciones matemáticas vectorizadas:** Numpy permite realizar operaciones matemáticas vectorizadas en matrices y vectores de manera eficiente, sin tener que usar bucles.



In [None]:
import numpy as np
vectorUno = np.array([1, 2, 3])
vectorDos = np.array([4, 5, 6])

# Suma de vectores
suma = vectorUno + vectorDos
print(suma,"\n")

sumaDos = vectorDos + 6
print(sumaDos,"\n")


# Producto punto
producto = np.dot(vectorUno, vectorDos)
print(producto,"\n")

*  **Generación de matrices y vectores:** Numpy proporciona funciones para generar matrices y vectores con valores predeterminados.

In [None]:
import numpy as np
# Vector de ceros
zeros = np.zeros(2)
print(zeros, "\n")

# Vector de unos
ones = np.ones(5)
print(ones, "\n")

# Matriz identidad
Midentity = np.eye(3)
print(Midentity, "\n")

# Matriz aleatoria
Mrandom = np.random.rand(3, 3)
print(Mrandom, "\n")

# **Ejercicios Numpy**
1) Crear un arreglo 3x3 de numpy con todas las entradas igual a True

2) Reemplazar todos los numeros impares del sigueinte arreglo por el valor de -1. 

`arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])`

3) Convertir el Siguiente arreglo 1D a un arreglo 2D. 

`arr = np.array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9])`

**Solucion a los ejercicios**

In [None]:
#Ejercicio 01
var = np.array([[True]*3]*3)

#Ejercicio 02
# Opc 01
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
new_arr = np.where(arr%2==1,-1,arr)
print(new_arr)

# Opc 02
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr[arr%2!=0]=-1
print(arr)

# Opc 03
# arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr[1::2]=-1
print(arr)

#Ejercicio 03
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
newarr = arr.reshape(5,2)
print(newarr)



---



# **02. Pandas (Análisis datos)**
Pandas es una biblioteca de Python de código abierto que se utiliza principalmente para el análisis de datos y la manipulación de datos estructurados. La biblioteca proporciona estructuras de datos flexibles y de alto rendimiento diseñadas para facilitar la manipulación de datos y el análisis estadístico en Python.

* Las estructuras de datos principales en Pandas son los objetos Series y DataFrame. Un **Series** es un arreglo unidimensional etiquetado de datos, mientras que un **DataFrame** es una estructura de datos bidimensional etiquetada con columnas de tipos potencialmente diferentes. Estos objetos permiten trabajar con datos estructurados y realizar operaciones como selección, filtrado, agrupamiento, fusión y pivote.

* Además, Pandas también proporciona funciones para leer y escribir datos desde y hacia varios formatos, incluyendo archivos CSV, Excel, SQL, JSON, HTML y más.

# **Sintaxis**

In [None]:
#Instalación de la libreria pandas en colab
# !pip install pandas

#Instalación de la libreria pandas en VSCode
# py -m pip install pandas
# pip install pandas

#Importación de la libreria pandas con alias de pd
import pandas as pd

#NOTA: No ejecutar los comandos al tiempo

# **Atributos**

Pandas tiene varios atributos útiles que proporcionan información sobre las estructuras de datos que estamos trabajando. Algunos de los atributos más comunes de Pandas son:

* **`shape`**: devuelve una tupla que representa la forma (número de filas y columnas) del DataFrame.
* **` index`**: devuelve la etiqueta de índice de las filas del DataFrame.
* **`columns`**: devuelve la etiqueta de las columnas del DataFrame.
* **`dtypes`**: devuelve los tipos de datos de las columnas del DataFrame.
* **`values`**: devuelve los valores del DataFrame como un ndarray.
* **`empty`**: devuelve True si el DataFrame está vacío, False en caso contrario.
* **`size`**: devuelve el número total de elementos en el DataFrame.
* **`ndim`**: devuelve la cantidad de dimensiones del DataFrame (1 para Series, 2 para DataFrame).

In [None]:
import pandas as pd

# Crear un DataFrame
datos = pd.DataFrame ({
   'Nombre': ['Juan', 'Ana', 'Pedro', 'Lucia'],
   'Edad': [25, 30, 28, 22],
   'Ciudad': ['Bogotá', 'Medellín', 'Cali', 'Barranquilla'],
   'Profesion': ['Sistemas', 'Medicina', 'Mercadeo', 'Educacion'],
    })

# Imprimir la forma del DataFrame
print(datos.shape, "\n")

# Imprimir las etiquetas de índice
print(datos.index, "\n")

# Imprimir las etiquetas de columnas
print(datos.columns, "\n")

# Imprimir los tipos de datos de las columnas
print(datos.dtypes, "\n")

# Imprimir los valores del DataFrame
print(datos.values, "\n")

# Imprimir si el DataFrame está vacío
print(datos.empty, "\n")

# Imprimir el número total de elementos en el DataFrame
print(datos.size, "\n")

# Imprimir la cantidad de dimensiones del DataFrame
print(datos.ndim)

# **Métodos**
Algunos de los métodos más comunes de Pandas son los siguientes:

* **`pd.read_csv()`**: lee un archivo CSV y lo convierte en un DataFrame de Pandas.
* **`df.head()`**: devuelve las primeras filas de un DataFrame.
* **`df.tail()`**: devuelve las últimas filas de un DataFrame.
* **`df.info()`**: muestra información sobre un DataFrame, incluyendo su tamaño y tipo de datos.
* **`df.describe()`**: proporciona estadísticas descriptivas para un DataFrame, como la media, la desviación estándar, el mínimo y el máximo.
* **`df.dropna()`**: elimina las filas que contienen valores nulos o faltantes de un DataFrame.
* **`df.fillna()`**: rellena los valores nulos o faltantes de un DataFrame con un valor especificado.
* **`df.groupby()`**: agrupa las filas de un DataFrame según los valores de una o más columnas y realiza operaciones agregadas en cada grupo.
* **`df.merge()`**: combina dos DataFrames en uno solo mediante una columna común.
* **`df.pivot_table()`**: crea una tabla dinámica a partir de un DataFrame.
* **`df.plot()`**: crea un gráfico a partir de los datos de un DataFrame.
* **`df.to_csv()`**: guarda un DataFrame como un archivo CSV.

# **Gestion de archivos**

# Archivos Planos

`import pandas as pd`

`dataframe = pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, dtype=None)`

**Parametros:**

* **`filepath_or_buffer`**: es la ruta del archivo CSV que se desea leer. Puede ser una ruta absoluta o relativa.
sep: es el delimitador que se utiliza para separar los campos en el archivo CSV. Por defecto es ','.
* **`delimiter`**: también es un delimitador que se utiliza para separar los campos en el archivo CSV. Si se especifica, anula el valor de sep.
* **`header`**: indica la fila del archivo CSV que se utilizará como encabezado de la tabla. Por defecto es 'infer', lo que significa que Pandas utiliza la primera fila del archivo CSV como encabezado.
* **`names`**: es una lista de nombres que se utilizarán como encabezados de la tabla. Si se especifica, anula el valor de header.
* **`index_col`**: indica la columna que se utilizará como índice de la tabla. Por defecto es None, lo que significa que no se utiliza ninguna columna como índice.
* **`usecols`**: es una lista de nombres de columnas o índices de columnas que se desean leer del archivo CSV.
* **`dtype`**: es

In [None]:
import pandas as pd
datasetPlano = pd.read_csv('CalificacionesTXT.csv', sep=';', encoding='ISO-8859-1')

# Uso de los principales metodos
print(datasetPlano)
print()
print(datasetPlano.head())
print()
print(datasetPlano.tail())
print()
print(datasetPlano.info())
print()
print(datasetPlano.describe())

# Archivos de Excel
`import pandas as pd`
`data = pd.read_excel('ruta/archivo.xlsx', sheet_name='nombre_hoja', header=0, index_col=0)`

Parametros: **texto en negrita**
* **`'ruta/archivo.xlsx'`**: es la ruta y nombre del archivo Excel que se desea leer.
* **`'nombre_hoja'`**: es el nombre de la hoja dentro del archivo que se desea leer. Si no se especifica este argumento, se leerá la primera hoja por defecto.
* **`header=0`**: indica que la primera fila del archivo contiene los nombres de las columnas.
* **`index_col=0`**: indica que la primera columna del archivo contiene los índices de las filas.


In [None]:
# Gestion de archivos excel
import pandas as pd
datasetExcel = pd.read_excel('Calificaciones.xlsx')
datasetExcel

# Uso de los principales metodos para informacion general del dataset
print(datasetExcel)
print()
print(datasetExcel.head())
print()
print(datasetExcel.tail())
print()
print(datasetExcel.info())
print()
print(datasetExcel.describe())

# URLs


In [None]:
# URL de archivo plano en cualquier host - Github
import pandas as pd
url = 'https://raw.githubusercontent.com/majash29/CienciaDatosSENA/main/CalificacionesTXT.csv'
datasetExcelURL = pd.read_csv(url, sep=';', encoding='ISO-8859-1')
datasetExcelURL

# Uso de los principales metodos para informacion general del dataset
print(datasetExcelURL)
print()
print(datasetExcelURL.head())
print()
print(datasetExcelURL.tail())
print()
print(datasetExcelURL.info())
print()
print(datasetExcelURL.describe())

In [None]:
# URL de archivo Excel en cualquier host - Github
import pandas as pd
url = 'https://raw.githubusercontent.com/majash29/CienciaDatosSENA/main/Calificaciones.xlsx'
datasetExcelURL = pd.read_excel(url, sheet_name='Hoja1')
datasetExcelURL

# Uso de los principales metodos para informacion general del dataset
print(datasetExcelURL)
print()
print(datasetExcelURL.head())
print()
print(datasetExcelURL.tail())
print()
print(datasetExcelURL.info())
print()
print(datasetExcelURL.describe())

In [None]:
# URL de drive
import pandas as pd
url = 'https://docs.google.com/spreadsheets/d/1d6nkUnWw5r41IDQA7ggWAUIeMR4Zc9fc/edit?usp=sharing&ouid=112617284460207758071&rtpof=true&sd=true'
path = 'https://drive.google.com/uc?export=download&id='+url.split('/')[-2]
datasetExcelURL = pd.read_excel(path,  index_col=0)
datasetExcelURL

# Uso de los principales metodos para informacion general del dataset
print(datasetExcelURL)
print()
print(datasetExcelURL.head())
print()
print(datasetExcelURL.tail())
print()
print(datasetExcelURL.info())
print()
print(datasetExcelURL.describe())

# **Aplicacion de dataFrame**

In [24]:
import pandas as pd
url = 'https://docs.google.com/spreadsheets/d/1d6nkUnWw5r41IDQA7ggWAUIeMR4Zc9fc/edit?usp=sharing&ouid=112617284460207758071&rtpof=true&sd=true'
path = 'https://drive.google.com/uc?export=download&id='+url.split('/')[-2]
datasetExcelURL = pd.read_excel(path,  index_col=0)

print(datasetExcelURL)
print()
print(datasetExcelURL.info())

       NOMBRES  APELLIDOS        Programa     Genero  Matematicas  Español  \
ITEM                                                                         
1         Juan     García    Contabilidad  Masculino         1.66     2.19   
2        María      Pérez        Mercadeo   Femenino         3.21     2.54   
3        Pedro  Fernández        Sistemas  Masculino         3.10     3.11   
4          Ana    Sánchez  Administracion   Femenino          NaN     2.50   
5         Luis   González           Salud  Masculino         2.91     2.59   
6        Lucía   Martínez           Salud   Femenino         3.95     1.88   
7        Diego      López  Administracion  Masculino         4.20     1.69   
8     Fernanda     Torres        Sistemas   Femenino         4.08     1.68   
9       Miguel     Flores        Mercadeo  Masculino         4.06     3.64   
10    Carolina  Hernández    Contabilidad   Femenino         2.55     3.75   
11       Sofía       Díaz    Contabilidad   Femenino         1.7

In [None]:
# 01.1 Eliminar las filas con valores nulos del dataset completo
datasetNuevo = datasetExcelURL.dropna()
print(datasetNuevo)
print()
print(datasetNuevo.info())

In [None]:
# 01.2 Eliminar las filas con valores nulos de una categoria(columna) especifica
datasetNuevo = datasetExcelURL["Matematicas"]
datasetNuevo = datasetNuevo.dropna()
print(datasetNuevo)
print()
print(datasetNuevo.info())

In [None]:
# 02.1 Rellenar los valores nulos con el valor 0
datasetNuevo = datasetExcelURL.fillna(2.8)
print(datasetNuevo)
print()
print(datasetNuevo.info())

In [None]:
# 02.2 Rellenar las filas con valores nulos de una categoria(columna) especifica
datasetNuevo = datasetExcelURL["Idiomas"]
datasetNuevo = datasetNuevo.fillna(0.0)
print(datasetNuevo)
print()
print(datasetNuevo.info())

In [None]:
# 03. crea un gráfico a partir de los datos de un DataFrame.
print(datasetNuevo["Idiomas"].plot())
print(datasetNuevo["Español"].plot())

**Nota:** teniendo encuenta el entendimiento del negocio se debe tomar la determinacion para los datos faltantes si son remplazados por un valor determinado o si son eleiminados.


---



**df.groupby()** es un método de pandas que se utiliza para agrupar filas de un DataFrame según los valores de una o varias columnas y realizar operaciones en cada grupo.

La sintaxis básica del método es la siguiente:
```
dataframe.groupby('columna_a_agrupar').metodo_agregado()
```

Donde `'columna_a_agrupar'` es el nombre de la columna que se va a utilizar para agrupar las filas del DataFrame y metodo_agregado() es un método de agregación que se va a aplicar sobre los grupos. Algunos de los métodos de agregación más comunes son **`sum()`, `count()`, `mean()`, `min()`, `max()`**.

In [None]:
# 04. Agrupacion de informacion del dataset

# 04.1 Cantidad de estudiantes por programa
est_programa = datasetNuevo.groupby('Programa').count() # Opc01
print(est_programa,'\n')
est_programa = datasetNuevo.groupby('Programa').agg({'Programa': 'count'}) # Opc02
print(est_programa,'\n')
est_programa = datasetNuevo.groupby('Programa') # Opc03
print(est_programa.size(),'\n')

# 04.2 Cantidad de estudiantes por genero
est_genero = datasetNuevo.groupby('Genero').agg({'Genero': 'count'})
print(est_genero)
print()

# 04.3 Cantidad de estudiantes por programa y genero
est_programa_genero = datasetNuevo.groupby(['Programa','Genero']).agg({'Programa': 'count'})
print(est_programa_genero)
print()

est_programa_genero = datasetNuevo.groupby(['Programa','Genero'])
est_programa_genero.size()

# 04.4 Cantidad de estudiantes por programa que aprueban Matematicas
aprueba_matematicas = datasetNuevo['Matematicas'] >= 4.0
aprueba_matematicas = aprueba_matematicas.replace({False: 'No aprobado', True: 'Aprobado'}) #Opcional
estado_aprueba_matematicas = datasetNuevo.groupby(aprueba_matematicas)['Matematicas'].count()
print(estado_aprueba_matematicas)

In [None]:
# 05. Operaciones y generaion de nuevas columnas
datasetNuevo['Promedio'] = (datasetNuevo['Matematicas'] + datasetNuevo['Español'] + datasetNuevo['Ciencias'] + datasetNuevo['Idiomas']) / 4
print(datasetNuevo)

**pivot_table()** es un método de pandas que permite crear una tabla dinámica a partir de un DataFrame. Permite reorganizar y resumir los datos de un DataFrame de manera más conveniente. 

La sintaxis básica es la siguiente:

```
df.pivot_table(
  values=None, # Columna(s) para aplicar la operación
  index=None, # Columna(s) a utilizar como índice (filas)
  columns=None, # Columna(s) a utilizar como columnas
  aggfunc='mean', # Función de agregación a aplicar a los valores
  fill_value=None, # Valor a reemplazar los valores faltantes
  margins=False, # Agregar totales en los bordes
  margins_name='All' # Nombre de los totales del borde
)
```

In [None]:
# 06. Tablas de resumen o tablas dinamicas
tabla_dinamica = datasetNuevo.pivot_table(
    values=['Matematicas', 'Español', 'Ciencias', 'Idiomas'], 
    index=['Programa', 'Genero'], 
    aggfunc='mean',
)

print(tabla_dinamica)

In [27]:
# 07. Exportar el dataset procesado a un archivo

# 07.1 Exportar como un archivo de Excel
datasetNuevo.to_excel('datos.xlsx', index=False)

# 07.2 Exportar como un archivo de CSV
datasetNuevo.to_csv('datos.csv', index=False)