# **Módulo 2: Estructuración y manipulación de datos con Python**

El manejo de datos es el corazón de cualquier proyecto de análisis, y Python se ha consolidado como uno de los lenguajes más poderosos y versátiles para este propósito. En este módulo, nos sumergiremos en las técnicas fundamentales para la estructuración y manipulación de datos utilizando Python, proporcionando las bases necesarias para transformar datos crudos en información útil y procesable.

Comenzaremos explorando las estructuras de datos disponibles en Python, como listas, dataframes, pilas, colas, árboles y grafos. Estas estructuras permiten organizar y acceder a la información de manera eficiente, lo que es crucial cuando se trabaja con grandes volúmenes de datos o datos complejos. Además, abordaremos cómo manipular y transformar datos no estructurados, como textos, imágenes y datos provenientes de redes sociales, que requieren enfoques y herramientas específicas para su análisis.

El módulo también se centrará en el uso de librerías especializadas como NumPy y Pandas, que son esenciales para el análisis de datos en Python. Estas librerías ofrecen potentes funciones para la manipulación y el análisis de datos estructurados, permitiendo realizar operaciones avanzadas con facilidad y eficiencia.

Además, aprenderemos a trabajar con secuencias de datos utilizando herramientas como `re`, `string` e `itertools`, que son fundamentales para el procesamiento y análisis de cadenas de texto y otras secuencias de información. La habilidad para manipular secuencias es clave en tareas como la limpieza de datos y la preparación de datos para modelos de machine learning.

Finalmente, exploraremos las bases de la visualización de datos para representar de manera gráfica los resultados del análisis, facilitando la interpretación y comunicación de los hallazgos. Este módulo también incluirá casos prácticos que permitirán a los participantes aplicar las técnicas aprendidas en escenarios reales, consolidando así los conceptos y habilidades adquiridos.

## **Archivos planos con Numpy y Pandas**

En esta sección aprenderás a importar datos a Python desde todo tipo de archivos planos, que son una forma sencilla y frecuente de almacenamiento de datos. Ya has aprendido a utilizar NumPy y Pandas: aprenderás a utilizar estos paquetes para importar archivos planos y personalizar tus importaciones.

### **Archivos planos**

Los archivos de texto plano se pueden clasificar en dos grandes tipos:

1. **Archivos que contienen texto sin formato** . Por ejemplo:

  ![no estructurado](_image/noestructurado.png)

2.  **Archivos que contienen registros estructurados**. Un ejemplo es el conjunto de datos del Titanic 

  ![estructurado](_image/estructurado.png)

  En este archivo, cada columna representa una característica o rasgo, como el género, la cabina o si la persona sobrevivió, mientras que cada fila corresponde a una persona que estaba a bordo del Titanic.

Es fundamental que cualquier científico de datos comprenda el concepto de **archivo plano**. Estos son archivos de texto simples que contienen datos organizados en tablas, pero sin relaciones estructuradas complejas.

Es probable que hayas notado que la extensión del archivo es `.csv`. Tal vez te preguntes qué significa:

* `.csv` (Comma-Separated Values): Archivo en el que los valores están separados por comas.
* `.txt`: Archivo de texto simple.
* `.tsv` (Tab-Separated Values): Archivo en el que los valores están separados por tabulaciones.

Los valores en archivos planos pueden estar separados por diferentes caracteres, como comas o tabulaciones, conocidos como **delimitadores**. Estos delimitadores permiten organizar y estructurar los datos de manera sencilla y efectiva.

Ahora, para consultar cualquier archivo de texto sin formato, que debemos hacer:
* Asignar el nombre del archivo a una variable como una cadena.
* Usamos la función básica `open` de Python para abrir una conexión al archivo y le pasamos el argumento `mode='r'`, lo que garantiza que solo podamos leerlo.
*  Despues le asignamos el texto del archivo a una variable `text` aplicando el método `read` a la conexión al archivo. 
* Después asegúrese de cerrar la conexión al archivo usando el comando `file.close`.

Miremos un ejemplo:

In [26]:
filename = '_data/elprincipito.txt'
file = open(filename, mode='r') # 'r' es de lectura
text = file.read()
file.close()

In [None]:
# Imprimir el texto
print(text)

:::{admonition} **Observación**
:class: attention

- Para abrir un archivo en modo de escritura, debes usar `mode='w'`

```python
filename = '_data/escritura.txt'
file = open(filename, mode='w')  # 'w' es para escritura


# Escribir texto en el archivo
file.write("Era un pequeño príncipe que vivía en un planeta apenas más grande que él.")

# Cerrar el archivo después de escribir
file.close()
```

- Para verificar el contenido escrito en `escritura.txt`, primero debes abrir el archivo en modo de escritura como se muestra arriba. Luego, abre el archivo en modo de lectura para ver el contenido:

```python
# Abrir el archivo en modo lectura
file = open(filename, mode='r')  # 'r' es para lectura

# Leer el contenido del archivo
content = file.read()

# Imprimir el contenido
print(content)

# Cerrar el archivo después de leer
file.close()
```
:::

Puedes evitar tener que cerrar la conexión al archivo utilizando una declaración `with`. Esto le permite crear un contexto en el que puede ejecutar comandos con el archivo abierto. Una vez fuera de esta cláusula o contexto, el archivo ya no está abierto y, por esta razón, `with` se denomina **administrador de contexto**. Realmente asegura que el archivo se cierre correctamente, incluso si ocurre un error durante la escritura. Por ejemplo:

In [None]:
with open('_data/elprincipito.txt',mode ='r') as file:
    print(file.read())

:::{admonition} **Ejercicios**
:class: tip

1.  Abre el archivo de texto `GabrielGarciaMarquez.txt` e imprimelo. Utiliza el administrador de contexto `with`.
2.  En el caso de archivos grandes, puede que no queramos imprimir todo su contenido en el shell: tal vez quieras imprimir sólo las primeras líneas. Use el archivo de texto `GabrielGarciaMarquez.txt` e imprima las 3 primeras líneas. **Sugerencia**: use el método `readline()`.
:::

### **Importación y exportación de archivos planos con Numpy**

Ahora que sabes cómo usar la función incorporada `open` de Python para abrir archivos de texto, veamos cómo importar un archivo plano y asignarlo a una variable. Si todos los datos son numéricos, puedes usar el paquete NumPy para importarlos como una matriz NumPy. ¿Por qué querríamos hacer esto?

:::{admonition} **Características de las matrices NumPy**
:class: note

1. **Eficiencia y velocidad**:  
   - Las matrices NumPy son el estándar de Python para almacenar datos numéricos debido a su eficiencia y rapidez.  
   - Son ideales para manejar grandes volúmenes de datos de manera limpia y ordenada.

   ```{figure} /_image/NumPy.png
   :align: center
   :name: Imagen de numpy
   :scale: 10
   ```
   

2.  **Compatibilidad con otros paquetes**:
    - NumPy es esencial para muchos otros paquetes en Python, como `scikit-learn`, un popular paquete de aprendizaje automático.

    ```{figure} /_image/scikitlearn.png
    :align: center
    :name: Imagen de ScikitLearn
    :scale: 40
    ```
    
    - Al trabajar con scikit-learn, es común que los datos estén en formato de matriz NumPy.
:::

`NumPy` tiene varias funciones integradas que nos permiten importar datos como matrices de forma mucho más sencilla y eficiente. Aquí se encuentran las funciones `loadtxt` y `genfromtxt`.

1. **loadtxt**: Importa datos de un archivo de texto como una matriz NumPy. Por ejemplo

In [None]:
import numpy as np

# dataset
# mnist es una colección de dígitos manuscritos del 0 al 9

filename = '_data/mnist.csv'
dataset = np.loadtxt(filename,delimiter=',')

dataset

Algunos argumentos adicionales de `loadtxt`

* `skiprows`: Si deseas omitir la primera fila (por ejemplo, un encabezado), puedes usar `skiprows=1`.

In [None]:
dataset = np.loadtxt('_data/babosa.txt', delimiter='\t', skiprows=1)
dataset

* `usecols`: Si solo quieres importar columnas específicas, usa `usecols` con una lista de los índices de las columnas.

In [None]:
dataset = np.loadtxt('_data/50_Startups.csv', delimiter=',',usecols=[0,1,2,4], skiprows=1)
dataset

* `dtype`: Te ayuda a importar diferentes tipos de datos en matrices. `dtype=str` garantiza que todas las entradas se importen como cadenas

In [None]:
dataset = np.loadtxt('_data/50_Startups.csv', delimiter=',',dtype=str)
dataset

:::{admonition} **Observación**
:class: warning

Aunque `loadtxt` es útil para casos básicos. Si encuentra datos que no se pueden convertir al tipo especificado (por defecto, flotantes), generará un error, lo que puede detener el proceso de carga de datos.
:::

2. **genfromtxt**: Similar a `loadtxt`, pero más flexible para manejar datos mixtos. Además, cuando usamos `dtype=None` permite que NumPy adivine el tipo de datos para cada columna. Por ejemplo:

In [None]:
data = np.genfromtxt('_data/mnist.csv', delimiter=',', dtype=None)
data

:::{admonition} **Ejercicios**
:class: tip

Del archivo `digitos.txt`, que tiene la primera fila con los nombres de las variables y está delimitado por tabulaciones. Importe solo las 3 primeras columnas del archivo plano. Imprime la primera fila

:::

Ahora, para exportar archivos planos usando `NumPy`, puedes utilizar la función `numpy.savetxt()`. Esta función es muy útil para guardar datos en un archivo de texto con un formato específico. Aquí te muestro un ejemplo básico:

In [12]:
# Crear una matriz NumPy
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# Guardar la matriz en un archivo de texto
np.savetxt('_data/archivo.txt', data, fmt='%d', delimiter=',')

Una breve explicación de los parámetros es la siguiente:

* `'archivo.txt'`: Nombre del archivo en el que se guardarán los datos.
* `data`: La matriz `NumPy` que deseas guardar.
* `fmt='%d'`: El formato en el que los datos se guardarán (en este caso, enteros). Puedes ajustar el formato según el tipo de datos que estás manejando (por ejemplo, %.2f para números de punto flotante con dos decimales).
* `delimiter=','`: El delimitador que separa los valores en el archivo. Aquí se usa una coma, pero puedes cambiarlo a otro carácter como un espacio `' '` o un punto y coma `';'`.

Si quieres agregar un encabezado al archivo, puedes hacerlo con el parámetro `header`:

In [13]:
np.savetxt('_data/archivo.csv', data, fmt='%d', 
           delimiter=',', header='Columna1,Columna2,Columna3')

### **Importación y exportación de archivos planos con Pandas**

En la ciencia de datos, se requiere manejar *estructuras de datos etiquetadas bidimensionales con columnas de tipos potencialmente diferentes*, algo que las matrices `NumPy` no pueden satisfacer completamente. Esta necesidad impulsó a **Wes McKinney** a desarrollar la biblioteca `Pandas` para `Python`, que se ha convertido en una herramienta esencial para los científicos de datos.

`Pandas` es una biblioteca de `Python` que permite llevar a cabo todo el flujo de trabajo de análisis de datos sin cambiar a otro lenguaje específico como `R`. La estructura de datos más relevante en `Pandas` es el DataFrame, que es el análogo Pythonic del marco de datos en `R`.


:::{admonition} **Características claves de Pandas**
:class: note

- **Importación de datos**: `Pandas` facilita la importación de archivos planos, bases de datos, archivos Excel, entre otros, como DataFrames.

- **Estructuras de datos etiquetadas**: Los DataFrames permiten manipular y analizar datos con etiquetas en filas y columnas, lo que facilita el manejo de diferentes tipos de datos en un solo lugar.

- **Manipulación de datos**: `Pandas` ofrece funciones para cortar, remodelar, agrupar, unir y fusionar datos de manera eficiente.

- **Estadísticas y manejo de valores faltantes**: Realiza cálculos estadísticos sin afectar los valores faltantes y proporciona herramientas para manejar series temporales.

:::

Ahora importemos un archivo plano con `Pandas`:

In [None]:
import pandas as pd

# Importar un archivo CSV como DataFrame
filename = '_data/winequality-red.csv'
data = pd.read_csv(filename)

# Ver las primeras 5 filas del DataFrame
data.head()


También podemos convertir fácilmente el DataFrame en una matriz `numpy`. 

In [None]:
data_array = data.to_numpy()
data_array

:::{admonition} **Observación**
:class: warning

1. `Pandas` simplifica la manipulación y análisis de datos, permitiendo realizar operaciones complejas con un código conciso y legible.

2. Es compatible con muchas fuentes de datos, lo que lo convierte en una herramienta versátil para diferentes flujos de trabajo.

3. `Pandas` tiene una comunidad activa y una documentación extensa, lo que facilita el aprendizaje y la resolución de problemas. 
:::

Para familiarizarte más con `Pandas`, es recomendable experimentar importando archivos planos que presenten desafíos, como comentarios incrustados y cadenas que deben interpretarse como valores faltantes. Esto te permitirá dominar las herramientas de limpieza y preparación de datos que ofrece Pandas.

:::{admonition} **Ejercicios**
:class: tip

1. Importe el dataset del `titanic.csv`, guardelo en el objeto `df` y muestre las 5 ultimas filas.
2. Completa el código:

```python
# Asignar el nombre de archivo: file
file = 'digitos.csv'

# Leer las primeras 5 filas del archivo en un DataFrame: data
# Use nrow y header
# TU CODIGO

# Construir un de numpy a partir del DataFrame: data_array
# TU CODIGO

# Imprimir el tipo de dato de data_array en la consola
print(type(data_array))
```

3. Complete el código:

```python
# Asignar el nombre del archivo: file
file = 'titanic_corrupt.txt'

# Importar el archivo: data
data = pd.read_csv(file, sep=____, comment=____, na_values=____)

# Imprimir las primeras filas del DataFrame
print(data.head())
```

donde
* `sep=` es el delimitador que separa los campos en el archivo (en tu caso, debería ser `'\t'` o `','`).
* `comment=` especifica el carácter que indica el inicio de un comentario (en tu caso, debería ser `'#'` ).
* `na_values=` define los valores que deben ser interpretados como valores faltantes (puedes usar `'NA', 0 'NaN' o 'Nothing').
:::

Ahora, para exportar archivos planos usando `pandas`, puedes utilizar la función `to_csv()` para guardar datos en formato CSV. Aquí te muestro cómo hacerlo para archivos CSV y otros formatos comunes:

In [16]:
# Crear un DataFrame
data = {
    'Columna1': [1, 4, 7],
    'Columna2': [2, 5, 8],
    'Columna3': [3, 6, 9]
}
df = pd.DataFrame(data)

# Guardar el DataFrame en un archivo CSV
df.to_csv('_data/archivo.csv', index=False)

Una breve explicación de los parámetros de `to_csv()`:

* `'archivo.csv'`: Nombre del archivo CSV a generar.
* `index=False`: Evita que se guarde la columna de índices del DataFrame en el archivo CSV.

Puedes usar `to_csv()` con diferentes delimitadores para crear archivos de texto con otros formatos:

In [17]:
df.to_csv('_data/archivo.txt', sep='\t', index=False) 

## **Importación e exportación de datos de otros tipos de archivos**

Como científico de datos, es crucial saber cómo importar datos desde una variedad de tipos de archivo. En esta sección, exploraremos cómo importar datos en `Python` desde varios formatos importantes. Cubriremos:

* **Archivos serializados (Pickle)**: Usados para almacenar datos de manera eficiente en `Python`. El concepto de serializados (Pickle)  un archivo está motivado por lo siguiente: si bien puede ser fácil guardar una matriz `numpy` o un `dataframe` de `pandas` en un archivo plano, hay muchos otros tipos de datos, como diccionarios y listas, para los cuales no es obvio cómo almacenarlos.
* **Hojas de Cálculo Excel**: Permiten integrar datos de análisis de hojas de cálculo comunes.
* **Archivos SAS y Stata**: Formatoss utilizados en software de estadística y análisis de datos.

Aprenderás a manejar estos formatos para que puedas trabajar con una amplia gama de datos en tus proyectos de ciencia de datos.

### **Importación y exportación de datos serializados**

Los **datos serializados** es el proceso de convertir los datos que han sido convertidos de su formato original (por ejemplo, un diccionario, una lista, un objeto de clase, etc.) a una secuencia de bytes. Este proceso se llama **serialización** o **marshalling**. La serialización permite que estos datos se almacenen en un archivo, se envíen a través de una red o se transmitan entre diferentes partes de un programa de manera eficiente. En `Python`, la serialización es manejada por el módulo `pickle`.
 
:::{admonition} ¿Por qué serializar datos?
:class: tip dropdown

1. **Almacenamiento** : Puedes guardar un objeto complejo (como un diccionario o un árbol binario) en un archivo y cargarlo más tarde sin perder su estructura.

2. **Comunicación entre procesos**: Los datos serializados pueden enviarse entre diferentes procesos de un programa o entre programas diferentes (por ejemplo, entre un cliente y un servidor en una aplicación web).

3. **Persistencia de objetos**: Los datos serializados permiten almacenar el estado de un objeto, de modo que pueda ser restaurado más tarde y seguir funcionando donde se dejó.

:::

Por ejemplo

In [None]:
import pickle

with open('_data/data_fruta.pkl','rb') as file:
    data = pickle.load(file)
    
print(data)

:::{admonition} **Características de un archivo `.pkl`**:

Algunas característica son:

* Almacena una representación binaria de los objetos, lo que significa que el contenido del archivo no es legible por humanos. Solo se puede interpretar correctamente mediante deserialización utilizando `pickle` u otras herramientas compatibles con el formato.

* Es ideal para guardar estructuras de datos complejas, como diccionarios, listas, o incluso objetos personalizados en Python. Estos datos pueden ser restaurados más tarde a su estado original, lo que permite la persistencia de información entre sesiones de programación.

* Casi cualquier objeto de `Python` puede ser serializado a un archivo `.pkl`, incluyendo funciones y clases, lo que lo hace muy versátil.

:::

Ahora, exportemos los datos a un archivo `.pkl` usando `pickle` en `Python`, que es útil para serializar objetos de Python (como listas, diccionarios, o DataFrames). Aquí te muestro cómo hacerlo:

In [18]:
# Crear un objeto (por ejemplo, un diccionario)
data = {'a': 1, 'b': 2, 'c': 3}

# Guardar el objeto en un archivo pickle
with open('_data/archivo.pkl', 'wb') as file:
    pickle.dump(data, file)

:::{admonition} **Consideraciones**
:class: danger

1 **No cargues archivos `pickle` de fuentes no confiables**, ya que pueden ejecutar código malicioso durante la deserialización.

2. Archivos `pickle` son **específicos de `Python`**, por lo que no se pueden leer fácilmente en otros lenguajes de programación sin soporte para `pickle`.

:::

:::{admonition} **Ejercicios**
:class: tip

1. Complete el código:
```python
# Importar el paquete pickle 
# TU CÓDIGO

# Abre el archivo pickle y carga los datos llamados data: d
# TU CÓDIGO

# Imprime y el tipo de dato de d
# TU CÓDIGO
```

:::

### **Importación y exportación de datos en Excel**

Las hojas de cálculo de Excel son una herramienta universalmente conocida y ampliamente utilizada, especialmente en el ámbito del análisis de datos. Un archivo de Excel generalmente contiene múltiples hojas de cálculo, cada una de las cuales puede almacenar diferentes conjuntos de datos relacionados o independientes. En el contexto de la ciencia de datos, el manejo eficiente de estos archivos es fundamental, y la biblioteca `pandas` de `Python` se destaca como una herramienta poderosa para este propósito.

`Pandas` permite importar archivos de Excel de manera sencilla y convertir sus hojas de cálculo en DataFrames, que son estructuras de datos optimizadas para el análisis y la manipulación de datos. La conversión de las hojas de Excel a DataFrames facilita enormemente el trabajo con los datos, ya que pandas proporciona una amplia gama de funciones para exploración, transformación y análisis.

Para comenzar, se puede utilizar la función `ExcelFile` de pandas para cargar un archivo de Excel en una variable, generalmente llamada data o algún nombre descriptivo. Este objeto `ExcelFile` actúa como un contenedor del archivo de Excel, permitiendo el acceso a sus diferentes hojas sin necesidad de cargarlas todas en la memoria al mismo tiempo.

In [24]:
# Especifica el nombre del archivo de Excel
file = '_data/urbanpop.xlsx' 

# Carga el archivo de Excel en un objeto ExcelFile
data = pd.ExcelFile(file)

# Imprime la lista de nombres de las hojas en el archivo
print(data.sheet_names)

['1960-1966', '1967-1974', '1975-2011']


Esto indica que el archivo contiene tres hojas de cálculo, cada una correspondiente a un rango de años diferente.

Una vez que conoces los nombres de las hojas, puedes cargar cualquier hoja en particular como un DataFrame para empezar a analizar los datos. Para hacer esto, utilizas el método `parse` del objeto `ExcelFile`. Este método acepta un argumento, que puede ser el nombre de la hoja como una cadena o su índice como un número entero (no como un `float`, ya que Python no acepta índices de hojas en forma de floats).

In [None]:
# Cargar una hoja usando su nombre
df1 = data.parse('1960-1966') 

# Cargar una hoja usando su índice (comienza en 0)
df2 = data.parse(0)  

# imprimir las primeras filas
print(df1.head())

`pandas` es lo suficientemente inteligente para interpretar si le estás proporcionando un nombre de hoja o un índice, por lo que puedes utilizar cualquiera de los dos métodos según tu preferencia.

El método `read_excel()` de `pandas` es una función muy útil y versátil para leer archivos de Excel directamente en un DataFrame. A diferencia de `ExcelFile` y `parse()`, que se usan en conjunto cuando necesitas trabajar con múltiples hojas de un archivo de Excel, `read_excel()` es una función de uso directo que simplifica la lectura de una o más hojas de cálculo.

:::{admonition} ¿Cuándo usar `read_excel()`?
:class: tip dropdown

1. **Lectura directa de una hoja de Excel**: Si solo necesitas cargar una hoja específica de un archivo Excel sin necesidad de explorar todas las hojas primero, `read_excel()` es la mejor opción.

2. **Lectura de múltiples hojas**: Puedes leer varias hojas al mismo tiempo especificando una lista de nombres o índices de hojas.

3. **Simplicidad**: `read_excel()` es más directa y menos verbosa que el uso combinado de `ExcelFile` y `parse()`.
:::

Algunos ejemplos del uso de la función `read_excel()`

1. **Leer una sola hoja de cálculo**: Si sabes el nombre de la hoja que necesitas, puedes leerla directamente en un DataFrame:

In [None]:
# Lee la hoja '1960–1966' del archivo Excel y la carga en un DataFrame
df = pd.read_excel('urbanpop.xlsx', sheet_name='1960–1966')

O si prefieres usar el índice de la hoja:

In [None]:
# Lee la primera hoja (índice 0) del archivo Excel
df = pd.read_excel('urbanpop.xlsx', sheet_name=0)

2. **Leer múltiples hojas al mismo tiempo**: Si necesitas cargar varias hojas de un archivo de Excel, `read_excel()` puede hacerlo en una sola llamada y devolver un diccionario donde las llaves son los nombres de las hojas y los valores son los DataFrames correspondientes.

In [None]:
# Lee las hojas '1960–1966' y '1975–2011' del archivo Excel
sheets = pd.read_excel('urbanpop.xlsx', sheet_name=['1960–1966', '1975–2011'])

# Accede a cada DataFrame por el nombre de la hoja
df1 = sheets['1960–1966']
df2 = sheets['1975–2011']


3. **Leer todas las hojas de un archivo de Excel**: Si quieres leer todas las hojas del archivo de Excel sin tener que especificar sus nombres, puedes hacerlo pasando `None` al argumento `sheet_name`.

In [None]:
# Lee todas las hojas del archivo Excel
all_sheets = pd.read_excel('urbanpop.xlsx', sheet_name=None)

`read_excel()` es ideal para situaciones en las que necesitas una solución rápida y directa para leer archivos de Excel en `Python`. Su simplicidad lo hace la primera opción para la mayoría de los casos de uso, mientras que `ExcelFile` y `parse()` ofrecen más flexibilidad para tareas más complejas.

Ahora, para exportar datos a un archivo Excel usando pandas, puedes utilizar el método `to_excel()` del DataFrame. Aquí te muestro cómo hacerlo, con opciones para personalizar la exportación. Por ejemplo

In [None]:
# Crear un DataFrame
data = {
    'Columna1': [1, 4, 7],
    'Columna2': [2, 5, 8],
    'Columna3': [3, 6, 9]
}
df = pd.DataFrame(data)

# Guardar el DataFrame en un archivo Excel
df.to_excel('_data/archivo_nuevo.xlsx', index=False)

Si quieres exportar a múltiples hojas de un archivo excel, puedes guardar diferentes DataFrames en diferentes hojas del mismo archivo Excel usando un `ExcelWriter`:

In [29]:
with pd.ExcelWriter('_data/archivo_multihojas.xlsx') as writer:
    df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
    df2 = pd.DataFrame({'X': [5, 6], 'Y': [7, 8]})
    
    # Guardar DataFrames en hojas diferentes
    df1.to_excel(writer, sheet_name='Hoja1', index=False)
    df2.to_excel(writer, sheet_name='Hoja2', index=False)

:::{admonition} **Ejercicios**
:class: tip

1. Complete el código:
```python
# Asigna el nombre del archivo de excel battledeath: file
# TU CÓDIGO

# Cargar hoja de cálculo: xls
# TU CÓDIGO

# Imprimir nombres de hojas
# TU CÓDIGO
```

2. Usando el punto anterior: Complete

```python
# Cargar una hoja en un DataFrame por nombre: df1
df1 = xls.parse(__TU CÓDIGO__)

# Imprimir las primeras filas del DataFrame df1
print(__TU CÓDIGO__)

# Cargar una hoja en un DataFrame por índice: df2
df2 = xls.parse(__TU CÓDIGO__)

# Imprimir las primeras filas del DataFrame df2
print(__TU CÓDIGO__)
```

3. Usando el punto anterior. Complete en código en python. Sugerencia: Los valores pasados a `skiprows` y names deben ser todos del tipo `list`

```python
# Analizar la primera hoja y renombrar las columnas: df1
df1 = xls.parse(__TU CÓDIGO__, skiprows=__TU CÓDIGO__, names=__TU CÓDIGO__)

# Imprimir las primeras filas del DataFrame df1
print(df1.head())

# Analizar la primera columna de la segunda hoja y renombrar la columna: df2
df2 = xls.parse(__TU CÓDIGO__, usecols=__TU CÓDIGO__, skiprows=__TU CÓDIGO__, names=__TU CÓDIGO__)

# Imprimir las primeras filas del DataFrame df2
print(df2.head())

```
:::

### **Importación de archivos SAS y Stata usando Pandas**

Hay una amplia variedad de paquetes de software estadístico disponibles, y aunque no siempre necesites utilizarlos, como científico de datos es fundamental que puedas importar archivos de estos paquetes a tu entorno Python de manera efectiva. Esta habilidad te permitirá integrar y analizar datos de diversas fuentes, ampliando tu capacidad para realizar análisis más completos y profundos.

#### **Importación de archivos SAS**.

**SAS**: Acrónimo de *Statistical Analysis System* (Sistema de Análisis Estadístico). Es un software popular en análisis de negocios y bioestadística. Los archivos SAS son formatos utilizados en el software SAS para realizar análisis avanzados, multivariados, inteligencia empresarial, gestión de datos, análisis predictivos y es un estándar para que los estadísticos realicen análisis computacionales. La extensión común es `.sas7bdat` que sirve para archivos de conjunto de datos.

Miremos un ejemplo de la importación de estos archivos:

Antes de usar el paquete `sas7bdat`, se debe instalar con `pip install sas7bdat` 

In [None]:
 # Importa la clase SAS7BDAT del paquete sas7bdat
from sas7bdat import SAS7BDAT 

# Abre el archivo SAS usando un administrador de contexto
with SAS7BDAT('_data/sales.sas7bdat') as file:
    df_sas = file.to_data_frame()

# imprimir
print(df_sas)

:::{admonition} ¿Por qué mportar archivos SAS:?
:class: tip dropdown

SAS es un estándar en la industria para el análisis estadístico, especialmente en sectores como la bioestadística y análisis de negocios, por lo que la habilidad de importar y manejar estos archivos en Python es esencial para científicos de datos.

:::


Para exportar directamente a `.sas7bdat`, *tendrás que usar herramientas externas o software como SAS* . Alternativamente, podrías buscar librerías específicas para manejar archivos SAS en lugar de intentar escribir directamente en ese formato desde pandas.

#### **Importación de Archivos Stata**.

**Stata**: Un software de análisis estadístico y gestión de datos, especialmente valorado en investigación académica, incluyendo economía y epidemiología. Su área de uso es predominantemente utilizado en ciencias sociales y en investigación académica.

Los archivos Stata tienen la extensión `.dta` y podemos importarlos usando `pandas`. ¡Ni siquiera necesitamos inicializar un administrador de contexto en este caso! Simplemente pasamos el nombre del archivo a la función `read_stata` y lo asignamos a una variable, tal como se muestra a continuación:

In [None]:
# Leer el archivo Stata
df_stata = pd.read_stata('_data/disarea.dta')
df_stata

Ahora, para exportar archivos Stata (`.dta`) desde Python, puedes usar la biblioteca `pandas`, que tiene soporte nativo para leer y escribir archivos en formato Stata.

In [14]:
# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'columna1': [1, 2, 3],
    'columna2': ['A', 'B', 'C']
})

# Especifica el nombre del archivo de salida
archivo_stata = '_data/datos_exportados.dta'

# Exporta el DataFrame a un archivo Stata (.dta)
df.to_stata(archivo_stata, write_index=False)

Este método te permite exportar tus datos desde un DataFrame de `pandas` a un archivo Stata (`.dta`) de manera sencilla y efectiva.

:::{admonition} **Ejercicios**
:class: tip

1. Instala el paquete `h5py` y completa el código

```python
# Importar paquetes de numpy y h5py
# TU CODIGO

# Asigna el nombre del archivo a la variable file y use L-L1_LOSC_4_V1-1126259446-32
# TU CODIGO

# Carga el archivo como sólo lectura en la variable data
data = h5py.File(__# TU CODIGO__, __# TU CODIGO__)

# Imprime el tipo de dato de data
# TU CODIGO

# Imprime los nombres o claves grpde los grupos en el archivo
for key in __# TU CODIGO__:
    print(__# TU CODIGO__)
```

2. Instale el paquete `sqlalchemy` y complete el siguiente código

```python
# Crea el engine
# Importa la función create_engine, inspect del módulo sqlalchemy
# TU CODIGO

# un motor que se conecte a la base de datos SQLite
engine = create_engine('sqlite:///_data/Chinook.sqlite')

# Usa el Inspector para obtener los nombres de las tablas
inspector = # TU CODIGO
table_names = inspector.get_table_names()

# Imprime los nombres de las tablas
# TU CODIGO
```
Despues, veamos cómo hacer cada uno de estos pasos para obtener un DataFrame

```python
from sqlalchemy import text

# Abre la conexión al engine
with engine.connect() as con:
    # Ejecutar la consulta usando text()
    rs = con.execute(text('SELECT * FROM Album'))

    # Convertir el resultado en un DataFrame de pandas
    df = pd.DataFrame(rs.fetchall())

    # Asignar los nombres de las columnas
    df.columns = rs.keys()

# Mostrar el DataFrame
print(df.head())
```
Conectarse a los datos de album es más facil con `pandas`:

```python
# Ejecutar la consulta y almacenar los registros en un DataFrame: df
df = pd.read_sql_query('SELECT * FROM Album', engine)

# Imprimir las primeras filas del DataFrame
print(df.head())
```
:::

### **Importación de ficheros planos desde la web**

Ahora puedes importar datos en Python desde todo tipo de archivos planos como `.txt`, `.csv`, otros tipos de archivos como archivos `pickled`, hojas de cálculo de Excel y archivos SAS y Stata. También has adquirido una valiosa experiencia en la consulta de bases de datos relacionales para importar datos de ellas mediante SQL. Sin embargo, *todas estas habilidades implican la importación de datos de archivos que tiene localmente*. Sin embargo, estas habilidades usualmente implican trabajar con archivos locales. En muchos casos, como científico de datos, necesitarás **importar datos directamente desde la web**.

Por ejemplo, supongamos que necesitas obtener el conjunto de datos de unas campañas de marketing directo (llamadas telefónicas) de una institución bancaria portuguesa desde el repositorio de GitHub de cdeoroaguado. Aunque puedes hacerlo manualmente usando un navegador, este método no es reproducible ni escalable. Es más eficiente y profesional utilizar código Python para automatizar la descarga e importación de estos datos.

Para hacer el proceso de importación desde la Web debemos tener algunos conceptos claros.

El paquete `urllib` en Python proporciona una interfaz de alto nivel para obtener datos de la World Wide Web. En particular, la función `urlopen` es similar a la función integrada `open`, pero acepta URLs en lugar de nombres de archivo.

:::{admonition} **Características de `urllib`**

`urllib` tiene algunas funciones inmersas. Algunas son:

* **urlopen**: Abre una URL y devuelve un objeto similar a un archivo.
* **urlretrieve**: Descarga archivos directamente desde una URL y los guarda localmente.

:::

:::{admonition} **Observación**
:class: warning
* Es útil para tareas sencillas de importación de datos desde la web.
* Para tareas más complejas, podrías considerar el uso de `requests` junto con `BeautifulSoup`.

:::

In [None]:
# Importar el paquete
from urllib.request import urlretrieve

# Importar pandas
import pandas as pd

# Asignar la URL del archivo: url
url ='https://raw.githubusercontent.com/cdeoroaguado/jbook_ml202430/main/data/bank/bank.csv'

# Guardar el archivo localmente
urlretrieve(url,'_data/bank.csv')

# Leer el archivo en un DataFrame y mostrar sus primeras filas
df = pd.read_csv('_data/bank.csv', sep=';')

# Imprimir el encabezado del dataframe
df.head()

Tambíen, podias hacer la lectura de los datos, *sin descargalos*. Por ejemplo

In [None]:
# Asignar la URL del archivo: url
url ='https://raw.githubusercontent.com/cdeoroaguado/jbook_ml202430/main/data/bank/bank.csv'

# leer el archivo en u dataframe:df
df = pd.read_csv(url,sep=';')

# Imprimir el encabezado del dataframe
df.head()

## **Manipulación de datos con pandas**

La librería `pandas` (cuyo nombre deriva de *panel data*, un término utilizado para describir conjuntos de datos estructurados y multidimensionales) ofrece potentes estructuras de datos y funciones de alto nivel que facilitan el trabajo con datos estructurados de manera eficiente y cómoda. Es una herramienta esencial en el análisis de datos, ampliamente utilizada por su versatilidad y funcionalidad.

   ```{figure} /_image/pandas.png
   :align: center
   :name: Imagen de pandas
   :scale: 50
   ```

Entre los principales objetos que proporciona pandas se encuentran el `DataFrame`, una estructura tabular bidimensional, la `Serie`, ambos construidos sobre arrays multidimensionales de `NumPy` y el `Panel`, que representa un cubo de datos tridimensional. Aunque `NumPy` es excelente para el almacenamiento eficiente de datos con su estructura `ndarray, presenta ciertas limitaciones en análisis más complejos. Estas limitaciones incluyen la falta de flexibilidad para aplicar etiquetas a los datos, gestionar valores faltantes, realizar agrupaciones, entre otros. Pandas supera estas barreras con sus estructuras de datos avanzadas, proporcionando una mayor flexibilidad y funcionalidad.

Para más información, puedes consultar la [documentación oficial de pandas](https://pandas.pydata.org/), donde encontrarás recursos y ejemplos detallados para aprovechar al máximo esta poderosa librería.

**Recordemos algunas cosas de `pandas`**

Para iniciar el proceso de creación, manipulación, entre otras debemos instalar el ia en el terminal. **Recuerde activar el ambiente**.

![installpandas](_image/installpandas.png) 

Importemos la libreria `numpy` y `pandas`

In [2]:
import pandas as pd
import numpy as np

Ahora, daremos los conceptos y ejemplos de una `series`.

### **Series**

Las `series` son estructuras similares a los arrays unidimensionales que ya hemos visto, con la diferencia de que también son homogéneas. Esto significa que todos sus elementos deben ser del mismo tipo y que su tamaño es fijo, es decir, no se puede modificar una vez definido.

Vamos a comenzar creando una serie a partir de una lista. Primero, necesitamos definir una lista con algunos datos. Por ejemplo:

In [12]:
# Definimos una lista de trabajos
trabajos = ["Ingeniero de Software", "Analista de Datos",
            "Diseñador UX", "Gerente de Producto",
            "Científico de datos"]

# Creamos un índice personalizado para estos trabajos
indices = ["Empresa1", "Empresa2", "Empresa3", 
           "Empresa4","Empresa5"]

Para crear la serie en Pandas usando estos datos y con indices personalizados, utilizamos el siguiente código:

In [None]:
# Creamos una serie con los trabajos
serie = pd.Series(data=trabajos, dtype="string")
print(serie)

# Creamos una serie con el índice personalizado
serie = pd.Series(data=trabajos, index=indices, dtype="string")
print(serie)

Ahora, vamos a crear una serie a partir de un diccionario

In [None]:
# Definimos un diccionario con trabajos y sus respectivos salarios
diccionario = {
    "Ingeniero de Software": 70000,
    "Analista de Datos": 60000,
    "Diseñador UX": 65000,
    "Gerente de Producto": 80000,
    "Científico de datos": 65000
}

# Creamos una serie a partir del diccionario
serie_diccionario = pd.Series(diccionario)
print(serie_diccionario)

Para explorar algunos atributos de la `serie`, puedes usar los siguientes métodos:

In [None]:
# Tamaño de nuestra serie
print(serie_diccionario.size)

# imprimir la lista de los nombres de las filas
print(serie_diccionario.index)

# imprimir el tipo de datos
print(serie_diccionario.dtype)

Para acceder a los elementos de la `serie`

In [None]:
# Accedemos a un elemento específico usando su índice
print(serie_diccionario["Ingeniero de Software"])  

# Accedemos a un rango de valores
print(serie_diccionario[0:3])  

# Accedemos a múltiples elementos usando una lista de índices
print(serie_diccionario[["Diseñador UX", "Analista de Datos"]])

También puedes utilizar algunos métodos útiles para análisis, como:

In [None]:
# Usamos métodos para obtener estadísticas de la serie
print(serie_diccionario.count())  # Conteo de elementos no nulos
print(serie_diccionario.sum())  # Suma de los valores
print(serie_diccionario.cumsum())  # Valores acumulados
print(serie_diccionario.value_counts())  # Conteo de valores repetidos
print(serie_diccionario.min())  # Valor mínimo
print(serie_diccionario.max())  # Valor máximo
print(serie_diccionario.mean())  # Media de los valores
print(serie_diccionario.std())  # Desviación estándar
print(serie_diccionario.quantile(0.25))  # Cuantil 1 (25%)
print(serie_diccionario.quantile(0.75))  # Cuantil 3 (75%)
print(serie_diccionario.describe())  # Resumen descriptivo de la serie

Exploraremos cómo aplicar operaciones matemáticas y funciones a series de datos relacionadas con bancos, así como buscar información mediante condiciones, ordenar series y eliminar datos nulos o desconocidos.

1. **Operaciones Matemáticas Básicas**

Primero, veremos cómo aplicar operaciones matemáticas a una serie que representa los saldos de las cuentas bancarias. A continuación, presentamos algunos ejemplos prácticos:

In [None]:
# Una serie con saldos de cuentas bancarias

saldos = pd.Series([1500, 2000, 2500, 3000, 3500])

# Aumentar en 100 cada saldo
saldos = saldos + 100
print(saldos)

# Restar 200 a cada saldo
saldos = saldos - 200
print(saldos)

# Multiplicar cada saldo por 1.05 (aplicando un aumento del 5%)
saldos = saldos * 1.05
print(saldos)

# Dividir cada saldo por 2
saldos = saldos / 2
print(saldos)

# Comprobar si los saldos son pares o impares
print(saldos % 2)

# Aplicar la función logaritmo a cada saldo
print(saldos.apply(lambda x: np.log(x)))


Podemos aplicar funciones matemáticas a los saldos usando el método `apply`.Para ello debe importar el paquete `math`. Por ejemplo, para calcular el seno de cada saldo:

In [None]:
import math

# Calcular el seno de los salarios
print(saldos.apply(math.sin))

2. **Operaciones con Datos de Tipo String**

Supongamos que tenemos una serie con nombres de bancos y queremos repetir cada nombre un número específico de veces:

In [None]:
# Crear una serie con nombres de bancos
bancos = pd.Series(['banco A', 'banco B', 'banco C'])

# Repetir cada nombre 3 veces
print(bancos.apply(lambda x: x * 3))

# Capitalizar el nombre de cada banco
print(bancos.str.title())

# Convertir todos los caracteres a minúsculas
print(bancos.str.lower())

# Convertir todos los caracteres a mayúsculas
print(print(bancos.str.upper()))

# Eliminar espacios en blanco al principio y al final
print(bancos.str.strip())

# Eliminar espacios en blanco al principio
print(bancos.str.lstrip())

# Eliminar espacios en blanco al final
print(bancos.str.rstrip())

# Reemplazar 'Banco' por 'Entidad'
print(bancos.str.replace('banco', 'entidad'))

# Dividir cadenas en una lista de substrings por un delimitador
print(bancos.str.split(' '))

# Unir las cadenas en una sola con un delimitador
print(bancos.str.join(', '))

# Encontrar la posición de 'Banco' en cada cadena
print(bancos.str.find('banco'))

# Verificar si cada cadena contiene 'A'
print(bancos.str.contains('A'))

# Extraer los primeros 4 caracteres de cada cadena
print(bancos.str[:4])

# Contar el número de veces que aparece 'Banco'
print(bancos.str.count('banco'))

# Verificar si cada cadena comienza con 'banco'
bancos.str.startswith('banco')

# Verificar si cada cadena termina con 'A'
bancos.str.endswith('A')

# Reemplazar dígitos por 'X'
bancos.str.replace(r'\d+', 'X', regex=True)

# Obtener la longitud de cada cadena
bancos.str.len()

# Eliminar caracteres no alfabéticos
bancos.str.replace(r'[^a-zA-Z\s]', '', regex=True)

3. **Filtrado de Datos**

El objetivo es seleccionar saldos que cumplan una condición. Por ejemplo

In [None]:
# Seleccionar saldos mayores o iguales a 3000
print(saldos[saldos >= 3000])

# Seleccionar saldos diferentes a 3000
print(saldos[saldos != 3000])


4. **Ordenar series**

Para ordenar los saldos de manera ascendente o descendente:

In [None]:
# Ordenar los saldos de manera ascendente
print(saldos.sort_values(ascending=True))

# Ordenar los saldos de manera descendente
print(saldos.sort_values(ascending=False))

# Ordenar por índices de manera ascendente
print(saldos.sort_index(ascending=True))

# Ordenar por índices de manera descendente
print(saldos.sort_index(ascending=False))

5. **Eliminación de Datos Nulos y Desconocidos**

Finalmente, para eliminar datos nulos o desconocidos en la serie de saldos:

In [None]:
# Crear valores nulos en la serie de saldos
saldos = pd.Series([1500, np.nan, 2500, None, 3500])

# Eliminar valores nulos
saldos_limpios = saldos.dropna()
print(saldos_limpios)

Con estos ejemplos, has aprendido cómo realizar diversas operaciones con series relacionadas con datos bancarios en Pandas. En la próximo sección, exploraremos cómo trabajar con DataFrames.

### **Pandas**

En este módulo, profundizaremos en la creación de `DataFrames`, una de las estructuras de datos más versátiles y poderosas para la manipulación de información financiera. Exploraremos tres métodos distintos para construir DataFrames, cada uno con aplicaciones específicas en la industria bancaria.

Un `DataFrame` es una estructura bidimensional, similar a una tabla, que nos permite organizar y manipular datos con facilidad. En el contexto bancario, los DataFrames son ideales para manejar información de clientes, transacciones, productos financieros, y otros tipos de datos críticos.

#### **Método 1: Creación de DataFrames a partir de Diccionarios**

En este primer enfoque, utilizaremos un diccionario para organizar los datos de clientes bancarios. Las claves del diccionario representarán las columnas del DataFrame, tales como `Nombre`, `Edad`, `Saldo`, y `Calificación_Crédito`.

In [None]:
# Importación de la librería pandas
import pandas as pd

# Definición de los datos mediante un diccionario
clientes = {
    'Nombre': ['José', 'Rodolfo', 'María', 'Julieta'],
    'Edad': [45, 52, 34, 29],
    'Saldo': [50000, 70000, 60000, 15000],
    'Calificación_Crédito': [700, 750, 680, 720]
}

# Creación del DataFrame utilizando el diccionario
df_clientes = pd.DataFrame(clientes)

# Visualización del DataFrame
print(df_clientes)

Este enfoque es eficiente cuando se tiene un conjunto de datos bien estructurado, con columnas predefinidas y valores coherentes. Es comúnmente utilizado en situaciones donde los datos provienen de sistemas bancarios estructurados, como bases de datos relacionales.

#### **Método 2: Creación de DataFrames a partir de Listas Anidadas**

El siguiente método consiste en utilizar listas de listas para estructurar los datos. Este enfoque puede ser útil cuando los datos provienen de una fuente menos estructurada, como archivos CSV o entrada manual.

In [None]:
# Definición de los datos mediante listas anidadas
datos_clientes = [
    ['José', 45, 50000, 700],
    ['Rodolfo', 52, 70000, 750],
    ['María', 34, 60000, 680],
    ['Julieta', 29, 15000, 720]
]

# Definición de las columnas
columnas = ['Nombre', 'Edad', 'Saldo', 'Calificación_Crédito']

# Creación del DataFrame
df_clientes_lista = pd.DataFrame(datos_clientes, columns=columnas)

# Visualización del DataFrame
print(df_clientes_lista)

Este método es particularmente útil cuando los datos no están previamente etiquetados y requieren un procesamiento adicional para ser organizados en un formato tabular. Es frecuente en la integración de datos desde múltiples fuentes no homogéneas, como encuestas o registros de transacciones.

#### **Método 3: Creación de DataFrames a partir de Listas de Diccionarios**

Finalmente, exploraremos cómo crear un DataFrame a partir de una lista de diccionarios. Este método es flexible y permite manejar datos con campos opcionales o información incompleta, algo común en grandes bases de datos bancarias.

In [None]:
# Definición de los datos mediante una lista de diccionarios
clientes_dict = [
    {'Nombre': 'José', 'Edad': 45, 'Saldo': 50000, 'Calificación_Crédito': 700},
    {'Nombre': 'Rodolfo', 'Edad': 52, 'Saldo': 70000, 'Calificación_Crédito': 750},
    {'Nombre': 'María', 'Edad': 34, 'Saldo': 60000},  # Falta calificación de crédito
    {'Nombre': 'Julieta', 'Edad': 29, 'Calificación_Crédito': 720},  # Falta saldo
    {'Edad': 28, 'Saldo': 30000}  # Faltan nombre y calificación de crédito
]

# Creación del DataFrame
df_clientes_dict = pd.DataFrame(clientes_dict)

# Visualización del DataFrame
print(df_clientes_dict)

La capacidad de manejar datos incompletos o parcialmente definidos es crucial en el análisis de datos bancarios, donde la información puede provenir de fuentes dispares y no siempre estará completa. Este método permite construir DataFrames robustos que pueden ser limpiados o completados en etapas posteriores del análisis.

:::{admonition} **Observación**
:class: warning
Algunas diferencias clave entre una Serie (`Series`) y un `DataFrame` en `Pandas`:

1. **Dimensionalidad**:

    * **Serie**: Es unidimensional, como una lista o columna única de datos.
    * **DataFrame**: Es bidimensional, similar a una tabla con múltiples filas y columnas.

2. **Estructura**:

    * **Serie**: Contiene una sola columna de datos con un índice.
    * **DataFrame**: Contiene múltiples columnas, cada una de las cuales es una Serie.

3. **Uso**:

    * **Serie**: Ideal para manejar una sola secuencia de datos.
    * **DataFrame**: Ideal para trabajar con datos tabulares que tienen múltiples variables o características.

4. **Etiquetas del Eje**:

    * **Serie**: Tiene un único conjunto de etiquetas o índice asociado con los datos.
    * **DataFrame**: Tiene dos ejes de etiquetas: uno para las filas (índice) y otro para las columnas.

5: **Operaciones de Agregación**:

    * **Serie**: Las operaciones de agregación, como la suma o el promedio, se aplican directamente a la secuencia de datos.
    * **DataFrame**: Puedes aplicar operaciones de agregación a lo largo de filas o columnas, permitiendo un análisis más detallado y comparativo.
    
:::

### **Manipulación**

La manipulación de datos con Pandas es una de las habilidades fundamentales en el análisis de datos. `Pandas` es una biblioteca de Python que proporciona estructuras de datos fáciles de usar, como Series y DataFrames, que permiten realizar operaciones y transformaciones complejas de manera sencilla y eficiente.

Ahora carguemos el conjunto de datos de **marketing del banco** `bank-full`. 

Los datos están relacionados con `campañas de marketing directo` (llamadas telefónicas) de una institución bancaria portuguesa.

Este conjunto de datos tiene 4521 observaciones y 17 variables. Las variables son:

* **age:** Edad del cliente.
* **job**: Profesión del cliente (por ejemplo, desempleado, servicios, gestión).
* **marital**: Estado civil del cliente (soltero, casado, divorciado).
* **education**: Nivel educativo del cliente (primaria, secundaria, terciaria).
* **default** : Indica si el cliente tiene crédito en incumplimiento (sí o no).
* **balance**: Saldo promedio anual de la cuenta bancaria del cliente.
* **housing**: Indica si el cliente tiene un préstamo hipotecario (sí o no).
* **loan**: Indica si el cliente tiene un préstamo personal (sí o no).
* **contact**: Tipo de comunicación de contacto (teléfono celular, teléfono fijo).
* **day**: Día del mes en que se realizó el último contacto con el cliente.
* **month**: Mes en que se realizó el último contacto con el cliente.
* **duration**: Duración del último contacto en segundos.
* **campaign**: Número de contactos realizados durante esta campaña de marketing.
* **pdays**: Días que han pasado desde que el cliente fue contactado por última vez en una campaña anterior (valores -1 indican que el cliente no fue contactado previamente).
* **previous**: Número de contactos realizados antes de esta campaña.
* **poutcome**: Resultado de una campaña de marketing anterior (éxito, fracaso, desconocido).
* **y**: Resultado de la campaña actual (si el cliente suscribió o no un depósito a plazo fijo).

In [None]:
# importar librerias
import pandas as pd
import numpy as np

# Asignar la URL del archivo: url
url ='https://raw.githubusercontent.com/cdeoroaguado/jbook_ml202430/main/data/bank/bank-full.csv'

# leer el archivo en u dataframe:df
df = pd.read_csv(url,sep=';')

# Imprimir el encabezado del dataframe
df.head()

# Mostrar las 5 ultimas filas de DataFrame
df.tail()

# Concatenar el encabezado y las últimas 5 filas del DataFrame
result = pd.concat([df.head(), df.tail()])
print(result)

Las dimensiones del dataset:

In [9]:
# Obtener las dimensiones del DataFrame
df.shape

(45211, 17)

Información de la estructura del dataset de marketing:

In [None]:
# Obtener información sobre la estructura del DataFrame
df.info()


El atributo `df.size` en pandas devuelve el número total de elementos en un `DataFrame`. Esto se calcula multiplicando el número de filas por el número de columnas. Es útil para obtener una visión rápida del tamaño total del DataFrame en términos de elementos.

In [12]:
# número total de elementos en el dataframe
df.size

768587

Ahora, el nombres de las variables, el indice, el tipo de dato del dataset de marketing

In [None]:
# nombre de las variables
print(df.columns)

# Obtener el índice del DataFrame
print(df.index)

# tipo de dato
print(df.dtypes)

:::{admonition} **Observación**
:class: warning
1. Si quieres cambiar el nombre de las columnas o los indices. Usas `df.rename` de la siguiente forma
```python
df.rename(columns={},index={})
```

2. Para reindexar un dataframe. Usa `df.reindex` de la siguiente manera
```python
df.reindex(index = [],columns = [],fill_value=')
```
:::