# **<p align="left">Formación Complementaria - Manejo y Análisis de DataFrames</p>**
## **<p align="left">Viernes de código</p>**
<img src='uninorte.png' style='width:2000px;height:600px'/>

## **<p align="right">José David Mendoza Pérez</p>**
#### **<p align="right">2023</p>**
---
```python
# ¡Hola!

# Si estás aqui, probablemente quieras explorar un poco más sobre el manejo y análisis de DataFrames (cuadros de datos). ¡Eso es genial! Me gusta tu iniciativa 😎.

# Probablemente te preguntarás "¿a qué se refiere Pepe con "formación complementaria"?" (y si no, bueno... no importa, pero supongamos sí). Lo que busco en este espacio es hacer un breve resumen de lo que trabajamos en el marco de manejo de dataframes en y análisis de las sesiones 5, 6, 7 y 8 de nuestro curso. Creo que es una herramienta que les servirá para consolidar lo que hemos hecho, especialmente para aquellos que quizá se les dificultó asistir a esas sesiones.

# La idea es enmarcar los conceptos clave que trabajamos en esta segunda parte del curso, así como servirles de guía a ustedes en caso de que quieran explorar más allá de lo realizado en Viernes de Código (eso sería lo ideal). Recuerden que cualquier duda, pregunta o comentario pueden realizarlo en el grupo de Discord (también pueden enviarme un correo, pero capaz y demoro más por ahí).

# Después de esta introducción larga (aunque a mi parecer  necesaria), ¡empecemos!
```
---
```python
Pero antes de empezar, me gustaría separar por partes las cosas que hicimos en cada una de las sesiones para que tengan un hilo conductor y facilitar el proceso de retroalimentación.

En resumen, lo que hicimos en las sesiones fue lo siguiente:
```
---
<details>
<summary>Mostrar resumen</summary>

### 1. Sesiones 5 y 6 - Manejo de Dataframes I y II

#### 1.1. Importación de datos en distintos formatos (.xlsx, .csv, .dta).

#### 1.2. Caracterización de nuestro dataframe (tamaño, nombre de columnas, tipo de datos de las columnas, valores máximos o mínimos para variables numéricas).

#### 1.3. Manejo de columnas (seleccionar, renombrar, eliminar, crear, etc).

#### 1.4. Operaciones aritméticas entre columnas (suma, resta, multiplicación, división, etc).

#### 1.5. Estadísticas descriptivas de variables (contar, moda, media, desviación estándar, máximo, mínimo).

#### 1.6. Formato Long - Wide de dataframes.

---

### 2. Sesiones 7 (22/09/2023) y 8 (29/09/2023) - Análisis y Tratamiento de Bases de Datos

#### 2.1. Exploración de DataFrame (head, tail, info).

#### 2.2. Limpieza de bases de datos (data cleansing/cleaning):
 - ##### 2.2.1. Remover datos nulos.
 - ##### 2.2.2. Renombrar columnas.
 - ##### 2.2.3. Crear bucles para automatizar procesos (en caso de ser factible).
 - ##### 2.2.4. Representaciones visuales de nuestros datos (gráficos descriptivos).

#### 2.3. Exportar datos trabajados.
---

```python
# Con nuestro hilo conductor listo, prosigamos.

# Entonces, ¿qué procede? A continuación encontrarán de forma detallada cada una de las secciones anteriormente descritas.
```

---

### 1. Sesiones 5 y 6 - Manejo de Dataframes I y II
```python
Paquetes que usaremos en las sesiones 5 y 6:
Pandas # Tratamiento de bases de datos (dataframes).
Openpyxl # Importar archivos .xlsx, .csv
Numpy # Cálculos numéricos
(En caso de no contar con estos paquetes en su entorno de desarrollo, por favor ejecuta el siguiente código)

%pip install pandas
%pip install openpyxl
%pip install numpy

# Empecemos con la sección 1.1.
```
---
<details>
<summary>Mostrar sección 1.1.</summary>

#### 1.1. Importación de Datos en Distintos Formatos (.xlsx, .csv, .dta).

```python
import pandas as pd
# Pandas nos servirá para el manejo fundamental de nuestras bases de datos, desde importarlas a nuestro entorno de trabajo hasta hacer limpieza de datos. Por ahora centrémonos en la importación de datos como dataframes.

# Para importar bases de datos tendremos que crear un código específico dependiendo del tipo de formato en que se presente. Por ejemplo:
# Si nuestra base de datos es formato excel (.xls o xlsx), usaremos el siguiente código:

df_xlsx = pd.read_excel("base de datos.xlsx", sheet_name="", skiprows=0)
Donde:

df_xlsx # Es el nombre que le asignamos a nuestro dataframe al importarlo a nuestro entorno de trabajo.
pd # Es la extensión Pandas.
.read_excel("base de datos.xlsx") # Es el comando para importar bases de datos de excel (ya sea .xls o .xlsx). xls es la extensión de Excel para versiones 2007 o anteriores, así que puede que lo necesiten en caso de trabajar con bases de datos de esa antigüedad.
sheet_name = "" # Es la hoja que queremos importar (por defecto importará la primera hoja que aparezca en el dataframe).
skiprows = 0 # En caso de que no queramos que las columnas de nuestro dataframe tengan como encabezado la primera fila, este comando saltará el número de filas indicado. Por defecto, su valor es cero.

# Para importar archivos .csv, la sintaxis es la siguiente:
df_csv = pd.read_csv("base de datos.csv")
Donde:

df_csv # Es el nombre que le asignamos a nuestro dataframe al importarlo a nuestro entorno de trabajo.
pd # Es la extensión Pandas.
.read_csv("base de datos.csv") # Es el comando para importar bases de datos en formato csv (comma-separated values). Generalmente al trabajar con los archivos .csv no tendremos necesidad de especificar hojas o filas en específico, ya que se trata de datos organizados en tablas pero separados por comas.

# Para importar archivos .dta, la sintaxis es la siguiente:

df_dta = pd.read_dta("base de datos.dta")
Donde:

df_dta # Es el nombre que le asignamos a nuestro dataframe al improtarlo a nuestro entorno de trabajo.
pd # Es la extensión Pandas
.read_dta("base de datos.dta") # Es el comando para importar bases de datos en formato .dta (El que maneja el programa Stata). Aquí ocurre algo similar que con los .csv, ya que no tendremos la necesidad de especificar número de hoja o encabezado al tratarse de datos ya organizados categóricamente.

# Terminada la parte 1.1., empecemos con la 1.2. 😊
```
---

<details>
<summary>Mostrar sección 1.2.</summary>

#### 1.2. Caracterización de Nuestro DataFrame (tamaño, nombre de columnas, tipo de datos de las columnas, valores máximos o mínimos para variables numéricas).
```python
# A partir de aquí, usaré como ejemplo el dataframe .xlsx que importamos, pero es análogo a cualquier dataframe con el que trabajen. Ustedes pueden trabajar con el que quieran.
df_xlsx.head() # Muestra las primeras filas del DataFrame "df_xlsx" (por defecto las primeras 5 filas).
df_xlsx.shape # Muestra la forma del DataFrame "df_xlsx" (número de filas y columnas).
df_xlsx.dtypes # Muestra los tipos de datos de cada columna en el DataFrame "df_xlsx".
df_xlsx.index # Muestra el índice del DataFrame "df_xlsx" (etiquetas o números que identifican las filas).
type(df_xlsx) # Muestra el tipo de dato de df_xlsx (en este caso debería ser <class 'pandas.core.frame.DataFrame'>, indicando que "df_xlsx" es un DataFrame de Pandas).

# Sigamos con la 1.3. 😁
```
---
<details>
<summary>Mostrar sección 1.3.</summary>

#### 1.3. Manejo de Columnas (seleccionar, renombrar, eliminar, etc).

```python
# Selección de columnas.
# Método del corchete.
df_xlsx['col1']

# Método del punto.
df_xlsx.col1

# Seleccionar más de una columna.
df_xlsx[['col1','col2']]

# Renombrar columnas.
df_xlsx.rename(columns={'col1':'columna1', 'col2':'columna2'}, inplace=True)
Donde:
columns= # Especifica que queremos trabajar con las columnas de nuestro DataFrame
'col1':'columna1' # Indica cuál es el nombre de nuestra columna original ('col1') y cuál queremos que sea el nuevo nombre ('columna1')
inplace=True # Indica que queremos que los cambios realizados se guarden directamente en el dataframe. Por defecto los cambios no se aplican directamente a nuesta base de datos.

# Eliminar columnas.
df_xlsx = df_xlsx.drop('columna1', axis=1)
Donde:
'columna1' # Es la columna que queremos eliminar.
axis=1 # Indica que estamos eliminando una columna.

# Crear nueva columna

df_xlsx['Nueva Columna']=100
Donde:
'Nueva Columna' # Es la nueva columna que queremos crear. Recuerden que como es una variable de texto, tiene que estar entre comillas.

#Ya casi terminamos esta primera parte, no se preocupen 😀. Ahora continuaremos con la 1.4.
```
---
<details>
<summary>Mostrar sección 1.4.</summary>

#### 1.4. Operaciones Aritméticas Entre Columnas (suma, resta, multiplicación, división, etc).


```python
# Operaciones Básicas
# Suma

df_xlsx['Suma']=df_xlsx['columna1']+df_xlsx['columna2']

# Resta
df_xlsx['Resta']=df_xlsx['columna1']-df_xlsx['columna2']

# Multiplicación
df_xlsx['Multiplicación']=df_xlsx['columna1']*df_xlsx['columna2']

# División
df_xlsx['División']=df_xlsx['columna1']/df_xlsx['columna2'] # Recuerden que si el denominador es cero, la división será indeterminada.

# En realidad pueden crear cualquier clase de operaciones entre colunmas siempre y cuando sea factible hacerlo. Recuerden, si pueden imaginarlo, pueden crearlo :D

# Ahora sigamos con la sección 1.5.
```
---
<details>
<summary>Mostrar sección 1.5.</summary>

#### 1.5. Estadísticas Descriptivas

```python
df_xlsx['columna1'].sum() # Suma de los Elementos de una Columna
df_xlsx['columna1'].count() # Contar Elementos.
df_xlsx['columna1'].mean() # Moda.
df_xlsx['columna1'].mean() # Media.
df_xlsx['columna1'].median() # Mediana.
df_xlsx['columna1'].std() # Desviación Estándar.
df_xlsx['columna1'].max() # Valor Máximo.
df_xlsx['columna1'].min() # Valor Mínimo.

# Ya sólo nos falta por revisar la última sección de esta primera parte: la sección 1.6., Formato Long - Wide.
```
---
<details>
<summary>Mostrar sección 1.6.</summary>

#### 1.6. Formato Long - Wide

A menudo, cuando trabajamos con datos, es útil organizarlos de manera que podamos entenderlos y analizarlos más fácilmente. Uno de los conceptos importantes en este proceso es el formato "Long" y "Wide" en un DataFrame.

**Formato Long**:
- En el formato "Long", los datos se organizan de manera vertical, con una columna para las categorías y otra para los valores. Cada fila representa una observación única y puede incluir un identificador único para esa observación.
- Este formato es útil cuando tienes una gran cantidad de categorías y deseas una representación más compacta de tus datos.

**Formato Wide**:
- En el formato "Wide", los datos se organizan de manera horizontal, con una fila para cada observación y una columna para cada categoría. Cada celda en la tabla contiene un valor único.
- Este formato es útil cuando deseas una vista más amplia y clara de tus datos, especialmente cuando tienes un número limitado de categorías.

**Transformación entre formatos**:
- A menudo, necesitas transformar tus datos de un formato a otro para realizar análisis específicos. Esto se puede lograr utilizando herramientas de programación como Pandas en Python.
- La transformación entre formatos Long y Wide implica reorganizar tus datos de una forma a la otra, manteniendo la integridad de la información.

Para entender mejor lo anterior, miremos el siguiente ejemplo:

- Imaginemos que tenemos una lista con estudiantes y calificaciones por trimestres.

---

<details>
<summary>Mostrar Matriz Long</summary>

**<p align="center">Matriz Formato Long</p>**

</br>

$$
\begin{array}{cccc}
\text{Estudiante} & \text{Asignatura} & \text{Calificación} & \text{Período} \\
1 & \text{Matemáticas} & 85 & \text{Primer Trimestre} \\
1 & \text{Matemáticas} & 90 & \text{Segundo Trimestre} \\
1 & \text{Matemáticas} & 88 & \text{Tercer Trimestre} \\
1 & \text{Historia} & 76 & \text{Primer Trimestre} \\
1 & \text{Historia} & 82 & \text{Segundo Trimestre} \\
1 & \text{Historia} & 80 & \text{Tercer Trimestre} \\
2 & \text{Matemáticas} & 92 & \text{Primer Trimestre} \\
2 & \text{Matemáticas} & 88 & \text{Segundo Trimestre} \\
2 & \text{Matemáticas} & 90 & \text{Tercer Trimestre} \\
2 & \text{Historia} & 78 & \text{Primer Trimestre} \\
2 & \text{Historia} & 85 & \text{Segundo Trimestre} \\
2 & \text{Historia} & 88 & \text{Tercer Trimestre} \\
3 & \text{Matemáticas} & 78 & \text{Primer Trimestre} \\
3 & \text{Matemáticas} & 84 & \text{Segundo Trimestre} \\
3 & \text{Matemáticas} & 80 & \text{Tercer Trimestre} \\
3 & \text{Historia} & 90 & \text{Primer Trimestre} \\
3 & \text{Historia} & 86 & \text{Segundo Trimestre} \\
3 & \text{Historia} & 92 & \text{Tercer Trimestre} \\
4 & \text{Matemáticas} & 89 & \text{Primer Trimestre} \\
4 & \text{Matemáticas} & 92 & \text{Segundo Trimestre} \\
4 & \text{Matemáticas} & 94 & \text{Tercer Trimestre} \\
4 & \text{Historia} & 85 & \text{Primer Trimestre} \\
4 & \text{Historia} & 90 & \text{Segundo Trimestre} \\
4 & \text{Historia} & 87 & \text{Tercer Trimestre} \\
5 & \text{Matemáticas} & 91 & \text{Primer Trimestre} \\
5 & \text{Matemáticas} & 86 & \text{Segundo Trimestre} \\
5 & \text{Matemáticas} & 89 & \text{Tercer Trimestre} \\
5 & \text{Historia} & 76 & \text{Primer Trimestre} \\
5 & \text{Historia} & 82 & \text{Segundo Trimestre} \\
5 & \text{Historia} & 80 & \text{Tercer Trimestre} \\
\end{array}
$$

---

Como ven, acá hay una columna única para cada tipo de elemento. Esto puede ser útil si queremos analizar cada dato por separado, pero tedioso a la hora de analizar datos de forma agregada, por lo que cambiaremos el formato a Wide.

<details>
<summary>Código para pasar de Formato Long a Wide</summary>

```python
df.pivot_table(index='Estudiante', columns=['Asignatura', 'Período'], values='Calificación', aggfunc='first')
Donde:

df_wide # Es el nombre de la nueva variable que estamos creando para almacenar el DataFrame en formato "Wide". Puedes elegir cualquier nombre que desees para esta variable.

df.pivot_table() # df es el DataFrame original que contiene los datos en formato "Long". pivot_table() es un método de Pandas utilizado para pivotar o transformar datos de formato "Long" a "Wide".


index='Estudiante' # El argumento index especifica la columna que se utilizará como el índice en el nuevo DataFrame "Wide". En este caso, estamos utilizando la columna 'Estudiante' como índice.

columns=['Asignatura', 'Período'] # El argumento columns especifica las columnas que se utilizarán para crear nuevas columnas en el DataFrame "Wide". En este caso, estamos tomando las columnas 'Asignatura' y 'Período' y creando una jerarquía de columnas en el nuevo DataFrame.

values='Calificación' # El argumento values especifica la columna que se utilizará para llenar las celdas del nuevo DataFrame "Wide". En este caso, estamos utilizando la columna 'Calificación' para llenar las celdas.

aggfunc='first' # El argumento aggfunc especifica la función de agregación que se aplicará si hay duplicados en las combinaciones de índice y columna. En este caso, estamos utilizando 'first', lo que significa que si hay duplicados, se tomará el primer valor encontrado.
```

---

<details>
<summary>Mostrar Matriz Formato Wide</summary>

**<p align="center">Matriz Formato Wide</p>**

$$
\begin{array}{cccccccc}
\text{Estudiante} & \text{Matemáticas (Primer Trimestre)} & \text{Matemáticas (Segundo Trimestre)} & \text{Matemáticas (Tercer Trimestre)} & \text{Historia (Primer Trimestre)} & \text{Historia (Segundo Trimestre)} & \text{Historia (Tercer Trimestre)} \\
1 & 85 & 90 & 88 & 76 & 82 & 80 \\
2 & 92 & 88 & 90 & 78 & 85 & 88 \\
3 & 78 & 84 & 80 & 90 & 86 & 92 \\
4 & 89 & 92 & 94 & 85 & 90 & 87 \\
5 & 91 & 86 & 89 & 76 & 82 & 80 \\
\end{array}
$$

Como pueden observar, acá tenemos una agrupación de los elementos para cada elemento en una sola fila. De esta forma sería más fácil un análisis de las calificaciones para todos los trimestres, así que puede resultar más práctico para un panorama general de las calificaciones. De nuevo, depende de lo que queramos obtener mediante nuestro análisis. 

Resumiendo, la diferencia entre los formatos "Long" y "Wide" radica en la forma en que se organizan y presentan los datos. La elección de un formato u otro depende de tus necesidades específicas de análisis y visualización de datos.

```python
# Con esto concluímos el repaso de las sesiones 5 y 6 de Viernes de Código. Como ven, repasamos los fundamentos esenciales para el manejo de DataFrmaes. En las siguientes dos sesiones exploramos el análisis y tratamiento de bases de datos, así que es importante tener claras las herramientas que vimos acá, porque pueden sernos de utilidad más adelante.
```

---
### 2. Sesiones 7 y 8 - Análisis de Datos I y II
```python
Paquetes que usaremos en las sesiones 7 y 8:
Pandas # Tratamiento de bases de datos (dataframes).
Openpyxl # Importar archivos .xlsx, .csv
Matplotlib # Gráficos
(En caso de no contar con estos paquetes en su entorno de desarrollo, por favor ejecuta el siguiente código)

%pip install pandas
%pip install openpyxl
%pip install matplotlib
```
```python
# Empecemos con la sección 2.1.
```
---

<details>
<summary>Mostrar sección 2.1.</summary>

#### 2.1. Exploración de DataFrame (head, tail, info).

```python
# Para efectos de practicidad, trabajaré con la base de datos que usamos en la sesión 7 (si quieren seguir los mismos pasos que acá, pueden buscar en el repositorio las bases de datos para cada sesión).
```
![Alt text](image.png)

```python
# Esta es una base de datos que obtuve del DANE (inflación julio-Agosto)
```

![Alt text](image-2.png)

```python
Explorando esta base de datos nos damos cuenta que:

Hay columnas no definidas: Unnamed.
Hay valores nulos en algunos campos.

Empezaremos el tratamiento básico

# Sigamos con la sección 2.2.
```
<details>
<summary> Sección 2.2.</summary>

---

#### 2.2. Limpieza de Bases de Datos (Data Cleansing/Cleaning)
```python
# Como no quiero trabajar con la columna 2 (variación año corrido de la inflación) la quitaré.

```
![Alt text](image-6.png)

```python
# axis=1 implica que el cambio se hará en una columna. axis=0 sería si el cambio fuera a una fila.

# inplace=True es para que el cambio se haga directamente en el dataframe.
```
![Alt text](image-7.png)

```python
# Para ver cómo remover datos nulos, favor continúa a la sección 2.2.1.
```
<details>
<summary> Sección 2.2.1. </summary>

---

#### 2.2.1. Eliminar valores nulos

![Alt text](image-9.png)

```python
# Este código eliminará todos los valores identificados como NaN en nuestro dataframe. Hay casos donde las casillas nulas no están identificadas como NaN en nuestro DataFrame. Ese caso especial puede ser el que se presenta en la sesión 8.
```

![Alt text](image-10.png)

![Alt text](image-12.png)

```python
# Como pueden ver, en esta matriz los valores nulos no son el clásico NaN (como en el DataFrame mostrado anteriormente), sino como nan. Esto nos impide usar el comando mostrado con anterioridad, por lo cual usaremos la siguiente transformación:
```

![Alt text](image-13.png)

```python
# Aquí reemplazamos los valores 'nan' de nuestro DataFrame a NaN (valores nulos). Esto sí nos permite usar el método usado anteriormente para eliminar valores nulos:
```

![Alt text](image-14.png)

```python
# Como ven, esta transformación nos permite usar el comando usado anteriormente.

# ¿Todo bien hasta ahora? Sigamos con la sección 2.2.2.: renombrar columnas 😉.
```
<details>
<summary>Sección 2.2.2.</summary>

---

#### 2.2.2. Renombrar Columnas

```python
df=df.rename(columns={'AC20':'ACT_Composition_score','AC21':'SAT_Total_Score',
                      'AC22':'Parental_level_of_education','AC23':'Parental_income (USD)',
                      'AC24':'high_school_gpa','AC25':'college_gpa','AC26':'years_to_graduate'})
```

![Alt text](image-16.png)

```python
# Eso no fue tan dificil, ¿o sí?. La siguiente sección tiene truco, así que atentos.
```

<details>
<summary>Sección 2.2.3.</summary>

---

#### 2.2.3. Crear Bucles Para Automatizar Procesos (en caso de ser factible)

```python
# Probablemente te estarás preguntando "¿a qué se referirá con <<en caso de ser factible>>?". Resulta que no siempre será posible crear bucles para tratar nuestras bases de datos, ya que esto depende en gran medida de la estructura de los datos con los que trabajemos. Si tenemos una estructura de datos que lo permita, porque por ejemplo trabajamos con un libro de Excel y los formatos entre hojas son equivalentes, podemos crear un bucle para el mismo tratamiento que aplicamos a una hoja. En caso de ser diferentes, esto no podrá ser así, y tendremos que adecuarnos a la estructura de datos de cada una. Pero no se preocupen, esta herramienta en verdad es fácilmente aplicable, especialmente si quieren consolidar registros de una misma fuente pero en diferentes fechas, por ejemplo.

#Pasos
#Crear una lista con los nombres de las hojas
sheets = ['1' , '2']

#creo una lista vacia donde se van a almacenar las bases de datos para cada mes una vez termine el tratamiento
dfs = []

for sheet in sheets:
    # Leer hoja y saltar las primeras 8 filas
    df = pd.read_excel('ipc-julago2023.xlsx', sheet_name=sheet, skiprows=8)

    # Eliminar columna 'Año corrido'
    df.drop(['Año corrido'], axis=1, inplace=True)

    # Eliminar filas con valores nulos
    df.dropna(inplace=True)

   # Renombrar columnas
    df.rename(columns={'Unnamed: 0': 'Fecha'}, inplace=True)
    df.rename(columns={'Mensual': 'Inflación Mensual'}, inplace=True)
    df.rename(columns={'Anual': 'Inflación Anual'}, inplace=True)

    # Agregar DataFrame a la lista
    dfs.append(df)

#concateno los resultados y los guardo en mi lista vacia
df_final = pd.concat(dfs, ignore_index=True)
df_final
```
![Alt text](image-19.png)

```python
# Con esto ya podemos crear una representación visual de nuestros datos. En mi caso, haré un gráfico de líneas con la variación de la inflación mensual respecto a la anual. Sigamos con la sección 2.2.4. 🤓
```
<details>
<summary>Sección 2.2.4.</summary>

---

#### 2.2.4. Representaciones visuales de nuestros datos (gráficos descriptivos)

```python
import matplotlib.pyplot as plt
# Suponiendo que tienes una columna 'Variación' en tu DataFrame df_final
variación = df_final['Variación']
# Crear un gráfico de líneas
plt.figure(figsize=(10, 6))  # Tamaño del gráfico opcional

# Graficar la variación porcentual
plt.plot(variación, marker='o', linestyle='-')

# Configurar etiquetas y título
plt.xlabel('Periodo')
plt.ylabel('Variación Porcentual')
plt.title('Variación Porcentual del IPC')

# Mostrar la gráfica
plt.grid(True)  # Mostrar una cuadrícula opcional
plt.tight_layout()  # Ajustar el diseño
plt.show()
```

![Alt text](image-20.png)

```python
# Como ven, ahora la variación porcentual de la inflación anual respectoa  la mensual para julio y agosto está representada en un gráfico de líneas. Recuerden, el tipo de gráfico dependerá del tipo de relación que quieran representar gráficamente con sus datos.

# Compañeras y compañeros, con esto concluímos la sección 2.2. Ahora nos resta la última parte de este trayecto, exportar las bases de datos.
```

<details>
<summary>Sección 2.3.</summary>

---

```python
# Exportar nuestra base de datos luego de ser tratada.
## En formato .dta (en caso que queramos trabajar los datos con Stata).
```

![Alt text](image-21.png)

```python
# Nota, index=False es para que nuestra base exportada no incluuya el índice que por defecto pandas crea en todos los DataFrames que maneja.
```

```python
# En formato .xlsx (en caso que queramos trabajar con los datos en Excel)
```
![Alt text](image-22.png)

```python
print(despedida)
Concluimos este manual de formación con la esperanza de que Python se convierta en una valiosa herramienta en tu caja de habilidades. Recuerda que el aprendizaje es un viaje constante, y tu potencial es ilimitado. ¡Sigue explorando, sigue programando y sigue creciendo en este emocionante mundo de Python! ¡Hasta la próxima línea de código! No olviden atender a las últimas sesiones :D
```
