<a href="https://colab.research.google.com/github/jserrataylor/cursoAI/blob/main/Lectura_datos_con_archivos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Lectura y Escritura de Archivos en Pandas**

En esta libreta se explicarán los principales métodos de lectura y escritura de archivos excel, csv, txt y algunas funciones utiles de la la libreria pandas en python, ademas se realizará una exploración de los datos aplicando algunas funciones importantes de pandas.

[Lectura de archivos excel, csv, txt, html](#-Lectura-de-archivos-excel,-csv,-txt,-html)<br>
[Funciones básicas de lectura de ficheros](#-Funciones-básicas-de-lectura-de-ficheros)<br>
[Funciones básicas de almacenamiento](#-Funciones-básicas-de-almacenamiento)<br>
[Explorando nuestro DataFrame](#-Explorando-nuestro-DataFrame)<br>
[Otros Ejercicios](#-Otros-Ejercicios)<br>

**Recursos:**
* [Libreria Pandas](https://pandas.pydata.org/docs/)
* [Python for Data Science](https://jakevdp.github.io/PythonDataScienceHandbook/)
* [Python 3.11.5 documentation](https://docs.python.org/3/)
* [Automate the Boring Stuff with Python](https://automatetheboringstuff.com/)
* [Real Python Tutorials](https://realpython.com/)
*[Python Tutorials](https://www.youtube.com/playlist?list=PL-osiE80TeTt2d9bfVyTiXJA-UTHn6WwU)
*[Matplolib](https://matplotlib.org/stable/users/index.html)
*[Seaborn: statistical data visualization](https://seaborn.pydata.org/)
*[Scikit-Learn Official Documentation](https://scikit-learn.org/stable/)
*[Introduction to Machine Learning with Python](https://www.oreilly.com/library/view/introduction-to-machine/9781449369880/)
*[Kaggle](https://www.kaggle.com/)

## **Objetivos de aprendizaje**

1. **Comprender la importancia de la lectura y escritura de datos**: Los estudiantes deberían reconocer por qué es esencial poder leer y escribir datos en diferentes formatos al trabajar con `pandas` y análisis de datos en general.
   
2. **Aprender a leer archivos en diferentes formatos**:
   - Familiarizarse con la lectura de archivos Excel y reconocer las consideraciones especiales asociadas con este formato, como las hojas de trabajo.
   - Entender cómo leer archivos CSV y cómo manejar diferentes delimitadores.
   - Aprender a leer archivos de texto con diferentes delimitadores y estructuras.
   - Comprender la lectura de datos desde archivos HTML y cómo gestionar múltiples tablas dentro de un solo archivo HTML.

3. **Conocer las funciones básicas de `pandas` para la lectura de archivos**: Los estudiantes deben ser capaces de usar funciones como `read_excel()`, `read_csv()`, `read_html()`, entre otras, y entender sus parámetros más comunes.

4. **Entender las funciones de almacenamiento en `pandas`**: Los estudiantes serán capaces de guardar(almacenar) los datos de los DataFrame en distintos formatos de archivos.

5. **Explorar DataFrames en `pandas`**: Una vez que los datos estén cargados, los estudiantes deberían aprender a explorar y entender la estructura y el contenido de los DataFrames.

6. **Manejar problemas comunes y soluciones al leer archivos**: Con base en el contenido, es probable que se aborden temas como delimitadores personalizados, falta de encabezados, filas que deben omitirse, entre otros. Los estudiantes deberían ser capaces de manejar estos escenarios en la práctica.


## <font color=#33A5FF>****Lectura de archivos excel, csv, txt, html****<tfont>

### Estos son distintos métodos para la lectura de archivos en diferentes formatos utilizando `pandas`.

### 1. Excel

Para leer archivos Excel, puedes usar la función `read_excel()`.

```python
import pandas as pd

# Leer un archivo Excel
df_excel = pd.read_excel('archivo.xlsx', sheet_name='Hoja1')
```

*Nota:* Necesitarás tener instalado el paquete `openpyxl` para leer archivos `.xlsx`.

### 2. CSV

Los archivos CSV (Valores Separados por Comas) son uno de los formatos más comunes para la representación de datos. Puedes usar la función `read_csv()`.

```python
df_csv = pd.read_csv('archivo.csv')
```

### 3. TXT

Los archivos de texto pueden tener diferentes delimitadores. Por defecto, `read_csv()` asume una coma, pero puedes especificar otros delimitadores.

```python
# Leer un archivo de texto con tabulaciones
df_txt_tab = pd.read_csv('archivo.txt', sep='\t')

# Leer un archivo de texto con espacios
df_txt_space = pd.read_csv('archivo.txt', sep=' ')

# Leer un archivo de texto con otro delimitador (por ejemplo, '|')
df_txt_custom = pd.read_csv('archivo.txt', sep='|')
```

### 4. HTML

Para leer tablas de archivos HTML, puedes usar la función `read_html()`. Esta función devuelve una lista de DataFrames, uno por cada tabla encontrada en el archivo HTML.

```python
list_of_dfs = pd.read_html('archivo.html')

# Si el archivo HTML tiene una sola tabla, puedes obtenerla así:
df_html = list_of_dfs[0]
```

*Nota:* Necesitarás tener instaladas las bibliotecas `lxml`, `beautifulsoup4` y `html5lib`.

### 5. JSON

Los archivos JSON son ampliamente utilizados para representar estructuras de datos complejas de forma legible. Para leer archivos JSON, puedes usar la función `read_json()`.

```python
df_json = pd.read_json('archivo.json')
```

### Descripción del las columnas del DataFrame del archivo Titanic

Para leer ficheros de excel puedes instalar en el anaconda Prom: **pip install xlrd**, seguido de ello puedes cargar el fichero titanic el cual contiene la siguiente información:

El archivo `titanic.csv` parece estar delimitado por punto y coma (`;`) en lugar del delimitador común de coma. Esto ha causado que los datos se carguen como una sola columna en el DataFrame.

Descripción basada en la estructura actual del archivo:

- **Número total de entradas**: 891
- **Columnas**: 1 columna que combina varios campos del conjunto de datos del Titanic.

Dado que esto no es una representación útil del conjunto de datos, debería volver a cargar el archivo con el delimitador correcto (`;`) para obtener una representación adecuada y describir el contenido de manera más detallada. Permíteme hacer eso.

El conjunto de datos del Titanic en el archivo `titanic.csv` contiene la siguiente información:

**Descripción general:**
- Número total de entradas: 891.
- Columnas en el conjunto de datos: 11.

**Columnas y tipos de datos:**
1. **Id_Pasajero**: Identificador único para cada pasajero. Es un valor entero.
2. **Survived**: Indica si el pasajero sobrevivió (1) o no (0). Es un valor entero.
3. **Clase**: Clase del billete adquirido por el pasajero (1, 2 o 3). Es un valor entero.
4. **Nombre**: Nombre completo del pasajero. Es un valor de texto.
5. **Sexo**: Género del pasajero, que puede ser "Masculino" o "Femenino". Es un valor de texto.
6. **Edad**: Edad del pasajero. Es un valor flotante. Hay algunos valores faltantes en esta columna.
7. **Familiares**: Número de familiares a bordo (hermanos, cónyuges, padres e hijos). Es un valor entero.
8. **Tiquete**: Número de tiquete del pasajero. Es un valor de texto.
9. **Tarifa**: Tarifa pagada por el tiquete. Es un valor flotante.
10. **Cabina**: Número de la cabina donde se alojó el pasajero. Hay muchos valores faltantes en esta columna.
11. **Embarcado**: Puerto de embarque del pasajero (C = Cherbourg, Q = Queenstown, S = Southampton). Es un valor de texto y tiene algunos valores faltantes.

**Estadísticas descriptivas (para columnas numéricas):**
- La edad promedio de los pasajeros es de aproximadamente 29.7 años.
- La tarifa promedio pagada por los tiquetes es de aproximadamente 32.21 unidades monetarias.
- Alrededor del 38% de los pasajeros sobrevivió al desastre.
- La mayoría de los pasajeros (más del 50%) viajaba en tercera clase.


Para leer un archivo de texto en `pandas`, puedes utilizar la función `pandas.read_csv()`. Aunque esta función se denomina "read_csv", en realidad es bastante versátil y puede leer archivos de texto delimitados por cualquier carácter, no solo por comas.

Aquí te muestro cómo hacerlo:

1. **Leyendo un archivo CSV** (delimitado por comas):

```python
import pandas as pd

data = pd.read_csv('ruta_del_archivo.csv')
```

2. **Leyendo un archivo TSV** (delimitado por tabulaciones):

```python
data = pd.read_csv('ruta_del_archivo.tsv', delimiter='\t')
```

3. **Leyendo un archivo de texto con otro delimitador** (por ejemplo, un punto y coma):

```python
data = pd.read_csv('ruta_del_archivo.txt', delimiter=';')
```

4. **Especificando el conjunto de caracteres** (útil si el archivo tiene una codificación diferente a UTF-8):

```python
data = pd.read_csv('ruta_del_archivo.csv', encoding='latin1')
```

5. **Leyendo un archivo sin encabezado**:

```python
data = pd.read_csv('ruta_del_archivo.csv', header=None)
```

Si tienes un archivo de texto específico que deseas leer, ¡déjame saber más detalles sobre su estructura y con gusto te ayudaré!

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Cargar la librería pandas para crear Series, DataFrame

In [1]:
# importar libreria
import pandas as pd
pd.__version__

'1.5.3'

In [1]:
# Clonar repositorio en Github
!git clone https://github.com/jserrataylor/cursoAI

Cloning into 'cursoAI'...
remote: Enumerating objects: 237, done.[K
remote: Counting objects: 100% (82/82), done.[K
remote: Compressing objects: 100% (22/22), done.[K
remote: Total 237 (delta 78), reused 60 (delta 60), pack-reused 155[K
Receiving objects: 100% (237/237), 7.85 MiB | 12.39 MiB/s, done.
Resolving deltas: 100% (103/103), done.


Leer datos archivos excel con extensión ---> **.csv**

In [3]:
# Leer archivos .csv
# Espeficicar la ruta o dirección de los archivos
# Parametros: sep=';', index_col=0)

# Dirección de los archivos: /content/drive/MyDrive/Colab Notebooks/Curso_AI/Pandas/

#datos=pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Curso_AI/Pandas/titanic.csv')
#datos.head()

df = pd.read_csv('/content/cursoAI/datos/titanic.csv', index_col=0, sep=';')
df.tail()


Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
887,0,2,"Montvila, Rev. Juozas",Masculino,27.0,0,211536,13.0,,S
888,1,1,"Graham, Miss. Margaret Edith",Femenino,19.0,0,112053,30.0,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Femenino,,2,W./C. 6607,23.45,,S
890,1,1,"Behr, Mr. Karl Howell",Masculino,26.0,0,111369,30.0,C148,C
891,0,3,"Dooley, Mr. Patrick",Masculino,32.0,0,370376,7.75,,Q


Leer datos archivos excel con extensión **--->** .xls, .xlsx

In [4]:
# Leer datos excel si el archivo se encuentra dentro de la misma carpeta del notebook
df = pd.read_excel('/content/cursoAI/datos/titanic.xlsx', index_col=0)
df.head()

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
3,1,3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282,7.93,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S


In [None]:
# Leer datos excel con ruta, en caso de que el archivo se encuentre en una ruta diferente


Leer datos archivos excel con extensión ---> **.txt**

In [5]:
# Leer archivos .txt;
df=pd.read_csv('/content/cursoAI/datos/titanic.txt', sep=';', index_col=0)
df.head()

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
3,1,3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282,7.93,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S


Leer datos de archivos html --> **.html**

In [6]:
# Leer archivo titanic
# La función 'read_html' de pandas intenta extraer tablas de un archivo HTML y devuelve una lista de DataFrames.
# En este caso, se está leyendo el archivo 'titanic.html' y se especifica que la columna 'Id_Pasajero' será utilizada como índice para el DataFrame.

df_html = pd.read_html('/content/cursoAI/datos/titanic.html', index_col=['Id_Pasajero'])

# 'datos_html' es una lista de DataFrames. Aquí, estamos seleccionando el primer DataFrame (que corresponde a la primera tabla en el archivo HTML).

datos = df_html[0]

# Aquí, estamos eliminando una columna llamada 'Unnamed: 0' del DataFrame.
# El argumento 'inplace=True' significa que queremos modificar el DataFrame original directamente sin tener que reasignarlo.

datos.drop(columns=['Unnamed: 0'], inplace=True)

# Finalmente, estamos simplemente mostrando el DataFrame 'datos' resultante.

datos.to_html('archivo.html', index=True)
datos.head()

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
3,1,3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282,7.93,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S


In [44]:
# leer archivo desde pagina web
df_html_web = pd.read_html('https://es.wikipedia.org/wiki/Luisiana', index_col=0, skiprows=0)

## Filtración de datos que están en el indice [2] = población por año
datos = df_html_web[2]
#datos_html_web
#datos.drop(columns=['Estado de Luisiana State of Louisiana (inglés) État de Louisiane (francés).2'], inplace=True)

## Guardar los datos de la población de Louisiana por año
datos.to_csv('luisiana_poblacion.csv')

## Visualización de los datos guardados
df = pd.DataFrame(datos)

## cambiar el nombre a las columnas
df.columns=['population', 'percent']

## reemplazar   '\xa0', ''
df['population'] = df['population'].str.replace('\xa0', '').astype('int64')
df.dtypes

population     int64
percent       object
dtype: object

In [45]:
## eliminar la columna percent
df = df.drop('percent', axis=1)

## Crea la columna percent_change para ver las diferencias en la cantidad por año
df['percent_change'] = df['population'].pct_change() * 100

## Diferencia con la cantidad anterior
df['diff_population'] = df['population'].diff()

## Porcentaje total
df['porcentaje_total'] = (df['population'] / df['population'].sum()) * 100

df

Unnamed: 0,population,percent_change,diff_population,porcentaje_total
1810,76556,,,0.167348
1820,153407,100.385339,76851.0,0.335342
1830,215739,40.631783,62332.0,0.471597
1840,352411,63.350623,136672.0,0.770356
1850,517762,46.919932,165351.0,1.131807
1860,708002,36.742751,190240.0,1.547664
1870,726915,2.67132,18913.0,1.589007
1880,939946,29.306177,213031.0,2.054684
1890,1118588,19.00556,178642.0,2.445189
1900,1381625,23.515092,263037.0,3.020177


In [42]:
## Graficas de cada columna
#df['population'].plot()
#df['percent_change'].plot()
#df['diff_population'].plot()
#df['porcentaje_total'].plot()

In [None]:
df_pob = pd.read_csv('archivo.csv', skiprows=1, index_col=0)

df_pob['Pob.'] = df_pob['Pob.'].astype(float)
df_pob

In [None]:
print(datos_pob.columns)


Leer datos de archivos Json --> **.Json**

In [None]:
df_json = pd.read_json('titanic.json')
df_json.set_index('Id_Pasajero', inplace=True)
df_json

## <font color=#33A5FF>****Funciones básicas de lectura de archivos****<tfont>

Descripción los parámetros y funciones de lectura los archivos que se pueden utilizar con la función `pd.read_csv()` de `pandas` para cargar datos en un DataFrame:

1. **Ruta del archivo**:
   - La ruta del archivo especifica la ubicación del archivo que deseas leer. Puedes usar una ruta absoluta (que especifica la ubicación exacta del archivo en tu sistema) o una ruta relativa (relativa al directorio actual).
   - Ejemplo (Mac): `'/Users/jast/Jupyter/Otros archivos/manejo_de_datos_pandas/datos/ventas.csv'`
   - Ejemplo (Windows): `'c:/Users/jast/Jupyter/Otros archivos/datos/ventas.csv'`

2. **`index_col=0`**:
   - Este parámetro establece la columna que se utilizará como índice del DataFrame. En este caso, `index_col=0` indica que la primera columna del archivo CSV se utilizará como índice.

3. **`sep=','`**:
   - Especifica el delimitador utilizado en el archivo CSV. Por defecto, `sep` es una coma, pero puedes cambiarlo si tu archivo utiliza otro delimitador, como `';'` o `'\t'` (para tabulaciones).

4. **`usecols=[0,1,4]`**:
   - Este parámetro te permite especificar qué columnas del archivo CSV deseas cargar. En este caso, solo se cargarán las columnas 1, 2 y 5.

5. **`nrows=3`**:
   - Limita la cantidad de filas que se leerán del archivo CSV. Con `nrows=3`, solo se leerán las primeras tres filas.

6. **`header=None`**:
   - Indica que el archivo CSV no tiene una fila de encabezado. Si tu archivo no tiene nombres de columna en la primera fila, usa este parámetro para evitar que `pandas` trate la primera fila como encabezados.

7. **`names=['T1', 'T2', 'T3', 'T4']`**:
   - Si tu archivo no tiene encabezados o si deseas reemplazar los encabezados existentes, puedes usar este parámetro para especificar nuevos nombres de columna.

8. **`skiprows=1`**:
   - Permite omitir un número específico de filas al comienzo del archivo. Con `skiprows=1`, se omitirá la primera fila del archivo al cargarlo.

9. **`skipfooter=1`**:
- Este parámetro te permite omitir un número específico de filas al final del archivo. Es útil cuando, por ejemplo, el archivo tiene un resumen o totales al final que no deseas cargar.
- `skipfooter=1` omitirá la última fila del archivo. Si estableces `skipfooter=2`, omitirá las últimas dos filas, y así sucesivamente.

10. **`engine='python'`**:
- `pandas` tiene dos motores para leer archivos CSV: el motor "C" (que es el predeterminado y generalmente más rápido) y el motor "Python".
- Algunas características, como `skipfooter`, no están soportadas por el motor "C", por lo que si intentas usar esas características sin especificar el motor, recibirás una advertencia. Para evitar esta advertencia y usar esas características específicas, puedes establecer `engine='python'`.
- Aunque el motor "Python" es más flexible en términos de características, puede ser más lento que el motor "C" para archivos grandes.

Con estos dos parámetros, podrías cargar un archivo CSV omitiendo la última fila y sin recibir advertencias de esta manera:

```python
df = pd.read_csv('archivo.csv', skipfooter=1, engine='python')
```

**index_col** = Cambiar el índice

In [None]:
# Opción index_col
df=pd.read_csv('/content/cursoAI/datos/titanic.csv', sep=';', index_col=0)
df.to_html('titanic.html')
df.head()

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
3,1,3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282,7.93,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S


**nrows** = utilizar las n primeras filas

In [None]:
# Opción nrows
df=pd.read_csv('/content/cursoAI/datos/titanic.csv', sep=';', index_col=0, nrows=1)
df.head()

**usecols**: Utilizar columnas específicas

In [None]:
# Opción usecols
df=pd.read_csv('/content/cursoAI/datos/titanic.csv', sep=';', index_col=0, usecols=[0, 4, 6], nrows=1)
df.head()

**skiprows**: saltarse filas de abajo hacia arriba

In [None]:
# Opción skiprows, elimina la cantidad de filas que se coloque en el parametro
df=pd.read_csv('/content/cursoAI/datos/titanic.csv', sep=';', index_col=0, skiprows=0)
df.head()

**sheet_name**: Seleccionar las pestañas del libro excel

In [None]:
# Opción sheet_name = sheet_name='Pasajeros_2'
df=pd.read_excel('/content/cursoAI/datos/titanic.xlsx', index_col=0, sheet_name=None)
df

**header**: Se utiliza cuando las columnas no tienen encabezado

In [None]:
# Opción header = header=None
df=pd.read_excel('/content/cursoAI/datos/titanic.xlsx', index_col=0)
df

In [None]:
# Opción heater asignando nombre de las columnas


## <font color=#33A5FF>****Funciones básicas de almacenamiento****<tfont>

Se puedes exportar un DataFrame de `pandas` a varios formatos de archivo utilizando las funciones incorporadas de `pandas`.

1. **CSV**:
   ```python
   df.to_csv('archivo.csv', index=True)  # Si no deseas guardar el índice, puedes establecer `index=False`
   ```

2. **Excel**:
   Necesitarás tener instalado el paquete `openpyxl` para exportar a formato `.xlsx`.
   ```python
   df.to_excel('archivo.xlsx', index=True, sheet_name='Hoja1')  # Similarmente, puedes usar `index=False` si no deseas guardar el índice
   ```

3. **JSON**:
   ```python
   df.to_json('archivo.json', orient='records')  # `orient='records'` guardará el DataFrame en un formato de lista de registros
   ```

4. **SQL**:
   Para exportar a una base de datos SQL, puedes usar el método `to_sql()`. Sin embargo, necesitarás configurar una conexión a la base de datos y, posiblemente, instalar paquetes adicionales dependiendo de la base de datos específica.

5. **HTML**:
   ```python
   df.to_html('archivo.html')
   ```

6. **Formato de texto con tabulaciones**:
   ```python
   df.to_csv('archivo.txt', sep='\t', index=False)
   ```

7. **Formato de texto con espacios**:
   Si deseas que las columnas estén separadas por espacios, puedes hacerlo así:
   ```python
   df.to_csv('archivo.txt', sep=' ', index=False)
   ```

8. **Formato de texto personalizado**:
   Puedes definir cualquier delimitador que desees. Por ejemplo, para separar con `|`:
   ```python
   df.to_csv('archivo.txt', sep='|', index=False)
   ```

In [None]:
# Ruta de la carpeta donde quiero guardar mis archivos exportados
df = df.to_csv('archivo.csv')


In [None]:
# Exportar archivo formato excel
df = df.to_excel('archivo.xlsx', index=True, sheet_name='Hoja1')


In [None]:
# Exportar archivo formato excel sin índices


In [None]:
# Exportar archivo formato .txt
df = df.to_csv('archivo.txt', sep='|', index=True)

In [None]:
# Exportar archivo formato .html
df = df.to_html('archivo.html')

In [None]:
df = df.to_json('archivo.json', orient='records')

## <font color=#33A5FF>****Explorando nuestro DataFrame****<tfont>

In [None]:
df = pd.read_csv('/content/cursoAI/datos/titanic.csv', index_col=0, sep=';')
df

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
3,1,3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282,7.93,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.10,C123,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S
...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",Masculino,27.0,0,211536,13.00,,S
888,1,1,"Graham, Miss. Margaret Edith",Femenino,19.0,0,112053,30.00,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Femenino,,2,W./C. 6607,23.45,,S
890,1,1,"Behr, Mr. Karl Howell",Masculino,26.0,0,111369,30.00,C148,C


In [None]:
# Explorar datos opción dtypes
df.dtypes

Survived        int64
Clase           int64
Nombre         object
Sexo           object
Edad          float64
Familiares      int64
Tiquete        object
Tarifa        float64
Cabina         object
Embarcado      object
dtype: object

In [None]:
# Explorar datos opción shape
df.shape

(891, 10)

In [None]:
# Ver primeras filas datos opción head()
df.head()

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
3,1,3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282,7.93,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S


In [None]:
# Ver últimas filas opción tail()
df.tail()

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
887,0,2,"Montvila, Rev. Juozas",Masculino,27.0,0,211536,13.0,,S
888,1,1,"Graham, Miss. Margaret Edith",Femenino,19.0,0,112053,30.0,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Femenino,,2,W./C. 6607,23.45,,S
890,1,1,"Behr, Mr. Karl Howell",Masculino,26.0,0,111369,30.0,C148,C
891,0,3,"Dooley, Mr. Patrick",Masculino,32.0,0,370376,7.75,,Q


In [None]:
Ordenar datos por columnas
#df_sorted = df.sort_values(by=['Nombre', 'Edad'], ascending=False, na_position='first')
df_sorted = df.sort_values(by=['Nombre', 'Edad'], ascending=True)
df_sorted.head()


Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
846,0,3,"Abbing, Mr. Anthony",Masculino,42.0,0,C.A. 5547,7.55,,S
747,0,3,"Abbott, Mr. Rossmore Edward",Masculino,16.0,1,C.A. 2673,20.25,,S
280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",Femenino,35.0,1,C.A. 2673,20.25,,S
309,0,2,"Abelson, Mr. Samuel",Masculino,30.0,0,P/PP 3381,24.0,,C
875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",Femenino,28.0,0,P/PP 3381,24.0,,C


Puedes usar el método `sort_values()`.

1. **Ordenar por una sola columna**:

   Supongamos que tienes un DataFrame `df` y deseas ordenarlo por la columna `'A'` en orden ascendente:

   ```python
   df_sorted = df.sort_values(by='A')
   ```

   Si deseas ordenarlo en orden descendente:

   ```python
   df_sorted = df.sort_values(by='A', ascending=False)
   ```

2. **Ordenar por múltiples columnas**:

   Si deseas ordenar por más de una columna, puedes pasar una lista de nombres de columnas al argumento `by`. Por ejemplo, para ordenar primero por la columna `'A'` en orden ascendente y luego por la columna `'B'` en orden descendente:

   ```python
   df_sorted = df.sort_values(by=['A', 'B'], ascending=[True, False])
   ```

3. **Ordenar con valores faltantes (NaN)**:

   Por defecto, los valores faltantes (NaN) se colocan al final. Si deseas que se coloquen al principio:

   ```python
   df_sorted = df.sort_values(by='A', na_position='first')
   ```


## <font color=#33A5FF>**Otros datos para ejercicios**<tfont>

In [None]:
import pandas as pd

# Para cargar datos para el DataFrame llamado ventas
# En este caso está en otra ruta, y se puede utilizar la ruta absoluta para cargarlo
# Parametro para establecer el indice: index_col=0
# Parámetro para establecer el tipo separador: sep=','
# Parametro para utilizar columnas específicas: usecols=[0,1,4]
# Parametro para eliminar solo algunas filas: nrows=3
ventas = pd.read_csv('/content/cursoAI/datos/ventas.csv', usecols=[0,3], index_col=0, sep=',', nrows=1)
ventas.head()

Unnamed: 0,Trimestre 3
Sucursal Norte,1003


In [None]:
ventas = pd.read_csv('/content/cursoAI/datos/datos/ventas.csv')
ventas.head()

Unnamed: 0.1,Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
0,Sucursal Norte,1001,1002,1003,1004
1,Sucursal Este,2001,2002,2003,2004
2,Sucursal Oeste,3001,3002,3003,3004
3,Sucursal Sur,4001,4002,4003,4004


In [None]:
# Parametro para que no tome los datos como encabezados: header=None
# Parámetro para nombrar los encabezados: names=['T1', 'T2', 'T3', 'T4']

ventas = pd.read_csv('/content/cursoAI/datos/ventas_sin_encabezado.csv', names=['T1', 'T2', 'T3', 'T4'])
ventas.head()

Unnamed: 0,T1,T2,T3,T4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


In [None]:
# Datos con basura
# Parametro para eliminar la primera fila de arriba hacia abajo: skiprows=1
# Parametro para eliminar la primera fila de abajo hacia arriba: skipfooter=1
# Parametro para que elimine la advertencia: engine='python'

ventas = pd.read_csv('/content/cursoAI/datos/ventas_con_basura.csv', skiprows=1, skipfooter=1, engine='python', index_col=0)
ventas

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
Sucursal Norte,1001,1002,1003,1004
Sucursal Este,2001,2002,2003,2004
Sucursal Oeste,3001,3002,3003,3004
Sucursal Sur,4001,4002,4003,4004


In [None]:
# DataFrame llamado ventas, pero cargando el archivo en excel.
# Parámetro para que lea todas las hojas y devuelve un diccionario, pero no es un DataFrame: sheet_name=None
# Parámetro para que lea una hoja en específico sheet_name='2021'
# Parámetro para eliminar la primera linea: skiprows=1
# Parámetro paa convertir la primera columna en indice: index_col=0
# Método para unir DataFrame es: df_unido = pd.concat([df1, df2])

ventas_1 = pd.read_excel("/content/cursoAI/datos/ventas_anuales.xlsx", sheet_name='2020', skiprows=1, index_col=0)
ventas_2 = pd.read_excel("//content/cursoAI/datos/ventas_anuales.xlsx", sheet_name='2021', skiprows=1, index_col=0)
#ventas_1.head(), ventas_2.head()
df_ventas = pd.concat([ventas_1, ventas_2], keys=['2020', '2021']) # Creación de DataFrame concatenado
df_ventas.to_csv('ventas_2020_y_2021.csv') # Guardar DataFrame en archivo: ventas_2020_y_2021.csv