<a href="https://colab.research.google.com/github/jserrataylor/cursoAI/blob/main/Lectura_datos_con_archivos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Lectura y Escritura de Archivos en Pandas**

En esta libreta se explicarán los principales métodos de lectura y escritura de archivos excel, csv, txt y algunas funciones utiles de la la libreria pandas en python, ademas se realizará una exploración de los datos aplicando algunas funciones importantes de pandas.

[Lectura de archivos excel, csv, txt, html](#-Lectura-de-archivos-excel,-csv,-txt,-html)<br>
[Funciones básicas de lectura de ficheros](#-Funciones-básicas-de-lectura-de-ficheros)<br>
[Funciones básicas de almacenamiento](#-Funciones-básicas-de-almacenamiento)<br>
[Explorando nuestro DataFrame](#-Explorando-nuestro-DataFrame)<br>
[Otros Ejercicios](#-Otros-Ejercicios)<br>

## **Objetivos de aprendizaje**

1. **Comprender la importancia de la lectura y escritura de datos**: Los estudiantes deberían reconocer por qué es esencial poder leer y escribir datos en diferentes formatos al trabajar con `pandas` y análisis de datos en general.
   
2. **Aprender a leer archivos en diferentes formatos**:
   - Familiarizarse con la lectura de archivos Excel y reconocer las consideraciones especiales asociadas con este formato, como las hojas de trabajo.
   - Entender cómo leer archivos CSV y cómo manejar diferentes delimitadores.
   - Aprender a leer archivos de texto con diferentes delimitadores y estructuras.
   - Comprender la lectura de datos desde archivos HTML y cómo gestionar múltiples tablas dentro de un solo archivo HTML.

3. **Conocer las funciones básicas de `pandas` para la lectura de archivos**: Los estudiantes deben ser capaces de usar funciones como `read_excel()`, `read_csv()`, `read_html()`, entre otras, y entender sus parámetros más comunes.

4. **Entender las funciones de almacenamiento en `pandas`**: Los estudiantes serán capaces de guardar(almacenar) los datos de los DataFrame en distintos formatos de archivos.

5. **Explorar DataFrames en `pandas`**: Una vez que los datos estén cargados, los estudiantes deberían aprender a explorar y entender la estructura y el contenido de los DataFrames.

6. **Manejar problemas comunes y soluciones al leer archivos**: Con base en el contenido, es probable que se aborden temas como delimitadores personalizados, falta de encabezados, filas que deben omitirse, entre otros. Los estudiantes deberían ser capaces de manejar estos escenarios en la práctica.


## <font color=#33A5FF>****Lectura de archivos excel, csv, txt, html****<tfont>

### Estos son distintos métodos para la lectura de archivos en diferentes formatos utilizando `pandas`.

### 1. Excel

Para leer archivos Excel, puedes usar la función `read_excel()`.

```python
import pandas as pd

# Leer un archivo Excel
df_excel = pd.read_excel('archivo.xlsx', sheet_name='Hoja1')
```

*Nota:* Necesitarás tener instalado el paquete `openpyxl` para leer archivos `.xlsx`.

### 2. CSV

Los archivos CSV (Valores Separados por Comas) son uno de los formatos más comunes para la representación de datos. Puedes usar la función `read_csv()`.

```python
df_csv = pd.read_csv('archivo.csv')
```

### 3. TXT

Los archivos de texto pueden tener diferentes delimitadores. Por defecto, `read_csv()` asume una coma, pero puedes especificar otros delimitadores.

```python
# Leer un archivo de texto con tabulaciones
df_txt_tab = pd.read_csv('archivo.txt', sep='\t')

# Leer un archivo de texto con espacios
df_txt_space = pd.read_csv('archivo.txt', sep=' ')

# Leer un archivo de texto con otro delimitador (por ejemplo, '|')
df_txt_custom = pd.read_csv('archivo.txt', sep='|')
```

### 4. HTML

Para leer tablas de archivos HTML, puedes usar la función `read_html()`. Esta función devuelve una lista de DataFrames, uno por cada tabla encontrada en el archivo HTML.

```python
list_of_dfs = pd.read_html('archivo.html')

# Si el archivo HTML tiene una sola tabla, puedes obtenerla así:
df_html = list_of_dfs[0]
```

*Nota:* Necesitarás tener instaladas las bibliotecas `lxml`, `beautifulsoup4` y `html5lib`.

### 5. JSON

Los archivos JSON son ampliamente utilizados para representar estructuras de datos complejas de forma legible. Para leer archivos JSON, puedes usar la función `read_json()`.

```python
df_json = pd.read_json('archivo.json')
```

### Descripción del las columnas del DataFrame del archivo Titanic

Para leer ficheros de excel puedes instalar en el anaconda Prom: **pip install xlrd**, seguido de ello puedes cargar el fichero titanic el cual contiene la siguiente información:

El archivo `titanic.csv` parece estar delimitado por punto y coma (`;`) en lugar del delimitador común de coma. Esto ha causado que los datos se carguen como una sola columna en el DataFrame.

Descripción basada en la estructura actual del archivo:

- **Número total de entradas**: 891
- **Columnas**: 1 columna que combina varios campos del conjunto de datos del Titanic.

Dado que esto no es una representación útil del conjunto de datos, debería volver a cargar el archivo con el delimitador correcto (`;`) para obtener una representación adecuada y describir el contenido de manera más detallada. Permíteme hacer eso.

El conjunto de datos del Titanic en el archivo `titanic.csv` contiene la siguiente información:

**Descripción general:**
- Número total de entradas: 891.
- Columnas en el conjunto de datos: 11.

**Columnas y tipos de datos:**
1. **Id_Pasajero**: Identificador único para cada pasajero. Es un valor entero.
2. **Survived**: Indica si el pasajero sobrevivió (1) o no (0). Es un valor entero.
3. **Clase**: Clase del billete adquirido por el pasajero (1, 2 o 3). Es un valor entero.
4. **Nombre**: Nombre completo del pasajero. Es un valor de texto.
5. **Sexo**: Género del pasajero, que puede ser "Masculino" o "Femenino". Es un valor de texto.
6. **Edad**: Edad del pasajero. Es un valor flotante. Hay algunos valores faltantes en esta columna.
7. **Familiares**: Número de familiares a bordo (hermanos, cónyuges, padres e hijos). Es un valor entero.
8. **Tiquete**: Número de tiquete del pasajero. Es un valor de texto.
9. **Tarifa**: Tarifa pagada por el tiquete. Es un valor flotante.
10. **Cabina**: Número de la cabina donde se alojó el pasajero. Hay muchos valores faltantes en esta columna.
11. **Embarcado**: Puerto de embarque del pasajero (C = Cherbourg, Q = Queenstown, S = Southampton). Es un valor de texto y tiene algunos valores faltantes.

**Estadísticas descriptivas (para columnas numéricas):**
- La edad promedio de los pasajeros es de aproximadamente 29.7 años.
- La tarifa promedio pagada por los tiquetes es de aproximadamente 32.21 unidades monetarias.
- Alrededor del 38% de los pasajeros sobrevivió al desastre.
- La mayoría de los pasajeros (más del 50%) viajaba en tercera clase.


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Cargar la librería pandas para crear Series, DataFrame

In [None]:
# importar libreria
import pandas as pd
pd.__version__

'1.5.3'

Leer datos archivos excel con extensión ---> **.csv**

In [None]:
# Leer archivos .csv
# Espeficicar la ruta o dirección de los archivos
# Parametros: sep=';', index_col=0)

# Dirección de los archivos: /content/drive/MyDrive/Colab Notebooks/Curso_AI/Pandas/

#datos=pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Curso_AI/Pandas/titanic.csv')
#datos.head()


Leer datos archivos excel con extensión **--->** .xls, .xlsx

In [None]:
# Leer datos excel si el archivo se encuentra dentro de la misma carpeta del notebook
datos_1 = pd.read_excel('titanic.xlsx', index_col=0)
datos_1

In [None]:
# Leer datos excel con ruta, en caso de que el archivo se encuentre en una ruta diferente


Leer datos archivos excel con extensión ---> **.txt**

In [None]:
# Leer archivos .txt;
#datos=pd.read_csv('titanic.txt', sep=';', index_col=0)
#datos.head()

Leer datos de archivos html --> **.html**

In [None]:
# Leer archivo titanic
# La función 'read_html' de pandas intenta extraer tablas de un archivo HTML y devuelve una lista de DataFrames.
# En este caso, se está leyendo el archivo 'titanic.html' y se especifica que la columna 'Id_Pasajero' será utilizada como índice para el DataFrame.

#datos_html = pd.read_html('titanic.html', index_col=['Id_Pasajero'])

# 'datos_html' es una lista de DataFrames. Aquí, estamos seleccionando el primer DataFrame (que corresponde a la primera tabla en el archivo HTML).

#datos = datos_html[0]

# Aquí, estamos eliminando una columna llamada 'Unnamed: 0' del DataFrame.
# El argumento 'inplace=True' significa que queremos modificar el DataFrame original directamente sin tener que reasignarlo.

#datos.drop(columns=['Unnamed: 0'], inplace=True)

# Finalmente, estamos simplemente mostrando el DataFrame 'datos' resultante.

#datos


In [None]:
# leer archivo desde pagina web
datos_html_web = pd.read_html('https://es.wikipedia.org/wiki/Luisiana', index_col=0)
#datos = datos_html_web[0]
#datos
#datos.drop(columns=['Estado de Luisiana State of Louisiana (inglés) État de Louisiane (francés).2'], inplace=True)
#datos

Leer datos de archivos Json --> **.Json**

In [None]:
#datos_json = pd.read_json('titanic.json')
#datos_json.set_index('Id_Pasajero', inplace=True)
#datos_json

## <font color=#33A5FF>****Funciones básicas de lectura de archivos****<tfont>

Descripción los parámetros y funciones de lectura los archivos que se pueden utilizar con la función `pd.read_csv()` de `pandas` para cargar datos en un DataFrame:

1. **Ruta del archivo**:
   - La ruta del archivo especifica la ubicación del archivo que deseas leer. Puedes usar una ruta absoluta (que especifica la ubicación exacta del archivo en tu sistema) o una ruta relativa (relativa al directorio actual).
   - Ejemplo (Mac): `'/Users/jast/Jupyter/Otros archivos/manejo_de_datos_pandas/datos/ventas.csv'`
   - Ejemplo (Windows): `'c:/Users/jast/Jupyter/Otros archivos/datos/ventas.csv'`

2. **`index_col=0`**:
   - Este parámetro establece la columna que se utilizará como índice del DataFrame. En este caso, `index_col=0` indica que la primera columna del archivo CSV se utilizará como índice.

3. **`sep=','`**:
   - Especifica el delimitador utilizado en el archivo CSV. Por defecto, `sep` es una coma, pero puedes cambiarlo si tu archivo utiliza otro delimitador, como `';'` o `'\t'` (para tabulaciones).

4. **`usecols=[0,1,4]`**:
   - Este parámetro te permite especificar qué columnas del archivo CSV deseas cargar. En este caso, solo se cargarán las columnas 1, 2 y 5.

5. **`nrows=3`**:
   - Limita la cantidad de filas que se leerán del archivo CSV. Con `nrows=3`, solo se leerán las primeras tres filas.

6. **`header=None`**:
   - Indica que el archivo CSV no tiene una fila de encabezado. Si tu archivo no tiene nombres de columna en la primera fila, usa este parámetro para evitar que `pandas` trate la primera fila como encabezados.

7. **`names=['T1', 'T2', 'T3', 'T4']`**:
   - Si tu archivo no tiene encabezados o si deseas reemplazar los encabezados existentes, puedes usar este parámetro para especificar nuevos nombres de columna.

8. **`skiprows=1`**:
   - Permite omitir un número específico de filas al comienzo del archivo. Con `skiprows=1`, se omitirá la primera fila del archivo al cargarlo.

9. **`skipfooter=1`**:
- Este parámetro te permite omitir un número específico de filas al final del archivo. Es útil cuando, por ejemplo, el archivo tiene un resumen o totales al final que no deseas cargar.
- `skipfooter=1` omitirá la última fila del archivo. Si estableces `skipfooter=2`, omitirá las últimas dos filas, y así sucesivamente.

10. **`engine='python'`**:
- `pandas` tiene dos motores para leer archivos CSV: el motor "C" (que es el predeterminado y generalmente más rápido) y el motor "Python".
- Algunas características, como `skipfooter`, no están soportadas por el motor "C", por lo que si intentas usar esas características sin especificar el motor, recibirás una advertencia. Para evitar esta advertencia y usar esas características específicas, puedes establecer `engine='python'`.
- Aunque el motor "Python" es más flexible en términos de características, puede ser más lento que el motor "C" para archivos grandes.

Con estos dos parámetros, podrías cargar un archivo CSV omitiendo la última fila y sin recibir advertencias de esta manera:

```python
df = pd.read_csv('archivo.csv', skipfooter=1, engine='python')
```

**index_col** = Cambiar el índice

In [None]:
# Opción index_col
datos=pd.read_csv('titanic.csv', sep=';', index_col=0)
datos.head()

**nrows** = utilizar las n primeras filas

In [None]:
# Opción nrows
datos=pd.read_csv('titanic.csv', sep=';', index_col=0, nrows=1)
datos.head()

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22,0,A/5 21171,7.25,,S


**usecols**: Utilizar columnas específicas

In [None]:
# Opción usecols
datos=pd.read_csv('titanic.csv', sep=';', index_col=0)
datos.head()

**skiprows**: saltarse filas de abajo hacia arriba

In [None]:
# Opción skiprows, elimina la cantidad de filas que se coloque en el parametro
datos=pd.read_csv('titanic.csv', sep=';', index_col=0)
datos.head()

**sheet_name**: Seleccionar las pestañas del libro excel

In [None]:
# Opción sheet_name = sheet_name='Pasajeros_2'
datos=pd.read_excel('titanic.xlsx', index_col=0)
datos

**header**: Se utiliza cuando las columnas no tienen encabezado

In [None]:
# Opción header = header=None
datos=pd.read_excel('titanic.xlsx', index_col=0)
datos

In [None]:
# Opción heater asignando nombre de las columnas


**parse_dates**: Para manejar series temporales

## <font color=#33A5FF>****Funciones básicas de almacenamiento****<tfont>

Se puedes exportar un DataFrame de `pandas` a varios formatos de archivo utilizando las funciones incorporadas de `pandas`.

1. **CSV**:
   ```python
   df.to_csv('archivo.csv', index=True)  # Si no deseas guardar el índice, puedes establecer `index=False`
   ```

2. **Excel**:
   Necesitarás tener instalado el paquete `openpyxl` para exportar a formato `.xlsx`.
   ```python
   df.to_excel('archivo.xlsx', index=True, sheet_name='Hoja1')  # Similarmente, puedes usar `index=False` si no deseas guardar el índice
   ```

3. **JSON**:
   ```python
   df.to_json('archivo.json', orient='records')  # `orient='records'` guardará el DataFrame en un formato de lista de registros
   ```

4. **SQL**:
   Para exportar a una base de datos SQL, puedes usar el método `to_sql()`. Sin embargo, necesitarás configurar una conexión a la base de datos y, posiblemente, instalar paquetes adicionales dependiendo de la base de datos específica.

5. **HTML**:
   ```python
   df.to_html('archivo.html')
   ```

6. **Formato de texto con tabulaciones**:
   ```python
   df.to_csv('archivo.txt', sep='\t', index=False)
   ```

7. **Formato de texto con espacios**:
   Si deseas que las columnas estén separadas por espacios, puedes hacerlo así:
   ```python
   df.to_csv('archivo.txt', sep=' ', index=False)
   ```

8. **Formato de texto personalizado**:
   Puedes definir cualquier delimitador que desees. Por ejemplo, para separar con `|`:
   ```python
   df.to_csv('archivo.txt', sep='|', index=False)
   ```

In [None]:
# Ruta de la carpeta donde quiero guardar mis archivos exportados


In [None]:
# Exportar archivo formato excel


In [None]:
# Exportar archivo formato excel sin índices


In [None]:
# Exportar archivo formato .csv


In [None]:
# Exportar archivo formato .txt


In [None]:
# Exportar archivo formato .html


## <font color=#33A5FF>****Explorando nuestro DataFrame****<tfont>

In [None]:
# Explorar datos opción dtypes
datos.dtypes

In [None]:
# Explorar datos opción shape
datos.shape

(891, 10)

In [None]:
# Ver primeras filas datos opción head()
datos.head()

In [None]:
# Ver últimas filas opción tail()
datos

In [None]:
# Ordenar datos por columnas


Puedes usar el método `sort_values()`.

1. **Ordenar por una sola columna**:

   Supongamos que tienes un DataFrame `df` y deseas ordenarlo por la columna `'A'` en orden ascendente:

   ```python
   df_sorted = df.sort_values(by='A')
   ```

   Si deseas ordenarlo en orden descendente:

   ```python
   df_sorted = df.sort_values(by='A', ascending=False)
   ```

2. **Ordenar por múltiples columnas**:

   Si deseas ordenar por más de una columna, puedes pasar una lista de nombres de columnas al argumento `by`. Por ejemplo, para ordenar primero por la columna `'A'` en orden ascendente y luego por la columna `'B'` en orden descendente:

   ```python
   df_sorted = df.sort_values(by=['A', 'B'], ascending=[True, False])
   ```

3. **Ordenar con valores faltantes (NaN)**:

   Por defecto, los valores faltantes (NaN) se colocan al final. Si deseas que se coloquen al principio:

   ```python
   df_sorted = df.sort_values(by='A', na_position='first')
   ```


## <font color=#33A5FF>**Otros datos para ejercicios**<tfont>

In [None]:
# Para cargar datos para el DataFrame llamado ventas
# En este caso está en otra ruta, y se puede utilizar la ruta absoluta para cargarlo
# Parametro para establecer el indice: index_col=0
# Parámetro para establecer el tipo separador: sep=','
# Parametro para utilizar columnas específicas: usecols=[0,1,4]
# Parametro para eliminar solo algunas filas: nrows=3

ventas = pd.read_csv('datos/ventas.csv')
ventas

In [None]:
# Parametro para que no tome los datos como encabezados: header=None
# Parámetro para nombrar los encabezados: names=['T1', 'T2', 'T3', 'T4']

ventas = pd.read_csv('datos/ventas_sin_encabezado.csv')
ventas

In [None]:
# Datos con basura
# Parametro para eliminar la primera fila de arriba hacia abajo: skiprows=1
# Parametro para eliminar la primera fila de abajo hacia arriba: skipfooter=1
# Parametro para que elimine la advertencia: engine='python'

ventas = pd.read_csv('datos/ventas_con_basura.csv')
ventas

In [None]:
# DataFrame llamado ventas, pero cargando el archivo en excel.
# Parámetro para que lea todas las hojas y devuelve un diccionario, pero no es un DataFrame: sheet_name=None
# Parámetro para que lea una hoja en específico sheet_name='2021'

ventas_1 = pd.read_excel("datos/ventas_anuales.xlsx", sheet_name=None)
ventas_2 = pd.read_excel("datos/ventas_anuales.xlsx", sheet_name='2021')
#ventas['2020'] # esto es un DataFrame
ventas_1