<div class="alert alert-block alert-info">
<img src="./Imagenes/ITESO_Logo.png" style="width:500px;height:142px;" title="Logo ITESO">
<br><font face = "Times New Roman" size = "6"><b><center>Maestría en Sistemas Computacionales</center></b></font>
<br><font face = "Times New Roman" size = "5"><b><center>Programación para Análisis de Datos</center></b></font>

<b><br><font face = "Times New Roman" size = "4"><center>Unidad 4: Proceso de Obtención de Datos</center></font>
<font face = "Times New Roman" size = "4"><center>Tema 4.1: Exploración, Integración y Limpieza de Datos</center></font>
<font face = "Times New Roman" size = "4"><center>Subtema b: Lectura de Datos</center></font></b>
</div>

## LECTURA DE DATOS

La librería **Pandas** permite insertar datos desde varios formatos de archivo hacia un **DataFrame** de manera sencilla.

### Lectura de Datos desde un Archivo CSV
Cuando se tiene un archivo en formato `CSV` (*Comma-Separated Values*) que contiene los datos a ser insertados dentro de un **DataFrame** de **Pandas**, se emplea el método `.read_csv()` donde el argumento consiste en el nombre del archivo.

Para este ejemplo se empleará un archivo de nombre `Compras.csv` el cual contiene la información de la compra de manzanas y naranjas que se generó en el *Subtema a*, esto es:

In [1]:
#Importación de librerías
import pandas as pd

#Creación del DataFrame a partir del Archivo CSV
df = pd.read_csv('./Datos/Compras.csv')

#Impresión de los Resultados
print("El DataFrame es:")
df

El DataFrame es:


Unnamed: 0.1,Unnamed: 0,Manzana,Naranja
0,María,3,0
1,Roberto,2,3
2,Lily,0,7
3,David,1,2


Los archivos `CSV` no tienen **Indices** como el **DataFrame**, es por ello que se requiere asignarlo empleando el argumento `index_col = valor` al momento de hacer la lectura, donde `valor` corresponde a la columna que fungirá como **Indice**, esto es: 

In [2]:
#Creación del DataFrame a partir del Archivo CSV
df = pd.read_csv('./Datos/Compras.csv', index_col = 0)

#Impresión de los Resultados
print("El DataFrame es:")
df

El DataFrame es:


Unnamed: 0,Manzana,Naranja
María,3,0
Roberto,2,3
Lily,0,7
David,1,2


### Lectura de Datos desde un Archivo JSON
Cuando se tiene un archivo en formato `JSON` (*JavaScript Object Notation*) que contiene los datos a ser insertados dentro de un **DataFrame** de **Pandas**, se emplea el método `.read_json()` donde el argumento consiste en el nombre del archivo.

Para este ejemplo se empleará un archivo de nombre `Compras.json` el cual contiene la información de la compra de manzanas y naranjas que se generó en el *Subtema a*, esto es:

In [3]:
#Creación del DataFrame a partir del Archivo JSON
df = pd.read_json('./Datos/Compras.json')

#Impresión de los Resultados
print("El DataFrame es:")
df

El DataFrame es:


Unnamed: 0,Manzana,Naranja
María,3,0
Roberto,2,3
Lily,0,7
David,1,2


### Lectura de Datos desde una base de datos SQL
Cuando se tiene un archivo en formato `SQL` (*Structured Query Language*) que contiene los datos a ser insertados dentro de un **DataFrame** de **Pandas**, es necesario establecer una conexión a través de una librería adecuada de **Python** para posteriormente pasar una consulta a **Pandas**. Para ello se empleará la librería **SQLite**.

#### Librería SQLite
<img src="./Imagenes/SQLite3_Logo.png" style="width:211px;height:100px;" title="Logo ITESO">

La librería **SQLite** está basada en el lenguaje **C** e implementa un motor `SQL` que es pequeño, rápido, altamente confiable y con todas las características disponibles, siendo el motor de bases de datos más empleado a nivel mundial. 

Por otro lado, **SQLite** es una base de datos *Serverless* que se puede utilizar en casi todos los lenguajes de programación, incluido **Python**. El término *Serverless* significa que no hay necesidad de instalar un servidor separado para trabajar con **SQLite** para que pueda conectarse directamente con la base de datos.

La documentación detallada de la librería **SQLite** se puede consultar [en esta liga](https://www.sqlite.org/index.html).

***Nota:*** Se hará uso de la librería **SQLite** solo con fines demostrativos, no se profundizará en este tema en particular. Como recomendación para el manejo de archivos de extensión `DB` se puede emplear el software gratuito **DB Browser for SQLite** que puede ser descargado para **Windows**, **macOS** y **Linux** [en esta liga](https://sqlitebrowser.org/dl).

La librería se importará por medio del comando:
```python
import sqlite3
```
Posteriormente se empleará el método `.read_sql_query(a,b)` donde los argumentos son:

* El argumento a: Se pasa una consulta *SELECT* a la base de datos a emplear.
* El argumento b: Se realiza una conexión al archivo `SQL` que contiene la base de datos por medio del método `.connect()`.

Para este ejemplo se empleará un archivo de nombre `Compras.db` el cual contiene la información de la compra de manzanas y naranjas que se generó en el *Subtema a*, donde la tabla tiene el nombre `Compras` y su **Indice** tiene el nombre `Indice`. Esto es:

In [4]:
#Importación de librerías
import sqlite3

#Creación del DataFrame a partir del Archivo DB
df = pd.read_sql_query("SELECT * FROM Compras", sqlite3.connect('./Datos/Compras.db'))

#Impresión de los Resultados
print("El DataFrame es:")
df

El DataFrame es:


Unnamed: 0,Indice,Manzana,Naranja
0,María,3,0
1,Roberto,2,3
2,Lily,0,7
3,David,1,2


### Definición del Indice

Una vez que se ha generado el **DataFrame** de **Pandas**, ya sea a través de un archivo `CSV`, un `JSON` o un `DB`, se puede definir una de las columas como el **Indice** por medio del método `set_index()` donde el argumento es el nombre de la columna que será el nuevo **Indice**.

Hay dos manera de realizarlo:

1. La primer forma es asignando al **DataFrame** su propio valor pero empleando el método `set_index()`, esto es: 
```python
df = df.set_index('Indice')
```
2. La otra manera es simplemente aplicar el método `set_index()` al **DataFrame**, pero se debe de incluir el argumento `inplace = True` para que se realice la asignación. Generalmente es la forma más empleada, esto es:
```python
df.set_index('Indice', inplace = True)
```

***Nota:*** Para **Pandas**, la columna que queda definida como el **Indice** del **DataFrame** siempre se mostrará un poco más abajo en relación a los nombres de las columnas restantes.

In [5]:
#Definición del Indice, primera forma
#df = df.set_index('Indice')

#Definición del Indice, segunda forma
df.set_index('Indice', inplace = True)

#Impresión de los Resultados
print("El DataFrame es:")
df

El DataFrame es:


Unnamed: 0_level_0,Manzana,Naranja
Indice,Unnamed: 1_level_1,Unnamed: 2_level_1
María,3,0
Roberto,2,3
Lily,0,7
David,1,2


### En Resumen
Para resumir el proceso, se va a generar un **DataFrame** a partir del archivo `Compras.csv` que se empleó previamente. Para ello se realizarán las siguientes acciones:

1. Leer el archivo `Compras.csv` y asignarlo a un **DataFrame** llamado `Compras_df`.
2. Definir el nombre del **Indice** como `Nombre`.
3. Mostrar el **DataFrame**.

In [6]:
#Creación del DataFrame a partir del Archivo CSV
Compras_df = pd.read_csv('./Datos/Compras.csv', index_col = 0)

#Renombrado del Indice
Compras_df.index.name = 'Nombre'

#Impresión de los Resultados
print("El DataFrame es:")
Compras_df

El DataFrame es:


Unnamed: 0_level_0,Manzana,Naranja
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
María,3,0
Roberto,2,3
Lily,0,7
David,1,2


Ahora se va a generar un nuevo **DataFrame** con las mismas características que `Compras_df` pero con otro nombre y con datos adicionales. Para ello se realizarán las siguientes acciones:

1. Crear un nuevo **DataFrame** llamado `Nuevo_df` a partir de un **Diccionario** con los nuevos valores.
2. Definir el **Indice** del nuevo **DataFrame**.
3. Mostrar el **DataFrame**.

In [7]:
#Creación del nuevo DataFrame
Nuevo_df = pd.DataFrame({
    'Nombre':  ['Eva', 'Priscila', 'Javier'],
    'Manzana': [5, 8, 12], 
    'Naranja': [10, 14, 3]
})

#Definición del Indice
Nuevo_df.set_index('Nombre', inplace = True)

#Impresión de los Resultados
print("El DataFrame es:")
Nuevo_df

El DataFrame es:


Unnamed: 0_level_0,Manzana,Naranja
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Eva,5,10
Priscila,8,14
Javier,12,3


Como ambos **DataFrames** (`Compras_df` y `Nuevo_df`) tienen la misma estrucrura, es posible unirlos por medio del método `.append()` de **Pandas**.

En este caso, se agregará `Nuevo_df` a `Compras_df`.

La descripción detallada del método `.append()` puede consultarse a través [de esta liga](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html).

In [8]:
#Agregación de los DataFrames
Compras_df = Compras_df.append(Nuevo_df)

#Impresión de los Resultados
print("El DataFrame es:")
Compras_df

El DataFrame es:


Unnamed: 0_level_0,Manzana,Naranja
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
María,3,0
Roberto,2,3
Lily,0,7
David,1,2
Eva,5,10
Priscila,8,14
Javier,12,3


### Guardar los Cambios en Archivos CSV, JSON y SQL

Finalmente, los datos del nuevo **DataFrame** `Compras_df` se pueden guardar en archivos con formato `CSV`, `JSON` o `DB`. Esto se realiza de manera similar a la lectura de datos, ya que **Pandas** proporciona comandos sencillos para realizarlo:

* Se emplea el método `.to_csv()` para guardar el archivo `CSV`, donde el argumento corresponde al nombre del archivo.
* Se emplea el método `.to_json()` para guardar el archivo `JSON`, donde el argumento corresponde al nombre del archivo.
* Se emplea el método `.to_sql()` para guardar el archivo `DB`, realizando una conexión al archivo `SQL` que contiene la base de datos por medio del método `.connect()` de **SQLite**.

In [9]:
#Guardado del Archivo en formato CSV
#Compras_df.to_csv('./Datos/Compras_df.csv')

#Guardado del Archivo en formato JSON
#Compras_df.to_json('./Datos/Compras_df.json')

#Agregación al Archivo SQL en formato DB
#Compras_df.to_sql('Compras', sqlite3.connect('./Datos/Compras_df.db'))

<div class="alert alert-block alert-success">
<b>.: Fin del Subtema :.</b>
</div>

***Liga de aceso al siguiente Subtema:*** 
<br>[c. Operaciones en el DataFrame Parte 1](c.%20Operaciones%20en%20el%20DataFrame%20Parte%201.ipynb)