# **Unidad 2:** Adquisicion de datos (_Pandas_)

In [1]:
import pandas as pd

## **CSV**

### read_csv

In [2]:
data = pd.read_csv("examples/csv_example.csv")
print(data)

   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6    Ramón    m
6   7     Gaby    f


Podemos ver que Pandas le asigna un un indice numerico predeterminado a cada uno de los registros cargados de nuestro archivo.
Podemos asignar nuestro propio indice pasandole a la funcion el nombre de la columna que deseamos utilizar para ese fin:

In [3]:
pretty_data = pd.read_csv("examples/csv_example.csv", index_col="id")
print(pretty_data)

     nombre sexo
id              
1      Juan    m
2     Pedro    m
3      Anna    f
4   Julieta    f
5     Pablo    m
6     Ramón    m
7      Gaby    f


Si no necesitamos utilizar todas las columnas del archivo, podemos especificarle a Pandas aquellas que si nos interesan.

In [4]:
data = pd.read_csv("examples/csv_example.csv", usecols=["id", "nombre"])
print(data)

   id   nombre
0   1     Juan
1   2    Pedro
2   3     Anna
3   4  Julieta
4   5    Pablo
5   6    Ramón
6   7     Gaby


Otro parametro importante es `skiprows`, que sirve para indicar el conjunto de filas que no nos va a interesar traer del archivo.

In [5]:
data = pd.read_csv("examples/csv_example.csv", skiprows=[1,5])
print(data)

   id   nombre sexo
0   2    Pedro    m
1   3     Anna    f
2   4  Julieta    f
3   6    Ramón    m
4   7     Gaby    f


- Adicionalmente existe el parametro `skip_blank_lines` que permite eliminar aquellas filas que en el archivo estan en blanco.

Finalmente, el parametro `nrows` nos permite elegir el numero de filas/registros que deseamos cargar del archivo.

In [6]:
data = pd.read_csv("examples/csv_example.csv", nrows=3)
print(data)

   id nombre sexo
0   1   Juan    m
1   2  Pedro    m
2   3   Anna    f


### head

Cuando utilizamos archivos muy grandes y queramos tener una vista rapida de los datos, probablemente no querramos imprimirlos en su totalidad. Para ello usamos el metodo `head`, que por defecto retorna unicamente los primeros 5 registros.

In [7]:
print(pretty_data.head())

     nombre sexo
id              
1      Juan    m
2     Pedro    m
3      Anna    f
4   Julieta    f
5     Pablo    m


Pero tambien podemos pasarle como argumento la cantidad de registros que queremos obtener.

In [8]:
print(pretty_data.head(2))

   nombre sexo
id            
1    Juan    m
2   Pedro    m


### query

Una alternativa a `head` es el metodo `query` que nos permite filtrar facilmente los registros que queremos obtener.

In [9]:
print(pretty_data.query("2 < id < 5"))

     nombre sexo
id              
3      Anna    f
4   Julieta    f


In [10]:
print(pretty_data.query("sexo == 'm'"))

   nombre sexo
id            
1    Juan    m
2   Pedro    m
5   Pablo    m
6   Ramón    m


- Notesen las ' (comillas) para indicar que el valor a lo que equivale es un caracter

### Acceder a los datos

Podemos acceder a los valores de una columna indicando la propiedad con el mismo nombre.

In [11]:
nombres = pretty_data.nombre  ## que es equivalente a pretty_data["nombre"]
print(nombres)

id
1       Juan
2      Pedro
3       Anna
4    Julieta
5      Pablo
6      Ramón
7       Gaby
Name: nombre, dtype: object


Tambien podemos indicar un conjunto de columnas que nos interesan utilizando una lista de ellas como indice.

In [12]:
data = pretty_data[["nombre", "sexo"]]
print(data)

     nombre sexo
id              
1      Juan    m
2     Pedro    m
3      Anna    f
4   Julieta    f
5     Pablo    m
6     Ramón    m
7      Gaby    f


Por ultimo, tambien podemos loopear sobre los datos.

In [13]:
for nombre in pretty_data.nombre:
    print(nombre)

Juan
Pedro
Anna
Julieta
Pablo
Ramón
Gaby


<br>

## Excel

### read_excel

De forma analoga a `read_csv` podemos usar `read_excel`, donde el parametro *`sheetname`* nos permite seleccionar el número de hoja, las cuales se comienzan a numerar desde cero.

In [14]:
data = pd.read_excel("examples/excel_example.xlsx")
print(data)

   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6    Ramón    m
6   7     Gaby    f


<br>

### JSON

### read_json

In [15]:
data = pd.read_json("examples/json_example.json")
print(data)

   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6    Ramón    m
6   7     Gaby    f


<br>

### HTML

#### read_html

Con pandas tambien podemos cargar los datos a partir de HTML; para ellos los datos deben estar incluidos dentro de una tabla:

```
<table>
  <tr>
    <th>id</th>
    <th>nombre</th>
    <th>sexo</th>
  </tr>
  <tr>
    <td>1</td>
    <td>Juan</td>
    <td>m</td>
  </tr>
  <tr>
    <td>2</td>
    <td>Pedro</td>
    <td>m</td>
  </tr>
  ...
</table>
```

<br>

In [16]:
data = pd.read_html("examples/html_example.html")
print(data)

[   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6   RamÃ³n    m
6   7     Gaby    f]


- Notese que en este caso el objeto que nos devuelve la funcion es una lista de `DataFrames` (o filas)

In [17]:
for r in data:
    print(r)

   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6   RamÃ³n    m
6   7     Gaby    f


- Podemos concatenerlas a un unico `DataFrame` utilizando la funcion: `concat`

In [18]:
unico_df = pd.concat(data)
print(unico_df)

   id   nombre sexo
0   1     Juan    m
1   2    Pedro    m
2   3     Anna    f
3   4  Julieta    f
4   5    Pablo    m
5   6   RamÃ³n    m
6   7     Gaby    f


<br>

### XML

Cargar archivos XML es un poco mas complejo. Para ello necesitamos utilizar, tambien, una biblioteca para poder parsearlo correctamente.

In [19]:
import xml.etree.cElementTree as ET
data_tree = ET.parse("examples/xml_example.xml")

El objeto obtenido (_parsed_xml_) es de tipo `ElementTree`, luego podemos utilizar su metodo `iter()` para poder iterar sobre los elementos con un determinado tag.

Luego, podemos generar el DataFrame de pandas de la siguiente manera:

In [20]:
def text_or_none(node):
    return node.text if node is not None else None

clientes = []
for node in data_tree.iter(tag="cliente"):
    cliente = {
        "id": node.attrib["id"], # Ejemplo de como obtener un atributo del tag
        "nombre": text_or_none(node.find("nombre")), # Ejemplo de como obtener un nodo hijo de un tag
        "sexo": text_or_none(node.find("sexo"))
    }
    clientes.append(cliente)
    
data = pd.DataFrame(clientes)
print(data)

  id   nombre sexo
0  1     Juan    m
1  2    Pedro    m
2  3     Anna    f
3  4  Julieta    f
4  5    Pablo    m
5  6    Roman    m
6  7     Gaby    f


- Para mas informacion acerca de `ElementTree` podemos ver la documentacion oficial: [ElementTree Docs](https://docs.python.org/3/library/xml.etree.elementtree.html)

- Como dato de color, podemos asignarle al `DataFrame` una columna especifica como indice utilizando `set_index`:

In [21]:
print(data.set_index("id"))

     nombre sexo
id              
1      Juan    m
2     Pedro    m
3      Anna    f
4   Julieta    f
5     Pablo    m
6     Roman    m
7      Gaby    f


<br>

### SQLite

Para ello primero debemos generar una coneccion con la base de datos usando el modulo `sqlite3`.

In [22]:
import sqlite3
connection = sqlite3.connect("examples/sqlite_example.db")

Luego utilizamos la funcion `read_sql_query` de _Pandas_ que nos permite generar un `DataFrame` a partir del resultado de una consulta SQL.

In [23]:
data = pd.read_sql_query("SELECT * FROM CLIENTES", connection)
print(data.set_index("id"))

     nombre sexo
id              
1      Juan    m
2     Pedro    m
3      Anna    f
4   Julieta    f
5     Pablo    m
6     Roman    m
7      Gaby    f


<br>

<br>

**_Estos son solo unas pocas de las funcionalidades que nos ofrece Pandas para trabajar con datos. Para conocer sobre más metodos utiles podemos utilizar la documentacion oficial de la biblioteca: [Pandas Docs](https://pandas.pydata.org/docs/index.html)_**