# Pandas

(https://pandas.pydata.org/)

### ¿Qué es pandas?

**Pandas** es una librería para el análisis de datos que cuenta con las estructuras de datos que necesitamos para limpiar los datos en bruto y que sean aptos para el análisis (por ejemplo, tablas). Es importante señalar aquí que, dado que pandas lleva a cabo tareas importantes, como alinear datos para su comparación, fusionar conjuntos de datos, gestión de datos perdidos, etc., se ha convertido en una librería muy importante para procesar datos a alto nivel en Python (es decir, estadísticas ). Pandas fue diseñada originalmente para gestionar datos financieros, y como alternativo al uso de hojas de cálculo (es decir, Microsoft Excel). 

(de: https://programacion.net/articulo/introduccion_a_pandas_1632)

Hay dos **clases** principales en pandas: *series* y *dataframe*. 
Nosotros trabajaremos sobretodo con la clase *dataframe* (**df**).

En este taller se estudiará el uso de esta clase y sus operaciones más comunes: creación de **df**, lectura de datos desde archivos, creación y modificación de columnas, lineas o valores, búsqueda, ordenar datos, Etc. 

La estructura de un **df** es como en una tabla de datos:

* Cada *columna* representa una **variable**.
* Cada *línea* una **observación** (o punto muestral). 

Como se puede imaginar cada `columna` debe de tener un nombre diferente.

Pero también cada `línea` necesita un índice (**index**) diferente. En principio cualquier valor se puede usar como índice, pero normalmente se utilizan números consecutivos o hora/fecha.

Si no declaramos explicitamente los valores del índice pandas utiliza números enteros (empezando del 0).

Al ser un **objeto** (en el contexto de _programación orientada a objetos_) cada **df** tiene *métodos* y *variables*.

En Python los *métodos* de una objeto se llaman usando:

    <nombre del objeto>.<nombre del método>(<parámetros>)
    
    
Por ejemplo:

    df.to_excel('datos.xls')
    
Donde `df` es el objeto, `to_excel` es el *método* (para grabar un **df** en excel) y `'datos.xls'` es un parámetro (nombre del archivo).

Las variables (de un objeto) se acceden usando:

    <nombre del objeto>.<nombre de la variable>
    
Por ejemplo:

    df.columns

Donde `df` es el objeto, `columns` es una variable donde el **df** almacena el nombre de las columnas.


### Creación de un _dataframe_

Comenzaremos por crear un **df** desde cero, colocando algunos datos sencillos.


Primero que nada cargamos la librería pandas con un alias (por costumbre se utiliza `pd`)

In [1]:
import pandas as pd

El método utilizado a para crear un objeto **df** se llama `DataFrame`:


In [2]:
df = pd.DataFrame([[1.0,2.2,3.4],
                   [1.2,0.5,3.3],
                   [0.9,3.3,3.2]],
                 columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,1.0,2.2,3.4
1,1.2,0.5,3.3
2,0.9,3.3,3.2


También es posible crear un **df** desde un diccionario, donde cada elemento del diccionario nos da una columna:

In [3]:
df_de_dic = pd.DataFrame({'a':[1.0,2.2,3.4],
                          'b':[1.2,0.5,3.3],
                          'c':[0.9,3.3,3.2]})
df_de_dic

Unnamed: 0,a,b,c
0,1.0,1.2,0.9
1,2.2,0.5,3.3
2,3.4,3.3,3.2
