## Tutorial Pandas

# Introducción a las estructuras de datos de pandas.

En este primer arichivo se escriben varios ejemplos de como se puede utilizar pandas, y de algunas anotaciones.

In [2]:
import pandas as pd
import numpy as np

In [3]:
s = pd.Series([-2, 0, 3, 6])
print(s)

0   -2
1    0
2    3
3    6
dtype: int64


#### Series
Estructuras unidimensionales que contienen un array de datos y un array de etiquetas (index) que van asociadas a los datos.

In [5]:
ventas = pd.Series([15,20,30], index=["Enero","Febrero","Marzo"])
ventas

Enero      15
Febrero    20
Marzo      30
dtype: int64

Para extraer los datos podemos hacerlo de dos formas:

In [7]:
ventas[0] #Esto mostrará el valor de 15

15

In [8]:
ventas["Marzo"] #Usando la etiqueta mostrará el valor de 30

30

Podemos acceder a los objetos que contienen los índices y los valores a través de los atributos index y values de la serie:

In [9]:
ventas.index #Mostrará todos los valores de los indices.

Index(['Enero', 'Febrero', 'Marzo'], dtype='object')

In [10]:
ventas.values #Muestra los valores de la derecha asociado con las etiquetas

array([15, 20, 30])

In [11]:
ventas.name = "Ventas 2020" # este se suma a los indices

In [12]:
ventas

Enero      15
Febrero    20
Marzo      30
Name: Ventas 2020, dtype: int64

In [13]:
ventas.index.name = "Meses"
ventas

Meses
Enero      15
Febrero    20
Marzo      30
Name: Ventas 2020, dtype: int64

El atributo **axes** nos da acceso a una lista con los ejes de la serie (solo contiene un elemento al tratarse de una estructura unidimensional)

In [14]:
ventas.axes

[Index(['Enero', 'Febrero', 'Marzo'], dtype='object', name='Meses')]

In [15]:
ventas.shape #size de la serie

(3,)

#### DataFrames
Estructuras tabulares de datos orientadas a columnas, con etiquetas tanto en filas como en columnas.
A continuación, se crea un datraframe, que está formado por un diccionario y una lista.
* Diccionario:
    * Claves: son las columnas.
    * Los valores son los valores que tiene cada columna.
* Lista:
    * Los valores de la lista son los index, que son las filas.
    


In [16]:
ventas = pd.DataFrame({"Entradas": [4,3,5,1],
                       "Salidas":[1,5,6,78],
                       "Valoración": [66,57,78,43],
                       "Límite": ["No","Sí","No","No"],
                        "Cambio": [1.34,1.22,-0.56,0.77]},
                        index = ["Enero","Febrero","Marzo","Abril"])
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Enero,4,1,66,No,1.34
Febrero,3,5,57,Sí,1.22
Marzo,5,6,78,No,-0.56
Abril,1,78,43,No,0.77


In [18]:
ventas.index # Muestra los atributos de las filas.

Index(['Enero', 'Febrero', 'Marzo', 'Abril'], dtype='object')

In [None]:
ventas.columns # Muestra los nombres de las columnas

##### Ejes
* Eje 0: eje vertical, es decir las filas.
* Eje 1: eje horizontal, es decir las columnas.

In [19]:
ventas.axes

[Index(['Enero', 'Febrero', 'Marzo', 'Abril'], dtype='object'),
 Index(['Entradas', 'Salidas', 'Valoración', 'Límite', 'Cambio'], dtype='object')]

* Podemos poner un nombre general tanto a las filas como a las columnas, para lo cual se puede utilizar el atributo **name**

In [20]:
ventas.index.name = "Meses" # Como index hace referencia a las filas, entonces pondremos nombre a las filas.

In [21]:
ventas.columns.name = "Métricas" # Ponemos nombre a las columnas.

In [22]:
ventas

Métricas,Entradas,Salidas,Valoración,Límite,Cambio
Meses,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Enero,4,1,66,No,1.34
Febrero,3,5,57,Sí,1.22
Marzo,5,6,78,No,-0.56
Abril,1,78,43,No,0.77


* Para acceder a los valores del dataframe podemos hacerlo a través de **values**
* Como se muestra se extraen todos los valores de la tabla, o lo que es lo mismo se extraen los valores del diccionario creado.

In [23]:
ventas.values

array([[4, 1, 66, 'No', 1.34],
       [3, 5, 57, 'Sí', 1.22],
       [5, 6, 78, 'No', -0.56],
       [1, 78, 43, 'No', 0.77]], dtype=object)

* Por ultimo, los dataframe son unidades bidimensionales, podriamos decir que son matrices, por tanto al usar el atributo **shape** se obtiene (rows, columns)

In [24]:
ventas.shape

(4, 5)

### Creación de Series y DataFrames
#### Creación de Series
##### 1. A partir de una lista
Creamos una serie a partir de una lista, en este caso no ponemos el parámetro index, por tanto se creará por defecto empezando en cero.

In [4]:
s = pd.Series([7, 5, 3])
s

0    7
1    5
2    3
dtype: int64

En el siguiente ejemplo colocamos el valor de los indices.


In [5]:
s = pd.Series([7,5,3], index=["Enero","Febrero","Marzo"])
s

Enero      7
Febrero    5
Marzo      3
dtype: int64

##### 2. A partir de un diccionario

In [8]:
d = {"Enero": 7, "Febrero":5, "Marzo":3}
s = pd.Series(d)
s

Enero      7
Febrero    5
Marzo      3
dtype: int64

Si añadimos el valor index, entonces los valores se colocarán según ese índice.


In [9]:
s = pd.Series(d, index =["Abril","Marzo","Febrero","Enero"])
s

Abril      NaN
Marzo      3.0
Febrero    5.0
Enero      7.0
dtype: float64

##### 3. A partir de un escalar

In [10]:
s = pd.Series(7, index = ["Enero","Febrero","Marzo"])
s

Enero      7
Febrero    7
Marzo      7
dtype: int64

#### Creación de dataframes
##### 1. A partir de un diccionario de listas de valores

In [11]:
elementos = {"Numero atómico":[1,6,37,88],
              "Masa atómica":[1.008,12.011,107.87, 226],
              "Familia":["No meta","No metal","Metal","Metal"]}
tabla_periodica = pd.DataFrame(elementos)
tabla_periodica #Cómo no se ha especificado un index entonces la filas se crearan automáticamente.

Unnamed: 0,Numero atómico,Masa atómica,Familia
0,1,1.008,No meta
1,6,12.011,No metal
2,37,107.87,Metal
3,88,226.0,Metal


A continuación, especificamos las etiquetas tanto para las filas como para las columnas.

In [13]:
tabla_periodica = pd.DataFrame(elementos,
                               index = ["H","C","Ag","Ra"],
                               columns =["Familia","Numero atómico","Masa atómica"])
tabla_periodica

Unnamed: 0,Familia,Numero atómico,Masa atómica
H,No meta,1,1.008
C,No metal,6,12.011
Ag,Metal,37,107.87
Ra,Metal,88,226.0


**Recuerda que con el parámetro columns puedes mostrar el orden en el que se muestran las columnas, pero no cambiar el nombre, si haces esto, no se mostraran los valores, mostrándose un valor NaN. Por tanto, las columnas siempre tendrán el nombre de las keys del diccionario que crees, pero te permite modificarlo a gusto en cuanto al orden.**

##### 2. Creación de un dataframe a partir de un array Numpy
En este caso si no se especifican las etiquetas de las filas y columnas, se asignan etiquetas por defecto.

In [14]:
unidades_datos = np.array([[2,5,3,2],[4,6,7,2],[3,2,5,1]])
unidades = pd.DataFrame(unidades_datos)
unidades

Unnamed: 0,0,1,2,3
0,2,5,3,2
1,4,6,7,2
2,3,2,5,1


In [16]:
unidades = pd.DataFrame(unidades_datos,index=[2015,2016,2017],
                       columns=["Ag","Au","Cu","Pt"])
unidades

Unnamed: 0,Ag,Au,Cu,Pt
2015,2,5,3,2
2016,4,6,7,2
2017,3,2,5,1


##### 3. Creación de un dataframe a partir de una lista de diccionarios

In [17]:
unidades_2015 = {"Ag":2,"Au":5,"Cu":3,"Pt":2}
unidades_2016 = {"Ag":4,"Au":6,"Cu":7,"Pt":2}
unidades_2017 = {"Ag":3,"Au":2,"Cu":4,"Pt":1}
unidades = pd.DataFrame([unidades_2015,unidades_2016,unidades_2017],
                       index=[2015,2016,2017])
unidades

Unnamed: 0,Ag,Au,Cu,Pt
2015,2,5,3,2
2016,4,6,7,2
2017,3,2,4,1


**Otros métodos son:
* pandas.DataFrame.from_dict: crea un dataframe a partir de un diccionario de diccionarios o de secuencias tipo array.
* pandas.DataFrame.from_records: parte de una lista de tuplas o arrays con un tipo estructurado.**