# Introducción a Pandas

A continuación vamos a introducir las principales funciones de pandas.

El primer paso es importar la librería como pd.

In [7]:
import pandas as pd

# Creación de datos

En primer lugar, vamos a empezar creando los objetos desde cero. Muchas veces, contaréis con archivos preexistentes. Por ejemplo los datos en un archivo .csv o tendréis acceso a ellos mediante una API. 

Primero vamos a hablar de los dos objetos principales de pandas:  "DataFrame" y "Serie".

## DataFrame

Un DataFrame es una tabla. Contiene un array de entradas individuales, cada una de las cuales tiene un valor determinado. Cada entrada corresponde a una fila (o registro) y a una columna.

Pongamos un ejemplo de un DataFrame sencillo:

In [2]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


Laa función para crear estos objetos llamados dataframes es: pd.DataFrame(). Para crear estos objetos se utiliza un diccionario donde las llaves corresponden a las columnas del dataframe (en este caso las columnas son Bob y Sue) y la lista de valores corresponde a la información que aparece en las distintas filas. Esta es la manera más sencilla de crear un dataframe desde cero.

También tenemos los valores del índice numérico que nos sirve para identificar la fila correspondiente. 0 corresponde a la primera fila y así sucesivamente.

En lugar de utilizar los valores numéricos, podemos asignar valores personalizadas al Índice:


In [5]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


Pandas es una librería o biblioteca muy extensa, por eso es necesario aprender a leer y entender la documentación. Aquí tenéis un acceso para empezar a explorar y conocer mejor algunas de estas funciones:

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html?highlight=dataframe#pandas.DataFrame

También se puede acceder a la información utilizando "?" y podremos acceder directamente a la documentación

In [7]:
? pd.DataFrame

[0;31mInit signature:[0m
 [0mpd[0m[0;34m.[0m[0mDataFrame[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mdata[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex[0m[0;34m:[0m [0;34m'Axes | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcolumns[0m[0;34m:[0m [0;34m'Axes | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdtype[0m[0;34m:[0m [0;34m'Dtype | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcopy[0m[0;34m:[0m [0;34m'bool | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
Two-dimensional, size-mutable, potentially heterogeneous tabular data.

Data structure also contains labeled axes (rows and columns).
Arithmetic operations align on both row and column labels. Can be
thought of as a dict-like container for Series objects. The primary
pandas data 

## Series

Una Serie, por el contrario, es una secuencia de valores de datos. Si un DataFrame es una tabla, una Serie es una lista. Y puede considerarse una columna del DataFrame. La manera más sencilla de crear una serie es con una lista:

In [10]:
pd.Series([30, 35, 40])

0    30
1    35
2    40
dtype: int64

A una Serie también se le puede asignar un índice, aunque no tiene un nombre de columna como tal.

In [9]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

# Lectura de archivos de datos

Lo más habitual será que ya contemos con un archivo de datos y tengamos que exportarlo a Python. 

El formato más común es el .csv y pandas cuenta con la función pd.read_csv() para poder exportarlos. Utilizando la URL del archivo o el path en el que se encuentra en nuestro ordenador será suficiente para poder obtener el archivo. 

En este caso vamos a exportar el Iris dataset, una base de datos muy útil para entrenar algoritmos de clasificación.

In [4]:
pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/iris-data.csv')

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


La tabla generada (o dataframe) la vamos a seguir usando, así que lo mejor será guardarla como un objeto. 

Esto nos permitirá seguir realizando operaciones y modificaciones en este dataframe.

In [8]:
iris = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/iris-data.csv')

Algunas funciones nos dan información sobre los datos. Estas funciones son muy útiles para hacernos una idea rápida y empezar a entender las variables que forman nuestro dataframe.

In [15]:
iris.head(3) # muestra las primeras 3 filas

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa


In [16]:
iris.tail() # muestra las últimas 5 filas

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [17]:
iris.shape # número de filas x columnas

(150, 5)

In [19]:
iris.info() # muestra los atributos, el tipo de datos y si contienen valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   class         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [18]:
iris.describe() # información estadística básica

Unnamed: 0,sepal length,sepal width,petal length,petal width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [29]:
iris['sepal length'].median() # también se puede llamar a una operación en una sola variable

5.8

Para saber el nombre de valores únicos en una variable categórica, se puede utilizar set() o unique()

In [25]:
set(iris['class']) 

{'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'}

In [26]:
iris['class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

La función value_counts() muestra los valores únicos en una variable y el número de veces que cada uno ocurre. 

In [34]:
iris['class'].value_counts()

Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64

### Acceso a columnas en Python

En Python, podemos acceder a las propiedades de los objetos. En este caso, tenemos que iris es un objeto y los nombres de las columnas son propiedades. Un objeto libro, por ejemplo, puede tener una propiedad título, lo mismo pasa con un pd.DataFrame(). Para acceder a las columnas tendremos que llamar primero al objeto (coger el libro) y abrir la propiedad (abrir el capítulo que nos interesa).

La sintaxis para hacer esto en pandas es df.col o df['col']

In [36]:
iris['class'].head(3)

0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
Name: class, dtype: object

## Selección, eliminación y creacción de atributos

Estas son las dos formas de seleccionar una columna (o Serie) específica de un DataFrame. Ambas son válida sintácticamente, pero el operador []  puede manejar nombres de columnas con caracteres reservados (por ejemplo, seleccionar una clumna con un nombre compuesto con espacios en blanco o con carácteres reservados como "class" o "def").

Además, este operador nos va a permitir seleccionar una lista de series y seleccionar un grupo de los atributos del dataset origninal.

In [9]:
cols = ['sepal length', 'sepal width']

sepal = iris[cols]

sepal.head()

Unnamed: 0,sepal length,sepal width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6


También podemos acceder a un valor añadiendo a la Serie el número de la fila que queremos acceder:

In [26]:
iris['sepal length'][0]

5.1

Otra función útil para eliminar atributos es la función DataFrame.drop(). Esta función permite eliminar columnas o filas determinadas en base al nombre o a la posición.

In [10]:
sepal.drop(columns=['sepal width']) # drop by column

Unnamed: 0,sepal length
0,5.1
1,4.9
2,4.7
3,4.6
4,5.0
...,...
145,6.7
146,6.3
147,6.5
148,6.2


In [13]:
sepal.drop([1, 2, 3, 7]).head() # drop by index

Unnamed: 0,sepal length,sepal width
0,5.1,3.5
4,5.0,3.6
5,5.4,3.9
6,4.6,3.4
8,4.4,2.9


También podemos crear nuevas variables a partir de series de un data frame

In [34]:
sepal['mean'] = (sepal['sepal length'] + sepal['sepal width'])/2

sepal.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sepal['mean'] = (sepal['sepal length'] + sepal['sepal width'])/2


Unnamed: 0,sepal length,sepal width,mean
0,5.1,3.5,4.3
1,4.9,3.0,3.95
2,4.7,3.2,3.95
3,4.6,3.1,3.85
4,5.0,3.6,4.3


## Indexación en Pandas