# Introducción a Pandas

A continuación vamos a introducir las principales funciones de pandas.

El primer paso es importar la librería como pd.

In [3]:
import pandas as pd

# Creación de datos

En primer lugar, vamos a empezar creando los objetos desde cero. Muchas veces, contaréis con archivos preexistentes. Por ejemplo los datos en un archivo .csv o tendréis acceso a ellos mediante una API. 

Primero vamos a hablar de los dos objetos principales de pandas:  "DataFrame" y "Serie".

## Series

Una Serie es una secuencia de valores de datos. Si un DataFrame es una tabla, una Serie es una lista. Y puede considerarse una columna del DataFrame. La manera más sencilla de crear una serie es con una lista:

In [5]:
pd.Series([30, 35, 40])

0    30
1    35
2    40
dtype: int64

A una Serie también se le puede asignar un índice, aunque no tiene un nombre de columna como tal.

In [6]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

## DataFrame

Un DataFrame es una tabla. Contiene un array de entradas individuales, cada una de las cuales tiene un valor determinado. Cada entrada corresponde a una fila (o registro) y a una columna o serie. Al final un DataFrame es una concatenación de Series.

Pongamos un ejemplo de un DataFrame sencillo:

In [2]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


La función para crear estos objetos llamados dataframes es: pd.DataFrame(). Para crear estos objetos se utiliza un diccionario donde las llaves corresponden a las columnas del dataframe (en este caso las columnas son Bob y Sue) y la lista de valores corresponde a la información que aparece en las distintas filas. Esta es la manera más sencilla de crear un dataframe desde cero.

También tenemos los valores del índice numérico que nos sirve para identificar la fila correspondiente. 0 corresponde a la primera fila y así sucesivamente.

En lugar de utilizar los valores numéricos, podemos asignar valores personalizadas al Índice:

In [3]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


Pandas es una librería o biblioteca muy extensa, por eso es necesario aprender a leer y entender la documentación. Aquí tenéis un acceso para empezar a explorar y conocer mejor algunas de estas funciones:

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html?highlight=dataframe#pandas.DataFrame

También se puede acceder a la información utilizando "?" y podremos acceder directamente a la documentación

In [None]:
? pd.DataFrame

# Lectura de archivos de datos

Lo más habitual será que ya contemos con un archivo de datos y tengamos que exportarlo a Python. 

El formato más común es el .csv y pandas cuenta con la función pd.read_csv() para poder exportarlos. Utilizando la URL del archivo o el path en el que se encuentra en nuestro ordenador será suficiente para poder obtener el archivo. 

En este caso vamos a exportar el Iris dataset, una base de datos muy útil para entrenar algoritmos de clasificación.

In [7]:
pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/iris-data.csv')

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Pandas cuenta con una larga lista de funciones para la lectura de datos. Cuenta con funciones para leer los archivos más comunes como los archivos excel:

In [12]:
pd.read_excel('data.xlsx')

Unnamed: 0,x,y,z
0,1,12,12
1,2,1,13
2,3,32,432
3,4,12,12


También cuenta con funciones para leer documentos más complejos como SQL o de big query:

import pandas_gbq

sql = """
SELECT country_name, alpha_2_code
FROM `bigquery-public-data.utility_us.country_code_iso`
WHERE alpha_2_code LIKE 'A%'
"""
df = pandas_gbq.read_gbq(sql, project_id=project_id)

La tabla generada (o dataframe) la vamos a seguir usando, así que lo mejor será guardarla como un objeto. 

Esto nos permitirá seguir realizando operaciones y modificaciones en este dataframe.

In [8]:
iris = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/iris-data.csv')

Algunas funciones nos dan información sobre los datos. Estas funciones son muy útiles para hacernos una idea rápida y empezar a entender las variables que forman nuestro dataframe.

In [9]:
iris.head(3) # muestra las primeras 3 filas

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa


In [10]:
iris.tail() # muestra las últimas 5 filas

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [11]:
iris.shape # número de filas x columnas

(150, 5)

In [12]:
iris.info() # muestra los atributos, el tipo de datos y si contienen valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   class         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [13]:
iris.describe() # información estadística básica

Unnamed: 0,sepal length,sepal width,petal length,petal width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [14]:
iris['sepal length'].median() # también se puede llamar a una operación en una sola variable

5.8

Para saber el nombre de valores únicos en una variable categórica, se puede utilizar set() o unique()

In [15]:
set(iris['class']) 

{'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'}

In [16]:
iris['class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

La función value_counts() muestra los valores únicos en una variable y el número de veces que cada uno ocurre. 

In [17]:
iris['class'].value_counts()

Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64

### Acceso a columnas en Python

En Python, podemos acceder a las propiedades de los objetos. En este caso, tenemos que iris es un objeto y los nombres de las columnas son propiedades. Un objeto libro, por ejemplo, puede tener una propiedad título, lo mismo pasa con un pd.DataFrame(). Para acceder a las columnas tendremos que llamar primero al objeto (coger el libro) y abrir la propiedad (abrir el capítulo que nos interesa).

La sintaxis para hacer esto en pandas es df.col o df['col']

In [18]:
iris['class'].head(3)

0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
Name: class, dtype: object

## Selección, eliminación y creacción de atributos

Estas son las dos formas de seleccionar una columna (o Serie) específica de un DataFrame. Ambas son válida sintácticamente, pero el operador []  puede manejar nombres de columnas con caracteres reservados (por ejemplo, seleccionar una clumna con un nombre compuesto con espacios en blanco o con carácteres reservados como "class" o "def").

Además, este operador nos va a permitir seleccionar una lista de series y seleccionar un grupo de los atributos del dataset origninal.

In [19]:
cols = ['sepal length', 'sepal width']

sepal = iris[cols]

sepal.head()

Unnamed: 0,sepal length,sepal width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6


También podemos acceder a un valor añadiendo a la Serie el número de la fila que queremos acceder:

In [20]:
iris['sepal length'][0]

5.1

Otra función útil para eliminar atributos es la función DataFrame.drop(). Esta función permite eliminar columnas o filas determinadas en base al nombre o a la posición.

In [21]:
sepal.drop(columns=['sepal width']) # drop by column

Unnamed: 0,sepal length
0,5.1
1,4.9
2,4.7
3,4.6
4,5.0
...,...
145,6.7
146,6.3
147,6.5
148,6.2


In [22]:
sepal.drop([1, 2, 3, 7]).head() # drop by index

Unnamed: 0,sepal length,sepal width
0,5.1,3.5
4,5.0,3.6
5,5.4,3.9
6,4.6,3.4
8,4.4,2.9


También podemos crear nuevas variables a partir de series de un data frame

In [23]:
sepal['mean'] = (sepal['sepal length'] + sepal['sepal width'])/2

sepal.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sepal['mean'] = (sepal['sepal length'] + sepal['sepal width'])/2


Unnamed: 0,sepal length,sepal width,mean
0,5.1,3.5,4.3
1,4.9,3.0,3.95
2,4.7,3.2,3.95
3,4.6,3.1,3.85
4,5.0,3.6,4.3


## Indexación en Pandas

Pandas cuenta con operadores de acceso propios: iloc y loc.

### Selección basada en índices
Es uno de los dos paradigmas para seleccionar datos. Se basa en el uso de índices: seleccionando datos basados en su posición numérica.

Es el paradigma que sigue iloc.

Lo podemos utilizar para seleccionar la primera fila del DataFrame:

In [24]:
sepal.iloc[0] # muestra los valores de la primera fila

sepal length    5.1
sepal width     3.5
mean            4.3
Name: 0, dtype: float64

Tanto en .loc y .iloc el primer valor corresponde a la fila y el siguiente a la columna. 

Para obtener una columna con .iloc tenemos que seleccionar todas las filas y la columna que deseamos. Por ejemplo, podemos seleccionar la última columna:

In [25]:
sepal.iloc[:,-1]

0      4.30
1      3.95
2      3.95
3      3.85
4      4.30
       ... 
145    4.85
146    4.40
147    4.75
148    4.80
149    4.45
Name: mean, Length: 150, dtype: float64

Los dos puntos hacen referencia a todo (= todas las filas) y el valor de -1 al acceso a la última columna. El operador : también se puede utilizar para establecer rangos desde varios números (1:5), desde el inicio hasta un número (:5) o desde un número hasta el final (5:).

In [26]:
sepal.iloc[:3] # tres primeras filas

Unnamed: 0,sepal length,sepal width,mean
0,5.1,3.5,4.3
1,4.9,3.0,3.95
2,4.7,3.2,3.95


In [27]:
sepal.iloc[5:9] # de la quinta a la novena fila

Unnamed: 0,sepal length,sepal width,mean
5,5.4,3.9,4.65
6,4.6,3.4,4.0
7,5.0,3.4,4.2
8,4.4,2.9,3.65


In [28]:
sepal.iloc[140:] # de la fila 140 hasta la última

Unnamed: 0,sepal length,sepal width,mean
140,6.7,3.1,4.9
141,6.9,3.1,5.0
142,5.8,2.7,4.25
143,6.8,3.2,5.0
144,6.7,3.3,5.0
145,6.7,3.0,4.85
146,6.3,2.5,4.4
147,6.5,3.0,4.75
148,6.2,3.4,4.8
149,5.9,3.0,4.45


También se puede utilizar una lista para personalizar la selección:

In [29]:
mylist = [3, 6, 10, 13]
sepal.iloc[mylist]

Unnamed: 0,sepal length,sepal width,mean
3,4.6,3.1,3.85
6,4.6,3.4,4.0
10,5.4,3.7,4.55
13,4.3,3.0,3.65


### Selección basada en nombres

En el segundo paradigma, se utiliza el valor del nombre de la columna o del índice para hacer la selección.

De manera que podríamos obtener los valores de entrada de la manera siguiente:

In [30]:
iris.loc[:, 'class']

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: class, Length: 150, dtype: object

In [31]:
iris.loc[5:12, ['class', 'sepal length']]

Unnamed: 0,class,sepal length
5,Iris-setosa,5.4
6,Iris-setosa,4.6
7,Iris-setosa,5.0
8,Iris-setosa,4.4
9,Iris-setosa,4.9
10,Iris-setosa,5.4
11,Iris-setosa,4.8
12,Iris-setosa,4.8


## Selección basada en condiciones

A veces, vamos a estar interesados en una única condicion o en varias de ellas.

Por ejemplo, podríamos estar interesados en una única clase de planta y querríamos seleccionar solo esa.



In [32]:
iris['class'] == 'Iris-setosa' # bool function devuelve cuando la condición es cierta

0       True
1       True
2       True
3       True
4       True
       ...  
145    False
146    False
147    False
148    False
149    False
Name: class, Length: 150, dtype: bool

Utilizando .loc podemos introducir este resultado para filtrar las plantas de la clase setosa.

De manera que los resultados que sean verdaderos serán devueltos por .loc.


In [33]:
iris.loc[iris['class'] == 'Iris-setosa'].head()


Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Podemos seleccionar en base a que se den dos condiciones:

In [34]:
iris.loc[(iris['class'] == 'Iris-setosa') & (iris['sepal length'] > 5.4)]

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
14,5.8,4.0,1.2,0.2,Iris-setosa
15,5.7,4.4,1.5,0.4,Iris-setosa
18,5.7,3.8,1.7,0.3,Iris-setosa
33,5.5,4.2,1.4,0.2,Iris-setosa
36,5.5,3.5,1.3,0.2,Iris-setosa


Podemos seleccionar si se da una u otra condición:

In [35]:
iris.loc[(iris['sepal width'] < 2.5) | (iris['sepal length'] > 7.5)]

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
41,4.5,2.3,1.3,0.3,Iris-setosa
53,5.5,2.3,4.0,1.3,Iris-versicolor
57,4.9,2.4,3.3,1.0,Iris-versicolor
60,5.0,2.0,3.5,1.0,Iris-versicolor
62,6.0,2.2,4.0,1.0,Iris-versicolor
68,6.2,2.2,4.5,1.5,Iris-versicolor
80,5.5,2.4,3.8,1.1,Iris-versicolor
81,5.5,2.4,3.7,1.0,Iris-versicolor
87,6.3,2.3,4.4,1.3,Iris-versicolor
93,5.0,2.3,3.3,1.0,Iris-versicolor


## Asignar nuevos valores

Para crear nuevas columnas, panddas cuenta con algunas funciones adicionales. DataFame.insert() nos va a permitir crear una variable, pero además nos va a permitir poner la columna en el lugar que queramos del DataFrame.


In [36]:
iris['Statistician'] = 'Ronald Fisher'
iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class,Statistician
0,5.1,3.5,1.4,0.2,Iris-setosa,Ronald Fisher
1,4.9,3.0,1.4,0.2,Iris-setosa,Ronald Fisher
2,4.7,3.2,1.3,0.2,Iris-setosa,Ronald Fisher
3,4.6,3.1,1.5,0.2,Iris-setosa,Ronald Fisher
4,5.0,3.6,1.4,0.2,Iris-setosa,Ronald Fisher


In [37]:
iris['sepal length'].max()

7.9

Además, hay maneras más sofisticadas de crear variables. Por ejemplo usando list comprehensions:

In [38]:
iris.insert(1, 'sepal length scaled', 
            [round(i/iris['sepal length'].max(), 3) 
                for i in iris['sepal length']])


Si tenéis interés en saber más sobre list comprehensions os recomiendo este enlace:

https://www.w3schools.com/python/python_lists_comprehension.asp

In [39]:
iris.head()

Unnamed: 0,sepal length,sepal length scaled,sepal width,petal length,petal width,class,Statistician
0,5.1,0.646,3.5,1.4,0.2,Iris-setosa,Ronald Fisher
1,4.9,0.62,3.0,1.4,0.2,Iris-setosa,Ronald Fisher
2,4.7,0.595,3.2,1.3,0.2,Iris-setosa,Ronald Fisher
3,4.6,0.582,3.1,1.5,0.2,Iris-setosa,Ronald Fisher
4,5.0,0.633,3.6,1.4,0.2,Iris-setosa,Ronald Fisher


## Maps

Maps toma un conjunto de valores y los "mapea" a otro conjunto de valores. En Data Science, a menudo necesitamos crear nuevas representaciones a partir de los datos existentes, o transformar los datos del formato actual al formato que queremos que tengan más adelante. Los mapas son los que se encargan de este trabajo, por lo que son extremadamente importantes para realizar el trabajo.

Hay dos métodos importantes:

map() es el primero y aplica una función a todo un conjunto de datos.Por ejemplo, supongamos que queremos volver a calcular los valores escallados de sepal length.


In [40]:
iris['sepal length'].map(lambda i: i/iris['sepal length'].max())

0      0.645570
1      0.620253
2      0.594937
3      0.582278
4      0.632911
         ...   
145    0.848101
146    0.797468
147    0.822785
148    0.784810
149    0.746835
Name: sepal length, Length: 150, dtype: float64

Lambda es una función anónima. Funciona igual que una función normal, pero se declara en una línea y no recibe ningún nombre.

map() devuelve una Serie nueva con todos los valores transformados por la función. Al final lo que estamos haciendo es mapear una función a todo un conjunto de datos. Es decir, utilizando map() aplicamos la función a cada elemento.

apply() aplica una función a todo un eje de un DataFrame. El eje puede ser el de las columnas o el de las filas.

La diferencia entre apply y map es que map actúa en una única Serie, mientras que apply actúa en todo el DataFrame. 

In [41]:
def myfunc(i):
    return i/iris['sepal length'].max()

myfunc(5.1)

0.6455696202531644

In [42]:
iris['sepal length'].map(myfunc)

0      0.645570
1      0.620253
2      0.594937
3      0.582278
4      0.632911
         ...   
145    0.848101
146    0.797468
147    0.822785
148    0.784810
149    0.746835
Name: sepal length, Length: 150, dtype: float64

In [43]:
sepal.head()

Unnamed: 0,sepal length,sepal width,mean
0,5.1,3.5,4.3
1,4.9,3.0,3.95
2,4.7,3.2,3.95
3,4.6,3.1,3.85
4,5.0,3.6,4.3


In [44]:
sepal.apply(lambda i: i/10).head()

Unnamed: 0,sepal length,sepal width,mean
0,0.51,0.35,0.43
1,0.49,0.3,0.395
2,0.47,0.32,0.395
3,0.46,0.31,0.385
4,0.5,0.36,0.43


## Agrupar y Ordenar Valores en un DataFrame

In [45]:
iris.head()

Unnamed: 0,sepal length,sepal length scaled,sepal width,petal length,petal width,class,Statistician
0,5.1,0.646,3.5,1.4,0.2,Iris-setosa,Ronald Fisher
1,4.9,0.62,3.0,1.4,0.2,Iris-setosa,Ronald Fisher
2,4.7,0.595,3.2,1.3,0.2,Iris-setosa,Ronald Fisher
3,4.6,0.582,3.1,1.5,0.2,Iris-setosa,Ronald Fisher
4,5.0,0.633,3.6,1.4,0.2,Iris-setosa,Ronald Fisher


### Groupby

Permite agrupar en base a una característica. Por ejemplo, en base a la clase. Este es un método útil si queremos contar el número de instancias de cada una de las clases o si queremos calcular las medias de distintos grupos.

Pongamos un ejemplos con los datos de Iris:

In [46]:
iris.groupby('class').mean()

Unnamed: 0_level_0,sepal length,sepal length scaled,sepal width,petal length,petal width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Iris-setosa,5.006,0.6338,3.418,1.464,0.244
Iris-versicolor,5.936,0.75134,2.77,4.26,1.326
Iris-virginica,6.588,0.83384,2.974,5.552,2.026


Ahora podemos ver las medias para los diferentes atributos de las clases. Lo que nos puede ayudar en un proceso de análisis exploratorio.

Groupby() es un objeto especial en los que cada grupo contiene un trozo del dataframe con los valores que coinciden en la misma clase.

In [47]:
iris.groupby('class')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fdf09ad6fa0>

Otra función útil de groupby() es agg() que te permite correr múltiples funciones diferentes al mismo tiempo. Por ejemplo, podemos calcuar la media, la mediana, el valor máximo y mínimo de un atributo:

In [48]:
from statistics import median
from statistics import mean


iris[['class', 'petal length']].groupby('class').agg([mean, median, max, min])

Unnamed: 0_level_0,petal length,petal length,petal length,petal length
Unnamed: 0_level_1,mean,median,max,min
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Iris-setosa,1.464,1.5,1.9,1.0
Iris-versicolor,4.26,4.35,5.1,3.0
Iris-virginica,5.552,5.55,6.9,4.5


## Multi - Indexing



In [49]:
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/flightdata.csv',
                usecols=['airline', 'origin', 'avgdelay'])

In [50]:
df.shape

(123984, 3)

In [51]:
df.head(15)

Unnamed: 0,origin,avgdelay,airline
0,JFK,2.101124,American Airlines Inc.
1,LGA,-0.708812,Delta Air Lines Inc.
2,EWR,-4.0,United Air Lines Inc.
3,EWR,0.789157,JetBlue Airways
4,JFK,-0.440994,JetBlue Airways
5,LGA,-3.014388,American Airlines Inc.
6,JFK,1.0,United Air Lines Inc.
7,EWR,2.0,United Air Lines Inc.
8,JFK,-0.5,JetBlue Airways
9,LGA,-3.203343,JetBlue Airways


In [52]:
df.columns

Index(['origin', 'avgdelay', 'airline'], dtype='object')

In [53]:
df.groupby(['airline', 'origin']).mean() # multi-índice con dos groupby de dos cols

Unnamed: 0_level_0,Unnamed: 1_level_0,avgdelay
airline,origin,Unnamed: 2_level_1
American Airlines Inc.,EWR,8.30509
American Airlines Inc.,JFK,9.788015
American Airlines Inc.,LGA,7.518054
Delta Air Lines Inc.,EWR,11.914013
Delta Air Lines Inc.,JFK,8.240095
Delta Air Lines Inc.,LGA,9.794575
Endeavor Air Inc.,EWR,-5.75
Endeavor Air Inc.,JFK,19.909913
Endeavor Air Inc.,LGA,8.166667
Envoy Air,EWR,17.743536


Con agg() podemos calcular dos funciones sobre la misma columna de avgdelay:

In [54]:
df.groupby(['airline', 'origin']).agg([mean, len])

Unnamed: 0_level_0,Unnamed: 1_level_0,avgdelay,avgdelay
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,len
airline,origin,Unnamed: 2_level_2,Unnamed: 3_level_2
American Airlines Inc.,EWR,8.30509,1433
American Airlines Inc.,JFK,9.788015,9592
American Airlines Inc.,LGA,7.518054,9639
Delta Air Lines Inc.,EWR,11.914013,3153
Delta Air Lines Inc.,JFK,8.240095,10811
Delta Air Lines Inc.,LGA,9.794575,11433
Endeavor Air Inc.,EWR,-5.75,4
Endeavor Air Inc.,JFK,19.909913,2304
Endeavor Air Inc.,LGA,8.166667,12
Envoy Air,EWR,17.743536,2276


In [55]:
# reseteamos el índice y guardamos el dataframe

avgdly = df.groupby(['airline', 'origin']).mean().reset_index()
avgdly.head()

Unnamed: 0,airline,origin,avgdelay
0,American Airlines Inc.,EWR,8.30509
1,American Airlines Inc.,JFK,9.788015
2,American Airlines Inc.,LGA,7.518054
3,Delta Air Lines Inc.,EWR,11.914013
4,Delta Air Lines Inc.,JFK,8.240095


### Ordenar valores en un dataframe

Muchas veces vamos a recibir valores en un orden que no queremos. Pandas cuenta con la función sort_values para resolver esto:


In [56]:
avgdly.sort_values('avgdelay') # orden ascendente

Unnamed: 0,airline,origin,avgdelay
6,Endeavor Air Inc.,EWR,-5.75
19,US Airways Inc.,LGA,2.230043
17,US Airways Inc.,EWR,2.796424
18,US Airways Inc.,JFK,4.734607
2,American Airlines Inc.,LGA,7.518054
21,United Air Lines Inc.,JFK,8.065302
8,Endeavor Air Inc.,LGA,8.166667
4,Delta Air Lines Inc.,JFK,8.240095
0,American Airlines Inc.,EWR,8.30509
10,Envoy Air,LGA,9.362578


In [57]:
avgdly.sort_values('avgdelay', ascending=False) # orden descendente

Unnamed: 0,airline,origin,avgdelay
12,ExpressJet Airlines Inc.,JFK,51.333333
13,ExpressJet Airlines Inc.,LGA,23.7563
11,ExpressJet Airlines Inc.,EWR,22.348407
7,Endeavor Air Inc.,JFK,19.909913
9,Envoy Air,EWR,17.743536
16,JetBlue Airways,LGA,15.613526
22,United Air Lines Inc.,LGA,15.203634
14,JetBlue Airways,EWR,13.940273
15,JetBlue Airways,JFK,13.521856
20,United Air Lines Inc.,EWR,12.572515


In [58]:
avgdly.sort_values('avgdelay', ascending=False).reset_index().drop(columns=['index'])

Unnamed: 0,airline,origin,avgdelay
0,ExpressJet Airlines Inc.,JFK,51.333333
1,ExpressJet Airlines Inc.,LGA,23.7563
2,ExpressJet Airlines Inc.,EWR,22.348407
3,Endeavor Air Inc.,JFK,19.909913
4,Envoy Air,EWR,17.743536
5,JetBlue Airways,LGA,15.613526
6,United Air Lines Inc.,LGA,15.203634
7,JetBlue Airways,EWR,13.940273
8,JetBlue Airways,JFK,13.521856
9,United Air Lines Inc.,EWR,12.572515


In [59]:
avgdly.sort_index() # ordenar por el índice

Unnamed: 0,airline,origin,avgdelay
0,American Airlines Inc.,EWR,8.30509
1,American Airlines Inc.,JFK,9.788015
2,American Airlines Inc.,LGA,7.518054
3,Delta Air Lines Inc.,EWR,11.914013
4,Delta Air Lines Inc.,JFK,8.240095
5,Delta Air Lines Inc.,LGA,9.794575
6,Endeavor Air Inc.,EWR,-5.75
7,Endeavor Air Inc.,JFK,19.909913
8,Endeavor Air Inc.,LGA,8.166667
9,Envoy Air,EWR,17.743536


## Data Types and Missing Values (NAs)

Podemos saber el tipo de datos de una columna con la función dtype o de todas las variables con la funciónn dtypes

In [60]:
print(iris.Statistician.dtype)

print('-----')

print(iris.dtypes)

object
-----
sepal length           float64
sepal length scaled    float64
sepal width            float64
petal length           float64
petal width            float64
class                   object
Statistician            object
dtype: object


También podemos convertir el tipo de una variable en otro distinto utilizado la función as_type(). 

In [61]:
iris['sepal_length_int'] = iris['sepal length'].astype('int64')

iris.head(3)

Unnamed: 0,sepal length,sepal length scaled,sepal width,petal length,petal width,class,Statistician,sepal_length_int
0,5.1,0.646,3.5,1.4,0.2,Iris-setosa,Ronald Fisher,5
1,4.9,0.62,3.0,1.4,0.2,Iris-setosa,Ronald Fisher,4
2,4.7,0.595,3.2,1.3,0.2,Iris-setosa,Ronald Fisher,4


In [62]:
avgdly.isnull()

Unnamed: 0,airline,origin,avgdelay
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


In [63]:
avgdly.isnull().sum() # no hay NAs (detalle cols)

airline     0
origin      0
avgdelay    0
dtype: int64

In [64]:
avgdly.isnull().sum().sum() # no hay NAs totales


0

In [65]:
# dataset que sí tiene datos nulos
na_df = pd.read_csv('https://raw.githubusercontent.com/reisanar/datasets/master/missing.csv')

na_df.head(7)

Unnamed: 0,age,distance
0,80,278.837522
1,83,289.17312
2,80,283.706279
3,83,276.202165
4,74,290.49468
5,68,324.168998
6,71,


In [66]:
na_df.isna().sum()

age         0
distance    5
dtype: int64

In [67]:
na_df.isna().head(7)

Unnamed: 0,age,distance
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False
5,False,False
6,False,True


In [68]:
na_df[pd.isnull(na_df.distance)] # valores nulos

Unnamed: 0,age,distance
6,71,
7,75,
11,68,
13,65,
16,73,


In [69]:
# podemos substituir los valores por la media

na_df.fillna(na_df.distance.mean())

Unnamed: 0,age,distance
0,80,278.837522
1,83,289.17312
2,80,283.706279
3,83,276.202165
4,74,290.49468
5,68,324.168998
6,71,293.660391
7,75,293.660391
8,80,291.207127
9,85,267.987237


In [70]:
iris.head()

Unnamed: 0,sepal length,sepal length scaled,sepal width,petal length,petal width,class,Statistician,sepal_length_int
0,5.1,0.646,3.5,1.4,0.2,Iris-setosa,Ronald Fisher,5
1,4.9,0.62,3.0,1.4,0.2,Iris-setosa,Ronald Fisher,4
2,4.7,0.595,3.2,1.3,0.2,Iris-setosa,Ronald Fisher,4
3,4.6,0.582,3.1,1.5,0.2,Iris-setosa,Ronald Fisher,4
4,5.0,0.633,3.6,1.4,0.2,Iris-setosa,Ronald Fisher,5


También se pueden substituir un valor por otro distinto:

In [71]:
iris.replace('Iris-setosa', 'Iris setosa')

Unnamed: 0,sepal length,sepal length scaled,sepal width,petal length,petal width,class,Statistician,sepal_length_int
0,5.1,0.646,3.5,1.4,0.2,Iris setosa,Ronald Fisher,5
1,4.9,0.620,3.0,1.4,0.2,Iris setosa,Ronald Fisher,4
2,4.7,0.595,3.2,1.3,0.2,Iris setosa,Ronald Fisher,4
3,4.6,0.582,3.1,1.5,0.2,Iris setosa,Ronald Fisher,4
4,5.0,0.633,3.6,1.4,0.2,Iris setosa,Ronald Fisher,5
...,...,...,...,...,...,...,...,...
145,6.7,0.848,3.0,5.2,2.3,Iris-virginica,Ronald Fisher,6
146,6.3,0.797,2.5,5.0,1.9,Iris-virginica,Ronald Fisher,6
147,6.5,0.823,3.0,5.2,2.0,Iris-virginica,Ronald Fisher,6
148,6.2,0.785,3.4,5.4,2.3,Iris-virginica,Ronald Fisher,6


## Cambiar el nombre de columnas e Índices

In [72]:
# renombrar columnas
iris.rename(columns={'sepal length': 'sepal_length', 'sepal width': 'sepal_width'} )

Unnamed: 0,sepal_length,sepal length scaled,sepal_width,petal length,petal width,class,Statistician,sepal_length_int
0,5.1,0.646,3.5,1.4,0.2,Iris-setosa,Ronald Fisher,5
1,4.9,0.620,3.0,1.4,0.2,Iris-setosa,Ronald Fisher,4
2,4.7,0.595,3.2,1.3,0.2,Iris-setosa,Ronald Fisher,4
3,4.6,0.582,3.1,1.5,0.2,Iris-setosa,Ronald Fisher,4
4,5.0,0.633,3.6,1.4,0.2,Iris-setosa,Ronald Fisher,5
...,...,...,...,...,...,...,...,...
145,6.7,0.848,3.0,5.2,2.3,Iris-virginica,Ronald Fisher,6
146,6.3,0.797,2.5,5.0,1.9,Iris-virginica,Ronald Fisher,6
147,6.5,0.823,3.0,5.2,2.0,Iris-virginica,Ronald Fisher,6
148,6.2,0.785,3.4,5.4,2.3,Iris-virginica,Ronald Fisher,6


In [73]:
# renombrar los valores de los índices
iris.rename(index={0: "x", 1: "y", 2: "z"})

Unnamed: 0,sepal length,sepal length scaled,sepal width,petal length,petal width,class,Statistician,sepal_length_int
x,5.1,0.646,3.5,1.4,0.2,Iris-setosa,Ronald Fisher,5
y,4.9,0.620,3.0,1.4,0.2,Iris-setosa,Ronald Fisher,4
z,4.7,0.595,3.2,1.3,0.2,Iris-setosa,Ronald Fisher,4
3,4.6,0.582,3.1,1.5,0.2,Iris-setosa,Ronald Fisher,4
4,5.0,0.633,3.6,1.4,0.2,Iris-setosa,Ronald Fisher,5
...,...,...,...,...,...,...,...,...
145,6.7,0.848,3.0,5.2,2.3,Iris-virginica,Ronald Fisher,6
146,6.3,0.797,2.5,5.0,1.9,Iris-virginica,Ronald Fisher,6
147,6.5,0.823,3.0,5.2,2.0,Iris-virginica,Ronald Fisher,6
148,6.2,0.785,3.4,5.4,2.3,Iris-virginica,Ronald Fisher,6


## Combinar fuentes de datos

Muchas veces tendrás que combinar diferentes datasets. Para hacerlo, pandas cuenta con diferentes funciones como join(), concat() o merge().

La documentación de pandas explica muy bien las diferencias entre estos tres métodos:

https://pandas.pydata.org/docs/user_guide/merging.html

In [74]:
print(avgdly.head(2))

print('-----')

print(df.head(2))

                  airline origin  avgdelay
0  American Airlines Inc.    EWR  8.305090
1  American Airlines Inc.    JFK  9.788015
-----
  origin  avgdelay                 airline
0    JFK  2.101124  American Airlines Inc.
1    LGA -0.708812    Delta Air Lines Inc.


In [75]:
avgdly = avgdly.rename(columns={'avgdelay': 'meandly'})

avgdly.head()

Unnamed: 0,airline,origin,meandly
0,American Airlines Inc.,EWR,8.30509
1,American Airlines Inc.,JFK,9.788015
2,American Airlines Inc.,LGA,7.518054
3,Delta Air Lines Inc.,EWR,11.914013
4,Delta Air Lines Inc.,JFK,8.240095


In [76]:
# con merge podemos añadir la columna de meandly al dataframe con avgdelay

pd.merge(df, avgdly, on=["airline", "origin"])

Unnamed: 0,origin,avgdelay,airline,meandly
0,JFK,2.101124,American Airlines Inc.,9.788015
1,JFK,-1.919492,American Airlines Inc.,9.788015
2,JFK,-2.292135,American Airlines Inc.,9.788015
3,JFK,1.938235,American Airlines Inc.,9.788015
4,JFK,3.116992,American Airlines Inc.,9.788015
...,...,...,...,...
123979,LGA,-4.200000,Endeavor Air Inc.,8.166667
123980,EWR,-5.000000,Endeavor Air Inc.,-5.750000
123981,EWR,-6.000000,Endeavor Air Inc.,-5.750000
123982,EWR,-6.000000,Endeavor Air Inc.,-5.750000
