In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Pandas Series 

Serie: *array* unidimensional con índices no necesariamente numéricos. 

In [2]:
# Una serie de enteros
s1 = pd.Series(np.arange(10, 17))
s1

0    10
1    11
2    12
3    13
4    14
5    15
6    16
dtype: int32

In [3]:
type(s1)

pandas.core.series.Series

In [4]:
s1.shape

(7,)

In [5]:
# Una serie de cadenas
s2 = pd.Series(list("abcdef"))
s2

0    a
1    b
2    c
3    d
4    e
5    f
dtype: object

In [6]:
type(s2)

pandas.core.series.Series

In [7]:
# Lista de números decimales (punto flotante)
s3 = pd.Series(np.arange(-3.0, 3.0, .5))
s3

0    -3.0
1    -2.5
2    -2.0
3    -1.5
4    -1.0
5    -0.5
6     0.0
7     0.5
8     1.0
9     1.5
10    2.0
11    2.5
dtype: float64

Los índices son, básicamente, etiquetas (no necesariamente únicas) asociadas a las filas. Por defecto, números enteros.

In [8]:
s3.index

RangeIndex(start=0, stop=12, step=1)

In [9]:
# Índices duplicados
s4 = pd.Series(range(1, 6),
              index=[0, 1, 0, 1, 3,])
s4

0    1
1    2
0    3
1    4
3    5
dtype: int64

In [10]:
# Serie con índices arbitrarios (tipo cadena)
fruta = pd.Series([3, 2, 4, 1], 
               index=['peras', 'manzanas', 'tomates', 'aguacates'])
print(fruta)
fruta.index

peras        3
manzanas     2
tomates      4
aguacates    1
dtype: int64


Index(['peras', 'manzanas', 'tomates', 'aguacates'], dtype='object')

Las series también pueden crearse a partir de diccionarios

In [11]:
d = {'Tierra': 1, "Mercurio": 0.389, "Venus": 0.723, "Marte": 1.524}
s = pd.Series(d)
s

Tierra      1.000
Mercurio    0.389
Venus       0.723
Marte       1.524
dtype: float64

### NA (valores faltantes)

Cuando pandas no encuentra un valor que debería estar en una serie que almacena valores numéricos, esta falta de información se representa con *NaN*. Este valor representa un *Not A Number* y usualmente se ignora en las operaciones aritméticas.

In [12]:
s6 = pd.Series([1, np.nan, 3, 4])
s6

0    1.0
1    NaN
2    3.0
3    4.0
dtype: float64

NaN indica que ahí debería ir un número (un dato, en general), pero que se desconoce su valor. Equivale al *NA* de *R*.

Observa que el tipo de los datos es *float64*, a pesar de que la lista contiene enteros; esto se debe a que el tipo *int64* no soporta *NaN*, así que pandas lo cambia automáticamente a un tipo numérico que sí lo soporta, *float64*

In [13]:
# Tamaño de la serie (número de entradas)
s6.size

4

In [14]:
# Número de entradas válidas en la serie (aquellas que no son NaN)
s6.count()

3

### Acceso a elementos de las series (selección, direccionamiento)

operador *[ ]*

In [15]:
# Uso de [ ] con un índice
s6[0]

1.0

In [16]:
s6[2]

3.0

In [17]:
s6[1]

nan

In [18]:
# Índice de tipo cadena
fruta['peras']

3

In [19]:
# Se puede usar la posición (comienza en 0) 
fruta[0]

3

In [20]:
# Acceso a elementos consecutivos (slicing)
s6[1:3] # No se incluye el 3

1    NaN
2    3.0
dtype: float64

In [21]:
fruta['manzanas':'aguacates'] # se incluye 'aguacates'

manzanas     2
tomates      4
aguacates    1
dtype: int64

In [22]:
# Acceso a elementos arbitrarios
fruta[['peras', 'aguacates', 'tomates']]

peras        3
aguacates    1
tomates      4
dtype: int64

In [23]:
# Acceso a elementos arbitrarios
s6[[3, 0, 1]]

3    4.0
0    1.0
1    NaN
dtype: float64

**Importante:** observa que si el acceso es a más de un elemento (*slicing*, o lista de índices) el objeto devuelto es una nueva serie; la original queda intacta.

In [24]:
# Acceso a elementos arbitrarios
s = s6[[3, 0, 1]]
type(s)

pandas.core.series.Series

In [25]:
# Error: no existe el índice
# fruta['naranja']
# s6[4]

### Atributos loc e iloc

Estos dos atributos se usan junto con *[ ]*, para acceder a los elementos por su índice (*loc*) o por su posición (*iloc*).

Ambos permiten *slicing* y acceso a listas de elementos arbitrarios.

In [26]:
fruta.loc['tomates'] # por etiqueta

4

In [27]:
fruta.iloc[2] # por posición (siempre comienza en 0) 

4

In [28]:
# Error: no hay ningún índice que sea 2
# fruta.loc[2]

In [29]:
s6.loc[2] # por etiqueta

3.0

In [30]:
s6.iloc[2] # por posición

3.0

In [31]:
# Acceso al último elemento
s6.iloc[-1]

4.0

### Operadores

Los operadores disponibles incluyen los siguientes: +, -, /, // (división con redondeo inferior (floor division)), % (modulus), @ (multiplicación de matrices), ** (potencia), <, <=, ==, !=, >=, >, & ("y" binario), ^ ("o exclusivo" binario), | ("o" binary).

In [32]:
s1 = pd.Series([10, 20, 30])
s2 = pd.Series([35, 44, 53])
print(s1)
print(s2)

0    10
1    20
2    30
dtype: int64
0    35
1    44
2    53
dtype: int64


In [33]:
s1 + s2

0    45
1    64
2    83
dtype: int64

In [34]:
s1 / s2

0    0.285714
1    0.454545
2    0.566038
dtype: float64

Los operadores son simplemente una forma conveniente de invocar a métodos:

In [35]:
s1.add(s2)

0    45
1    64
2    83
dtype: int64

In [36]:
s1.div(s2)

0    0.285714
1    0.454545
2    0.566038
dtype: float64

#### Alineación por índice

Las operaciones se hacen elemento a elemento, **tras alinear los índices**

In [37]:
s1 = pd.Series([10, 20, 30], index=[1, 2, 2])
s2 = pd.Series([35, 44, 53], index=[2, 2, 4])

s1 + s2

1     NaN
2    55.0
2    64.0
2    65.0
2    74.0
4     NaN
dtype: float64

##### Pregunta: sumar la serie fruta y la serie s1
¿Qué resultado se obtendrá?

Algunos métodos operadores tienen argumentos opcionales.

In [38]:
s1.add(s2, fill_value=0)

1    10.0
2    55.0
2    64.0
2    65.0
2    74.0
4    53.0
dtype: float64

#### Broadcasting

In [39]:
s1 * 100

1    1000
2    2000
2    3000
dtype: int64

In [40]:
s1.mul(100)

1    1000
2    2000
2    3000
dtype: int64

#### Encadenamiento

Cadena de llamadas a métodos

In [41]:
(s1 + s2) / 2

1     NaN
2    27.5
2    32.0
2    32.5
2    37.0
4     NaN
dtype: float64

In [42]:
(s1
    .add(s2)
    .div(2)
)

1     NaN
2    27.5
2    32.0
2    32.5
2    37.0
4     NaN
dtype: float64

## Pandas DataFrame

Matriz bidimensional con filas y columnas etiquetadas. Cada columna es de tipo *Series*. Tienen dos índices: *index* (igual que las Series) y *columns*

In [43]:
df = pd.DataFrame()
print(df)

Empty DataFrame
Columns: []
Index: []


In [44]:
meses = "enero febrero marzo abril mayo junio".split()
df = pd.DataFrame(meses)
df

Unnamed: 0,0
0,enero
1,febrero
2,marzo
3,abril
4,mayo
5,junio


In [45]:
numero_dias = [31, 28, 31, 30, 31, 30]
df = pd.DataFrame({'mes':meses, 'días':numero_dias})
df

Unnamed: 0,mes,días
0,enero,31
1,febrero,28
2,marzo,31
3,abril,30
4,mayo,31
5,junio,30


In [46]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [47]:
df.columns

Index(['mes', 'días'], dtype='object')

In [48]:
df.shape

(6, 2)

In [49]:
len(df)

6

In [50]:
df.size

12

In [51]:
df.count()

mes     6
días    6
dtype: int64

In [112]:
# Initialize data to lists.
data = [{'a': 1, 'b': 2, 'c':3},
        {'a':10, 'b': 20, 'c': 30}]
 
# Creates DataFrame.
df = pd.DataFrame(data)
 
# Print the data
df

Unnamed: 0,a,b,c
0,1,2,3
1,10,20,30


In [53]:
# Initialize data to lists.
data = [{'b': 2, 'c':3},
        {'a':10, 'b': 20, 'c': 30}]
 
# Creates DataFrame.
df = pd.DataFrame(data, index=['primero', 'segundo'])
 
# Print the data
df

Unnamed: 0,b,c,a
primero,2,3,
segundo,20,30,10.0


In [54]:
# Python program to demonstrate creating
# pandas Datadaframe from lists using zip.

# List1
Name = ['tom', 'krish', 'nick', 'juli']

# List2
Age = [25, 30, 26, 22]

# get the list of tuples from two lists.
# and merge them by using zip().
list_of_tuples = list(zip(Name, Age))
print(list_of_tuples)

# Converting lists of tuples into pandas Dataframe.
df = pd.DataFrame(list_of_tuples,
                  columns = ['Name', 'Age'])

# Print data.
df

[('tom', 25), ('krish', 30), ('nick', 26), ('juli', 22)]


Unnamed: 0,Name,Age
0,tom,25
1,krish,30
2,nick,26
3,juli,22


In [55]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [56]:
df.columns

Index(['Name', 'Age'], dtype='object')

### Leer ficheros CSV

In [114]:
df = pd.read_csv('./datasets/train.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [115]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [116]:
df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [60]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [61]:
df.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
57,58,0,3,"Novel, Mr. Mansouer",male,28.5,0,0,2697,7.2292,,C
118,119,0,1,"Baxter, Mr. Quigg Edmond",male,24.0,0,1,PC 17558,247.5208,B58 B60,C
36,37,1,3,"Mamee, Mr. Hanna",male,,0,0,2677,7.2292,,C
511,512,0,3,"Webber, Mr. James",male,,0,0,SOTON/OQ 3101316,8.05,,S
682,683,0,3,"Olsvigen, Mr. Thor Anderson",male,20.0,0,0,6563,9.225,,S


In [62]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


#### Lectura de ficheros CSV: cuestiones a considerar

Los ficheros CSV son simplemente archivos de texto con una línea por caso (observación), campos (variables, columnas) separados por comas (",") y posiblemente una primera línea de cabecera con los nombres de las variables almacenadas en el fichero.

A continuación aparece un ejemplo de fichero CSV; contiene cuatro variables y cinco observaciones, con cabecera:
```
id,nombre,estatura,peso
1,Alba,168,55.5
2,Berto,170,70.1
3,Carla,172,70.9
4,David,175,78.3
5,Emma,155,49.01
```

Sin embargo, es probable que encuentres ficheros CSV que no tienen exactamente estas caraterísticas. En particular, algunos ficheros emplean otros separadores distintos de la coma, por ejemplo, el punto y coma (";") o el tabulador ("\t"). En el caso de la cabecera, es posible que carezcan de ella o que ésta ocupe más de una línea. 

Otro aspecto a considerar es qué símbolo se emplea para separar la parte entera de un número de su fracción decimal, conocido como [separador decimal](https://es.wikipedia.org/wiki/Separador_decimal). El sistema internacional admite tanto el punto (".") como la coma (","). Por costumbre, algunos países emplean el punto (todos los de cultura anglosajona, por ejemplo), mientras que otros, como España tradicionalmente han empleado la coma.

También hay que considerar la [codificación del fichero](https://en.wikipedia.org/wiki/Character_encoding), que es la forma de asociar los símbolos (letras, números, signos de puntuación y otros caracteres) con los valores numéricos con los que se almacenan. Existen diversos tipos de codificación, tales como ASCII, UTF-8, UTF-16, ISO-8859-1 y muchos otros.

Por defecto, `pd.read_csv()` espera un fichero CSV con formato similar al del ejemplo anterior: una línea de cabecera, campos (variables) separados por comas) codificados con UTF-8 (al menos en MacOS y Linux). Si el fichero que quieres leer no tiene estas características puedes usar los numerosos parámetros del método para informarle de ellas.

Por ejemplo, para indicar que el separador de campos es el punto y coma, puedes usar el argumento *sep*: `pd.read_csv('fichero.csv', sep=';')`. Más información acerca del uso de `pd.read_csv()` en [este enlace a la documentación de pandas](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=pandas%20read_csv#pandas.read_csv).

En general, es muy recomendable observar el contenido de los ficheros antes de intentar leerlo con pandas. En particular conviene tener en cuenta lo siguiente:
* [Codificación del fichero](https://en.wikipedia.org/wiki/Character_encoding)
* Si tiene o no cabecera
* Separador de columnas
* Separador de coma decimal
* Líneas «de sobra» al principio y/o al final del fichero


### Selección

In [63]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [64]:
df.index

RangeIndex(start=0, stop=891, step=1)

In [65]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

#### Seleccionar columnas: pd.Dataframe.[]

In [66]:
# Devuelve una serie
df['Name']

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [67]:
# Devuelve un «dataframe»
df[['Name', 'Survived']]

Unnamed: 0,Name,Survived
0,"Braund, Mr. Owen Harris",0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1
2,"Heikkinen, Miss. Laina",1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1
4,"Allen, Mr. William Henry",0
...,...,...
886,"Montvila, Rev. Juozas",0
887,"Graham, Miss. Margaret Edith",1
888,"Johnston, Miss. Catherine Helen ""Carrie""",0
889,"Behr, Mr. Karl Howell",1


In [68]:
# Devuelve un «dataframe»
df[['Name']]

Unnamed: 0,Name
0,"Braund, Mr. Owen Harris"
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,"Heikkinen, Miss. Laina"
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,"Allen, Mr. William Henry"
...,...
886,"Montvila, Rev. Juozas"
887,"Graham, Miss. Margaret Edith"
888,"Johnston, Miss. Catherine Helen ""Carrie"""
889,"Behr, Mr. Karl Howell"


In [69]:
# Error: no hay ninguna columna llamada 3
# df[3]

#### Selección por etiquetas (pd.DataFrame.loc[])

In [70]:
# Devuelve una serie
df.loc[0]  # Fila con etiqueta 0

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [71]:
df.loc[[0,10,100]] # Filas con etiquetas 0, 10, 100

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
100,101,0,3,"Petranec, Miss. Matilda",female,28.0,0,0,349245,7.8958,,S


In [118]:
# Devuelve una serie
df.loc[[0,10,100], 'Name'] # Filas con etiquetas 0, 10, 100; columna 'Name'

0              Braund, Mr. Owen Harris
10     Sandstrom, Miss. Marguerite Rut
100            Petranec, Miss. Matilda
Name: Name, dtype: object

In [73]:
# Rango de filas 10 a 15 (ambas incluidas) y determinadas columnas
df.loc[10:15, ['Name', 'Age', 'Cabin']] 

Unnamed: 0,Name,Age,Cabin
10,"Sandstrom, Miss. Marguerite Rut",4.0,G6
11,"Bonnell, Miss. Elizabeth",58.0,C103
12,"Saundercock, Mr. William Henry",20.0,
13,"Andersson, Mr. Anders Johan",39.0,
14,"Vestrom, Miss. Hulda Amanda Adolfina",14.0,
15,"Hewlett, Mrs. (Mary D Kingcome)",55.0,


In [74]:
# Rango de filas 10 a 15 (ambas incluidas) y rango de columnas
df.loc[10:15, 'Name':'Cabin'] 

Unnamed: 0,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin
10,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6
11,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103
12,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,
13,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,
14,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,
15,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,


In [75]:
# Error: no hay ninguna columna con la etiqueta 3
# df.loc[[0,10,100], 3] 

In [122]:
# Vamos a cambiar el índice de las filas: usaremos la columna 'Name' como índice
df.set_index('Name')

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1000,C123,S
"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0000,,S
"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0000,B42,S
"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.4500,,S
"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0000,C148,C


In [77]:
# Realmente no se ha cambiado nada; se ha devuelto una copia del dataframe con
# el nuevo índice, sin alterar en absoluto el dataframe original
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [78]:
# Entonces, vamos a almacenar el dataframe con el índice nuevo en un nuevo dataframe
df2 = df.set_index('Name')
df2

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1000,C123,S
"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0000,,S
"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0000,B42,S
"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.4500,,S
"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0000,C148,C


In [79]:
df2.index

Index(['Braund, Mr. Owen Harris',
       'Cumings, Mrs. John Bradley (Florence Briggs Thayer)',
       'Heikkinen, Miss. Laina',
       'Futrelle, Mrs. Jacques Heath (Lily May Peel)',
       'Allen, Mr. William Henry', 'Moran, Mr. James',
       'McCarthy, Mr. Timothy J', 'Palsson, Master. Gosta Leonard',
       'Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)',
       'Nasser, Mrs. Nicholas (Adele Achem)',
       ...
       'Markun, Mr. Johann', 'Dahlberg, Miss. Gerda Ulrika',
       'Banfield, Mr. Frederick James', 'Sutehall, Mr. Henry Jr',
       'Rice, Mrs. William (Margaret Norton)', 'Montvila, Rev. Juozas',
       'Graham, Miss. Margaret Edith',
       'Johnston, Miss. Catherine Helen "Carrie"', 'Behr, Mr. Karl Howell',
       'Dooley, Mr. Patrick'],
      dtype='object', name='Name', length=891)

In [80]:
df2.loc['Montvila, Rev. Juozas':'Dooley, Mr. Patrick']

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0,,S
"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0,B42,S
"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.45,,S
"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0,C148,C
"Dooley, Mr. Patrick",891,0,3,male,32.0,0,0,370376,7.75,,Q


In [81]:
df2.loc['Montvila, Rev. Juozas':'Dooley, Mr. Patrick', ['PassengerId', 'Sex', 'Age']]

Unnamed: 0_level_0,PassengerId,Sex,Age
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Montvila, Rev. Juozas",887,male,27.0
"Graham, Miss. Margaret Edith",888,female,19.0
"Johnston, Miss. Catherine Helen ""Carrie""",889,female,
"Behr, Mr. Karl Howell",890,male,26.0
"Dooley, Mr. Patrick",891,male,32.0


In [82]:
# Seleccionar todas las filas y solo algunas columnas concretas
df2.loc[:, ['PassengerId', 'Sex', 'Age']]

Unnamed: 0_level_0,PassengerId,Sex,Age
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Braund, Mr. Owen Harris",1,male,22.0
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,female,38.0
"Heikkinen, Miss. Laina",3,female,26.0
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,female,35.0
"Allen, Mr. William Henry",5,male,35.0
...,...,...,...
"Montvila, Rev. Juozas",887,male,27.0
"Graham, Miss. Margaret Edith",888,female,19.0
"Johnston, Miss. Catherine Helen ""Carrie""",889,female,
"Behr, Mr. Karl Howell",890,male,26.0


#### Selección por posición (pd.DataFrame.iloc[])

In [83]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [84]:
# Selección de filas enteras
df.iloc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [85]:
# Selección de múltiples filas
df.iloc[[i for i in np.arange(0, len(df), 100)]]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
100,101,0,3,"Petranec, Miss. Matilda",female,28.0,0,0,349245,7.8958,,S
200,201,0,3,"Vande Walle, Mr. Nestor Cyriel",male,28.0,0,0,345770,9.5,,S
300,301,1,3,"Kelly, Miss. Anna Katherine ""Annie Kate""",female,,0,0,9234,7.75,,Q
400,401,1,3,"Niskanen, Mr. Juha",male,39.0,0,0,STON/O 2. 3101289,7.925,,S
500,501,0,3,"Calic, Mr. Petar",male,17.0,0,0,315086,8.6625,,S
600,601,1,2,"Jacobsohn, Mrs. Sidney Samuel (Amy Frances Chr...",female,24.0,2,1,243847,27.0,,S
700,701,1,1,"Astor, Mrs. John Jacob (Madeleine Talmadge Force)",female,18.0,1,0,PC 17757,227.525,C62 C64,C
800,801,0,2,"Ponesell, Mr. Martin",male,34.0,0,0,250647,13.0,,S


In [86]:
# Selección de filas y columnas
df.iloc[[0,10,800], [0, 3, 1, 4]]

Unnamed: 0,PassengerId,Name,Survived,Sex
0,1,"Braund, Mr. Owen Harris",0,male
10,11,"Sandstrom, Miss. Marguerite Rut",1,female
800,801,"Ponesell, Mr. Martin",0,male


In [87]:
df2.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.25,,S
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.925,,S
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1,C123,S
"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.05,,S


In [88]:
df2.iloc[[0, 3, 4], 0:4]

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
"Braund, Mr. Owen Harris",1,0,3,male
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female
"Allen, Mr. William Henry",5,0,3,male


In [89]:
# Restablecer el "índice por defecto"
df2 = df2.reset_index()
df2

Unnamed: 0,Name,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1000,C123,S
4,"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0000,,S
887,"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0000,B42,S
888,"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.4500,,S
889,"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0000,C148,C


#### NO uses pd.DataFrame.ix[]

Actualmente está no recomendado (deprecated) y es probable que desaparezca en futuras versiones. Permite un acceso "mixto" mezclando etiquetas y enteros, lo que puede dar lugar a confusión.

#### Selección mediante condiciones lógicas (boolean indexing)

In [90]:
# Seleccionar observaciones cuya edad esté por debajo de una cierto umbral
mask = df['Age'] < 21
mask

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887     True
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [91]:
df[mask]
# o bien
# df[df['Age'] < 21]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.0500,,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
876,877,0,3,"Gustafsson, Mr. Alfred Ossian",male,20.0,0,0,7534,9.8458,,S
877,878,0,3,"Petroff, Mr. Nedelio",male,19.0,0,0,349212,7.8958,,S


In [92]:
# Es muy usual usar directamente la expresión booleana como índice, directamente
df[df['Age'] < 21]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.0500,,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
876,877,0,3,"Gustafsson, Mr. Alfred Ossian",male,20.0,0,0,7534,9.8458,,S
877,878,0,3,"Petroff, Mr. Nedelio",male,19.0,0,0,349212,7.8958,,S


In [93]:
# ¿Cuántas personas se han seleccionado?
print(df[mask].shape)
print(len(df[mask]))

(180, 12)
180


In [124]:
# Pueden usarse expresiones lógicas más complejas usando 
# combinaciones de operadores lógicos AND (&), OR (|), NOT(~)
df[(df['Survived'] == 1) & (df['Sex'] == 'female')]
# Los paréntesis son importantes

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S


In [95]:
# Pueden usarse expresiones lógicas más complejas usando 
# combinaciones de operadores lógicos AND (&), OR (|), NOT(~)
df[(df['Survived'] == 1) & (df['Sex'] == 'female')].loc[2:6, ['Name', 'Age', 'Embarked']]
# Los paréntesis son importantes

Unnamed: 0,Name,Age,Embarked
2,"Heikkinen, Miss. Laina",26.0,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,S


**Ejercicio**: En el siguiente enlace se explica cómo acceder a elementos combinando el acceso por etiqueta (.loc) y el acceso por posición (.iloc):

__[https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#combining-positional-and-label-based-indexing](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#combining-positional-and-label-based-indexing)__

1. Selecciona las variables Age, Name, Survived correspondientes a las filas pares
1. Selecciona las columnas que están en las posiciones 1, 3, 4 y 8 correspondientes a las filas 32, 45 y 800 

### Métodos de agregación

Devuelven un valor escalar calculado a partir de los valores de la Serie.

In [96]:
# Dataset (pequeño) de datos de películas
df = pd.read_csv('./datasets/tiny.csv')
print(df.shape)
df

(4, 5)


Unnamed: 0,Title,Rating,TotalVotes,Genre1,Genre2
0,12 Years a Slave (2013),8.1,496092,Biography,Drama
1,127 Hours (2010),7.6,297075,Adventure,Biography
2,50/50 (2011),7.7,283935,Comedy,Drama
3,About Time (2013),7.8,225412,Comedy,Drama


In [97]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       4 non-null      object 
 1   Rating      4 non-null      float64
 2   TotalVotes  4 non-null      object 
 3   Genre1      4 non-null      object 
 4   Genre2      4 non-null      object 
dtypes: float64(1), object(4)
memory usage: 288.0+ bytes


In [98]:
df['Rating'].mean()

7.8

In [99]:
df[['Rating', 'Title']].max()

Rating                  8.1
Title     About Time (2013)
dtype: object

In [100]:
df[['Rating', 'Title']].min()

Rating                        7.6
Title     12 Years a Slave (2013)
dtype: object

In [101]:
df['Rating'].sum()

31.2

In [102]:
df['Rating'].median()

7.75

In [103]:
df['Rating'].quantile()

7.75

In [104]:
df['Rating'].quantile([.25, .5, .75])

0.25    7.675
0.50    7.750
0.75    7.875
Name: Rating, dtype: float64

In [105]:
df['Rating'].describe()

count    4.000000
mean     7.800000
std      0.216025
min      7.600000
25%      7.675000
50%      7.750000
75%      7.875000
max      8.100000
Name: Rating, dtype: float64

In [106]:
df['Rating'].idxmax()

0

In [107]:
df['Rating'].idxmin()

1

En [este enlace](https://pandas.pydata.org/docs/user_guide/groupby.html#aggregation) hay una lista (no exhaustiva) de funciones de agregación. En general, cualquier función (incluso creada por el usuario) que reduzca los valores de una *Serie* a un escalar es una función de agregación.

#### Agregación con *.agg*

In [108]:
df['Rating'].agg('mean')

7.8

In [109]:
df['Rating'].agg(['quantile', 'mean', 'min', 'max'])

quantile    7.75
mean        7.80
min         7.60
max         8.10
Name: Rating, dtype: float64

In [110]:
df['Rating'].agg(lambda x: x**2 + 1)

0    66.61
1    58.76
2    60.29
3    61.84
Name: Rating, dtype: float64

## Ejercicios
Resuelve las siguientes cuestiones con pandas. Todas están referidas al dataset del Titanic (`train.csv`)

1. ¿Qué variables del dataset *train.csv* del titanic son categóricas y cuáles numéricas? Usa tu olfato de *data scientist* en ciernes y, si quieres, alguna función de pandas que pueda ayudar.

1. ¿Qué hace el método `df.nunique()`? Considera su aplicación al dataframe completo o a un subconjunto de variables (columnas).

1. ¿Cómo se pueden obtener las categorías que componen una variable categórica? Aplícalo a las variables categóricas del dataset que consideres oportuno.
> Las categorías de *Pclass* son 1, 2 y 3

1. Calcula la media y la desviación típica del precio de los billetes.

1. Calcula los cuartiles de la variable *Fare* y los deciles de la variable *Age*.

1. ¿Cuántas mujeres figuran en el dataset? ¿y hombres?

1. ¿Cuál es el precio más alto que se pagó por un billete de tercera clase? ¿Era de un pasajero femenino o masculino?

1. ¿Cuál fue la tarifa más alta que se aplicó a las mujeres menores de 35 años?

1. Considera el conjunto de los pasajeros masculinos de segunda y tercera clase. ¿Cuál es la media de edad de ese subconjunto?

1. Pandas usa `NaN` (Not a Number) para denotar los valores que se desconocen. Averigua el número de valores que faltan (es decir, el número de NaNs) que hay en cada variable (columna). ¿Cuál es la variable que tiene mayor número de valores no disponibles (NaN)?

1. En el enlace que aparece más abajo se explica cómo acceder a elementos combinando el acceso por etiqueta (.loc) y el acceso por posición (.iloc). Selecciona, por su nombre, las variables *Age*, *Name*, *Survived* correspondientes a las filas pares.

> __[https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#combining-positional-and-label-based-indexing](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#combining-positional-and-label-based-indexing)__


## Recursos
- __[tutorial 10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)__
- __[documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html)__
- __[Pandas cheat sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)__
- Búsquedas en internet; especialmente valiosas las de *stack overflow*