In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Pandas Series 

Serie: *array* unidimensional con índices no necesariamente numéricos. 

In [None]:
# Una serie de enteros
s1 = pd.Series(np.arange(10, 17))
s1

In [None]:
type(s1)

In [None]:
s1.shape

In [None]:
# Una serie de cadenas
s2 = pd.Series(list("abcdef"))
s2

In [None]:
type(s2)

In [None]:
# Lista de números decimales (punto flotante)
s3 = pd.Series(np.arange(-3.0, 3.0, .5))
s3

Los índices son, básicamente, etiquetas (no necesariamente únicas) asociadas a las filas. Por defecto, números enteros.

In [None]:
s3.index

In [None]:
# Índices duplicados
s4 = pd.Series(range(1, 6),
              index=[0, 1, 0, 1, 3,])
s4

In [None]:
# Serie con índices arbitrarios (tipo cadena)
fruta = pd.Series([3, 2, 4, 1], 
              index=['peras', 'manzanas', 'tomates', 'aguacates'])
print(fruta)
fruta.index

Las series también pueden crearse a partir de diccionarios

In [None]:
d = {'Tierra': 1, "Mercurio": 0.389, "Venus": 0.723, "Marte": 1.524}
s = pd.Series(d)
s

### NA (valores faltantes)

Cuando pandas no encuentra un valor que debería estar en una serie que almacena valores numéricos, esta falta de información se representa con *NaN*. Este valor representa un *Not A Number* y usualmente se ignora en las operaciones aritméticas.

In [None]:
s6 = pd.Series([1, np.nan, 3, 4])
s6

In [None]:
s7 = pd.Series(['a', np.nan])
s7.info()

NaN indica que ahí debería ir un número (un dato, en general), pero que se desconoce su valor. Equivale al *NA* de *R*.

Observa que el tipo de los datos es *float64*, a pesar de que la lista contiene enteros; esto se debe a que el tipo *int64* no soporta *NaN*, así que pandas lo cambia automáticamente a un tipo numérico que sí lo soporta, *float64*

In [None]:
# Tamaño de la serie (número de entradas)
s6.size

In [None]:
# Número de entradas válidas en la serie (aquellas que no son NaN)
s6.count()

### Acceso a elementos de las series (selección, direccionamiento)

operador *[ ]*

In [None]:
# Uso de [ ] con un índice
s6[0]

In [None]:
s6[2]

In [None]:
s6[1]

In [None]:
# Índice de tipo cadena
fruta['peras']

In [None]:
# Se puede usar la posición (comienza en 0) 
fruta[0]

In [None]:
# Acceso a elementos consecutivos (slicing)
s6[1:3] # No se incluye el 3

In [None]:
fruta['manzanas':'aguacates'] # se incluye 'aguacates'

In [None]:
# Acceso a elementos arbitrarios
fruta[['peras', 'aguacates', 'tomates']]

In [None]:
# Acceso a elementos arbitrarios
s6[[3, 0, 1]]

**Importante:** observa que si el acceso es a más de un elemento (*slicing*, o lista de índices) el objeto devuelto es una nueva serie; la original queda intacta.

In [None]:
# Acceso a elementos arbitrarios
s = s6[[3, 0, 1]]
type(s)

In [None]:
# Error: no existe el índice
# fruta['naranja']
# s6[4]

### Atributos loc e iloc

Estos dos atributos se usan junto con *[ ]*, para acceder a los elementos por su índice (*loc*) o por su posición (*iloc*).

Ambos permiten *slicing* y acceso a listas de elementos arbitrarios.

In [None]:
fruta.loc['tomates'] # por etiqueta

In [None]:
fruta.iloc[2] # por posición (siempre comienza en 0) 

In [None]:
# Error: no hay ningún índice que sea 2
# fruta.loc[2]

In [None]:
s6.loc[2] # por etiqueta

In [None]:
s6.iloc[2] # por posición

In [None]:
# Acceso al último elemento
s6.iloc[-1]

### Operadores

Los operadores disponibles incluyen los siguientes: +, -, /, // (división con redondeo inferior (floor division)), % (modulus), @ (multiplicación de matrices), ** (potencia), <, <=, ==, !=, >=, >, & ("y" binario), ^ ("o exclusivo" binario), | ("o" binary).

In [None]:
s1 = pd.Series([10, 20, 30])
s2 = pd.Series([35, 44, 53])
print(s1)
print(s2)

In [None]:
s1 + s2

In [None]:
s1 / s2

Los operadores son simplemente una forma conveniente de invocar a métodos:

In [None]:
s1.add(s2)

In [None]:
s1.div(s2)

#### Alineación por índice

Las operaciones se hacen elemento a elemento, **tras alinear los índices**

In [None]:
s1 = pd.Series([10, 20, 30], index=[1, 2, 2])
s2 = pd.Series([35, 44, 53], index=[2, 2, 4])

s1 + s2

##### Pregunta: sumar la serie fruta y la serie s1
¿Qué resultado se obtendrá?

Algunos métodos operadores tienen argumentos opcionales.

In [None]:
s1.add(s2, fill_value=0)

#### Broadcasting

In [None]:
s1 * 100

In [None]:
s1.mul(100)

#### Encadenamiento

Cadena de llamadas a métodos

In [None]:
(s1 + s2) / 2

In [None]:
(s1
    .add(s2)
    .div(2)
)

## Pandas DataFrame

Matriz bidimensional con filas y columnas etiquetadas. Cada columna es de tipo *Series*. Tienen dos índices: *index* (igual que las Series) y *columns*

In [None]:
df = pd.DataFrame()
print(df)

In [None]:
meses = "enero febrero marzo abril mayo junio".split()
df = pd.DataFrame(meses)
df

In [None]:
numero_dias = [31, 28, 31, 30, 31, 30]
df = pd.DataFrame({'mes':meses, 'días':numero_dias})
df

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.shape

In [None]:
len(df)

In [None]:
df.size

In [None]:
df.count()

In [None]:
# Initialize data to lists.
data = [{'a': 1, 'b': 2, 'c':3},
        {'a':10, 'b': 20, 'c': 30}]
 
# Creates DataFrame.
df = pd.DataFrame(data)
 
# Print the data
df

In [None]:
# Initialize data to lists.
data = [{'b': 2, 'c':3},
        {'a':10, 'b': 20, 'c': 30}]
 
# Creates DataFrame.
df = pd.DataFrame(data, index=['primero', 'segundo'])
 
# Print the data
df

In [None]:
# Python program to demonstrate creating
# pandas Datadaframe from lists using zip.

# List1
Name = ['tom', 'krish', 'nick', 'juli']

# List2
Age = [25, 30, 26, 22]

# get the list of tuples from two lists.
# and merge them by using zip().
list_of_tuples = list(zip(Name, Age))
print(list_of_tuples)

# Converting lists of tuples into pandas Dataframe.
df = pd.DataFrame(list_of_tuples,
                  columns = ['Name', 'Age'])

# Print data.
df

In [None]:
df.index

In [None]:
df.columns

### Leer ficheros CSV

In [None]:
df = pd.read_csv('./datasets/train.csv')
df.info()

In [None]:
df.dtypes

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.sample(5)

In [None]:
df.describe()

#### Lectura de ficheros CSV: cuestiones a considerar

Los ficheros CSV son simplemente archivos de texto con una línea por caso (observación), campos (variables, columnas) separados por comas (",") y posiblemente una primera línea de cabecera con los nombres de las variables almacenadas en el fichero.

A continuación aparece un ejemplo de fichero CSV; contiene cuatro variables y cinco observaciones, con cabecera:
```
id,nombre,estatura,peso
1,Alba,168,55.5
2,Berto,170,70.1
3,Carla,172,70.9
4,David,175,78.3
5,Emma,155,49.01
```

Sin embargo, es probable que encuentres ficheros CSV que no tienen exactamente estas caraterísticas. En particular, algunos ficheros emplean otros separadores distintos de la coma, por ejemplo, el punto y coma (";") o el tabulador ("\t"). En el caso de la cabecera, es posible que carezcan de ella o que ésta ocupe más de una línea. 

Otro aspecto a considerar es qué símbolo se emplea para separar la parte entera de un número de su fracción decimal, conocido como [separador decimal](https://es.wikipedia.org/wiki/Separador_decimal). El sistema internacional admite tanto el punto (".") como la coma (","). Por costumbre, algunos países emplean el punto (todos los de cultura anglosajona, por ejemplo), mientras que otros, como España tradicionalmente han empleado la coma.

También hay que considerar la [codificación del fichero](https://en.wikipedia.org/wiki/Character_encoding), que es la forma de asociar los símbolos (letras, números, signos de puntuación y otros caracteres) con los valores numéricos con los que se almacenan. Existen diversos tipos de codificación, tales como ASCII, UTF-8, UTF-16, ISO-8859-1 y muchos otros.

Por defecto, `pd.read_csv()` espera un fichero CSV con formato similar al del ejemplo anterior: una línea de cabecera, campos (variables) separados por comas) codificados con UTF-8 (al menos en MacOS y Linux). Si el fichero que quieres leer no tiene estas características puedes usar los numerosos parámetros del método para informarle de ellas.

Por ejemplo, para indicar que el separador de campos es el punto y coma, puedes usar el argumento *sep*: `pd.read_csv('fichero.csv', sep=';')`. Más información acerca del uso de `pd.read_csv()` en [este enlace a la documentación de pandas](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=pandas%20read_csv#pandas.read_csv).

En general, es muy recomendable observar el contenido de los ficheros antes de intentar leerlo con pandas. En particular conviene tener en cuenta lo siguiente:
* [Codificación del fichero](https://en.wikipedia.org/wiki/Character_encoding)
* Si tiene o no cabecera
* Separador de columnas
* Separador de coma decimal
* Líneas «de sobra» al principio y/o al final del fichero


### Selección

In [None]:
df.head()

In [None]:
df.index

In [None]:
df.columns

#### Seleccionar columnas: pd.Dataframe.[]

In [None]:
# Devuelve una serie
df['Name']

In [None]:
# Devuelve un «dataframe»
df[['Name', 'Survived']]

In [None]:
# Devuelve un «dataframe»
df[['Name']]

In [None]:
# Error: no hay ninguna columna llamada 3
# df[3]

#### Selección por etiquetas (pd.DataFrame.loc[])

In [None]:
# Devuelve una serie
df.loc[0]  # Fila con etiqueta 0

In [None]:
df.loc[[0,10,100]] # Filas con etiquetas 0, 10, 100

In [None]:
# Devuelve una serie
df.loc[[0,10,100], 'Name'] # Filas con etiquetas 0, 10, 100; columna 'Name'

In [None]:
# Rango de filas 10 a 15 (ambas incluidas) y determinadas columnas
df.loc[10:15, ['Name', 'Age', 'Cabin']] 

In [None]:
# Rango de filas 10 a 15 (ambas incluidas) y rango de columnas
df.loc[10:15, 'Name':'Cabin'] 

In [None]:
# Error: no hay ninguna columna con la etiqueta 3
# df.loc[[0,10,100], 3] 

In [None]:
# Vamos a cambiar el índice de las filas: usaremos la columna 'Name' como índice
df.set_index('Name')

In [None]:
# Realmente no se ha cambiado nada; se ha devuelto una copia del dataframe con
# el nuevo índice, sin alterar en absoluto el dataframe original
df

In [None]:
# Entonces, vamos a almacenar el dataframe con el índice nuevo en un nuevo dataframe
df2 = df.set_index('Name')
df2

In [None]:
df2.index

In [None]:
df2.loc['Montvila, Rev. Juozas':'Dooley, Mr. Patrick']

In [None]:
df2.loc['Montvila, Rev. Juozas':'Dooley, Mr. Patrick', ['PassengerId', 'Sex', 'Age']]

In [None]:
# Seleccionar todas las filas y solo algunas columnas concretas
df2.loc[:, ['PassengerId', 'Sex', 'Age']]

#### Selección por posición (pd.DataFrame.iloc[])

In [None]:
df.head()

In [None]:
# Selección de filas enteras
df.iloc[0]

In [None]:
# Selección de múltiples filas
df.iloc[[i for i in np.arange(0, len(df), 100)]]

In [None]:
# Selección de filas y columnas
df.iloc[[0,10,800], [0, 3, 1, 4]]

In [None]:
df2.head()

In [None]:
df2.iloc[[0, 3, 4], 0:4]

In [None]:
# Restablecer el "índice por defecto"
df2 = df2.reset_index()
df2

#### NO uses pd.DataFrame.ix[]

Actualmente está no recomendado (deprecated) y es probable que desaparezca en futuras versiones. Permite un acceso "mixto" mezclando etiquetas y enteros, lo que puede dar lugar a confusión.

#### Selección mediante condiciones lógicas (boolean indexing)

In [None]:
# Seleccionar observaciones cuya edad esté por debajo de una cierto umbral
mask = df['Age'] < 21
mask

In [None]:
df[mask]
# o bien
# df[df['Age'] < 21]

In [None]:
# Es muy usual usar directamente la expresión booleana como índice, directamente
df[df['Age'] < 21]

In [None]:
# ¿Cuántas personas se han seleccionado?
print(df[mask].shape)
print(len(df[mask]))

In [None]:
# Pueden usarse expresiones lógicas más complejas usando 
# combinaciones de operadores lógicos AND (&), OR (|), NOT(~)
df[(df['Survived'] == 1) & (df['Sex'] == 'female')]
# Los paréntesis son importantes

In [None]:
# Pueden usarse expresiones lógicas más complejas usando 
# combinaciones de operadores lógicos AND (&), OR (|), NOT(~)
df[(df['Survived'] == 1) & (df['Sex'] == 'female')].loc[2:6, ['Name', 'Age', 'Embarked']]
# Los paréntesis son importantes

**Ejercicio**: En el siguiente enlace se explica cómo acceder a elementos combinando el acceso por etiqueta (.loc) y el acceso por posición (.iloc):

__[https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#combining-positional-and-label-based-indexing](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#combining-positional-and-label-based-indexing)__

1. Selecciona las variables Age, Name, Survived correspondientes a las filas pares
1. Selecciona las columnas que están en las posiciones 1, 3, 4 y 8 correspondientes a las filas 32, 45 y 800 

In [None]:
df.loc[::2, ['Name', 'Age', 'Survived']]

### Métodos de agregación

Devuelven un valor escalar calculado a partir de los valores de la Serie.

In [None]:
# Dataset (pequeño) de datos de películas
df = pd.read_csv('./datasets/tiny.csv')
print(df.shape)
df

In [None]:
df.info()

In [None]:
df['Rating'].mean()

In [None]:
df[['Rating', 'Title']].max()

In [None]:
df[['Rating', 'Title']].min()

In [None]:
df['Rating'].sum()

In [None]:
df['Rating'].median()

In [None]:
df['Rating'].quantile()

In [None]:
df['Rating'].quantile([.25, .5, .75])

In [None]:
df['Rating'].describe()

In [None]:
df['Rating'].idxmax()

In [None]:
df['Rating'].idxmin()

En [este enlace](https://pandas.pydata.org/docs/user_guide/groupby.html#aggregation) hay una lista (no exhaustiva) de funciones de agregación. En general, cualquier función (incluso creada por el usuario) que reduzca los valores de una *Serie* a un escalar es una función de agregación.

#### Agregación con *.agg*

In [None]:
df['Rating'].agg('mean')

In [None]:
df['Rating'].agg(['quantile', 'mean', 'min', 'max'])

In [None]:
df['Rating'].agg(lambda x: x**2 + 1)

## Ejercicios
Resuelve las siguientes cuestiones con pandas. Todas están referidas al dataset del Titanic (`train.csv`)

1. ¿Qué variables del dataset *train.csv* del titanic son categóricas y cuáles numéricas? Usa tu olfato de *data scientist* en ciernes y, si quieres, alguna función de pandas que pueda ayudar.

1. ¿Qué hace el método `df.nunique()`? Considera su aplicación al dataframe completo o a un subconjunto de variables (columnas).

1. ¿Cómo se pueden obtener las categorías que componen una variable categórica? Aplícalo a las variables categóricas del dataset que consideres oportuno.
> Las categorías de *Pclass* son 1, 2 y 3

1. Calcula la media y la desviación típica del precio de los billetes.

1. Calcula los cuartiles de la variable *Fare* y los deciles de la variable *Age*.

1. ¿Cuántas mujeres figuran en el dataset? ¿y hombres?

1. ¿Cuál es el precio más alto que se pagó por un billete de tercera clase? ¿Era de un pasajero femenino o masculino?

1. ¿Cuál fue la tarifa más alta que se aplicó a las mujeres menores de 35 años?

1. Considera el conjunto de los pasajeros masculinos de segunda y tercera clase. ¿Cuál es la media de edad de ese subconjunto?

1. Pandas usa `NaN` (Not a Number) para denotar los valores que se desconocen. Averigua el número de valores que faltan (es decir, el número de NaNs) que hay en cada variable (columna). ¿Cuál es la variable que tiene mayor número de valores no disponibles (NaN)?

1. En el enlace que aparece más abajo se explica cómo acceder a elementos combinando el acceso por etiqueta (.loc) y el acceso por posición (.iloc). Selecciona, por su nombre, las variables *Age*, *Name*, *Survived* correspondientes a las filas pares.

> __[https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#combining-positional-and-label-based-indexing](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#combining-positional-and-label-based-indexing)__


## Recursos
- __[tutorial 10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)__
- __[documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html)__
- __[Pandas cheat sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)__
- Búsquedas en internet; especialmente valiosas las de *stack overflow*