

# Pandas

1. `DataFrames` y  `Series`
2. Operaciones básicas

`pandas` es una librería que proporciona herramientas analíticas y estructuras de datos con alto rendimiento y facilidad de uso. En particular, la clase `DataFrame` es útil para representación y manipulación de datos heterogéneos tabulados (hojas de cálculo, tabla SQL, etc.)   

## Características
- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados, esta son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS. SQL, HDF5, entre otros.
- Permite filtrar, agregar, o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulados.

Para importar los módulos de la librería `pandas`, por convención se utiliza:

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt



## DataFrames y Series

Las funcionalidades de `pandas` se basan en dos estructuras de datos fundamentales: *Series* y *DataFrames*.

Una `Series` es un objeto que contiene un `array` unidimensional de datos y un `array` de etiquetas, conocido como *índice*. Si no se especifica un índice o etiqueta, este se genera internamente como una secuencia ordenada de números enteros.

```python
s = pd.Series(data, index=index)
```

Un `DataFrame` es una estructura de datos que almacena datos de forma tabular, es decir, ordenada en filas y columnas etiquetadas. Cada fila (`row`) contiene una observación y cada columna (`column`) una variable. Un `DataFrame` acepta datos heterogéneos, es decir, variables pueden ser de distinto tipo (numérico, string, boolean, etc.). Además de contener datos, un `DataFrame` contiene el nombre de las variables y sus tipos, y métodos que permiten acceder y modificar los datos.

```python
s = pd.DataFrame(data, ...)
```

Las `Series` y `DataFrame` permiten representar datos 1D y 2D. Para representar datos con más dimensiones `pandas` posee otras estructuras de datos más complejas (en fase experimental), llamadas `Panel`, `Panel4D`, `PanelND`. Estas estructuras están fuera del alcance de este curso.



---
# Series en Pandas

## Creación de Series




Crear una Series con índices automáticos a partir de una lista

In [3]:
serie = pd.Series([1979, 1980, 1981, 1982])
serie

0    1979
1    1980
2    1981
3    1982
dtype: int64



Las `Series` poseen dos atributos: `values`  e `index`. El primero es un `numpy array` que almacena los datos, y el segundo es un objeto que contiene los índices.

In [4]:
serie.values

array([1979, 1980, 1981, 1982], dtype=int64)

In [5]:
serie.index

RangeIndex(start=0, stop=4, step=1)



Al crear una `Series` se puede definir explícitamente un `array` índice y pasarlo como argumento.



Crear Series con índices definidos

In [8]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64



También se pueden crear `Series` a partir de diccionarios, `numpy arrays`, desde ficheros, etc.

Serie a partir de un fichero de datos, se asigna una columna y el squeeze a True convierte el resultado en Series en lugar de Dataframe.

In [None]:
serie_pokemon = pd.read_csv('pokemon.csv', squeeze=True, usecols=['Name'])
serie_pokemon



---
## Acceso a datos en Series




El acceso a los datos se puede realizar mediante el índice categórico o el numérico que genera internamente Pandas



Creamos de nuevo la serie inicial

In [None]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie



Indexación mediante etiqueta

In [None]:
print(serie['martha'])



Indexación mediante índice numérico interno

In [None]:
print(serie[1])



El índice puede contener valores duplicados

In [None]:
print(serie['nicky'])



Podemos seleccionar varios valores indicando un intervalo de índices



Recuperamos desde el valor de la posición 1 (el primer elemento tiene un index = 0) hasta el final del índice.

In [None]:
serie[1:]



Recuperamos los elementos desde la posición 1 a la 2

In [None]:
serie[1:3]



Podemos usar también índices negativos

In [None]:
serie[-4:-2]



---
## Métodos en Series



Ordena los valores, por defecto de menos a más.

In [9]:
serie.sort_values()

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64



Ordenamos de forma descendente

In [10]:
serie.sort_values(ascending=False)

nicky       1983
theresa     1982
nicky       1981
martha      1980
carolina    1979
dtype: int64



Para que los cambios modifique realmente la serie hay que indicarlo mediante el parámetro inplace

In [11]:
serie_pokemon.sort_values(inplace=True)
serie_pokemon

NameError: name 'serie_pokemon' is not defined



Si queremos ordernar mediante el índice recurrimos a sort_index()

In [None]:
serie_pokemon.sort_index()



Nos devuelve el número de items de cada elemento

In [None]:
serie_pokemon.value_counts()



---
# Dataframes en Pandas

## Creación de Dataframes

A diferencia de `Series`, los `DataFrame` están diseñados para almacenar datos heterogéneos multivariables. Por ejemplo:



Índice de filas automático

In [12]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [13]:
import numpy as np
import pandas as pd



DataFrame a partir de un diccionario de listas e índice

In [14]:
df = pd.DataFrame({'nombre': ['Pablo', 'Teresa'],
                   'score': [22.2, 33.3]},
                  index=['id1', 'id2'])
df

Unnamed: 0,nombre,score
id1,Pablo,22.2
id2,Teresa,33.3


In [15]:
nba = pd.read_csv('nba.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'nba.csv'



Se pueden consultar el nombre de las variables usando el atributo `columns`

In [16]:
nba.columns

NameError: name 'nba' is not defined

In [17]:
nba.head(10)

NameError: name 'nba' is not defined



---
## Acceso a datos en Dataframes




Se pueden extraer columnas de un `DataFrame` con la etiqueta de la columna (sólo si es un identificador Python válido)  usando notación tipo diccionario o como atributo del objeto. En ambos casos se obtiene un objeto tipo `Series`.

In [None]:
nba['Player']  # dict type

In [None]:
nba.Player  # attribute type



Mediante la notación de dobles [] obtenemos un Dataframe en lugar de una Serie

In [None]:
nba[['Player']]

In [None]:
type(nba.Player), type(nba['Player']), type(nba[['Player']])



Podemos recuperar varias columnas a la vez

In [None]:
nba[['Player','height']]



Para acceder a las filas, se puede usar `loc` o `iloc`.



Permite acceder al contenido de un registro mediante la etiqueta del índice

In [None]:
df

In [None]:
df.loc['id2']



Permite acceder al contenido de un registro mediante la posición del índice

In [None]:
df.iloc[1]



Podemos acceder a un valor concreto usando el acceso a datos visto anteriormente en Series

In [None]:
df.iloc[1]['score']



---
## Métodos en Dataframes


Vemos algunos métodos útiles de la clase Dataframe

In [None]:
data = pd.read_csv('baseball.csv')



Nos indica el número de columnas y filas del dataframe

In [None]:
data.shape

In [None]:
data.values



Devuelve los n primeros registros (5 por defecto)

In [None]:
data.head()



Devuelve los n primeros registros (5 por defecto)

In [None]:
data.tail(3)



Devuelve un resumen estadístico de las variables

In [None]:
data.describe(include='all')



Devuelve un resumen de la estructura

In [None]:
data.dtypes

Devuelve una lista con las etiquetas de las columnas y de las filas

In [None]:
data.axes



Devuelve el número de elementos únicos por campo

In [None]:
data.nunique()