

# Pandas

1. `DataFrame` y  `Series`
2. Operaciones básicas

`pandas` es una librería que proporciona herramientas analíticas y estructuras de datos con alto rendimiento y facilidad de uso. En particular, la clase `DataFrame` es útil para representación y manipulación de datos heterogéneos tabulados (hojas de cálculo, tabla SQL, etc.)   

## Características
- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados, esta son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS. SQL, HDF5, entre otros.
- Permite filtrar, agregar, o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulados.

Para importar los módulos de la librería `pandas`, por convención se utiliza:

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt



## DataFrames y Series

Las funcionalidades de `pandas` se basan en dos estructuras de datos fundamentales: *Series* y *DataFrames*.

Una `Series` es un objeto que contiene un `array` unidimensional de datos y un `array` de etiquetas, conocido como *índice*. Si no se especifica un índice o etiqueta, este se genera internamente como una secuencia ordenada de números enteros.

```python
s = pd.Series(data, index=index)
```

Un `DataFrame` es una estructura de datos que almacena datos de forma tabular, es decir, ordenada en filas y columnas etiquetadas. Cada fila (`row`) contiene una observación y cada columna (`column`) una variable. Un `DataFrame` acepta datos heterogéneos, es decir, variables pueden ser de distinto tipo (numérico, string, boolean, etc.). Además de contener datos, un `DataFrame` contiene el nombre de las variables y sus tipos, y métodos que permiten acceder y modificar los datos.

```python
s = pd.DataFrame(data, ...)
```

Las `Series` y `DataFrame` permiten representar datos 1D y 2D. Para representar datos con más dimensiones `pandas` posee otras estructuras de datos más complejas (en fase experimental), llamadas `Panel`, `Panel4D`, `PanelND`. Estas estructuras están fuera del alcance de este curso.



---
# Series en Pandas

## Creación de Series




Crear una Series con índices automáticos a partir de una lista

In [3]:
serie = pd.Series([1979, 1980, 1981, 1982])
serie

0    1979
1    1980
2    1981
3    1982
dtype: int64



Las `Series` poseen dos atributos: `values`  e `index`. El primero es un `numpy array` que almacena los datos, y el segundo es un objeto que contiene los índices.

In [4]:
serie.values

array([1979, 1980, 1981, 1982])

In [5]:
serie.index

RangeIndex(start=0, stop=4, step=1)



Al crear una `Series` se puede definir explícitamente un `array` índice y pasarlo como argumento.



Crear Series con índices definidos

In [6]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64



También se pueden crear `Series` a partir de diccionarios, `numpy arrays`, desde ficheros, etc.

Serie a partir de un fichero de datos, se asigna una columna y el squeeze a True convierte el resultado en Series en lugar de Dataframe.

In [8]:
serie_pokemon = pd.read_csv('pokemon.csv', squeeze=True, usecols=['Name'])
serie_pokemon

0           Bulbasaur
1             Ivysaur
2            Venusaur
3       Mega Venusaur
4          Charmander
            ...      
795           Diancie
796      Mega Diancie
797    Hoopa Confined
798     Hoopa Unbound
799         Volcanion
Name: Name, Length: 800, dtype: object



---
## Acceso a datos en Series




El acceso a los datos se puede realizar mediante el índice categórico o el numérico que genera internamente Pandas



Creamos de nuevo la serie inicial

In [None]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie



Indexación mediante etiqueta

In [9]:
print(serie['martha'])

1980




Indexación mediante índice numérico interno

In [10]:
print(serie[1])

1980




El índice puede contener valores duplicados

In [11]:
print(serie['nicky'])

nicky    1981
nicky    1983
dtype: int64




Podemos seleccionar varios valores indicando un intervalo de índices



Recuperamos desde el valor de la posición 1 (el primer elemento tiene un index = 0) hasta el final del índice.

In [None]:
serie[1:]



Recuperamos los elementos desde la posición 1 a la 2

In [None]:
serie[1:3]



Podemos usar también índices negativos

In [None]:
serie[-4:-2]



---
## Métodos en Series



Ordena los valores, por defecto de menos a más.

In [12]:
serie.sort_values()

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64



Ordenamos de forma descendente

In [13]:
serie.sort_values(ascending=False)

nicky       1983
theresa     1982
nicky       1981
martha      1980
carolina    1979
dtype: int64



Para que los cambios modifique realmente la serie hay que indicarlo mediante el parámetro inplace

In [14]:
serie_pokemon.sort_values(inplace=True)
serie_pokemon

510                Abomasnow
68                      Abra
392                    Absol
678                 Accelgor
750    Aegislash Blade Forme
               ...          
631                    Zorua
46                     Zubat
695                 Zweilous
794       Zygarde Half Forme
62                       NaN
Name: Name, Length: 800, dtype: object



Si queremos ordernar mediante el índice recurrimos a sort_index()

In [15]:
serie_pokemon.sort_index()

0           Bulbasaur
1             Ivysaur
2            Venusaur
3       Mega Venusaur
4          Charmander
            ...      
795           Diancie
796      Mega Diancie
797    Hoopa Confined
798     Hoopa Unbound
799         Volcanion
Name: Name, Length: 800, dtype: object



Nos devuelve el número de items de cada elemento

In [None]:
serie_pokemon.value_counts()



---
# Dataframes en Pandas

## Creación de Dataframes

A diferencia de `Series`, los `DataFrame` están diseñados para almacenar datos heterogéneos multivariables. Por ejemplo:



Índice de filas automático

In [16]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [17]:
import numpy as np
import pandas as pd



DataFrame a partir de un diccionario de listas e índice

In [18]:
df = pd.DataFrame({'nombre': ['Pablo', 'Teresa'],
                   'score': [22.2, 33.3]},
                  index=['id1', 'id2'])
df

Unnamed: 0,nombre,score
id1,Pablo,22.2
id2,Teresa,33.3




Dataframe a partir fichero

In [20]:
nba = pd.read_csv('nba.csv')



Se pueden consultar el nombre de las variables usando el atributo `columns`

In [21]:
nba.columns

Index(['Player', 'height', 'weight', 'collage', 'born', 'birth_city',
       'birth_state'],
      dtype='object')

In [22]:
nba.head(10)

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky
5,Gene Berce,180.0,79.0,Marquette University,1926.0,,
6,Charlie Black,196.0,90.0,University of Kansas,1921.0,Arco,Idaho
7,Nelson Bobb,183.0,77.0,Temple University,1924.0,Philadelphia,Pennsylvania
8,Jake Bornheimer,196.0,90.0,Muhlenberg College,1927.0,New Brunswick,New Jersey
9,Vince Boryla,196.0,95.0,University of Denver,1927.0,East Chicago,Indiana




---
## Acceso a datos en Dataframes




Se pueden extraer columnas de un `DataFrame` con la etiqueta de la columna (sólo si es un identificador Python válido)  usando notación tipo diccionario o como atributo del objeto. En ambos casos se obtiene un objeto tipo `Series`.

In [24]:
nba['Player']  # dict type

0         Curly Armstrong
1            Cliff Barker
2           Leo Barnhorst
3              Ed Bartels
4             Ralph Beard
              ...        
3917        Troy Williams
3918         Kyle Wiltjer
3919    Stephen Zimmerman
3920          Paul Zipser
3921          Ivica Zubac
Name: Player, Length: 3922, dtype: object

In [25]:
nba.Player  # attribute type

0         Curly Armstrong
1            Cliff Barker
2           Leo Barnhorst
3              Ed Bartels
4             Ralph Beard
              ...        
3917        Troy Williams
3918         Kyle Wiltjer
3919    Stephen Zimmerman
3920          Paul Zipser
3921          Ivica Zubac
Name: Player, Length: 3922, dtype: object



Mediante la notación de dobles [] obtenemos un Dataframe en lugar de una Serie

In [26]:
nba[['Player']]

Unnamed: 0,Player
0,Curly Armstrong
1,Cliff Barker
2,Leo Barnhorst
3,Ed Bartels
4,Ralph Beard
...,...
3917,Troy Williams
3918,Kyle Wiltjer
3919,Stephen Zimmerman
3920,Paul Zipser


In [27]:
type(nba.Player), type(nba['Player']), type(nba[['Player']])

(pandas.core.series.Series,
 pandas.core.series.Series,
 pandas.core.frame.DataFrame)



Podemos recuperar varias columnas a la vez

In [28]:
nba[['Player','height']]

Unnamed: 0,Player,height
0,Curly Armstrong,180.0
1,Cliff Barker,188.0
2,Leo Barnhorst,193.0
3,Ed Bartels,196.0
4,Ralph Beard,178.0
...,...,...
3917,Troy Williams,198.0
3918,Kyle Wiltjer,208.0
3919,Stephen Zimmerman,213.0
3920,Paul Zipser,203.0




Para acceder a las filas, se puede usar `loc` o `iloc`.



Permite acceder al contenido de un registro mediante la etiqueta del índice

In [29]:
df

Unnamed: 0,nombre,score
id1,Pablo,22.2
id2,Teresa,33.3


In [30]:
df.loc['id2']

nombre    Teresa
score       33.3
Name: id2, dtype: object



Permite acceder al contenido de un registro mediante la posición del índice

In [31]:
df.iloc[1]

nombre    Teresa
score       33.3
Name: id2, dtype: object



Podemos acceder a un valor concreto usando el acceso a datos visto anteriormente en Series

In [32]:
df.iloc[1]['score']

33.3



---
## Métodos en Dataframes


Vemos algunos métodos útiles de la clase Dataframe

In [33]:
data = pd.read_csv('baseball.csv')



Nos indica el número de columnas y filas del dataframe

In [34]:
data.shape

(100, 23)

In [35]:
data.values

array([[88641, 'womacto01', 2006, ..., 3.0, 0.0, 0.0],
       [88643, 'schilcu01', 2006, ..., 0.0, 0.0, 0.0],
       [88645, 'myersmi01', 2006, ..., 0.0, 0.0, 0.0],
       ...,
       [89530, 'ausmubr01', 2007, ..., 4.0, 1.0, 11.0],
       [89533, 'aloumo01', 2007, ..., 0.0, 3.0, 13.0],
       [89534, 'alomasa02', 2007, ..., 0.0, 0.0, 0.0]], dtype=object)



Devuelve los n primeros registros (5 por defecto)

In [36]:
data.head()

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,X2b,X3b,hr,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
0,88641,womacto01,2006,2,CHN,NL,19,50,6,14,1,0,1,2.0,1.0,1.0,4,4.0,0.0,0.0,3.0,0.0,0.0
1,88643,schilcu01,2006,1,BOS,AL,31,2,0,1,0,0,0,0.0,0.0,0.0,0,1.0,0.0,0.0,0.0,0.0,0.0
2,88645,myersmi01,2006,1,NYA,AL,62,0,0,0,0,0,0,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,88649,helliri01,2006,1,MIL,NL,20,3,0,0,0,0,0,0.0,0.0,0.0,0,2.0,0.0,0.0,0.0,0.0,0.0
4,88650,johnsra05,2006,1,NYA,AL,33,6,0,1,0,0,0,0.0,0.0,0.0,0,4.0,0.0,0.0,0.0,0.0,0.0




Devuelve los n primeros registros (5 por defecto)

In [37]:
data.tail(3)

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,X2b,X3b,hr,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
97,89530,ausmubr01,2007,1,HOU,NL,117,349,38,82,16,3,3,25.0,6.0,1.0,37,74.0,3.0,6.0,4.0,1.0,11.0
98,89533,aloumo01,2007,1,NYN,NL,87,328,51,112,19,1,13,49.0,3.0,0.0,27,30.0,5.0,2.0,0.0,3.0,13.0
99,89534,alomasa02,2007,1,NYN,NL,8,22,1,3,1,0,0,0.0,0.0,0.0,0,3.0,0.0,0.0,0.0,0.0,0.0




Devuelve un resumen estadístico de las variables

In [38]:
data.describe(include='all')

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,X2b,X3b,hr,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
count,100.0,100,100.0,100.0,100,100,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0
unique,,82,,,27,2,,,,,,,,,,,,,,,,,
top,,trachst01,,,NYN,NL,,,,,,,,,,,,,,,,,
freq,,2,,,12,62,,,,,,,,,,,,,,,,,
mean,89352.66,,2006.92,1.13,,,52.38,136.54,18.69,35.82,7.39,0.55,4.37,18.47,1.38,0.46,15.49,24.08,1.77,1.12,1.38,1.2,3.54
std,218.910859,,0.27266,0.337998,,,48.031299,181.936853,27.77496,50.221807,11.117277,1.445124,7.975537,28.34793,3.694878,1.067613,25.812649,32.804496,5.042957,2.23055,2.919042,2.035046,5.201826
min,88641.0,,2006.0,1.0,,,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,89353.5,,2007.0,1.0,,,9.5,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
50%,89399.0,,2007.0,1.0,,,33.0,40.5,2.0,8.0,1.0,0.0,0.0,2.0,0.0,0.0,1.0,7.0,0.0,0.0,0.0,0.0,1.0
75%,89465.25,,2007.0,1.0,,,83.25,243.75,33.25,62.75,11.75,1.0,6.0,27.0,1.0,0.0,19.25,37.25,1.25,1.0,1.0,2.0,6.0




Devuelve un resumen de la estructura

In [39]:
data.dtypes

id          int64
player     object
year        int64
stint       int64
team       object
lg         object
g           int64
ab          int64
r           int64
h           int64
X2b         int64
X3b         int64
hr          int64
rbi       float64
sb        float64
cs        float64
bb          int64
so        float64
ibb       float64
hbp       float64
sh        float64
sf        float64
gidp      float64
dtype: object

Devuelve una lista con las etiquetas de las columnas y de las filas

In [40]:
data.axes

[RangeIndex(start=0, stop=100, step=1),
 Index(['id', 'player', 'year', 'stint', 'team', 'lg', 'g', 'ab', 'r', 'h',
        'X2b', 'X3b', 'hr', 'rbi', 'sb', 'cs', 'bb', 'so', 'ibb', 'hbp', 'sh',
        'sf', 'gidp'],
       dtype='object')]



Devuelve el número de elementos únicos por campo

In [41]:
data.nunique()

id        100
player     82
year        2
stint       2
team       27
lg          2
g          60
ab         63
r          38
h          46
X2b        28
X3b         5
hr         22
rbi        43
sb         12
cs          7
bb         40
so         47
ibb        13
hbp        10
sh         14
sf          9
gidp       17
dtype: int64



# Ejercicios

Considere el siguiente diccionario `data` y lista de `index`

In [42]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']



- a. Crea un DataFrame a partir del diccionario y los índices.
- b. Selecciona las columnas `animal`y `age`.
- c. Indique cuantos tipos distintos de animales hay.
- d. Indique cuantos animales hay de cada tipo.
- e. Muestre un resumen estadístico de todas las variables.



##### Solución Ejercicio 1



Crea un DataFrame a partir del diccionario y los índices.

In [None]:
# Respuesta aqui



Selecciona las columnas `animal`y `age`.


In [None]:
# Respuesta aqui



Indique el número de animales distintos.


In [None]:
# Respuesta aqui



Indique cuantos animales hay de cada tipo.


In [None]:
# Respuesta aqui



Muestre un resumen estadístico de todas las variables.


In [None]:
# Respuesta aqui