

# Pandas

1. `DataFrames` y  `Series`
2. Operaciones básicas

`pandas` es una librería que proporciona herramientas analíticas y estructuras de datos con alto rendimiento y facilidad de uso. En particular, la clase `DataFrame` es útil para representación y manipulación de datos heterogéneos tabulados (hojas de cálculo, tabla SQL, etc.)   

## Características
- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados, esta son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS. SQL, HDF5, entre otros.
- Permite filtrar, agregar, o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulados.

Para importar los módulos de la librería `pandas`, por convención se utiliza:

In [58]:
import pandas as pd
import numpy as np



## DataFrames y Series

Las funcionalidades de `pandas` se basan en dos estructuras de datos fundamentales: *Series* y *DataFrames*.

Una `Series` es un objeto que contiene un `array` unidimensional de datos y un `array` de etiquetas, conocido como *índice*. Si no se especifica un índice o etiqueta, este se genera internamente como una secuencia ordenada de números enteros.

```python
s = pd.Series(data, index=index)
```

Un `DataFrame` es una estructura de datos que almacena datos de forma tabular, es decir, ordenada en filas y columnas etiquetadas. Cada fila (`row`) contiene una observación y cada columna (`column`) una variable. Un `DataFrame` acepta datos heterogéneos, es decir, variables pueden ser de distinto tipo (numérico, string, boolean, etc.). Además de contener datos, un `DataFrame` contiene el nombre de las variables y sus tipos, y métodos que permiten acceder y modificar los datos.

```python
s = pd.DataFrame(data, ...)
```

Las `Series` y `DataFrame` permiten representar datos 1D y 2D. Para representar datos con más dimensiones `pandas` posee otras estructuras de datos más complejas (en fase experimental), llamadas `Panel`, `Panel4D`, `PanelND`. Estas estructuras están fuera del alcance de este curso.



---
# Series en Pandas

## Creación de Series




Crear una Series con índices automáticos a partir de una lista

In [59]:
serie = pd.Series([1979, 1980, 1981, 1982])
serie

0    1979
1    1980
2    1981
3    1982
dtype: int64



Las `Series` poseen dos atributos: `values`  e `index`. El primero es un `numpy array` que almacena los datos, y el segundo es un objeto que contiene los índices.

In [60]:
serie.values

array([1979, 1980, 1981, 1982], dtype=int64)

In [64]:
serie.index

RangeIndex(start=0, stop=4, step=1)



Al crear una `Series` se puede definir explícitamente un `array` índice y pasarlo como argumento.



Crear Series con índices definidos

In [65]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64

In [69]:
serie["carolina"]

1979



También se pueden crear `Series` a partir de diccionarios, `numpy arrays`, desde ficheros, etc.



Serie a partir de un numpy array

In [70]:
np.random.randn(10)

array([ 0.70230006, -1.17717435, -0.59849819, -2.60954293, -1.96159791,
       -1.2858226 , -0.28727021,  0.25393917,  0.66953161, -0.19397733])

In [71]:
serie = pd.Series(np.random.randn(10))
serie

0    0.482545
1   -1.018177
2    0.819918
3    1.505261
4   -1.659110
5    1.504289
6   -0.361837
7    1.426794
8    0.284229
9    0.710714
dtype: float64



Serie a partir de un diccionario

In [72]:
dicc = {'cuadrado de {}'.format(i): i * i for i in range(11)}
print(dicc)

{'cuadrado de 0': 0, 'cuadrado de 1': 1, 'cuadrado de 2': 4, 'cuadrado de 3': 9, 'cuadrado de 4': 16, 'cuadrado de 5': 25, 'cuadrado de 6': 36, 'cuadrado de 7': 49, 'cuadrado de 8': 64, 'cuadrado de 9': 81, 'cuadrado de 10': 100}


In [73]:
serie_dicc = pd.Series(dicc)
serie_dicc

cuadrado de 0       0
cuadrado de 1       1
cuadrado de 2       4
cuadrado de 3       9
cuadrado de 4      16
cuadrado de 5      25
cuadrado de 6      36
cuadrado de 7      49
cuadrado de 8      64
cuadrado de 9      81
cuadrado de 10    100
dtype: int64

In [75]:
serie_dicc.values

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100], dtype=int64)



---
## Acceso a datos en Series




El acceso a los datos se puede realizar mediante el índice categórico o el numérico que genera internamente Pandas



Creamos de nuevo la serie inicial

In [80]:
serie = pd.Series(data=[1979, 1980, 1981, 1982, 1983],
                  index=['carolina', 'martha', 'nicky', 'theresa', 'nicky'])
serie

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64



Indexación mediante etiqueta

In [10]:
print(serie['martha'])

1980




Indexación mediante índice numérico interno

In [79]:
print(serie[1])

1982




El índice puede contener valores duplicados

In [81]:
print(serie['nicky'])

nicky    1981
nicky    1983
dtype: int64




Podemos seleccionar varios valores indicando un intervalo de índices



Recuperamos desde el valor de la posición 1 (el primer elemento tiene un index = 0) hasta el final del índice.

In [82]:
serie

carolina    1979
martha      1980
nicky       1981
theresa     1982
nicky       1983
dtype: int64

In [13]:
serie[1:]

martha     1980
nicky      1981
theresa    1982
nicky      1983
dtype: int64



Recuperamos los elementos desde la posición 1 a la 2

In [14]:
serie[1:3]

martha    1980
nicky     1981
dtype: int64



Podemos usar también índices negativos

In [15]:
serie[-4:-2]

martha    1980
nicky     1981
dtype: int64



---
## Métodos en Series



Para **añadir** nuevos elementos a una Series usamos el método `append`:

In [83]:
s1 = pd.Series(np.arange(10))
s2 = pd.Series(np.arange(10, 21))

s3 = s1.append(s2)
s3

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
0     10
1     11
2     12
3     13
4     14
5     15
6     16
7     17
8     18
9     19
10    20
dtype: int32



Se mantienen los índices de cada serie

In [86]:
s3

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
0     10
1     11
2     12
3     13
4     14
5     15
6     16
7     17
8     18
9     19
10    20
dtype: int32



También podemos concatenar series generando un índice nuevo:

In [87]:
s3 = s1.append(s2, ignore_index=True)
s3

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
dtype: int32

In [19]:
s3[1]

1



El méotdo pop devuelve y elimina de la serie original el valor del índice pasado

In [88]:
s1

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

In [89]:
s4 = s1.pop(3)
print(s4)
print(s1)

3
0    0
1    1
2    2
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32


In [92]:
s1.std()

3.1622776601683795



---
# Dataframes en Pandas

## Creación de Dataframes

A diferencia de `Series`, los `DataFrame` están diseñados para almacenar datos heterogéneos multivariables. Por ejemplo:



Índice de filas automático

In [93]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [101]:
df.to_dict()

{'state': {0: 'Ohio', 1: 'Ohio', 2: 'Ohio', 3: 'Nevada', 4: 'Nevada'},
 'year': {0: 2000, 1: 2001, 2: 2002, 3: 2001, 4: 2002},
 'pop': {0: 1.5, 1: 1.7, 2: 3.6, 3: 2.4, 4: 2.9}}

In [99]:
df["pop"].mean()

2.4200000000000004

In [22]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [102]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data, index = ["100", "101", "102", "103", "104"] )
df

Unnamed: 0,state,year,pop
100,Ohio,2000,1.5
101,Ohio,2001,1.7
102,Ohio,2002,3.6
103,Nevada,2001,2.4
104,Nevada,2002,2.9




Se pueden consultar el nombre de las variables usando el atributo `columns`

In [103]:
df.index

Index(['100', '101', '102', '103', '104'], dtype='object')

In [104]:
df.columns

Index(['state', 'year', 'pop'], dtype='object')



---
## Acceso a datos en Dataframes




Se pueden extraer columnas de un `DataFrame` con la etiqueta de la columna (sólo si es un identificador Python válido)  usando notación tipo diccionario o como atributo del objeto. En ambos casos se obtiene un objeto tipo `Series`.

In [105]:
df

Unnamed: 0,state,year,pop
100,Ohio,2000,1.5
101,Ohio,2001,1.7
102,Ohio,2002,3.6
103,Nevada,2001,2.4
104,Nevada,2002,2.9


In [106]:
df['state']  # dict type

100      Ohio
101      Ohio
102      Ohio
103    Nevada
104    Nevada
Name: state, dtype: object

In [112]:
df.pop_mean # attribute type

100    1.5
101    1.7
102    3.6
103    2.4
104    2.9
Name: pop, dtype: float64

In [None]:
### esto con mean_pop, count_pop, min, max, 



Podemos recuperar varias columnas a la vez

In [121]:
df[["state", "year"]]

Unnamed: 0,state,year
100,Ohio,2000
101,Ohio,2001
102,Ohio,2002
103,Nevada,2001
104,Nevada,2002


In [117]:
df.loc["100", "year"]

2000



Para acceder a las filas, se puede usar el atributo `ix` o la función `iloc`.



<div class="alert alert-info">**Nota**: En http://pandas.pydata.org/pandas-docs/version/0.18.1/indexing.html#different-choices-for-indexing pueden entender diferencias entre los métodos.</div>

In [28]:
df

Unnamed: 0,state,year,pop
100,Ohio,2000,1.5
101,Ohio,2001,1.7
102,Ohio,2002,3.6
103,Nevada,2001,2.4
104,Nevada,2002,2.9


In [126]:
df["year"]

100    2000
101    2001
102    2002
103    2001
104    2002
Name: year, dtype: int64

In [133]:
df.loc["102", ["year", "pop"]]

year    2002
pop      3.6
Name: 102, dtype: object



Permite acceder al contenido de un registro mediante la posición del índice

In [136]:
df.iloc[1]

state    Ohio
year     2001
pop       1.7
Name: 101, dtype: object



Podemos acceder a un valor concreto usando el acceso a datos visto anteriormente en Series

In [137]:
df.iloc[1, 0]

'Ohio'

In [138]:
df.loc["101", "state"]

'Ohio'



---
## Métodos en Dataframes


Vemos algunos métodos útiles de la clase Dataframe



Nos indica el número de columnas y filas del dataframe

In [139]:
df.shape

(5, 3)

In [140]:

df.values

array([['Ohio', 2000, 1.5],
       ['Ohio', 2001, 1.7],
       ['Ohio', 2002, 3.6],
       ['Nevada', 2001, 2.4],
       ['Nevada', 2002, 2.9]], dtype=object)



Devuelve los n primeros registros (5 por defecto)

In [141]:
df.head()

Unnamed: 0,state,year,pop
100,Ohio,2000,1.5
101,Ohio,2001,1.7
102,Ohio,2002,3.6
103,Nevada,2001,2.4
104,Nevada,2002,2.9




Devuelve los n primeros registros (5 por defecto)

In [144]:
df.tail(3)

Unnamed: 0,state,year,pop
102,Ohio,2002,3.6
103,Nevada,2001,2.4
104,Nevada,2002,2.9




Devuelve un resumen estadístico de las variables

In [37]:
df.describe(include='all')

Unnamed: 0,state,year,pop
count,5,5.0,5.0
unique,2,,
top,Ohio,,
freq,3,,
mean,,2001.2,2.42
std,,0.83666,0.864292
min,,2000.0,1.5
25%,,2001.0,1.7
50%,,2001.0,2.4
75%,,2002.0,2.9




Devuelve un resumen de la estructura

In [145]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 100 to 104
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   state   5 non-null      object 
 1   year    5 non-null      int64  
 2   pop     5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 320.0+ bytes




Devuelve una lista con las etiquetas de las columnas y de las filas

In [39]:
df.axes

[Index(['100', '101', '102', '103', '104'], dtype='object'),
 Index(['state', 'year', 'pop'], dtype='object')]



Devuelve el número de elementos únicos por campo

In [146]:
df

Unnamed: 0,state,year,pop
100,Ohio,2000,1.5
101,Ohio,2001,1.7
102,Ohio,2002,3.6
103,Nevada,2001,2.4
104,Nevada,2002,2.9


In [40]:
df.nunique()

state    2
year     3
pop      5
dtype: int64



# Ejercicios

Considere el siguiente diccionario `data` y lista de `index`

In [149]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']



- a. Crea un DataFrame a partir del diccionario y los índices.
- b. Selecciona las columnas `animal`y `age`.
- c. Indique cuantos tipos distintos de animales hay.
- d. Indique cuantos animales hay de cada tipo.
- e. Muestre un resumen estadístico de todas las variables.

In [150]:
df_animal = pd.DataFrame(data)

In [156]:
df_animal

Unnamed: 0,animal,age,visits,priority
0,cat,2.5,1,yes
1,cat,3.0,3,yes
2,snake,0.5,2,no
3,dog,,3,yes
4,dog,5.0,2,no
5,cat,2.0,3,no
6,snake,4.5,1,no
7,cat,,1,yes
8,dog,7.0,2,no
9,dog,3.0,1,no


In [151]:
df_animal[["animal", "age"]]

Unnamed: 0,animal,age
0,cat,2.5
1,cat,3.0
2,snake,0.5
3,dog,
4,dog,5.0
5,cat,2.0
6,snake,4.5
7,cat,
8,dog,7.0
9,dog,3.0


In [164]:
len(df_animal.animal.unique())

3

In [165]:
df_animal.animal.nunique()

3

In [153]:
df_animal.animal.value_counts()

cat      4
dog      4
snake    2
Name: animal, dtype: int64

In [167]:
df_animal.describe(include = "all")

Unnamed: 0,animal,age,visits,priority
count,10,8.0,10.0,10
unique,3,,,2
top,cat,,,no
freq,4,,,6
mean,,3.4375,1.9,
std,,2.007797,0.875595,
min,,0.5,1.0,
25%,,2.375,1.0,
50%,,3.0,2.0,
75%,,4.625,2.75,


# Datos ausentes (missing values)

La mayor parte de los datasets presentan registros con uno o varios campos cuya información está ausente (**missing values**), lo que puede generar problemas al intentar representar los datos, realizar ciertas operaciones o aplicarlo a un algoritmo. Es por eso que es necesario identificar y tratar esos valores ausentes. 

Las dos estrategias de tratamiento son el borrado o la asignación un valor determinado.

`Pandas` toma a los valores `NaN` y `None` como valores ausentes.


In [170]:
df = pd.DataFrame({'VarA': ['aa', None, 'cc',None],
                  'VarB': [20, 30, None,None],
                  'VarC': [1234, 3456, 6789,765],
                  'VarD': [1234, 888, None,None]
                 },
                 index=['Case1', 'Case2', 'Case3', 'Case4'])
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,



Comprobamos si existe algún NaN o None en el dataframe

In [171]:
df.isnull()

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,False,False,False,False
Case2,True,False,False,False
Case3,False,True,False,True
Case4,True,True,False,True



Nos indica si algún elemento dentro del df es un missing value

In [173]:
df.isnull().values.any()

True

Comprueba que columnas tienen NaNs


In [178]:
df.isnull()

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,False,False,False,False
Case2,True,False,False,False
Case3,False,True,False,True
Case4,True,True,False,True


In [175]:
df.isnull().any(axis = 0)

VarA     True
VarB     True
VarC    False
VarD     True
dtype: bool

In [176]:
df.isnull().any(axis = 1)

Case1    False
Case2     True
Case3     True
Case4     True
dtype: bool


## Eliminación de missing values

La estrategia más sencilla de tratamiento de missing values consiste en eliminar los registros que los contengan.


In [46]:
df.dropna()

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0



Sin embargo, como vemos más abajo en el df no se han eliminado los registros con  NaNs. Para que el cambio se ejecute es necesario usar la opción inplace=True: `df.dropna(inplace=True)`

In [47]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


Podemos indicar un conjunto de columnas en los que eliminar los NaNs.


In [48]:
df.dropna(subset=['VarB'])

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0


O podemos aplicar un límite con un número mínimo de valores no NaNs por registro.

In [180]:
df.dropna(thresh=3)

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,



## Asignación de valores

La otra opción de tratamiento consiste en asignar un valor determinado a las instancias con missing values. Lo hacemos con el método fillna, que al igual que dropna requiere el parámetro inplace=True para persistir los cambios.

In [182]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Case1 to Case4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   VarA    2 non-null      object 
 1   VarB    2 non-null      float64
 2   VarC    4 non-null      int64  
 3   VarD    2 non-null      float64
dtypes: float64(2), int64(1), object(1)
memory usage: 320.0+ bytes


In [50]:
df.fillna('new')

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20,1234,1234
Case2,new,30,3456,888
Case3,cc,new,6789,new
Case4,new,new,765,new


Esta asignación del string 'new' se ha realizado sobre todos los elementos missing values. Para ello Pandas ha realizado un cambio en el tipo de alguna de las variables.

Comprobamos que el type antes y descués del fillna es distinto para la variable numérica

In [51]:
df['VarB'].dtype, df.fillna('new')['VarB'].dtype

(dtype('float64'), dtype('O'))

Para evitar este tipo de cambios no deseados seleccionamos la columna a modificar.

Realizamos únicamente el fillna sobre la columna VarA

In [183]:
df['VarA'].fillna('new', inplace=True)
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,20.0,1234,1234.0
Case2,new,30.0,3456,888.0
Case3,cc,,6789,
Case4,new,,765,



# Ejercicios 

Dado el siguiente Dataframe

In [53]:
raw_data = {'first_name': ['Jason', 'Mary', 'Tina', 'Jake', 'Amy','Anne'], 
        'last_name': ['Miller', 'Smith', 'Ali', 'Milner', 'Cooze','Lynn'], 
        'age': [42, np.nan, 36, 24, 73,'23'], 
        'sex': ['m', np.nan, 'f', 'm', 'f','f'], 
        'preTestScore': [4, np.nan, np.nan, 2, 3, np.nan],
        'postTestScore': [25, np.nan, np.nan, 62, 70, np.nan]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,Mary,Smith,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0
5,Anne,Lynn,23.0,f,,


- a. Determine que columna(s) tiene(n) el mayor número de NaNs.
- b. Elimine los registros con mayor número de nulos
- c. Complete la variable 'preTestScore' con el valor medio