Nota: estos notebooks están basados en el trabajo de Jake VanDerPlas https://github.com/jakevdp/PythonDataScienceHandbook. Bajo licencia CC0.

# Series

Pandas está basado en [Numpy](http://www.numpy.org/), un modulo de Python diseñado especialmente para procesar rápidamente datos numéricos.
Una serie es una colección de valores, representa la información como una columna. 

In [1]:
import pandas as pd
pd.Series?

In [2]:
ciudades = ['Santiago', 'Concepción', 'Valparaíso']
pd.Series(ciudades)

0      Santiago
1    Concepción
2    Valparaíso
dtype: object

Pandas detecta automáticamente el tipo de los datos:

In [3]:
numeros = [1, 2, 3] # son números enteros
pd.Series(numeros)

0    1
1    2
2    3
dtype: int64

In [4]:
ciudades = ['Santiago', 'Concepción', None] # None es un valor sin tipo
pd.Series(ciudades)

0      Santiago
1    Concepción
2          None
dtype: object

In [5]:
numeros = [1, 2, None] 
pd.Series(numeros)     # Serie de números flotantes

0    1.0
1    2.0
2    NaN
dtype: float64

NaN (Not a Number) indica que el número no está definido. Debes tratarlo de manera especial:

In [6]:
import numpy as np
np.nan == None  # debería devolver True or False?

False

In [7]:
np.nan == np.nan  # debería devolver True or False?

False

In [8]:
np.isnan(np.nan)  # forma correcta de comparar... ya volveremos a esto :)

True

Podemos crear series especificando explícitamente el índice y los datos: 

In [9]:
s = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
s

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [10]:
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [11]:
s.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

Y también asignarlos con un diccionario:

In [12]:
s = pd.Series({'a':0.25, 'b': 0.5, 'c': 0.75, 'd':1.0})
s

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

## Consultando series

In [13]:
s.iloc[2] # retorna el i-ésimo elemento de la serie

0.75

In [14]:
s.iloc[1:3] # retorna un rango [i:j] (no incluye el j-ésimo)

b    0.50
c    0.75
dtype: float64

In [15]:
s.loc['c'] # busca por valor en índice

0.75

In [16]:
s.loc['b':'c']

b    0.50
c    0.75
dtype: float64

In [17]:
s[2] # búsqueda implícita sobre el índice, Pandas lo puede interpretar como un valor de índice o una posición, ojo!

0.75

In [18]:
s['c'] # búsqueda implícita, ojo, fuente de confusión!

0.75

In [19]:
ciudades = pd.Series(['Santiago', 'Concepción', 'Valparaíso'], index = [97, 98, 99], name='Ciudades')
ciudades

97      Santiago
98    Concepción
99    Valparaíso
Name: Ciudades, dtype: object

In [20]:
ciudades[0] # esto no devuelve .iloc[0], hace error :(

KeyError: 0

Los elementos de una serie también se pueden recorrer:

In [21]:
numeros = pd.Series([6.5, 7, 3.3, 4.1])

In [22]:
suma_total = 0
for item in numeros:
    suma_total += item
suma_total

20.899999999999999

In [26]:
np.sum(numeros)

28.899999999999999

In [27]:
numeros + 2

0    10.5
1    11.0
2     7.3
3     8.1
dtype: float64

In [28]:
numeros = numeros + 2 # suma 2 unidades a cada elemento de la serie
numeros

0    10.5
1    11.0
2     7.3
3     8.1
dtype: float64

Nota sobre Numpy. (Pero no preocuparse demasiado del performance por ahora... solo cuando sea crítico para el negocio)

In [29]:
#this creates a big series of random numbers
s = pd.Series(np.random.randint(0,1000,10000))
s.head() # muestra las primeras filas

0    517
1    603
2    308
3    965
4    792
dtype: int64

In [30]:
%%timeit -n 100
summary = 0
for item in s:
    summary+=item

100 loops, best of 3: 1.2 ms per loop


In [31]:
%%timeit -n 100
summary = np.sum(s) # útil para machine learning!

100 loops, best of 3: 210 µs per loop


# Dataframe
Es una colección de Series, y representa una tabla (si, como las de Excel).

In [32]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


Se puede acceder a la serie usando el operador [] y como un atributo:

In [33]:
data['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [34]:
data.area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [35]:
type(data['area'])

pandas.core.series.Series

In [36]:
data['area'] * -1

California   -423967
Florida      -170312
Illinois     -149995
New York     -141297
Texas        -695662
Name: area, dtype: int64

In [37]:
# puedes asignar nuevas columnas
data['density'] = data['pop'] / data['area'] # osom, no?
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874


También se puede seleccionar un subconjunto de columnas por nombre:

In [38]:
data[['area','density']]

Unnamed: 0,area,density
California,423967,90.413926
Florida,170312,114.806121
Illinois,149995,85.883763
New York,141297,139.076746
Texas,695662,38.01874


In [39]:
data.T # también se pueden trasponer el dataframe

Unnamed: 0,California,Florida,Illinois,New York,Texas
area,423967.0,170312.0,149995.0,141297.0,695662.0
pop,38332520.0,19552860.0,12882140.0,19651130.0,26448190.0
density,90.41393,114.8061,85.88376,139.0767,38.01874


In [40]:
data.T.loc['area']

California    423967.0
Florida       170312.0
Illinois      149995.0
New York      141297.0
Texas         695662.0
Name: area, dtype: float64

Los dataframes también tienen un indice y valores:

In [41]:
data.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

In [42]:
data.values

array([[  4.23967000e+05,   3.83325210e+07,   9.04139261e+01],
       [  1.70312000e+05,   1.95528600e+07,   1.14806121e+02],
       [  1.49995000e+05,   1.28821350e+07,   8.58837628e+01],
       [  1.41297000e+05,   1.96511270e+07,   1.39076746e+02],
       [  6.95662000e+05,   2.64481930e+07,   3.80187404e+01]])

Los operadores .iloc y .loc funcionan de la misma manera, pero también pueden devolver columnas:

In [43]:
data.iloc[0:3] # se pueden seleccionar filas [i:j]

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [44]:
data.iloc[0:3, 1:3] # y también se puede seleccionar por columnas, por ejemplo las columnas 1 y 2

Unnamed: 0,pop,density
California,38332521,90.413926
Florida,19552860,114.806121
Illinois,12882135,85.883763


In [45]:
data.loc['California']

area       4.239670e+05
pop        3.833252e+07
density    9.041393e+01
Name: California, dtype: float64

In [46]:
data.loc['California':'Illinois', 'area':'pop']

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


También puedes borrar filas y columnas, con axis = 0 se indican filas, con axis = 1 se indican columnas.

In [47]:
copy_data = data.copy()
copy_data.drop?

In [48]:
copy_data = copy_data.drop(['Florida'], axis = 0)
copy_data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874


In [49]:
copy_data = copy_data.drop(['area'], axis=1)  # también puedes usar .drop_colums(...)
copy_data

Unnamed: 0,pop,density
California,38332521,90.413926
Illinois,12882135,85.883763
New York,19651127,139.076746
Texas,26448193,38.01874


## Cargando y filtrando datos

 Nota: La desigualdad en los ingresos se puede cuantificar a través del Coeficiente de Gini. Este coeficiente varía entre 0 y 1, donde 0 indica igualdad absoluta y 1 desigualdad absoluta (fuente: http://stats.oecd.org/Index.aspx?DataSetCode=IDD).

In [50]:
df = pd.read_csv('gini_by_country.csv')
df.head()

Unnamed: 0,Slovenia,0.251
0,Denmark,0.256
1,Slovak Republic,0.247
2,Czech Republic,0.257
3,Iceland,0.246
4,Norway,0.257


Pandas también puede abrir otros tipos de archivos (JSON, Excel, etc.). Más info en https://pandas.pydata.org/pandas-docs/stable/io.html 


Por defecto se asume que la primera línea contiene el nombre de las columnas. Si no los tiene, se pueden especificar:

In [51]:
df.columns #something went wrong...?

Index(['Slovenia', '0.251'], dtype='object')

In [52]:
df = pd.read_csv('gini_by_country.csv',names=['pais','gini']) # asignar nombres a columnas, si no los tiene
df.head()

Unnamed: 0,pais,gini
0,Slovenia,0.251
1,Denmark,0.256
2,Slovak Republic,0.247
3,Czech Republic,0.257
4,Iceland,0.246


In [53]:
df.columns

Index(['pais', 'gini'], dtype='object')

¿Cuáles son los países con coeficiente de Gini menor a 0.25?

En una serie se puede preguntar cuales filas cumplen una condición. Retorna una lista de True/False, que indica los elementos de la serie que cumplen la condición.

In [54]:
df.gini < 0.25

0     False
1     False
2      True
3     False
4      True
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40    False
41    False
Name: gini, dtype: bool

Con el operador corchete [ ] podemos devolver las filas que cumplen la condición.

In [55]:
df[df.gini < 0.25]

Unnamed: 0,pais,gini
2,Slovak Republic,0.247
4,Iceland,0.246


In [56]:
menos_desiguales = df[df.gini < 0.25]
len(menos_desiguales)

2

¿ Cuáles son los países con Gini menos a 0.25 y mayores a 0.5?

Las condiciones se pueden mezclar con el operador or, and y not.

| Operación | Python (`if`) | Pandas |
|-----------|--------------|-----------|
| Disyunción | or | &#124; |
| Conjunción | and | & |
| Negación | not | ~ |

In [57]:
extremos = df[(df.gini < 0.25) | (df.gini > 0.5)] # se puede usar 
extremos

Unnamed: 0,pais,gini
2,Slovak Republic,0.247
4,Iceland,0.246
38,China (People's Republic of),0.556
41,South Africa,0.62


¿Y cuales están entre 0.25 y 0.5?

In [58]:
noextremos = df[(df.gini > 0.25) & (df.gini < 0.5)]
noextremos.head()

Unnamed: 0,pais,gini
0,Slovenia,0.251
1,Denmark,0.256
3,Czech Republic,0.257
5,Norway,0.257
6,Finland,0.257


In [59]:
noextremos.shape # (num. filas, num. columnas)

(38, 2)

In [60]:
noextremos.tail()

Unnamed: 0,pais,gini
35,Switzerland,0.297
36,United States,0.394
37,Brazil,0.47
39,India,0.495
40,Russia,0.376


# Manejando valores nulos

El mundo real no es perfecto. Usualmente los datos que encontramos en portales públicos o en nuestra institución no cumplen con la especificación, e incluso le podrían faltar entradas. Ahora veremos como trabajar cuando faltan datos.

In [64]:
serie = pd.Series([1, np.nan, 'hello', None])
serie

0        1
1      NaN
2    hello
3     None
dtype: object

In [65]:
serie.notnull()

0     True
1    False
2     True
3    False
dtype: bool

In [66]:
serie[serie.notnull()]

0        1
2    hello
dtype: object

In [67]:
serie.dropna()

0        1
2    hello
dtype: object

In [68]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]], columns=['a','b','c'])
df

Unnamed: 0,a,b,c
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [69]:
df.dropna()

Unnamed: 0,a,b,c
1,2.0,3.0,5


**Importante**: antes de eliminar filas, debes reflexionar sobre el efecto que tendrá sobre el fenómeno observado. Guíate por estas preguntas:
* ¿Por qué esta esta columna tiene algunos valores nulos? ¿Será que el proceso que genera los datos no se realizó? no hay suficiente precisión?
* Si elimino una fila, estoy eliminando valores que no son nulos en otra columna? ¿Estoy sesgando los datos en la otra columna? Quizás es importante no eliminarlos en la otra serie.

In [70]:
df['basura'] = np.nan
df

Unnamed: 0,a,b,c,basura
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [71]:
# eliminar columnas que tengan todos los valores nulos
df.dropna(axis='columns', how='all') 

Unnamed: 0,a,b,c
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


También podemos asignar valores a los nulos:

In [72]:
df.fillna(0)

Unnamed: 0,a,b,c,basura
0,1.0,0.0,2,0.0
1,2.0,3.0,5,0.0
2,0.0,4.0,6,0.0


In [73]:
# forward-fill: propagar el valor previo hacia la siguiente fila
df.fillna(method='ffill') # también se puede propagar la anteror: 'bfill

Unnamed: 0,a,b,c,basura
0,1.0,,2,
1,2.0,3.0,5,
2,2.0,4.0,6,


In [74]:
df.fillna?

# Operaciones sobre Dataframes

Los Dataframes se pueden ordenar según valores en una columna:

In [77]:
df = pd.read_csv('gini_by_country.csv',names=['pais','gini']) # asignar nombres a columnas, si no los tiene

In [78]:
df_sorted = df.sort_values('gini',ascending=True) # o puede ser ascending=False
df_sorted.head()

Unnamed: 0,pais,gini
4,Iceland,0.246
2,Slovak Republic,0.247
0,Slovenia,0.251
1,Denmark,0.256
3,Czech Republic,0.257


In [79]:
df_sorted.tail()

Unnamed: 0,pais,gini
37,Brazil,0.47
30,Costa Rica,0.491
39,India,0.495
38,China (People's Republic of),0.556
41,South Africa,0.62


Y también existen funciones para calcular estadísticas descriptivas:

In [82]:
df.min() 

pais    Australia
gini        0.246
dtype: object

In [63]:
df.describe()

Unnamed: 0,gini
count,42.0
mean,0.343571
std,0.087299
min,0.246
25%,0.285
50%,0.328
75%,0.37325
max,0.62
