<img src="logo-spegc.svg" width=30%>

# Pandas

Según la Wikipedia, el nombre **Pandas** deriva del término "panel data", un término econométrico para conjuntos de datos estructurados multidimensionales. Pandas cuenta con tres estructuras principales de datos:

- Series
- Dataframes
- Paneles

Para conjuntos de datos unidimensionales, bidimensionales y tridimensionales respectivamente.

<table>
<tbody><tr>
<th style="text-align:center;">Estructura de datos</th>
<th style="text-align:center;">Dimensiones</th>
<th style="text-align:center;">Descripción</th>
</tr>
<tr>
<td style="text-align:center;">Series</td>
<td style="text-align:center;">1</td>
<td style="text-align:center;">Array homogéneo unidimensional de tamaño inalterable</td>
</tr> 
<tr>
<td style="text-align:center;">Data Frames</td>
<td style="text-align:center;">2</td>
<td style="text-align:center;">Estructura tabular mutable y heterogénea</td>
</tr>
<tr>
<td style="text-align:center;">Panel</td>
<td style="text-align:center;">3</td>
<td style="text-align:center;">Estructura tridimensional mutable y heterogénea</td>
</tr>
</tbody></table>

### Mutabilidad

Todas las estructuras de datos de Pandas son de valor mutable (se pueden cambiar) y, excepto las series, todas son de tamaño mutable. La serie es de tamaño inmutable.

El **DataFrame** es ampliamente utilizado y una de las estructuras de datos más importantes. El **panel** se usa mucho menos.

Pandas puede leer datos de múltipes medios, como archivos CSV o bases de datos SQL, por ejemplo.

## DataFrames

El **dataframe** es una estructura de datos bidimensional compuesta por columnas y registros. Cada registro es un fila del dataframe y normalmente corresponde con cada muestra que tengamos de un conjunto de datos. A su vez, cada muestra está compuesta por diferentes propiedades o campos, que corresponden a las diferentes columnas del dataframe.

Además de los datos, también es posible especificar el índice y los nombres de las columnas en el DataFrame. El índice referencia a las filas, mientras que los nombres de columnas indican la columna del dataframe a la que nos referimos.

<img src="images/dataframe.png">


## Cargando datos con Pandas

Cuando se usa Pandas para el análisis de datos, estos generalmente se leerán de tres maneras diferentes:

- Convirtiendo una lista de Python, diccionario o matriz Numpy en un frame de datos de Pandas.

- Abriendo un archivo local, generalmente un archivo CSV, un fichero Excel, etc.

- Abriendo un archivo o base de datos remota como CSV o JSON de un sitio web a través de una URL o leyendo tablas de bases de datos SQL.

## Creación del dataframe
### A partir de listas

In [105]:
import pandas as pd

data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [101]:
import pandas as pd

data = [['Ana',9, 5],['Laura', 7, 8],['Pedro', 5, 6]]
df = pd.DataFrame(data,columns=['Nombre','nota 1', 'nota 2'], dtype=float)
print(df)

  Nombre  nota 1  nota 2
0    Ana     9.0     5.0
1  Laura     7.0     8.0
2  Pedro     5.0     6.0


### A partir de diccionarios

In [108]:
import pandas as pd

data = {'Nombre':['Pedro', 'Juan', 'Leticia', 'Ana'],'edad':[28, 22, 21, 19]}
df = pd.DataFrame(data)
print(df)

    Nombre  edad
0    Pedro    28
1     Juan    22
2  Leticia    21
3      Ana    19


In [1]:
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['id1','id2','id3','id4'])
print(df)

      Name  Age
id1    Tom   28
id2   Jack   34
id3  Steve   29
id4  Ricky   42


### A partir de Excel

In [28]:
import pandas as pd
import numpy as np

df = pd.read_excel('notas.xlsx', sheet_name="Hoja1")

print("Column headings:")
print(df.columns)

Column headings:
Index(['Alumno', 'nota 1', 'nota 2'], dtype='object')


In [29]:
print(df['Alumno'])

0    Montesdeoca, Ana
1         Pérez, Juan
2       Suárez, Pedro
3     Trujillo, Laura
4        Zamora, Luis
Name: Alumno, dtype: object


In [30]:
for i in df.index:
    print(df['nota 1'][i])

6
8
3
9
5


In [31]:
import pandas as pd
 
df = pd.read_excel('notas.xlsx', sheetname='Hoja1')
 
alumno = df['Alumno']
nota1 = df['nota 1']
nota2 = df['nota 2']

print(alumno)

0    Montesdeoca, Ana
1         Pérez, Juan
2       Suárez, Pedro
3     Trujillo, Laura
4        Zamora, Luis
Name: Alumno, dtype: object


In [32]:
media = (nota1+nota2)/2
print(media)

0    6.5
1    6.5
2    3.5
3    9.5
4    5.5
dtype: float64


### Información sobre el dataframe

In [35]:
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))

print(df)
print("-----------")
print(df.index)
print("-----------")

# Use the `shape` property
print(df.shape)

# Or use the `len()` function with the `index` property
print(len(df.index))

   0  1  2
0  1  2  3
1  4  5  6
-----------
RangeIndex(start=0, stop=2, step=1)
-----------
(2, 3)
2


También se puede usar <code>df[0].count()</code> para conocer la altura del dataframe, pero esto excluirá los valores tipo <code>NA</code> (si los hay). Es por eso que llamar a <code>.count()</code> no siempre es la mejor opción.

In [38]:
list(df.columns.values)

[0, 1, 2]

### Series

In [115]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


## Operaciones básicas

### Selección de columnas

In [117]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df['one'])

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64


### Selección de celdas

Se puede acceder a los valores de un dataframe referenciándolos por su etiqueta o por su posición en el índice o columna.

In [42]:
import pandas as pd

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]})
print(df)
print("----------------")
print(df['A'])
print("----------------")
# Using `iloc[]`
print(df.iloc[0][0])
print("----------------")
# Using `loc[]`
print(df.loc[0]['A'])
print("----------------")
# Using `at[]`
print(df.at[0,'A'])
print("----------------")
# Using `iat[]`
print(df.iat[0,0])

   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12
----------------
0    1
1    2
2    3
3    4
Name: A, dtype: int64
----------------
1
----------------
1
----------------
1
----------------
1


#### .loc[ ]

Funciona con las etiquetas del índice. Esto significa que si se proporciona <code>.loc['Juan']</code>, buscará los valores del dataframe que tengan un índice etiquetado como "Juan". Adviértase que se si se busca <code>loc[2]</code> buscará una entrada cuya etiqueta sea "2". Este "2" no corresponde a la tercera entrada (recuérdese que se comienza en el 0), sino a la etiqueta "2" que puede estar, por ejemplo, en la decimoquinta fila.

In [63]:
import pandas as pd

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]}, index=['a','b','b','d'])
print(df)
print(df.loc['b'])

print("-----------------")

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]}, index=[3,7,5,4])
print(df)
print(df.loc[7])

   A  B   C
a  1  5   9
b  2  6  10
b  3  7  11
d  4  8  12
   A  B   C
b  2  6  10
b  3  7  11
-----------------
   A  B   C
3  1  5   9
7  2  6  10
5  3  7  11
4  4  8  12
A     2
B     6
C    10
Name: 7, dtype: int64


#### .iloc[ ]

Trabaja con las posiciones del índice. Esto significa que si se escribe <code>iloc[2]</code>, se buscará los valores del dataframe que estén en la posición tercera del índice.

In [64]:
import pandas as pd

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]}, index=[3,2,2,8])
print(df)
print(df.iloc[2])

   A  B   C
3  1  5   9
2  2  6  10
2  3  7  11
8  4  8  12
A     3
B     7
C    11
Name: 2, dtype: int64


#### .ix[ ]

Es un caso más complejo: cuando el índice está basado en números enteros, pasa una etiqueta a <code>.ix[]</code>. Por tanto, <code>ix[2]</code> significa que está buscando en su dataframe valores que tengan un índice etiquetado como 2. ¡Esto es como .loc []! Sin embargo, si su índice no se basa en enteros, ix funcionará con posiciones, al igual que <code>.iloc[]</code>.

## Índices

Cuando crea un dataframe es posible definir la entrada del argumento <code>index</code> para asegurarse de que tiene el índice que se desea. Cuando no se especifica esto, el dataframe tendrá, de manera predeterminada, un índice numérico que comienza con 0 y continúa hasta la última fila del dataframe.

Sin embargo, incluso cuando el índice se especifica automáticamente, aún es posible reutilizar una de sus columnas y convertirla en el índice. Puede hacerse fácilmente llamando a <code>set_index()</code> en el dataframe.

In [51]:
import pandas as pd

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]}, index=['a','b','c','d'])
df.set_index('C', inplace=True, drop=False)
print(df)
print(df.index)

    A  B   C
C           
9   1  5   9
10  2  6  10
11  3  7  11
12  4  8  12
Int64Index([9, 10, 11, 12], dtype='int64', name='C')


### Adición de columnas

In [134]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

# Adding a new column to an existing DataFrame object with column label by passing new series

print("Adding a new column by passing as Series:")
df['three']=pd.Series([10,20,30],index=['a','b','d'])
print(df)

print("Adding a new column using the existing columns in DataFrame:")
df['four']=df['one']+df['three']

print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
Adding a new column by passing as Series:
   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3    NaN
d  NaN    4   30.0
Adding a new column using the existing columns in DataFrame:
   one  two  three  four
a  1.0    1   10.0  11.0
b  2.0    2   20.0  22.0
c  3.0    3    NaN   NaN
d  NaN    4   30.0   NaN


### Eliminación de columnas

In [130]:
# Using the previous DataFrame, we will delete a column
# using del function
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
print ("Our dataframe is:")
print(df)

# using del function
print ("Deleting the first column using DEL function:")
del df['one']
print(df)

# using pop function
print ("Deleting another column using POP function:")
df.pop('two')
print(df)

Our dataframe is:
   one  three  two
a  1.0   10.0    1
b  2.0   20.0    2
c  3.0   30.0    3
d  NaN    NaN    4
Deleting the first column using DEL function:
   three  two
a   10.0    1
b   20.0    2
c   30.0    3
d    NaN    4
Deleting another column using POP function:
   three
a   10.0
b   20.0
c   30.0
d    NaN


### Selección por etiquetas

In [139]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)
print("-------------")
print(df.loc['b'])

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
-------------
one    2.0
two    2.0
Name: b, dtype: float64


### Selección por localización entera

In [142]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df.iloc[2])
print(df.iloc[2:4])  # Slicing

one    3.0
two    3.0
Name: c, dtype: float64
   one  two
c  3.0    3
d  NaN    4


### Adición de filas en dataframes

In [3]:
import pandas as pd

df1 = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

print(df1)
print("----------------")

df1 = df1.append(df2)
print(df1)

   a  b
0  1  2
1  3  4
----------------
   a  b
0  1  2
1  3  4
0  5  6
1  7  8


## Guardando datos de Pandas en Excel

In [95]:
import pandas as pd
from pandas import ExcelWriter
from pandas import ExcelFile
import numpy as np
 
df = pd.DataFrame({'a':[1,3,5,7,4,5,6,4,7,8,9],
                   'b':[3,5,6,2,4,6,7,8,7,8,9]})
 
writer = ExcelWriter('notas2.xlsx')
df.to_excel(writer,'Hoja1',index=False)
writer.save()

In [97]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['A', 'B', 'C'])

# Use '.index'
df['D'] = df.index

# Print 'df'
print(df)

   A  B  C  D
0  1  2  3  0
1  4  5  6  1
2  7  8  9  2


## Ejercicios

Leer el fichero "Poblacion_Paises.txt" y 

1. Listar todos los países de mayor a menor por número de habitantes en 2007
2. Crear un dataframe con las siguientes columnas: País, Continente, Año 2002, Población 2002, Año 2007, Población 2007
3. Listar todos los continentes por número de habitantes en 2007
4. Listar todos los países en orden de crecimiento en el intervalo de 2002 a 2007

In [197]:
import pandas as pd 
import numpy as np

df = pd.read_csv("data/Poblacion_Paises.txt", encoding = "utf-8") 
df.head(10)

Unnamed: 0,País,Continente,Año,Población
1,Afghanistan,Asia,2002,25268405
2,Afghanistan,Asia,2007,31889923
3,Albania,Europe,2002,3508512
4,Albania,Europe,2007,3600523
5,Algeria,Africa,2002,31287142
6,Algeria,Africa,2007,33333216
7,Angola,Africa,2002,10866106
8,Angola,Africa,2007,12420476
9,Argentina,Americas,2002,38331121
10,Argentina,Americas,2007,40301927


1) Listar todos los países de mayor a menor por número de habitantes en 2007

In [151]:
df[df['Año']==2002].sort_values(by=['Población'])

Unnamed: 0,País,Continente,Año,Población
217,Sao Tome and Principe,Africa,2002,170372
115,Iceland,Europe,2002,288030
71,Djibouti,Africa,2002,447416
81,Equatorial Guinea,Africa,2002,495627
53,Comoros,Africa,2002,614382
...,...,...,...,...
29,Brazil,Americas,2002,179914212
119,Indonesia,Asia,2002,211060000
269,United States,Americas,2002,287675526
117,India,Asia,2002,1034172547


2) Crear un dataframe con las siguientes columnas: País, Continente, Año 2002, Población 2002, Año 2007, Población 2007

In [125]:
df_2002 = df[df['Año']==2002]
df_2007 = df[df['Año']==2007]
df_ext = pd.concat([df_2002.reset_index(drop=True), df_2007.reset_index(drop=True)], axis=1, ignore_index=True)
df_ext.drop(columns=[4,5], inplace=True)
df_ext.columns = ['País','Continente','Año 2002','Población 2002','Año 2007','Población 2007']
df_ext

Unnamed: 0,País,Continente,Año 2002,Población 2002,Año 2007,Población 2007
0,Afghanistan,Asia,2002,25268405,2007,31889923
1,Albania,Europe,2002,3508512,2007,3600523
2,Algeria,Africa,2002,31287142,2007,33333216
3,Angola,Africa,2002,10866106,2007,12420476
4,Argentina,Americas,2002,38331121,2007,40301927
...,...,...,...,...,...,...
137,Vietnam,Asia,2002,80908147,2007,85262356
138,West Bank and Gaza,Asia,2002,3389578,2007,4018332
139,"Yemen, Rep.",Asia,2002,18701257,2007,22211743
140,Zambia,Africa,2002,10595811,2007,11746035


3) Listar todos los continentes por número de habitantes en 2007

In [132]:
result = df[df['Año']==2002].groupby('Continente').sum().drop(columns=['Año'])
result

Unnamed: 0_level_0,Población
Continente,Unnamed: 1_level_1
Africa,833723916
Americas,849772762
Asia,3601802203
Europe,578223869
Oceania,23454829


4) Listar todos los países en orden de crecimiento en el intervalo de 2002 a 2007

In [146]:
df_ext['Crecimiento'] = df_ext['Población 2007']-df_ext['Población 2002']
df_ext.sort_values(by=['Crecimiento'], ascending=False)

Unnamed: 0,País,Continente,Año 2002,Población 2002,Año 2007,Población 2007,Crecimiento
58,India,Asia,2002,1034172547,2007,1110396331,76223784
24,China,Asia,2002,1280400000,2007,1318683096,38283096
97,Pakistan,Asia,2002,153403524,2007,169270617,15867093
94,Nigeria,Africa,2002,119901274,2007,135031164,15129890
8,Bangladesh,Asia,2002,135656790,2007,150448339,14791549
...,...,...,...,...,...,...,...
102,Poland,Europe,2002,38625976,2007,38518241,-107735
56,Hungary,Europe,2002,10083313,2007,9956108,-127205
106,Romania,Europe,2002,22404337,2007,22276056,-128281
15,Bulgaria,Europe,2002,7661799,2007,7322858,-338941


## Estadística descriptiva

<table border="1">
<colgroup>
<col width="20%">
<col width="80%">
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Function</th>
<th class="head">Description</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">count</span></code></td>
<td>Number of non-NA observations</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">sum</span></code></td>
<td>Sum of values</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">mean</span></code></td>
<td>Mean of values</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">mad</span></code></td>
<td>Mean absolute deviation</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">median</span></code></td>
<td>Arithmetic median of values</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">min</span></code></td>
<td>Minimum</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">max</span></code></td>
<td>Maximum</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">mode</span></code></td>
<td>Mode</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">abs</span></code></td>
<td>Absolute Value</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">prod</span></code></td>
<td>Product of values</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">std</span></code></td>
<td>Bessel-corrected sample standard deviation</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">var</span></code></td>
<td>Unbiased variance</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">sem</span></code></td>
<td>Standard error of the mean</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">skew</span></code></td>
<td>Sample skewness (3rd moment)</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">kurt</span></code></td>
<td>Sample kurtosis (4th moment)</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">quantile</span></code></td>
<td>Sample quantile (value at %)</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">cumsum</span></code></td>
<td>Cumulative sum</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">cumprod</span></code></td>
<td>Cumulative product</td>
</tr>
<tr class="row-even"><td><code class="docutils literal notranslate"><span class="pre">cummax</span></code></td>
<td>Cumulative maximum</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal notranslate"><span class="pre">cummin</span></code></td>
<td>Cumulative minimum</td>
</tr>
</tbody>
</table>

## Datos categóricos

Los **datos categóricos** son un tipo de datos de Pandas que corresponden a variables categóricas en las estadísticas. Una variable categórica posee un número limitado, y generalmente fijo, de valores posibles (categorías; niveles en R). Género, clase social, tipo de sangre, país... son ejemplos de variables categóricas. A diferencia de las **variables categóricas** estadísticas, los datos categóricos pueden tener un orden (por ejemplo, "totalmente de acuerdo" frente a "de acuerdo" o "primera observación" frente a "segunda observación"), pero las operaciones numéricas (sumas, divisiones...) no son posibles. Todos los valores de datos categóricos están en categorías o <code>np.nan</code>. El orden se define por el orden de las categorías, no por el orden léxico de los valores. Internamente, la estructura de datos consta de una matriz de categorías y una matriz de códigos enteros que apuntan al valor real en la matriz de categorías. El tipo de datos categórico es útil en los siguientes casos: Una variable de cadena que consta de solo unos pocos valores diferentes. La conversión de dicha variable de cadena en una variable categórica ahorrará algo de memoria. El orden léxico de una variable no es el mismo que el orden lógico ("uno", "dos", "tres"). Al convertir a una categoría y especificar un orden en las categorías, la ordenación y min/max utilizarán el orden lógico en lugar del orden léxico.

In [167]:
df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
df["B"] = df["A"].astype('category')
df["B"] = df["B"].cat.set_categories(["a", "b", "c"], ordered=True)
df
print(df["B"].cat.categories)
print(df["B"].cat.ordered)
print(df)

Index(['a', 'b', 'c'], dtype='object')
True
   A  B
0  a  a
1  b  b
2  c  c
3  a  a
