<img src="logo-spegc.svg" width=30%>

# Pandas

Según la Wikipedia, el nombre **Pandas** deriva del término "panel data", un término econométrico para conjuntos de datos estructurados multidimensionales. Pandas cuenta con tres estructuras principales de datos:

- Series
- Dataframes
- Paneles

Para conjuntos de datos unidimensionales, bidimensionales y tridimensionales respectivamente.

<table>
<tbody><tr>
<th style="text-align:center;">Estructura de datos</th>
<th style="text-align:center;">Dimensiones</th>
<th style="text-align:center;">Descripción</th>
</tr>
<tr>
<td style="text-align:center;">Series</td>
<td style="text-align:center;">1</td>
<td style="text-align:center;">Array homogéneo unidimensional de tamaño inalterable</td>
</tr> 
<tr>
<td style="text-align:center;">Data Frames</td>
<td style="text-align:center;">2</td>
<td style="text-align:center;">Estructura tabular mutable y heterogénea</td>
</tr>
<tr>
<td style="text-align:center;">Panel</td>
<td style="text-align:center;">3</td>
<td style="text-align:center;">Estructura tridimensional mutable y heterogénea</td>
</tr>
</tbody></table>

### Mutabilidad

Todas las estructuras de datos de Pandas son de valor mutable (se pueden cambiar) y, excepto las series, todas son de tamaño mutable. La serie es de tamaño inmutable.

El **DataFrame** es ampliamente utilizado y una de las estructuras de datos más importantes. El **panel** se usa mucho menos.

Pandas puede leer datos de múltipes medios, como archivos CSV o bases de datos SQL, por ejemplo.

## DataFrames

El **dataframe** es una estructura de datos bidimensional compuesta por columnas y registros. Cada registro es un fila del dataframe y normalmente corresponde con cada muestra que tengamos de un conjunto de datos. A su vez, cada muestra está compuesta por diferentes propiedades o campos, que corresponden a las diferentes columnas del dataframe.

Además de los datos, también es posible especificar el índice y los nombres de las columnas en el DataFrame. El índice referencia a las filas, mientras que los nombres de columnas indican la columna del dataframe a la que nos referimos.

<img src="images/dataframe.png">


## Cargando datos con Pandas

Cuando se usa Pandas para el análisis de datos, estos generalmente se leerán de tres maneras diferentes:

- Convirtiendo una lista de Python, diccionario o matriz Numpy en un frame de datos de Pandas.

- Abriendo un archivo local, generalmente un archivo CSV, un fichero Excel, etc.

- Abriendo un archivo o base de datos remota como CSV o JSON de un sitio web a través de una URL o leyendo tablas de bases de datos SQL.

## Creación del dataframe
### A partir de listas

In [105]:
import pandas as pd

data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [101]:
import pandas as pd

data = [['Ana',9, 5],['Laura', 7, 8],['Pedro', 5, 6]]
df = pd.DataFrame(data,columns=['Nombre','nota 1', 'nota 2'], dtype=float)
print(df)

  Nombre  nota 1  nota 2
0    Ana     9.0     5.0
1  Laura     7.0     8.0
2  Pedro     5.0     6.0


### A partir de diccionarios

In [108]:
import pandas as pd

data = {'Nombre':['Pedro', 'Juan', 'Leticia', 'Ana'],'edad':[28, 22, 21, 19]}
df = pd.DataFrame(data)
print(df)

    Nombre  edad
0    Pedro    28
1     Juan    22
2  Leticia    21
3      Ana    19


In [1]:
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['id1','id2','id3','id4'])
print(df)

      Name  Age
id1    Tom   28
id2   Jack   34
id3  Steve   29
id4  Ricky   42


### A partir de Excel

In [28]:
import pandas as pd
import numpy as np

df = pd.read_excel('notas.xlsx', sheet_name="Hoja1")

print("Column headings:")
print(df.columns)

Column headings:
Index(['Alumno', 'nota 1', 'nota 2'], dtype='object')


In [29]:
print(df['Alumno'])

0    Montesdeoca, Ana
1         Pérez, Juan
2       Suárez, Pedro
3     Trujillo, Laura
4        Zamora, Luis
Name: Alumno, dtype: object


In [30]:
for i in df.index:
    print(df['nota 1'][i])

6
8
3
9
5


In [31]:
import pandas as pd
 
df = pd.read_excel('notas.xlsx', sheetname='Hoja1')
 
alumno = df['Alumno']
nota1 = df['nota 1']
nota2 = df['nota 2']

print(alumno)

0    Montesdeoca, Ana
1         Pérez, Juan
2       Suárez, Pedro
3     Trujillo, Laura
4        Zamora, Luis
Name: Alumno, dtype: object


In [32]:
media = (nota1+nota2)/2
print(media)

0    6.5
1    6.5
2    3.5
3    9.5
4    5.5
dtype: float64


### Información sobre el dataframe

In [35]:
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))

print(df)
print("-----------")
print(df.index)
print("-----------")

# Use the `shape` property
print(df.shape)

# Or use the `len()` function with the `index` property
print(len(df.index))

   0  1  2
0  1  2  3
1  4  5  6
-----------
RangeIndex(start=0, stop=2, step=1)
-----------
(2, 3)
2


También se puede usar <code>df[0].count()</code> para conocer la altura del dataframe, pero esto excluirá los valores tipo <code>NA</code> (si los hay). Es por eso que llamar a <code>.count()</code> no siempre es la mejor opción.

In [38]:
list(df.columns.values)

[0, 1, 2]

### Series

In [115]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


## Operaciones básicas

### Selección de columnas

In [2]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df['one'])

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64


### Selección de celdas

Se puede acceder a los valores de un dataframe referenciándolos por su etiqueta o por su posición en el índice o columna.

In [42]:
import pandas as pd

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]})
print(df)
print("----------------")
print(df['A'])
print("----------------")
# Using `iloc[]`
print(df.iloc[0][0])
print("----------------")
# Using `loc[]`
print(df.loc[0]['A'])
print("----------------")
# Using `at[]`
print(df.at[0,'A'])
print("----------------")
# Using `iat[]`
print(df.iat[0,0])

   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12
----------------
0    1
1    2
2    3
3    4
Name: A, dtype: int64
----------------
1
----------------
1
----------------
1
----------------
1


#### .loc[ ]

Funciona con las etiquetas del índice. Esto significa que si se proporciona <code>.loc['Juan']</code>, buscará los valores del dataframe que tengan un índice etiquetado como "Juan". Adviértase que se si se busca <code>loc[2]</code> buscará una entrada cuya etiqueta sea "2". Este "2" no corresponde a la tercera entrada (recuérdese que se comienza en el 0), sino a la etiqueta "2" que puede estar, por ejemplo, en la decimoquinta fila.

In [63]:
import pandas as pd

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]}, index=['a','b','b','d'])
print(df)
print(df.loc['b'])

print("-----------------")

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]}, index=[3,7,5,4])
print(df)
print(df.loc[7])

   A  B   C
a  1  5   9
b  2  6  10
b  3  7  11
d  4  8  12
   A  B   C
b  2  6  10
b  3  7  11
-----------------
   A  B   C
3  1  5   9
7  2  6  10
5  3  7  11
4  4  8  12
A     2
B     6
C    10
Name: 7, dtype: int64


#### .iloc[ ]

Trabaja con las posiciones del índice. Esto significa que si se escribe <code>iloc[2]</code>, se buscará los valores del dataframe que estén en la posición tercera del índice.

In [64]:
import pandas as pd

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]}, index=[3,2,2,8])
print(df)
print(df.iloc[2])

   A  B   C
3  1  5   9
2  2  6  10
2  3  7  11
8  4  8  12
A     3
B     7
C    11
Name: 2, dtype: int64


#### .ix[ ]

Es un caso más complejo: cuando el índice está basado en números enteros, pasa una etiqueta a <code>.ix[]</code>. Por tanto, <code>ix[2]</code> significa que está buscando en su dataframe valores que tengan un índice etiquetado como 2. ¡Esto es como .loc []! Sin embargo, si su índice no se basa en enteros, ix funcionará con posiciones, al igual que <code>.iloc[]</code>.

## Índices

Cuando crea un dataframe es posible definir la entrada del argumento <code>index</code> para asegurarse de que tiene el índice que se desea. Cuando no se especifica esto, el dataframe tendrá, de manera predeterminada, un índice numérico que comienza con 0 y continúa hasta la última fila del dataframe.

Sin embargo, incluso cuando el índice se especifica automáticamente, aún es posible reutilizar una de sus columnas y convertirla en el índice. Puede hacerse fácilmente llamando a <code>set_index()</code> en el dataframe.

In [51]:
import pandas as pd

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8],'C':[9,10,11,12]}, index=['a','b','c','d'])
df.set_index('C', inplace=True, drop=False)
print(df)
print(df.index)

    A  B   C
C           
9   1  5   9
10  2  6  10
11  3  7  11
12  4  8  12
Int64Index([9, 10, 11, 12], dtype='int64', name='C')


### Adición de columnas

In [134]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

# Adding a new column to an existing DataFrame object with column label by passing new series

print("Adding a new column by passing as Series:")
df['three']=pd.Series([10,20,30],index=['a','b','d'])
print(df)

print("Adding a new column using the existing columns in DataFrame:")
df['four']=df['one']+df['three']

print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
Adding a new column by passing as Series:
   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3    NaN
d  NaN    4   30.0
Adding a new column using the existing columns in DataFrame:
   one  two  three  four
a  1.0    1   10.0  11.0
b  2.0    2   20.0  22.0
c  3.0    3    NaN   NaN
d  NaN    4   30.0   NaN


### Eliminación de columnas

In [130]:
# Using the previous DataFrame, we will delete a column
# using del function
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
print ("Our dataframe is:")
print(df)

# using del function
print ("Deleting the first column using DEL function:")
del df['one']
print(df)

# using pop function
print ("Deleting another column using POP function:")
df.pop('two')
print(df)

Our dataframe is:
   one  three  two
a  1.0   10.0    1
b  2.0   20.0    2
c  3.0   30.0    3
d  NaN    NaN    4
Deleting the first column using DEL function:
   three  two
a   10.0    1
b   20.0    2
c   30.0    3
d    NaN    4
Deleting another column using POP function:
   three
a   10.0
b   20.0
c   30.0
d    NaN


### Selección por etiquetas

In [139]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)
print("-------------")
print(df.loc['b'])

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
-------------
one    2.0
two    2.0
Name: b, dtype: float64


### Selección por localización entera

In [142]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df.iloc[2])
print(df.iloc[2:4])  # Slicing

one    3.0
two    3.0
Name: c, dtype: float64
   one  two
c  3.0    3
d  NaN    4


### Adición de filas en dataframes

In [3]:
import pandas as pd

df1 = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

print(df1)
print("----------------")

df1 = df1.append(df2)
print(df1)

   a  b
0  1  2
1  3  4
----------------
   a  b
0  1  2
1  3  4
0  5  6
1  7  8


## Guardando datos de Pandas en Excel

In [95]:
import pandas as pd
from pandas import ExcelWriter
from pandas import ExcelFile
import numpy as np
 
df = pd.DataFrame({'a':[1,3,5,7,4,5,6,4,7,8,9],
                   'b':[3,5,6,2,4,6,7,8,7,8,9]})
 
writer = ExcelWriter('notas2.xlsx')
df.to_excel(writer,'Hoja1',index=False)
writer.save()

In [97]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['A', 'B', 'C'])

# Use '.index'
df['D'] = df.index

# Print 'df'
print(df)

   A  B  C  D
0  1  2  3  0
1  4  5  6  1
2  7  8  9  2


## Imputación de datos

En muchas ocasiones es posible que nuestros datos no estén totalmente completos. Es posible que falte algún campo de uno o varios registros. ¿Qué hacer cuando eso ocurre? Hay varias formas de proceder. La más sencilla es simplemente quitar las filas no completas. Algo más sofisticado sería completar el valor faltante, pero ¿con qué valor exactamente? Una solución muy usada es con el valor de la media de esa misma columna.

Trabajeremos con el dataset **Pima Indians Diabetes Database**. Este conjunto de datos es originalmente del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. El objetivo del conjunto de datos es predecir de forma diagnóstica si un paciente tiene diabetes o no, basándose en ciertas mediciones de diagnóstico incluidas en el conjunto de datos. Se colocaron varias restricciones en la selección de estas instancias de una base de datos más grande. En particular, todos los pacientes aquí son mujeres de al menos 21 años de herencia indígena Pima. Este dataset está formado por varias variables predictoras médicas y una variable objetivo. Las variables predictoras incluyen el número de embarazos que ha tenido la paciente, su IMC, nivel de insulina, edad, etc. Se sabe que este conjunto de datos tiene valores faltantes.

Es un problema de clasificación binaria (2 clases). El número de observaciones para cada clase no está equilibrado. Hay 768 observaciones con 8 variables de entrada y 1 variable de salida. Los nombres de las variables son los siguientes:
0. Número de veces embarazada.
1. Concentración de glucosa en plasma a las 2 horas en una prueba oral de tolerancia a la glucosa.
2. Presión arterial diastólica (mm Hg).
3. Grosor del pliegue de tríceps (mm).
4. Insulina sérica de 2 horas (mu U / ml).
5. Índice de masa corporal (peso en kg / (altura en m) ^ 2).
6. Función de pedigrí de la diabetes.
7. Edad (años).
8. Variable de clase (0 o 1).

In [12]:
from pandas import read_csv
dataset = read_csv('/Users/Cayetano/Propio/Docencia/cayetanoguerra.github.io/spegc/PythonNumpy/data/pima-indians-diabetes.data.csv', header=None)
print(dataset.describe())

print(dataset.head(15))

                0           1           2           3           4           5  \
count  768.000000  768.000000  768.000000  768.000000  768.000000  768.000000   
mean     3.845052  120.894531   69.105469   20.536458   79.799479   31.992578   
std      3.369578   31.972618   19.355807   15.952218  115.244002    7.884160   
min      0.000000    0.000000    0.000000    0.000000    0.000000    0.000000   
25%      1.000000   99.000000   62.000000    0.000000    0.000000   27.300000   
50%      3.000000  117.000000   72.000000   23.000000   30.500000   32.000000   
75%      6.000000  140.250000   80.000000   32.000000  127.250000   36.600000   
max     17.000000  199.000000  122.000000   99.000000  846.000000   67.100000   

                6           7           8  
count  768.000000  768.000000  768.000000  
mean     0.471876   33.240885    0.348958  
std      0.331329   11.760232    0.476951  
min      0.078000   21.000000    0.000000  
25%      0.243750   24.000000    0.000000  
50%   

In [17]:
import pandas as pd

df = pd.DataFrame(dataset)

df.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [69]:
import numpy as np
df[1].replace(0, np.nan, inplace=True)
df[2].replace(0, np.nan, inplace=True)
df[3].replace(0, np.nan, inplace=True)
df[4].replace(0, np.nan, inplace=True)
df[5].replace(0, np.nan, inplace=True)
df[6].replace(0, np.nan, inplace=True)

df

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,6,148.0,72.0,35.0,,33.6,0.627,50,1
1,1,85.0,66.0,29.0,,26.6,0.351,31,0
2,8,183.0,64.0,,,23.3,0.672,32,1
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1
5,5,116.0,74.0,,,25.6,0.201,30,0
6,3,78.0,50.0,32.0,88.0,31.0,0.248,26,1
7,10,115.0,,,,35.3,0.134,29,0
8,2,197.0,70.0,45.0,543.0,30.5,0.158,53,1
9,8,125.0,96.0,,,,0.232,54,1


In [61]:
df.iloc[:,2:8].replace(0, np.nan)

Unnamed: 0,2,3,4,5,6,7
0,72.0,35.0,,33.6,0.627,50
1,66.0,29.0,,26.6,0.351,31
2,64.0,,,23.3,0.672,32
3,66.0,23.0,94.0,28.1,0.167,21
4,40.0,35.0,168.0,43.1,2.288,33
5,74.0,,,25.6,0.201,30
6,50.0,32.0,88.0,31.0,0.248,26
7,,,,35.3,0.134,29
8,70.0,45.0,543.0,30.5,0.158,53
9,96.0,,,,0.232,54


### Manejo de datos no disponibles

In [84]:
import pandas as pd

df = pd.DataFrame(data=np.array([[20, 4, 3], [np.NaN, 5, 6], [27, 8, 9], [27, 7, 9], [20, 5, 7]]), columns=['A', 'B', 'C'])

print(df)

print(df.interpolate())

print(df.dropna())

print(df.mean(skipna=True))  # skipna=True -> default

      A    B    C
0  20.0  4.0  3.0
1   NaN  5.0  6.0
2  27.0  8.0  9.0
3  27.0  7.0  9.0
4  20.0  5.0  7.0
      A    B    C
0  20.0  4.0  3.0
1  23.5  5.0  6.0
2  27.0  8.0  9.0
3  27.0  7.0  9.0
4  20.0  5.0  7.0
      A    B    C
0  20.0  4.0  3.0
2  27.0  8.0  9.0
3  27.0  7.0  9.0
4  20.0  5.0  7.0
A    23.5
B     5.8
C     6.8
dtype: float64


In [81]:
df.mean()

A    23.75
B     5.80
C     6.80
dtype: float64

## Agrupamientos

In [152]:
data = {
    'País':["España", "Reino Unido", "España", "Reino Unido", "Francia"],
    'Horas': [4,3,6,5,7]
}

df = pd.DataFrame(data)

print(df)
print("--------------")
print(df.groupby('País').mean())

          País  Horas
0       España      4
1  Reino Unido      3
2       España      6
3  Reino Unido      5
4      Francia      7
--------------
             Horas
País              
España           5
Francia          7
Reino Unido      4


## Otras cosas

In [31]:
# A structured array
import numpy as np
#my_array = np.ones(3, dtype=([('foo', int), ('bar', float)]))
my_array = np.ones(3, dtype=([('foo',float),('faa',float)]))
print(my_array)
#print(my_array['foo'])


[(1., 1.) (1., 1.) (1., 1.)]


In [10]:
print(my_array[1])

(1, 1.)


In [130]:
# import the pandas library
import pandas as pd

ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
   'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
   'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
   'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
   'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)

grouped = df.groupby('Year')

for name,group in grouped:
   print(name)
   print(group)

2014
     Team  Rank  Year  Points
0  Riders     1  2014     876
2  Devils     2  2014     863
4   Kings     3  2014     741
9  Royals     4  2014     701
2015
      Team  Rank  Year  Points
1   Riders     2  2015     789
3   Devils     3  2015     673
5    kings     4  2015     812
10  Royals     1  2015     804
2016
     Team  Rank  Year  Points
6   Kings     1  2016     756
8  Riders     2  2016     694
2017
      Team  Rank  Year  Points
7    Kings     1  2017     788
11  Riders     2  2017     690


In [132]:
# import the pandas library
import pandas as pd
import numpy as np

ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
   'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
   'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
   'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
   'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)

grouped = df.groupby('Year')
print(grouped.agg(np.mean))

      Rank  Points
Year              
2014   2.5  795.25
2015   2.5  769.50
2016   1.5  725.00
2017   1.5  739.00
