This notebook, by felipe.alonso@urjc.es and jorge.calero@urjc.es

This notebook is an introduction to descriptive statistics using pandas. The first step when working with data is to perform an exploratory analysis to get some intuitions about how data is distributed. 


## 1. Load libraries

In [1]:
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd

## 2. Pandas

the pandas library includes two types of data structures:

- [**Series**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) which are ene-dimensional ndarray with axis labels (including time series)
- [**DataFrames**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame): Two-dimensional size-mutable, potentially heterogeneous tabular data structure with labeled axes (rows and columns). Arithmetic operations align on both row and column labels. Can be thought of as a dict-like container for Series objects. The primary pandas data structure.

Let's see some examples.

### 2.1 Series

In [3]:
s = pd.Series([1,2,3,"catorce"])
print(s)

0          1
1          2
2          3
3    catorce
dtype: object


In [13]:
# s.index
# s[3]
# s[0:3]
# s.values
# s.values * 2

array([3, 6, 9, 'catorcecatorcecatorce'], dtype=object)

Indexes can be easily changed

In [11]:
s = pd.Series(data =[1,2,3,"catorce"], index = ['hola','que','tal','estas'])
print(s)

hola           1
que            2
tal            3
estas    catorce
dtype: object


In [14]:
# s['hola']
# s[0]
# s[0:3]

# Diccionarios en Python

Sin embargo, lo interesante de la libería pandas no es tanto las Series como los DataFrame. Estos son estructuras de datos multidimensionales. Es decir, son tablas de datos con columnas y filas.

La primera opción es meter los datos a mano. Para ello, recurrimos a los diccionarios

El primer caso, tenemos un diccionario muy básico, que vuelve a tener una sola línea. La idea es asignarle un índice (elemento a la izquierda de los :) a cada elemento del diccionario (elemento de la derecha de los :)

In [10]:
dict = {0: 1, 1: 2, 2: 3, 3: "catorce"}

In [11]:
print(dict)

{0: 1, 1: 2, 2: 3, 3: 'catorce'}


Para llamar al número 1, tendremos que llamarlo por su índice

In [12]:
dict[0]

1

Podemos escribir un diccionario más elaborado, ahora con varias columnas

In [13]:
dict = {"Nombre": ["Roger", "Brian", "John"],
       "Apellido": ["Taylor", "May", "Deacon"],
       "Nacimiento": [1949, 1947, 1951]}

In [14]:
print(dict)

{'Nombre': ['Roger', 'Brian', 'John'], 'Apellido': ['Taylor', 'May', 'Deacon'], 'Nacimiento': [1949, 1947, 1951]}


En este caso, al hacer una llamada a uno de los indices("Nombre" por ejemplo), no nos devuelve un número, sino una lista

In [15]:
dict["Nombre"]

['Roger', 'Brian', 'John']

In [16]:
dict[0]

KeyError: 0

Ahora, escribiendo dict['indicequequeramos'] estamos llamando a la lista que tiene ese índice. Por tanto, podemos redefinir que a que llama cada índice, modificandolo como queramos. Por ejemplo, ahora he añadido un elemento nuevo en cada lista:

In [17]:
dict["Nombre"]=["Freddie" ,"Roger", "Brian", "John"]
dict["Apellido"] = ["Mercury","Taylor", "May", "Deacon"]
dict["Nacimiento"]= [1946,1949, 1947, 1951]
print(dict)

{'Nombre': ['Freddie', 'Roger', 'Brian', 'John'], 'Apellido': ['Mercury', 'Taylor', 'May', 'Deacon'], 'Nacimiento': [1946, 1949, 1947, 1951]}


In [18]:
nombres = dict['Nombre']
print(nombres)

['Freddie', 'Roger', 'Brian', 'John']


# DataFrames

Ahora vamos a crear un DataFrame, que vamos a llamar Queen, utilizando de datos este diccionario

In [19]:
Queen = pd.DataFrame(data = dict)

Poniendo el nombre, nos muestra por pantalla el DataFrame (de una forma bastante más visual que el diccionario)

In [20]:
Queen

Unnamed: 0,Nombre,Apellido,Nacimiento
0,Freddie,Mercury,1946
1,Roger,Taylor,1949
2,Brian,May,1947
3,John,Deacon,1951


# Manejando índices en DataFrames

Como se puede ver, ha creado una tabla donde las columnas tienen el nombre de los índices del diccionario, y las filas, que van a jugar el papel de índice en el DataFrame, los ha creado automáticamente, ya que no los hemos especificado.

Con el comando "nombre_DataFrame".index, podemos definir los índices que nosotros queramos

In [21]:
Queen.index = ['voz','bateria','guitarra']

ValueError: Length mismatch: Expected axis has 4 elements, new values have 3 elements

Eso sí, los índices tienen que coincidir con las dimensiones de la tabla.

In [22]:
Queen.index = ['voz','bateria','guitarra','bajo']

In [23]:
Queen

Unnamed: 0,Nombre,Apellido,Nacimiento
voz,Freddie,Mercury,1946
bateria,Roger,Taylor,1949
guitarra,Brian,May,1947
bajo,John,Deacon,1951


Otra opción es definirlos de base:

In [37]:
Queen = pd.DataFrame(data = dict, index = ['voz','bateria','guitarra','bajo'])

In [38]:
Queen

Unnamed: 0,Nombre,Apellido,Nacimiento
voz,Freddie,Mercury,1946
bateria,Roger,Taylor,1949
guitarra,Brian,May,1947
bajo,John,Deacon,1951


Podemos borrar los índices que hayamos puesto (de cualquiera de las formas vistas), utilizando el comando NombreDataFrame..reset_index().

Esto lo que hará será volver a los índices numéricos (empezando por el 0, como siempre en Python), y creándonos una nueva columna llamada "index" con los índices que teníamos antes

In [39]:
Queen.reset_index()

Unnamed: 0,index,Nombre,Apellido,Nacimiento
0,voz,Freddie,Mercury,1946
1,bateria,Roger,Taylor,1949
2,guitarra,Brian,May,1947
3,bajo,John,Deacon,1951


Si no queremos que se nos cree esta columna index, debemos escribir .reset_index(drop =True)

In [40]:
Queen.reset_index(drop = True)

Unnamed: 0,Nombre,Apellido,Nacimiento
0,Freddie,Mercury,1946
1,Roger,Taylor,1949
2,Brian,May,1947
3,John,Deacon,1951


In [41]:
Queen

Unnamed: 0,Nombre,Apellido,Nacimiento
voz,Freddie,Mercury,1946
bateria,Roger,Taylor,1949
guitarra,Brian,May,1947
bajo,John,Deacon,1951


Los siguientes comandos nos muestran la información más básica de la tabla:
    
Queen.index ==> Una lista con los nombres de los indices

Queen.columns  ==> Una lista con los nombres de las columnas 

Queen.shape ==> Las dimensiones de la tabla

In [42]:
print(Queen.index)
print(Queen.columns)
print(Queen.shape)

Index(['voz', 'bateria', 'guitarra', 'bajo'], dtype='object')
Index(['Nombre', 'Apellido', 'Nacimiento'], dtype='object')
(4, 3)


In [None]:
Queen

Si queremos convertir una columna en los índices, con el comando .set_index(NombreColumna, inplace = True)

In [43]:
Queen.set_index('Nombre',inplace = True)


In [44]:
Queen

Unnamed: 0_level_0,Apellido,Nacimiento
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Freddie,Mercury,1946
Roger,Taylor,1949
Brian,May,1947
John,Deacon,1951


Si preguntamos cual es el índice, ejecutamos DataFrame.index

In [45]:
Queen.index

Index(['Freddie', 'Roger', 'Brian', 'John'], dtype='object', name='Nombre')

Para quitarnos de en medio que el índice tenga un nombre propio, utilizamos el comando DataFrame.index.name = None

In [46]:
Queen.index.name = None

In [47]:
Queen

Unnamed: 0,Apellido,Nacimiento
Freddie,Mercury,1946
Roger,Taylor,1949
Brian,May,1947
John,Deacon,1951


In [48]:
Queen["Nombre"] = ['Freddie', 'Roger', 'Brian', 'John']
#Queen["Instrumento"] = ['voz','bateria','guitarra','bajo']
Queen.reset_index(drop = True)

Unnamed: 0,Apellido,Nacimiento,Nombre
0,Mercury,1946,Freddie
1,Taylor,1949,Roger
2,May,1947,Brian
3,Deacon,1951,John


In [49]:
Queen.index = ['voz','bateria','guitarra','bajo']

In [50]:
Queen

Unnamed: 0,Apellido,Nacimiento,Nombre
voz,Mercury,1946,Freddie
bateria,Taylor,1949,Roger
guitarra,May,1947,Brian
bajo,Deacon,1951,John


Para dejar el mismo orden en las columnas, escribimos:

In [51]:
Queen = Queen[['Nombre','Apellido','Nacimiento']]

In [52]:
Queen

Unnamed: 0,Nombre,Apellido,Nacimiento
voz,Freddie,Mercury,1946
bateria,Roger,Taylor,1949
guitarra,Brian,May,1947
bajo,John,Deacon,1951


# Tratando datos de DataFrame

Para pedir una columna, escribimos el nombre del DataFrame y entre corchetes el nombre de la columna:

In [53]:
Queen["Nombre"]

voz         Freddie
bateria       Roger
guitarra      Brian
bajo           John
Name: Nombre, dtype: object

Podemos pedir que nos muestre varias columnas, para ello, escribimos NombreDataFrame[ [Columna1, Columna2, ...] ]

In [54]:
Queen[['Nombre','Apellido']]

Unnamed: 0,Nombre,Apellido
voz,Freddie,Mercury
bateria,Roger,Taylor
guitarra,Brian,May
bajo,John,Deacon


Si ahora quedemos pedir que nos muestre filas, no podemos llamar Queen['voz'], porque no nos dará error (buscará una columna con ese nombre y no la va a encontrar...)

Para ello, tenemos que usar el comando .loc

In [55]:
Queen.loc['voz']

Nombre        Freddie
Apellido      Mercury
Nacimiento       1946
Name: voz, dtype: object

Igual que en el caso de las columnas, podemos seleccionar varios índices a la vez.

In [56]:
Queen.loc[['voz','bateria']]

Unnamed: 0,Nombre,Apellido,Nacimiento
voz,Freddie,Mercury,1946
bateria,Roger,Taylor,1949


Si tenemos unos índices que no sean números, pero queremos pedir por ejemplo, las n primeras filas, los DataFrame siempre guardan por si acaso un índice numérico. Para acceder a él, debemos usar el comando .iloc

In [57]:
Queen.iloc[0]

Nombre        Freddie
Apellido      Mercury
Nacimiento       1946
Name: voz, dtype: object

In [58]:
Queen.iloc[0:2]

Unnamed: 0,Nombre,Apellido,Nacimiento
voz,Freddie,Mercury,1946
bateria,Roger,Taylor,1949


Si lo que queremos ver es un dato, y no toda la fila, lo llamamos también con .loc o .iloc, indicando la coordenada de la fila y luego la de la columna (para .loc hay que indicar los nombres de indice y columna)

In [59]:
print(Queen.iloc[0,0])
print(Queen.loc['voz','Nombre'])


Freddie
Freddie


In [60]:
print(Queen.iloc[0][2])
print(Queen.loc['voz']['Nacimiento'])

1946
1946


Para reemplazar valores en la tabla, tenemos que utilizar el comando .replace del siguiente modo

In [61]:
Queen = Queen.replace({'Nombre':{"Freddie":"Freeeeddie"}})

In [62]:
Queen

Unnamed: 0,Nombre,Apellido,Nacimiento
voz,Freeeeddie,Mercury,1946
bateria,Roger,Taylor,1949
guitarra,Brian,May,1947
bajo,John,Deacon,1951


In [63]:
Queen = Queen.replace({'Nombre':{"Freeeeddie":"Freddie"}})

In [64]:
Queen

Unnamed: 0,Nombre,Apellido,Nacimiento
voz,Freddie,Mercury,1946
bateria,Roger,Taylor,1949
guitarra,Brian,May,1947
bajo,John,Deacon,1951


# Cargando archivos en Pandas

Sin duda alguna, la gran ventaja de Pandas es la posibilidad de cargar a Pyhton archivos en diversos formatos (.csv, .xlsx, incluso de urls). En funcion del archivo que se quiera abrir, hay varias funciones "read_"

In [65]:
df = pd.read_excel('Datos.xlsx')

Con la última línea, hemos creado un DataFrame llamado df. Para verlo, tenemos varias opciones: si escribimos el nombre, nos mostrará por pantalla el DataFrame entero. Como esto puede ser problemático si tenemos muchos datos, hay comandos como .head() o .tail que nos muestran una cantidad limitada:

df.head() nos mostrará por pantalla los 5 primeros elementos de la tabla.
Si queremos que nos muestre n, pediremos df.head(n)

In [66]:
df.head()

Unnamed: 0,Id,Sat_fat_dr,Sat_fat_ffq,Total_fat_dr,Total_fat_ffq,Alcoh_dr,Alcoh_ffq,Calor_dr,Calor_ffq
0,100396,33.2,21.2,81.15,53.8,8.26,1.68,1807,1242.2
1,100566,17.73,10.6,53.28,36.6,0.83,0.0,1418,907.0
2,107633,38.73,23.8,83.48,47.2,20.13,15.1,1889,786.0
3,107737,21.57,22.7,49.65,55.3,11.16,7.49,1426,1392.5
4,107744,21.35,30.4,55.18,71.0,7.18,12.84,1253,1259.8


In [67]:
df.head(3)

Unnamed: 0,Id,Sat_fat_dr,Sat_fat_ffq,Total_fat_dr,Total_fat_ffq,Alcoh_dr,Alcoh_ffq,Calor_dr,Calor_ffq
0,100396,33.2,21.2,81.15,53.8,8.26,1.68,1807,1242.2
1,100566,17.73,10.6,53.28,36.6,0.83,0.0,1418,907.0
2,107633,38.73,23.8,83.48,47.2,20.13,15.1,1889,786.0


El comando df.tail() es similar, pero mostrando los 5 últimos (o los n últimos si escribimos df.tail(n))

In [68]:
df.tail()

Unnamed: 0,Id,Sat_fat_dr,Sat_fat_ffq,Total_fat_dr,Total_fat_ffq,Alcoh_dr,Alcoh_ffq,Calor_dr,Calor_ffq
168,136378,36.19,18.1,95.43,47.1,4.6,7.25,1976,1204.3
169,136407,22.42,10.9,62.15,32.0,2.56,1.81,1731,981.6
170,136421,16.98,20.4,42.85,47.5,13.91,8.64,1033,1128.3
171,137461,23.98,18.5,67.43,45.9,5.39,7.19,1585,1247.5
172,184093,21.39,19.0,56.7,40.4,0.6,3.49,1320,994.0


Por último, escribiendo df.sample(n), nos devolverá una selección aleatoria de n filas.

In [69]:
df.sample(5)

Unnamed: 0,Id,Sat_fat_dr,Sat_fat_ffq,Total_fat_dr,Total_fat_ffq,Alcoh_dr,Alcoh_ffq,Calor_dr,Calor_ffq
67,129732,21.58,13.8,64.25,40.9,0.8,1.81,1491,1249.3
44,114053,14.38,5.6,41.09,14.8,5.2,4.55,923,463.2
23,111220,21.98,32.6,54.91,73.2,9.49,6.49,1362,1589.6
6,107825,23.17,17.8,68.29,49.1,22.66,25.06,1700,1189.9
99,133443,16.73,57.4,54.07,119.0,0.0,0.0,1555,2691.0


Si las columnas que aparecen no nos gustan (o directamente no aparecen), podemos incluirlas a mano a la hora de crearlas llamándolas names

In [70]:
columnas = ['Id','Grasas_sat_DR','Grasas_sat_FFQ',
            'Total_grasas_DR','Total_grasas_FFQ',
            'Alcohol_DR','Alcohol_FFQ',
            'Calorias_DR','Calorias_FFQ']
df = pd.read_excel('Datos.xlsx', names = columnas)

In [71]:
df.head()

Unnamed: 0,Id,Grasas_sat_DR,Grasas_sat_FFQ,Total_grasas_DR,Total_grasas_FFQ,Alcohol_DR,Alcohol_FFQ,Calorias_DR,Calorias_FFQ
0,100396,33.2,21.2,81.15,53.8,8.26,1.68,1807,1242.2
1,100566,17.73,10.6,53.28,36.6,0.83,0.0,1418,907.0
2,107633,38.73,23.8,83.48,47.2,20.13,15.1,1889,786.0
3,107737,21.57,22.7,49.65,55.3,11.16,7.49,1426,1392.5
4,107744,21.35,30.4,55.18,71.0,7.18,12.84,1253,1259.8


# Filtrando datos

Puede sernos de interés filtrar datos dentro de la propia tabla. Por ejemplo, nos puede interesar aquellas filas en las que las calorías por DR son 1107. Si llamamos a la columna en cuestión: df['Calorias'] y luego pedimos la igualdad lógica == 1107, lo que hará será devolvernos una lista donde aparecerá True o False dependiendo de si cada elemento de esa lista verifica nuestra condición

In [72]:
df['Calorias_DR'] == 1107

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
       ...  
143    False
144    False
145    False
146    False
147    False
148    False
149    False
150    False
151    False
152    False
153    False
154    False
155    False
156    False
157    False
158    False
159    False
160    False
161    False
162    False
163    False
164    False
165    False
166    False
167    False
168    False
169    False
170    False
171    False
172    False
Name: Calorias_DR, Length: 173, dtype: bool

Pero eso no nos interesa... Para que nos muestre por pantalla las filas donde se cumple la condición, tenemos que llamar a todo el Data Frame, y pedir dentro de el dicha condición:

In [73]:
df[ df['Calorias_DR'] == 1107]

Unnamed: 0,Id,Grasas_sat_DR,Grasas_sat_FFQ,Total_grasas_DR,Total_grasas_FFQ,Alcohol_DR,Alcohol_FFQ,Calorias_DR,Calorias_FFQ
93,132662,18.59,12.5,45.37,29.5,19.38,29.92,1107,811.1


# Encadenando varios comandos

Pandas nos permite ejecutar varios de los comandos que hemos visto. Por ejemplo, ¿Qué tendríamos que hacer siquisiéramos ver solamente las columnas de Alcohol que el alcohol DR sea mayor que 10?

Solución:

In [75]:
df[df['Alcohol_DR'] > 10][["Alcohol_DR","Alcohol_FFQ"]]

Unnamed: 0,Alcohol_DR,Alcohol_FFQ
2,20.13,15.1
3,11.16,7.49
6,22.66,25.06
12,15.12,11.14
18,37.9,35.34
20,20.69,18.22
27,37.28,45.08
28,21.78,33.49
29,15.41,12.91
32,29.81,64.75


Recordad que las condiciónes lógicas que se pueden pedir son: == (igual a), != (distinto de), <= >= (menor/mayor o igual que), <  >(menor/mayor que)

# Un poquito de Estadística ...

Además, Pandas tiene comandos para calcular algunos estadísticos de la tabla. Por ejemplo, el comando df.mean() calcula la media aritmética de cada columna

In [76]:
df.mean()

Id                  125997.260116
Grasas_sat_DR           24.931734
Grasas_sat_FFQ          21.915607
Total_grasas_DR         68.615376
Total_grasas_FFQ        56.076879
Alcohol_DR               8.962948
Alcohol_FFQ              8.951329
Calorias_DR           1619.872832
Calorias_FFQ          1371.730058
dtype: float64

Si nos interesa tan solo de una columna, también lo puede hacer 

In [77]:
print(df.Grasas_sat_DR.mean())
print(df['Grasas_sat_DR'].mean())

24.93173410404625
24.93173410404625


O de las columnas que nos interesen:

In [78]:
df[['Grasas_sat_DR','Grasas_sat_FFQ']].mean()

Grasas_sat_DR     24.931734
Grasas_sat_FFQ    21.915607
dtype: float64

También puede calcular la desviación típica y la mediana 

In [79]:
df.std()

Id                  11701.025452
Grasas_sat_DR           6.772596
Grasas_sat_FFQ          9.275395
Total_grasas_DR        16.290839
Total_grasas_FFQ       21.970692
Alcohol_DR              9.664045
Alcohol_FFQ            12.254817
Calorias_DR           323.411603
Calorias_FFQ          482.053536
dtype: float64

In [80]:
df.median()

Id                  132382.00
Grasas_sat_DR           24.16
Grasas_sat_FFQ          19.90
Total_grasas_DR         68.28
Total_grasas_FFQ        51.70
Alcohol_DR               5.84
Alcohol_FFQ              4.55
Calorias_DR           1606.00
Calorias_FFQ          1297.60
dtype: float64

Todo esto queda recogido con el comando df.describe()

In [81]:
df.describe()

Unnamed: 0,Id,Grasas_sat_DR,Grasas_sat_FFQ,Total_grasas_DR,Total_grasas_FFQ,Alcohol_DR,Alcohol_FFQ,Calorias_DR,Calorias_FFQ
count,173.0,173.0,173.0,173.0,173.0,173.0,173.0,173.0,173.0
mean,125997.260116,24.931734,21.915607,68.615376,56.076879,8.962948,8.951329,1619.872832,1371.730058
std,11701.025452,6.772596,9.275395,16.290839,21.970692,9.664045,12.254817,323.411603,482.053536
min,100396.0,11.82,5.6,35.9,14.8,0.0,0.0,910.0,463.2
25%,113882.0,20.2,15.6,56.16,40.8,1.76,0.76,1418.0,1035.5
50%,132382.0,24.16,19.9,68.28,51.7,5.84,4.55,1606.0,1297.6
75%,134611.0,28.26,25.8,77.98,68.0,12.97,11.86,1781.0,1589.6
max,184093.0,46.36,57.4,119.83,133.5,49.15,64.75,2518.0,3077.3


Pandas es una librería bastante conocida, y hay cantidad de información al respecto en Internet. Aquí os dejo 3 enlaces que llevan a un tutoríal donde explican un poco más de lo visto aquí, y un cartel resumido muy bueno:

https://data36.com/pandas-tutorial-1-basics-reading-data-files-dataframes-data-selection/

https://data36.com/pandas-tutorial-2-aggregation-and-grouping/

https://data36.com/pandas-tutorial-3-important-data-formatting-methods-merge-sort-reset_index-fillna/



https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf