# Pandas


## Introducción


pandas es una biblioteca para la manipulación y análisis de datos. Creado en 2008 en respuesta al creciente uso de Python en aplicaciones científicas tradicionalmente dominadas por **R**, MATLAB o SAS, y aprovechando la madurez y estabilidad de **NumPy** y **SciPy**. Su nombre deriva de ***Pan**el **Da**ta*, un término común en estadísticas y econometría para conjuntos de datos multidimensionales.

Permite:
- Fácil importación de CSV, JSON, Excel, SQL, etc.
- Operaciones de manipulación: selección, filtrado, agregación.
- Limpieza de datos (* limpieza de datos* o *depuración de datos*).
- *Reorganización de datos* o *Esmeramiento de datos*: transformación de datos entre formatos

estructuras pandas:
- Serie: 1D array
- DataFrame: 2D array
- Panel: matriz 3D


Documentación oficial: https://pandas.pydata.org/docs/


In [1]:
import pandas as pd

## Serie


El tipo **Series** es un array unidimensional que contiene una secuencia de valores y una secuencia de etiquetas asociadas con los valores, llamado índice. La existencia de este índice explícito (que puede ser de cualquier tipo inmutable) es la principal diferencia de un vector NumPy, que tiene un índice implícito (una secuencia de enteros indicando la posición). Los índices de serie son como índices de diccionario, mientras que los índices **NumPy** son como índices de lista.


### Estructura


In [2]:
serie_ejemplo = pd.Series([1,2,3,4,5,6]) # Series with implicit index since it starts from a list
print(serie_ejemplo)
print(type(serie_ejemplo))

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
<class 'pandas.core.series.Series'>


In [3]:
# Similarly to how in NumPy we create vectors from lists, in pandas we can create series from dictionaries. In this case, the dictionary keys will be the series indexes and the dictionary values will be the series values.

estudiantes_con_notas = pd.Series({'Estudiante 1': 5, 'Estudiante 2': 10, 'Estudiante 3': 7, 'Estudiante 4': 8})

In [4]:
pd.Series([5,10,7,8], index=["Estudiante 1","Estudiante 2","Estudiante 3","Estudiante 4"]) # Can also be done this way

Estudiante 1     5
Estudiante 2    10
Estudiante 3     7
Estudiante 4     8
dtype: int64

In [5]:
asientos_ocupados_teatro = pd.Series({1: "Pepe Pérez", 7: "Juan Gómez", 6: "Ana López", 2: "María García", 5: "Luisa Martínez"})
asientos_ocupados_teatro

1        Pepe Pérez
7        Juan Gómez
6         Ana López
2      María García
5    Luisa Martínez
dtype: object

### Acceso a elementos de una serie


Tenga cuidado al realizar operaciones en posiciones en lugar de índices, ya que el índice explícito puede ser un número y no una cadena de texto. En este caso, si usted realiza una operación en una posición, se refiere a la posición del índice implícito, no al índice explícito.

Para operar en posiciones, utilice el atributo **iloc** (desde *integer location*), mientras que para operar en índices use el atributo **loc** o directamente el operador de indexación **[]**, como en listas o diccionarios. Lo más común es utilizar el operador de indexación, ya que es más corto y más legible.


In [6]:
print(asientos_ocupados_teatro[7]) # Returns the value at explicit index 7
print(asientos_ocupados_teatro.loc[7]) # Equivalent to the above
print(asientos_ocupados_teatro.iloc[1]) # Returns the value at position 1
# print(asientos_ocupados_teatro[0]) # Would error since explicit indexes are numbers and index 0 doesn't exist (would be a source of errors if allowed)

Juan Gómez
Juan Gómez
Juan Gómez


In [7]:
print(estudiantes_con_notas["Estudiante 1"]) # Returns the value at explicit index "Estudiante 1"
print(estudiantes_con_notas.loc["Estudiante 1"]) # Equivalent to the above
print(estudiantes_con_notas.iloc[0]) # Returns the value at position 0
print(estudiantes_con_notas[0]) # Returns the value at implicit index 0 (position 0) 
# but throws a warning, should not be done this way but with iloc and will be removed in future pandas versions as it is a source of errors
# print(estudiantes_con_notas.loc[0]) # Would error since explicit indexes are strings and index 0 doesn't exist

5
5
5
5


  print(estudiantes_con_notas[0]) # Returns the value at implicit index 0 (position 0)


In [8]:
# Modifying values by indexes
estudiantes_con_notas['Estudiante 1'] = 10
estudiantes_con_notas['Estudiante 3':] = 5 # Modifies values from index 3 to the end (slicing)
estudiantes_con_notas

Estudiante 1    10
Estudiante 2    10
Estudiante 3     5
Estudiante 4     5
dtype: int64

In [9]:
print(estudiantes_con_notas.mean()) # Mean of the grades
print(estudiantes_con_notas.std()) # Standard deviation

7.5
2.886751345948129


In [10]:
print(estudiantes_con_notas.describe()) # Descriptive statistics of student grades

count     4.000000
mean      7.500000
std       2.886751
min       5.000000
25%       5.000000
50%       7.500000
75%      10.000000
max      10.000000
dtype: float64


## DataFrame


### Estructura de un DataFrame


A **DataFrame** es una estructura de datos tabulares bidimensional, con filas y columnas etiquetadas. Es similar a una tabla de bases de datos relacionales (SQL). Se puede considerar como una colección de Series que comparten el mismo índice. Es la estructura de datos más utilizada en pandas.


In [11]:
pd.DataFrame({'Notas': estudiantes_con_notas}) # Create a DataFrame from the grades series (giving a name to the column)

Unnamed: 0,Notas
Estudiante 1,10
Estudiante 2,10
Estudiante 3,5
Estudiante 4,5


In [12]:
# Directly create a dataframe with grades of several students in several subjects
pd.DataFrame({'PIA': estudiantes_con_notas, 'SAA': [5, 6, 7, 8], 'MIA': [9, 8, 7, 6], 'SBD': [10, 9, 8, 7], 'BDA': [6, 7, 8, 9]})

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Estudiante 1,10,5,9,10,6
Estudiante 2,10,6,8,9,7
Estudiante 3,5,7,7,8,8
Estudiante 4,5,8,6,7,9


En el caso anterior usamos los índices de ```estudiantes_con_notas``` para crear el marco de datos. Estamos agregando un objeto Serie para la primera columna y arrays para los siguientes.


In [13]:
# Another option would be to specify the explicit indexes and receive all grades as lists
pd.DataFrame({'PIA': estudiantes_con_notas, 'SAA': [5, 6, 7, 8], 'MIA': [9, 8, 7, 6], 'SBD': [10, 9, 8, 7], 'BDA': [6, 7, 8, 9]}, index=['Wrong Name', 'Estudiante 2', 'Estudiante 3', 'Estudiante 4'])

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Wrong Name,,5,9,10,6
Estudiante 2,10.0,6,8,9,7
Estudiante 3,5.0,7,7,8,8
Estudiante 4,5.0,8,6,7,9


Cometimos un error en el nombre de un estudiante, y como la lista de primer grado (PIA) era una serie, no encuentra el grado para el índice 'Nombre del Bronce' y devuelve **NaN (No Número)** (una constante NumPy). Para evitarlo, podemos crear un DataFrame de un diccionario de listas en lugar de un diccionario de serie. Las otras categorías son listas simples sin índice, por lo que se supone que son correctas.
Sin embargo, en este tipo de proceso es importante estar alerta. Tener las calificaciones de cada estudiante solo identificadas por su posición en una lista no es muy robusto, ya que si se agrega un estudiante o se cambia el orden de los estudiantes, las calificaciones se asignarán a diferentes estudiantes. Es mejor utilizar un diccionario de serie, ya que el índice explícito permite identificar correctamente a cada estudiante.

La siguiente solución es más robusta:


In [14]:
notas_pia = pd.Series({'Marvin Minsky': 5.7, 'John McCarthy': 6.5, 'Claude Shannon': 6.5, 'Alan Turing': 7.0})
notas_saa = pd.Series({'Marvin Minsky': 8.0, 'John McCarthy': 8.5, 'Claude Shannon': 8.0, 'Alan Turing': 9.0})
notas_mia = pd.Series({'Marvin Minsky': 7.0, 'John McCarthy': 6.0, 'Claude Shannon': 6.0, 'Alan Turing': 7.0})
notas_sbd = pd.Series({'Marvin Minsky': 9.0, 'John McCarthy': 9.0, 'Claude Shannon': 9.0, 'Alan Turing': 10.0})
notas_bda = pd.Series({'John McCarthy': 7.8, 'Claude Shannon': 6.9, 'Alan Turing': 9.9, 'Marvin Minsky': 10}) # Order matters since we are creating from series with explicit indexes

notas_df = pd.DataFrame({'PIA': notas_pia, 'SAA': notas_saa, 'MIA': notas_mia, 'SBD': notas_sbd, 'BDA': notas_bda})
notas_df

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


Un par de problemas a considerar al usar *strings* como índices en el análisis de datos:
- Puede que no sean únicos (dos personas pueden tener el mismo nombre)
- Puede haber variaciones sobre cómo se escriben los nombres (por ejemplo, con mayúscula o minúscula) en diferentes fuentes de datos.
Estas son dos de las razones por las que las bases de datos relacionales siempre utilizan claves primarias indexadas únicas, a menudo enteros auto-incrementales que no tienen significado en sí mismos (clave de seguridad).


In [15]:
notas_pia = pd.Series({'Marvin Minsky': 5.7, 'John McCarthy': 6.2, 'Claude Shannon': 6.5, 'Alan Turing': 7.0})
notas_saa = pd.Series({'marvin minsky': 8.0, 'McCarthy': 8.5, 'shannon': 8.0, 'Alan-Turing': 9.0})
notas_df_liandola_parda = pd.DataFrame({'PIA': notas_pia, 'SAA': notas_saa})
notas_df_liandola_parda

Unnamed: 0,PIA,SAA
Alan Turing,7.0,
Alan-Turing,,9.0
Claude Shannon,6.5,
John McCarthy,6.2,
Marvin Minsky,5.7,
McCarthy,,8.5
marvin minsky,,8.0
shannon,,8.0


### Información sobre un DataFrame


In [16]:
notas_df.info() # Information about the DataFrame

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Alan Turing to Marvin Minsky
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   PIA     4 non-null      float64
 1   SAA     4 non-null      float64
 2   MIA     4 non-null      float64
 3   SBD     4 non-null      float64
 4   BDA     4 non-null      float64
dtypes: float64(5)
memory usage: 192.0+ bytes


In [17]:
notas_df.head() # First 5 rows (in this case, there are only 4, normally we will work with much larger datasets and it will be useful to see only the first rows to get an idea of the data)

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


In [18]:
notas_df.shape # Number of rows and columns

(4, 5)

In [19]:
notas_df.keys() # "Index" object with column names and type

Index(['PIA', 'SAA', 'MIA', 'SBD', 'BDA'], dtype='object')

In [20]:
notas_df.columns # Equivalent to the above but only for DataFrame (the keys() method also works to retrieve Series keys)

Index(['PIA', 'SAA', 'MIA', 'SBD', 'BDA'], dtype='object')

In [21]:
notas_df.dtypes # Data types of columns

PIA    float64
SAA    float64
MIA    float64
SBD    float64
BDA    float64
dtype: object

In [22]:
notas_df.index # Row indexes

Index(['Alan Turing', 'Claude Shannon', 'John McCarthy', 'Marvin Minsky'], dtype='object')

### Escribir y leer archivos de datos


Pandas ofrece una amplia variedad de funciones para importar y exportar datos desde y hacia archivos. Sin entrar en profundidad, como ejemplo podemos almacenar la función DataFrame ```notas_df``` en un archivo **CSV** con la función **to csv** y recuperarla con la función **read csv**.


In [23]:
notas_df.to_csv('data/grades.csv') # the data directory must exist
df = pd.read_csv('data/grades.csv', index_col=0)
df

Unnamed: 0,PIA,SAA,MIA,SBD,BDA
Alan Turing,7.0,9.0,7.0,10.0,9.9
Claude Shannon,6.5,8.0,6.0,9.0,6.9
John McCarthy,6.5,8.5,6.0,9.0,7.8
Marvin Minsky,5.7,8.0,7.0,9.0,10.0


el parámetro ```index_col=0``` indica que la primera columna del archivo csv es el índice explícito del DataFrame, si no especifica un índice implícito se crea.


In [24]:
pd.read_csv('data/grades.csv')

Unnamed: 0.1,Unnamed: 0,PIA,SAA,MIA,SBD,BDA
0,Alan Turing,7.0,9.0,7.0,10.0,9.9
1,Claude Shannon,6.5,8.0,6.0,9.0,6.9
2,John McCarthy,6.5,8.5,6.0,9.0,7.8
3,Marvin Minsky,5.7,8.0,7.0,9.0,10.0
