# Pandas

Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos, donde podemos encontrar dos tipos de estructuras:
- Series: estructura de una dimensión.
- DataFrame: estructura de dos dimensiones (tablas).

Con pandas podemos leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.

### Ejercicio 0

Instalación e importación

- Terminal: pip install pandas === 2.2.2
- Notebook: !pip install pandas == 2.2.2

In [1]:
import pandas as pd
import numpy as np

## Series

Las series nos permiten representar información en forma de colummnas.

### Ejercicio 1.1

Veamos un ejemplo sencillo de cómo crear una serie que contenga números en Pandas.

In [2]:
lista_numerica = [1, 2, 3]
array_numerico1 = np.array([4, 5, 6])

serie_numerica1 = pd.Series(lista_numerica)
serie_numerica2 = pd.Series(array_numerico1)
serie_numerica3 = pd.Series([7, 8, 9])

In [3]:
serie_numerica1

0    1
1    2
2    3
dtype: int64

In [4]:
print(serie_numerica2)

0    4
1    5
2    6
dtype: int32


In [5]:
serie_numerica3

0    7
1    8
2    9
dtype: int64

### Ejercicio 1.2

Podemos crear series con cualquier tipo de dato. Además con el atributo dtype podemos especificar cómo queremos que se guarde la información.

In [11]:
asignaturas = pd.Series(["Matemáticas", "Historia", "Economía", "Programación", "Inglés"], dtype = "string")
asignaturas

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string

### Ejercicio 1.3

Otra opción es utilizar un diccionario para cargar datos en una serie.

In [10]:
dic_notas_alumnos = {"Andrés": 6, "Pedro": 9, "José": 4, "María": 10, "Laura": 8}
notas_alumnos = pd.Series(dic_notas_alumnos, index =["Andrés", "Pedro", "José", "María", "Laura"])
notas_alumnos

Andrés     6
Pedro      9
José       4
María     10
Laura      8
dtype: int64

### Ejercicio 1.4

Utilizando NumPy junto con Pandas podemos crear una serie en base a un array con números aleatorios.

In [9]:
rng = np.random.default_rng()

In [12]:
array_enteros_aleatorios = rng.integers(1, 101, 10) #Array con 10 elementos integer aleatorios entre 0 y 100
index = ["Mendoza", "BsAs", "Córdoba", "San Luis", "Catamarca", "San Juan", "La Pampa", "Entre Ríos", "CABA", "Misiones"]
provincias = pd.Series(array_enteros_aleatorios, index)
provincias

Mendoza       36
BsAs          20
Córdoba       27
San Luis      64
Catamarca     49
San Juan      54
La Pampa      60
Entre Ríos    37
CABA          85
Misiones      56
dtype: int64

### Ejercicio 1.5

Vamos a ver funciones simples para una serie.

In [13]:
serie_cien_elementos = pd.Series(rng.integers(1, 101, 100))
serie_cien_elementos

0     96
1     98
2     44
3     71
4     90
      ..
95     8
96    21
97    56
98    28
99    64
Length: 100, dtype: int64

In [14]:
len(serie_cien_elementos)

100

In [15]:
serie_cien_elementos.shape

(100,)

In [16]:
serie_cien_elementos.dtype

dtype('int64')

In [17]:
serie_cien_elementos.head(10)

0    96
1    98
2    44
3    71
4    90
5     6
6    67
7    84
8    92
9    54
dtype: int64

In [18]:
serie_cien_elementos.tail(10)

90    50
91    70
92    85
93    61
94    20
95     8
96    21
97    56
98    28
99    64
dtype: int64

### Ejercicio 1.6

En las series podemos acceder a los valores y al índice usando tanto la posición como el índice. O aplicando una condición.

In [19]:
provincias

Mendoza       36
BsAs          20
Córdoba       27
San Luis      64
Catamarca     49
San Juan      54
La Pampa      60
Entre Ríos    37
CABA          85
Misiones      56
dtype: int64

In [20]:
provincias.index[0], provincias.iloc[0]

('Mendoza', 36)

In [21]:
provincias.index[3], provincias.iloc[3]

('San Luis', 64)

In [22]:
provincias.index[-1], provincias.iloc[-1]

('Misiones', 56)

In [23]:
provincias.iloc[5:9]

San Juan      54
La Pampa      60
Entre Ríos    37
CABA          85
dtype: int64

In [24]:
provincias.iloc[:3]

Mendoza    36
BsAs       20
Córdoba    27
dtype: int64

In [25]:
provincias.iloc[-4:]

La Pampa      60
Entre Ríos    37
CABA          85
Misiones      56
dtype: int64

In [26]:
provincias[provincias > 50] #Solo obtendremos los valores > 50

San Luis    64
San Juan    54
La Pampa    60
CABA        85
Misiones    56
dtype: int64

In [27]:
provincias[provincias == 11] #Solo obtendremos los valores = 11

Series([], dtype: int64)

In [28]:
provincias[(provincias > 15) & (provincias < 40)] #Solo obtendremos los valores entre > 15 y < 40

Mendoza       36
BsAs          20
Córdoba       27
Entre Ríos    37
dtype: int64

In [29]:
provincias["La Pampa"] #Podemos acceder a un valor usando el índice

60

In [30]:
provincias[["La Pampa", "Córdoba", "CABA"]] #O a múltiples pasando un tupla con los índices

La Pampa    60
Córdoba     27
CABA        85
dtype: int64

### Ejercicio 1.7

En Pandas contamos con una amplia gama de funciones y métodos que nos permiten realizar cálculos.

In [31]:
provincias

Mendoza       36
BsAs          20
Córdoba       27
San Luis      64
Catamarca     49
San Juan      54
La Pampa      60
Entre Ríos    37
CABA          85
Misiones      56
dtype: int64

In [32]:
provincias.count() #Para contar elementos usamos count

10

In [34]:
provincias.sum() #Con sum podemos sumar los valores de una serie

488

In [35]:
provincias.min() #Nos devuelve el valor mínimo

20

In [36]:
provincias.max() #Nos devuelve el valor máximo

85

In [37]:
provincias.mean() #Calcula el promedio

48.8

In [38]:
provincias.var() #Retorna la varianza

372.6222222222222

In [39]:
provincias.std() #Calcula la desviación típica

19.303425142244116

In [40]:
provincias.describe() #Crea un mini resumen con estadísticas para la serie numérica

count    10.000000
mean     48.800000
std      19.303425
min      20.000000
25%      36.250000
50%      51.500000
75%      59.000000
max      85.000000
dtype: float64

In [41]:
provincias.sort_values() #Ordena la serie en base a los valores

BsAs          20
Córdoba       27
Mendoza       36
Entre Ríos    37
Catamarca     49
San Juan      54
Misiones      56
La Pampa      60
San Luis      64
CABA          85
dtype: int64

In [42]:
provincias.sort_values(ascending = False) #Así se ordena de manera descendente

CABA          85
San Luis      64
La Pampa      60
Misiones      56
San Juan      54
Catamarca     49
Entre Ríos    37
Mendoza       36
Córdoba       27
BsAs          20
dtype: int64

In [43]:
#Creamos una serie con categorías
index = ["Mendonza", "BsAs", "Córdoba", "San Luis", "Catamarca", "San Juan", "La Pampa", "Entre Ríos", "CABA", "Misiones"]
regiones = pd.Series(["Oeste", "Este", "Centro", "Oeste", "Oeste", "Oeste", "Centro", "Este", "Este", "Norte"], index)
regiones

Mendonza       Oeste
BsAs            Este
Córdoba       Centro
San Luis       Oeste
Catamarca      Oeste
San Juan       Oeste
La Pampa      Centro
Entre Ríos      Este
CABA            Este
Misiones       Norte
dtype: object

In [44]:
regiones.value_counts() #Podemos ver cuántas veces se repite cada categoría. Es CASE SENSITIVE

Oeste     4
Este      3
Centro    2
Norte     1
Name: count, dtype: int64

In [47]:
regiones.describe() #Crea un mini resumen para la serie categórica

count        10
unique        4
top       Oeste
freq          4
dtype: object

### Ejercicio 1.8

Una de las ventajas de la librería Pandas es que permite utilizar fechas. Veremos cómo utilizar la función date_range

In [48]:
pd.date_range(start = "2024-04-01", end = "2024-04-04") #Así seguimos la estructura AAAA-MM-DD

DatetimeIndex(['2024-04-01', '2024-04-02', '2024-04-03', '2024-04-04'], dtype='datetime64[ns]', freq='D')

In [49]:
pd.date_range(start = "04/01/2024", end = "04/04/2024") #Así seguimos la estructura MM/DD/AAAA

DatetimeIndex(['2024-04-01', '2024-04-02', '2024-04-03', '2024-04-04'], dtype='datetime64[ns]', freq='D')

In [55]:
#Podemos utilizar diferentes frecuencias
pd.date_range(start = "2010", end = "2024", freq= "Y") #Separa cada valor por el últimpo día del año

DatetimeIndex(['2010-12-31', '2011-12-31', '2012-12-31', '2013-12-31',
               '2014-12-31', '2015-12-31', '2016-12-31', '2017-12-31',
               '2018-12-31', '2019-12-31', '2020-12-31', '2021-12-31',
               '2022-12-31', '2023-12-31'],
              dtype='datetime64[ns]', freq='A-DEC')

In [56]:
pd.date_range(start = "2023", end = "2024", freq = "M") #Separa cada valor por el último día del mes

DatetimeIndex(['2023-01-31', '2023-02-28', '2023-03-31', '2023-04-30',
               '2023-05-31', '2023-06-30', '2023-07-31', '2023-08-31',
               '2023-09-30', '2023-10-31', '2023-11-30', '2023-12-31'],
              dtype='datetime64[ns]', freq='M')

In [58]:
pd.date_range(start = "2023/03", end = "2023/04", freq = "W") #Separa cada valor por el último día de la semana 

DatetimeIndex(['2023-03-05', '2023-03-12', '2023-03-19', '2023-03-26'], dtype='datetime64[ns]', freq='W-SUN')

In [60]:
pd.date_range(start = "2023/03", end = "2023/04", freq = "D") #Separa cada valor por día

DatetimeIndex(['2023-03-01', '2023-03-02', '2023-03-03', '2023-03-04',
               '2023-03-05', '2023-03-06', '2023-03-07', '2023-03-08',
               '2023-03-09', '2023-03-10', '2023-03-11', '2023-03-12',
               '2023-03-13', '2023-03-14', '2023-03-15', '2023-03-16',
               '2023-03-17', '2023-03-18', '2023-03-19', '2023-03-20',
               '2023-03-21', '2023-03-22', '2023-03-23', '2023-03-24',
               '2023-03-25', '2023-03-26', '2023-03-27', '2023-03-28',
               '2023-03-29', '2023-03-30', '2023-03-31', '2023-04-01'],
              dtype='datetime64[ns]', freq='D')

In [62]:
#Otra opción es usar la cantidad de periodos que queremos
pd.date_range(start = "2023/03", end = "2023/04", periods = 3) #Divide lo que hay entre marzo del 2023 y abril del 2023 en 3 periodos iguales

DatetimeIndex(['2023-03-01 00:00:00', '2023-03-16 12:00:00',
               '2023-04-01 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [63]:
pd.date_range(start = "2023/03", end = "2023/04", periods = 6) #Divide lo que hay entre marzo del 2023 y abril del 2024 en 6 periodos iguales

DatetimeIndex(['2023-03-01 00:00:00', '2023-03-07 04:48:00',
               '2023-03-13 09:36:00', '2023-03-19 14:24:00',
               '2023-03-25 19:12:00', '2023-04-01 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [65]:
pd.date_range(start = "2023/04/01", end = "2023/04/2", periods = 5) #Divide lo que hay entre 2023/04/01 y 2023/04/02 en 5 periodos iguales

DatetimeIndex(['2023-04-01 00:00:00', '2023-04-01 06:00:00',
               '2023-04-01 12:00:00', '2023-04-01 18:00:00',
               '2023-04-02 00:00:00'],
              dtype='datetime64[ns]', freq=None)

### Ejercicio 1.9

Ya vimos como podemos crear fechas. Estas son muy útiles para los índices ya que nos permiten transformar nuestra serie en una serie temporal.

In [66]:
dias_marzo = pd.date_range(start = "2024/03/01", end = "2024/04/01", freq = "D")

In [67]:
cantidad_accidentes_viales_marzo = pd.Series(rng.integers(1, 101, len(dias_marzo)), index = dias_marzo)
cantidad_accidentes_viales_marzo

2024-03-01    78
2024-03-02     5
2024-03-03    71
2024-03-04    23
2024-03-05    89
2024-03-06    34
2024-03-07    26
2024-03-08    46
2024-03-09    13
2024-03-10    51
2024-03-11    34
2024-03-12    51
2024-03-13    28
2024-03-14    86
2024-03-15    80
2024-03-16    85
2024-03-17    88
2024-03-18    77
2024-03-19    78
2024-03-20    74
2024-03-21    66
2024-03-22    85
2024-03-23    16
2024-03-24    35
2024-03-25    31
2024-03-26    97
2024-03-27    49
2024-03-28    16
2024-03-29    71
2024-03-30    67
2024-03-31    71
2024-04-01    28
Freq: D, dtype: int64

In [68]:
cantidad_accidentes_viales_marzo.describe()

count    32.000000
mean     54.656250
std      27.216704
min       5.000000
25%      30.250000
50%      58.500000
75%      78.000000
max      97.000000
dtype: float64