# CLASE 11


Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos, donde podemos encontrar 3 tipos de estructuras:

- Series: Estructura de una dimensión.
- DataFrame: Estructura de dos dimensiones (tablas).

Con pandas podemos leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL.

## Ejercicio 0

Instalacion e importacion 

- Terminal: pip install pandas==2.2.2
- Notebook: !pip install pandas==2.2.2

In [1]:
import pandas as pd
import numpy as np

# SERIES

Las series nos permiten reprensentar informacion en forma de columnas

## Ejercicio 1.1

Veamos un ejemplo sencillo de como crear una serie que cotenga numeros en pandas

In [2]:
lista_numerica = [1, 2, 3]
array_numerico1 = np.array([4, 5, 6])

serie_numerica1 = pd.Series(lista_numerica)
serie_numerica2 = pd.Series(array_numerico1)
serie_numerica3 = pd.Series([7, 8, 9])

In [3]:
serie_numerica1

0    1
1    2
2    3
dtype: int64

In [4]:
print(serie_numerica2)

0    4
1    5
2    6
dtype: int64


In [5]:
serie_numerica3

0    7
1    8
2    9
dtype: int64

## Ejercicio 1.2

Podemos crear series con cualquier tipo de dato, ademas con el atributo dtype podemos especificar como queremos que se guarde la informacion

In [6]:
asignaturas = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype= "string")
asignaturas

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string

## Ejercicio 1.3

Otra opcion es utilizar un diccionario para cargar datos en una serie

In [7]:
dic_notas_alumnos = {"andres": 6, "pedro": 9, "jose": 4, "maria": 10, "laura": 8}
notas_alumnos = pd.Series(dic_notas_alumnos, index=["andres", "pedro", "jose", "maria", "maria"])
notas_alumnos

andres     6
pedro      9
jose       4
maria     10
maria     10
dtype: int64

## Ejercicio 1.4
Utilizando numpy junto con pandas podemos crear una serie en base a un array con numeros aleatorios

In [8]:
rng = np.random.default_rng()

In [9]:
array_enteros_aleatorios = rng.integers(1,101, 10) #Array con 10 elementos integer aleatorios entre 0 y 100
index=["mendoza", "bsas", "cordoba", "san luis", "catamarca", "san juan", "la pampa", "entre rios", "caba", "misiones"]
provincias = pd.Series(array_enteros_aleatorios, index)
provincias

mendoza        86
bsas          100
cordoba        78
san luis       31
catamarca      78
san juan        9
la pampa       60
entre rios     89
caba            1
misiones       85
dtype: int64

## Ejercicio 1.5 

Veamos funciones simples para una serie

In [10]:
serie_cien_elementos = pd.Series(rng.integers(1,101, 100))
serie_cien_elementos

0      9
1      8
2     38
3      1
4     22
      ..
95    35
96     6
97    39
98    97
99    77
Length: 100, dtype: int64

In [11]:
len(serie_cien_elementos)

100

In [12]:
serie_cien_elementos.shape

(100,)

In [13]:
serie_cien_elementos.dtype

dtype('int64')

In [14]:
serie_cien_elementos.head(10)

0     9
1     8
2    38
3     1
4    22
5    36
6    58
7     6
8    13
9    36
dtype: int64

In [15]:
serie_cien_elementos.tail(10)

90    58
91    38
92    36
93    28
94    48
95    35
96     6
97    39
98    97
99    77
dtype: int64

## Ejercicio 1.6 

En las series podemos acceder a los valores y al indice usando tanto la posicion como el indice, o aplicando una condicion

In [16]:
provincias

mendoza        86
bsas          100
cordoba        78
san luis       31
catamarca      78
san juan        9
la pampa       60
entre rios     89
caba            1
misiones       85
dtype: int64

In [17]:
provincias.index[0], provincias.iloc[0]

('mendoza', 86)

In [18]:
provincias.index[3], provincias.iloc[3]

('san luis', 31)

In [19]:
provincias.index[-1], provincias.iloc[-1]

('misiones', 85)

In [20]:
provincias.iloc[5:9]

san juan       9
la pampa      60
entre rios    89
caba           1
dtype: int64

In [21]:
provincias.iloc[:3]

mendoza     86
bsas       100
cordoba     78
dtype: int64

In [22]:
provincias.iloc[-4:]

la pampa      60
entre rios    89
caba           1
misiones      85
dtype: int64

In [23]:
provincias[provincias > 50] #Solo obtenemos los valores > 50

mendoza        86
bsas          100
cordoba        78
catamarca      78
la pampa       60
entre rios     89
misiones       85
dtype: int64

In [24]:
provincias[provincias == 11] #Solo obtenemos los valores = 11

Series([], dtype: int64)

In [25]:
provincias[(provincias > 15) & (provincias < 40)] #Solo obtenemos los valores entre >15 y <40

san luis    31
dtype: int64

In [26]:
provincias["la pampa"] #Podemos acceder a un valor usando el indice

60

In [27]:
provincias[["la pampa","cordoba","caba"]] #O a multiples pasando una tupla con los indices

la pampa    60
cordoba     78
caba         1
dtype: int64

## Ejercicio 1.7

En pandas contamos con una amplia gama de funciones y metodos que nos permiten realizar calculos

In [28]:
provincias

mendoza        86
bsas          100
cordoba        78
san luis       31
catamarca      78
san juan        9
la pampa       60
entre rios     89
caba            1
misiones       85
dtype: int64

In [29]:
provincias.count() #Para contar elementos usamos 

10

In [30]:
provincias.sum() #Con sum podemos usar los valores de una serie

617

In [31]:
provincias.min() #Nos devuelve el valor minimo

1

In [32]:
provincias.max() #Nos devuelve el valor maximo

100

In [33]:
provincias.mean() #Calcula el promedio

61.7

In [34]:
provincias.var() #Retorna la varianza

1253.788888888889

In [35]:
provincias.std() #Calcula el desviacion tipica

35.40888149728665

In [36]:
provincias.describe() #Crea un mini resumen con estadisticas para la serie numerica

count     10.000000
mean      61.700000
std       35.408881
min        1.000000
25%       38.250000
50%       78.000000
75%       85.750000
max      100.000000
dtype: float64

In [37]:
provincias.sort_values() #Ordena la serie en base a los valores

caba            1
san juan        9
san luis       31
la pampa       60
cordoba        78
catamarca      78
misiones       85
mendoza        86
entre rios     89
bsas          100
dtype: int64

In [38]:
provincias.sort_values(ascending = False) #Asi se ordena de manera descendete

bsas          100
entre rios     89
mendoza        86
misiones       85
cordoba        78
catamarca      78
la pampa       60
san luis       31
san juan        9
caba            1
dtype: int64

In [39]:
#Creamos una serie con categorias
index=["mendoza", "bsas", "cordoba", "san luis", "catamarca", "san juan", "la pampa", "entre rios", "caba", "misiones"]
regiones = pd.Series(["oeste", "este", "centro", "oeste","oeste","oeste","centro","este","este","norte"], index)
regiones

mendoza        oeste
bsas            este
cordoba       centro
san luis       oeste
catamarca      oeste
san juan       oeste
la pampa      centro
entre rios      este
caba            este
misiones       norte
dtype: object

In [40]:
regiones.value_counts() #Podemos ver cuantas veces se repite cada categoria, ES CASE SENSITIVE

oeste     4
este      3
centro    2
norte     1
Name: count, dtype: int64

In [41]:
regiones.describe() #Crea un mini resumen para la serie categorica

count        10
unique        4
top       oeste
freq          4
dtype: object

## Ejercicio 1.8

Una de las ventajas de la libreria pandas es que permite utilizar fechas.

Veamos como utilizar la funcion date_range

In [42]:
pd.date_range(start='2024-04-01', end='2024-04-04') #Asi seguimos la estructura AAAA-MM-DD

DatetimeIndex(['2024-04-01', '2024-04-02', '2024-04-03', '2024-04-04'], dtype='datetime64[ns]', freq='D')

In [43]:
pd.date_range(start='04/01/2024', end='04/04/2024') #Asi seguimos la estructura MM/DD/AAAA

DatetimeIndex(['2024-04-01', '2024-04-02', '2024-04-03', '2024-04-04'], dtype='datetime64[ns]', freq='D')

In [44]:
#Podemos utilizar diferentes frecuencias
pd.date_range(start='2010', end='2024', freq = "YE") #Separa cada valor por el ultimo dia del año

DatetimeIndex(['2010-12-31', '2011-12-31', '2012-12-31', '2013-12-31',
               '2014-12-31', '2015-12-31', '2016-12-31', '2017-12-31',
               '2018-12-31', '2019-12-31', '2020-12-31', '2021-12-31',
               '2022-12-31', '2023-12-31'],
              dtype='datetime64[ns]', freq='YE-DEC')

In [45]:
pd.date_range(start='2023', end='2024', freq = "ME") #Separa cada valor por el ultimo dia del mes

DatetimeIndex(['2023-01-31', '2023-02-28', '2023-03-31', '2023-04-30',
               '2023-05-31', '2023-06-30', '2023-07-31', '2023-08-31',
               '2023-09-30', '2023-10-31', '2023-11-30', '2023-12-31'],
              dtype='datetime64[ns]', freq='ME')

In [46]:
pd.date_range(start='2023/03', end='2023/04', freq = "W") #Separa cada valor por el ultimo dia de la semana

DatetimeIndex(['2023-03-05', '2023-03-12', '2023-03-19', '2023-03-26'], dtype='datetime64[ns]', freq='W-SUN')

In [47]:
pd.date_range(start='2023/03', end='2023/04', freq = "D") #Separa cada valor por dia

DatetimeIndex(['2023-03-01', '2023-03-02', '2023-03-03', '2023-03-04',
               '2023-03-05', '2023-03-06', '2023-03-07', '2023-03-08',
               '2023-03-09', '2023-03-10', '2023-03-11', '2023-03-12',
               '2023-03-13', '2023-03-14', '2023-03-15', '2023-03-16',
               '2023-03-17', '2023-03-18', '2023-03-19', '2023-03-20',
               '2023-03-21', '2023-03-22', '2023-03-23', '2023-03-24',
               '2023-03-25', '2023-03-26', '2023-03-27', '2023-03-28',
               '2023-03-29', '2023-03-30', '2023-03-31', '2023-04-01'],
              dtype='datetime64[ns]', freq='D')

In [48]:
#Otra opcion es usar la cantidad de periodes que queremos
pd.date_range(start='2023/03', end='2023/04', periods = 3) #Divide lo que hay entre 2023 y 2024 en 3 periodos iguales

DatetimeIndex(['2023-03-01 00:00:00', '2023-03-16 12:00:00',
               '2023-04-01 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [49]:
pd.date_range(start='2023/03', end='2023/04', periods = 6) #Divide lo que hay entre marzo del 2023 y abril del 2024 en 6 periodos iguales

DatetimeIndex(['2023-03-01 00:00:00', '2023-03-07 04:48:00',
               '2023-03-13 09:36:00', '2023-03-19 14:24:00',
               '2023-03-25 19:12:00', '2023-04-01 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [50]:
pd.date_range(start='2023/04/1', end='2023/04/2' , periods = 5) #Divide lo que hay entre 2023/04/1 y 2023/04/2 en 5 periodos iguales

DatetimeIndex(['2023-04-01 00:00:00', '2023-04-01 06:00:00',
               '2023-04-01 12:00:00', '2023-04-01 18:00:00',
               '2023-04-02 00:00:00'],
              dtype='datetime64[ns]', freq=None)

## Ejercicio 1.9

Ya vimos como podemos crear fechas, estas son muy utiles para los indices ya que nos permiten transforma nuestra serie en una serie temporal.

In [51]:
dias_marzo = pd.date_range(start='2024/03/1', end='2024/04/1' , freq = 'D')

In [52]:
cantidad_accidentes_viales_marzo = pd.Series(rng.integers(1,101, len(dias_marzo)), index = dias_marzo)
cantidad_accidentes_viales_marzo

2024-03-01    89
2024-03-02    45
2024-03-03    97
2024-03-04    38
2024-03-05    96
2024-03-06    98
2024-03-07    64
2024-03-08    52
2024-03-09    70
2024-03-10    63
2024-03-11     2
2024-03-12    77
2024-03-13    58
2024-03-14    41
2024-03-15    56
2024-03-16    16
2024-03-17     4
2024-03-18     9
2024-03-19     7
2024-03-20    86
2024-03-21    54
2024-03-22     9
2024-03-23    45
2024-03-24    77
2024-03-25    35
2024-03-26    76
2024-03-27    11
2024-03-28    50
2024-03-29    10
2024-03-30    49
2024-03-31    98
2024-04-01    14
Freq: D, dtype: int64

In [53]:
cantidad_accidentes_viales_marzo.describe()

count    32.000000
mean     49.875000
std      31.353088
min       2.000000
25%      15.500000
50%      51.000000
75%      76.250000
max      98.000000
dtype: float64