# PANDAS - SERIES

Librería especializada en la manipulación y el análisis de datos.

Permite trabajar con datos estructurados (organizados en tablas).

En Pandas hay dos objetos:

- Serie: estructura de una dimensión
- Dataframe: estructura de dos dimensiones (tablas)

La mayoría de los métodos y funciones son compatibles entre series y dataframes.

Asimismo, nos permite trabajar con diferentes tipos de archivos (.csv, .txt, .xlsx, .json) como así también leer archivos que se encuentran en la web.

## Ejercicio 1.0

Instalamos e importamos la librería.

In [90]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [91]:
!python.exe -m pip install --upgrade pip



In [92]:
#especificamos la versión a instalar
%pip install pandas==2.2.2

Note: you may need to restart the kernel to use updated packages.


In [93]:
import pandas as pd #importamos la librería con el alias ps
import numpy as np #importamos la librería numpy con el alias np

## SERIES

Las series nos permiten reprensentar informacion en forma de columnas.

info: https://pandas.pydata.org/docs/reference/series.html

### Ejercicio 1.1

Creación de series.

`pd.Serie()`

La serie quedará formada de la siguiente manera:

_Indice_de_la_fila     Valor_

[datos]

_Tipo de dato_

In [94]:
lista_numerica = [1, 3, 10, 22] #creo una lista numérica

serie_numerica = pd.Series(lista_numerica) #la convierto en una serie


print(lista_numerica)
print("-----------------")
#indice_de_fila  valor
#tipo de dato
print(serie_numerica)


[1, 3, 10, 22]
-----------------
0     1
1     3
2    10
3    22
dtype: int64


In [95]:
lista_colores = ["blanco", "rojo", "azul", "rosa"]
serie_colores = pd.Series(lista_colores)
print(serie_colores)

0    blanco
1      rojo
2      azul
3      rosa
dtype: object


In [96]:
lista_booleana = [True, False, True, True, False]
serie_booleana = pd.Series(lista_booleana)
print(serie_booleana)

0     True
1    False
2     True
3     True
4    False
dtype: bool


In [97]:
array = np.array([1, 5, 10, 33, 100])

serie_array = pd.Series(array) #de array de numpy a serie de pandas
print(serie_array)

0      1
1      5
2     10
3     33
4    100
dtype: int32


### Ejercicio 1.2

Cuando creo una serie puedo castear el tipo de dato en una sola linea de código.

In [98]:
lista_dni = [1111111, 12345678, 34567890, 45678123]

serie_dni = pd.Series(lista_dni, dtype="string")
print(serie_dni)

0     1111111
1    12345678
2    34567890
3    45678123
dtype: string


In [99]:
serie_bool = pd.Series([True, False, True, True, False], dtype="boolean")
print(serie_bool)

0     True
1    False
2     True
3     True
4    False
dtype: boolean


### Ejercicio 1.3

Puedo indicar el índice a una serie.

`index`

In [100]:
lista_alumnos = ["sebastian", "sofia", "miguel", "florencia", "victor"]
lista_nota_final = [10, 9, 3, 5, 6]

serie_nota_alumnos = pd.Series(lista_nota_final, index=lista_alumnos) #los indices representan info (un id)
print(serie_nota_alumnos)

sebastian    10
sofia         9
miguel        3
florencia     5
victor        6
dtype: int64


In [101]:
lista_matricula_pago = [True, True, False, False, True]
serie_matricula_alumnos = pd.Series(lista_matricula_pago, index=lista_alumnos)
print(serie_matricula_alumnos)

sebastian     True
sofia         True
miguel       False
florencia    False
victor        True
dtype: bool


### Ejercicio 1.4

Podemos extraer la información de un diccionario y convertirlo en una Serie.


In [102]:
diccionario_salario = {
    "andres" : 1000,
    "sofia" : 7420,
    "miguel" : 2940,
    "victor" : 7480,
    "melina": 6514
}

serie_salarios = pd.Series(diccionario_salario, name="Salarios empleados")
print(serie_salarios)


andres    1000
sofia     7420
miguel    2940
victor    7480
melina    6514
Name: Salarios empleados, dtype: int64


### Ejercicio 1.5

Series a partir de números random.

In [103]:
rng = np.random.default_rng() #se crea una serie con números aleatorios

In [104]:
print(rng)

Generator(PCG64)


In [132]:
lista_alumnos = ["sebastian", "sofia", "miguel", "florencia", "victor", "eva", "macarena", "pedro", "estevan", "sonia", "nicolas", "nadia", "zulma", "pablo", "ana"]

serie_promedios = pd.Series(data=rng.integers(1, 11, len(lista_alumnos)),index=lista_alumnos, name="Promedio alumnos") #rng.integers(valor_min, valor_max, tamaño)

In [133]:
print(serie_promedios)

sebastian     3
sofia         6
miguel       10
florencia     3
victor        7
eva          10
macarena      9
pedro         7
estevan       7
sonia         5
nicolas       3
nadia         7
zulma         6
pablo         8
ana           4
Name: Promedio alumnos, dtype: int64


## METODOS Y FUNCIONES EN SERIES

### Ejercicio 1.6

Si queremos ver el tamaño de una serie

`len(nombre_serie)`

In [107]:
len(serie_promedios) #cantidad de elementos totales, se basa en las apariciones de índices

15

Si queremos ver la cantidad de elementos de una serie (no nulos)

`nombre_serie.count()`

In [108]:
serie_promedios.count() #contar la cantidad de elementos

15

Si queremos ver la forma de la serie.

`nombre_serie.shape` (filas, columnas)

In [109]:
serie_promedios.shape 

(15,)

Si queremos ver el tipo de elementos que guarda la serie.

`nombre_serie.dtype`

In [110]:
serie_promedios.dtype

dtype('int64')

### Ejercicio 1.7

Si quiero recortar los primeros n elementos de mi lista:

`nombre_serie.head(n)`

Si quiero recortar los últimos n elementos de mi lista:

`nombre_serie.tail(n)`

In [111]:
serie_mil = pd.Series(rng.integers(1,11,1000)) #serie con 1000 elementos

print(serie_mil)

0       3
1       1
2      10
3       1
4       6
       ..
995     9
996     9
997     5
998     6
999     2
Length: 1000, dtype: int64


In [112]:
serie_mil.head() #5 es el valor por default

0     3
1     1
2    10
3     1
4     6
dtype: int64

In [113]:
serie_mil.tail(20)

980     6
981    10
982     3
983     9
984     3
985     9
986     4
987     5
988     3
989     9
990     9
991     8
992     7
993     7
994     9
995     9
996     9
997     5
998     6
999     2
dtype: int64

### Ejercicio 1.8

Vamos  trabajar con el sistema de índice y filtrado de pandas

`nombre_serie.iloc[posicion]`

`nombre_serie.index[posicion]`

`nombre_serie.index[nombre_indice]`

In [134]:
serie_promedios

sebastian     3
sofia         6
miguel       10
florencia     3
victor        7
eva          10
macarena      9
pedro         7
estevan       7
sonia         5
nicolas       3
nadia         7
zulma         6
pablo         8
ana           4
Name: Promedio alumnos, dtype: int64

In [135]:
#esta práctica no es recomendada en series
serie_promedios[0]

  serie_promedios[0]


3

In [136]:
#para búsquedas por posición usar iloc
serie_promedios.iloc[0]

3

In [137]:
#trae el índice asociado a la posición 0
serie_promedios.index[0]

'sebastian'

In [138]:
serie_promedios.iloc[3]

3

In [139]:
serie_promedios.index[3]

'florencia'

In [140]:
serie_promedios.iloc[-1]

4

In [141]:
serie_promedios.iloc[2:5] #valor_inicial:valor_final(sin incluir)


miguel       10
florencia     3
victor        7
Name: Promedio alumnos, dtype: int64

In [142]:
serie_promedios.index[2:5] 

Index(['miguel', 'florencia', 'victor'], dtype='object')

In [143]:
serie_promedios["miguel"]

10

In [144]:
serie_promedios["florencia"]

3

In [145]:
nombres = ["miguel", "florencia", "sofia"]
serie_promedios[nombres]

miguel       10
florencia     3
sofia         6
Name: Promedio alumnos, dtype: int64

In [146]:
serie_promedios

sebastian     3
sofia         6
miguel       10
florencia     3
victor        7
eva          10
macarena      9
pedro         7
estevan       7
sonia         5
nicolas       3
nadia         7
zulma         6
pablo         8
ana           4
Name: Promedio alumnos, dtype: int64

### Ejercicio 1.9

Vamos a traernos de la serie_promedio sólo a los alumnos que hayan promocionado (nota>=7).

In [147]:
serie_promedios[serie_promedios>7]

miguel      10
eva         10
macarena     9
pablo        8
Name: Promedio alumnos, dtype: int64

In [148]:
serie_promedios[serie_promedios<7] #alumnos desaprobados

sebastian    3
sofia        6
florencia    3
sonia        5
nicolas      3
zulma        6
ana          4
Name: Promedio alumnos, dtype: int64

In [149]:
serie_promedios[serie_promedios==6] #alumnos que se sacaron 6

sofia    6
zulma    6
Name: Promedio alumnos, dtype: int64

In [150]:
serie_promedios[(serie_promedios<7) & (serie_promedios>3)] #alumnos aprobados pero no promocionados

sofia    6
sonia    5
zulma    6
ana      4
Name: Promedio alumnos, dtype: int64

### Ejercicio 1.10

Métodos de análisis en pandas (estadísticas descriptivas)


In [169]:
lista_empleados = ["sebastian", "sofia", "miguel", "florencia", "victor", "eva", "macarena", "pedro", "estevan", "sonia", "nicolas", "nadia", "zulma", "pablo", "ana"]

serie_sueldos = pd.Series(data=rng.integers(1, 20000, len(lista_alumnos)),
                          index=lista_empleados,
                          name="Sueldo mensuales") #rng.integers(valor_min, valor_max, tamaño)
serie_sueldos

sebastian     6438
sofia           78
miguel       11101
florencia    19075
victor        5303
eva           7462
macarena     18097
pedro         7942
estevan       9998
sonia         6528
nicolas       1648
nadia         5212
zulma        19834
pablo         9319
ana          11597
Name: Sueldo mensuales, dtype: int64

In [170]:
serie_sueldos.sum() #cantidad total de dinero destinado a el sueldo de los empleados

139632

In [171]:
serie_sueldos.min() #busca el menor sueldo

78

In [172]:
serie_sueldos.max() #busca el mayor sueldo

19834

In [173]:
serie_sueldos.mean() #media de los sueldos

9308.8

In [174]:
serie_sueldos.median() #busca la mediana de los sueldos [mediana: valor medio cuando un conjunto de datos se ordena de menor a mayor]

7942.0

In [176]:
serie_sueldos.var() #busca la varianza del sueldo [varianza: medida de dispersión que se utiliza para representar la variabilidad de un conjunto de datos respecto de la media aritmética de los mismo. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto, menor representatividad tendrá la media aritmética]

35020912.885714285

In [177]:
serie_sueldos.std() #busca la desviación estandar de los sueldos [ds: medida de la dispersión de los datos respecto de la media, cuanto mayor sea la dispersión mayor es la desviación estándar]

5917.846980593051

In [178]:
serie_sueldos.describe() #tabla con las principales características de la serie

count       15.000000
mean      9308.800000
std       5917.846981
min         78.000000
25%       5870.500000
50%       7942.000000
75%      11349.000000
max      19834.000000
Name: Sueldo mensuales, dtype: float64

In [179]:
#solo el 25% cobra mas de 11349 x mes

In [180]:
serie_sueldos.sort_values() #ordena los valores de menor a mayor


sofia           78
nicolas       1648
nadia         5212
victor        5303
sebastian     6438
sonia         6528
eva           7462
pedro         7942
pablo         9319
estevan       9998
miguel       11101
ana          11597
macarena     18097
florencia    19075
zulma        19834
Name: Sueldo mensuales, dtype: int64

In [181]:
serie_sueldos.sort_values(ascending=False) #ordena los valores de mayor a menor

zulma        19834
florencia    19075
macarena     18097
ana          11597
miguel       11101
estevan       9998
pablo         9319
pedro         7942
eva           7462
sonia         6528
sebastian     6438
victor        5303
nadia         5212
nicolas       1648
sofia           78
Name: Sueldo mensuales, dtype: int64

### Ejercicio 1.11

In [187]:
dic_empleados = {
    "sebastian": "compras", 
    "sofia": "soporte_tecnico", 
    "miguel": "soporte_tecnico", 
    "florencia": "compras", 
    "victor": "contable", 
    "eva": "contable", 
    "macarena": "contable", 
    "pedro": "contable", 
    "estevan": "compras", 
    "sonia": "contable", 
    "nicolas": "soporte_tecnico", 
    "nadia": "contable", 
    "zulma": "compras", 
    "pablo": "contable", 
    "ana": "contable"}

serie_departamentos = pd.Series(dic_empleados, name="Departamentos") #rng.integers(valor_min, valor_max, tamaño)
serie_departamentos

sebastian            compras
sofia        soporte_tecnico
miguel       soporte_tecnico
florencia            compras
victor              contable
eva                 contable
macarena            contable
pedro               contable
estevan              compras
sonia               contable
nicolas      soporte_tecnico
nadia               contable
zulma                compras
pablo               contable
ana                 contable
Name: Departamentos, dtype: object

In [188]:
serie_departamentos.describe()

count           15
unique           3
top       contable
freq             8
Name: Departamentos, dtype: object

In [190]:
serie_departamentos.value_counts() #crea una nueva serie donde se agrupa los empleados que hay en cada departamento


Departamentos
contable           8
compras            4
soporte_tecnico    3
Name: count, dtype: int64

### Ejercicio 1.12

En pandas está el `date_range`, el cual es un generador de índices por fechas.

In [191]:
#voy a definir mi fecha de inicio y fin para el datetime index

#generar dias entre el 1/4/24 al 16/4/24
pd.date_range(start='2024-04-01', end='2024-04-16') #Asi seguimos la estructura AAAA-MM-DD


DatetimeIndex(['2024-04-01', '2024-04-02', '2024-04-03', '2024-04-04',
               '2024-04-05', '2024-04-06', '2024-04-07', '2024-04-08',
               '2024-04-09', '2024-04-10', '2024-04-11', '2024-04-12',
               '2024-04-13', '2024-04-14', '2024-04-15', '2024-04-16'],
              dtype='datetime64[ns]', freq='D')

In [194]:
pd.date_range(start='01/04/2024', end='16/04/2024') #Asi seguimos la estructura MM-DD-AAAA [sistema USA]

DatetimeIndex(['2024-01-04', '2024-01-05', '2024-01-06', '2024-01-07',
               '2024-01-08', '2024-01-09', '2024-01-10', '2024-01-11',
               '2024-01-12', '2024-01-13',
               ...
               '2024-04-07', '2024-04-08', '2024-04-09', '2024-04-10',
               '2024-04-11', '2024-04-12', '2024-04-13', '2024-04-14',
               '2024-04-15', '2024-04-16'],
              dtype='datetime64[ns]', length=104, freq='D')

In [195]:
pd.date_range(start='04/01/2024', end='04/16/2024')

DatetimeIndex(['2024-04-01', '2024-04-02', '2024-04-03', '2024-04-04',
               '2024-04-05', '2024-04-06', '2024-04-07', '2024-04-08',
               '2024-04-09', '2024-04-10', '2024-04-11', '2024-04-12',
               '2024-04-13', '2024-04-14', '2024-04-15', '2024-04-16'],
              dtype='datetime64[ns]', freq='D')

### Ejercicio 1.13

Con datetime index podemos generar series que tengan como índices fechas.

In [203]:
dias_marzo = pd.date_range(start='2024-03-01', end='2024-03-31', freq="D") 
dias_marzo


DatetimeIndex(['2024-03-01', '2024-03-02', '2024-03-03', '2024-03-04',
               '2024-03-05', '2024-03-06', '2024-03-07', '2024-03-08',
               '2024-03-09', '2024-03-10', '2024-03-11', '2024-03-12',
               '2024-03-13', '2024-03-14', '2024-03-15', '2024-03-16',
               '2024-03-17', '2024-03-18', '2024-03-19', '2024-03-20',
               '2024-03-21', '2024-03-22', '2024-03-23', '2024-03-24',
               '2024-03-25', '2024-03-26', '2024-03-27', '2024-03-28',
               '2024-03-29', '2024-03-30', '2024-03-31'],
              dtype='datetime64[ns]', freq='D')

In [202]:
lista_ganancias = rng.integers(1,10000, len(dias_marzo)) #inicial, final, largo
serie_ventas = pd.Series(data=lista_ganancias, index=dias_marzo, name="Ganancias de marzo")
serie_ventas

TypeError: Series.__init__() got an unexpected keyword argument 'freq'

In [201]:
serie_ventas.describe()

count      31.000000
mean     4668.193548
std      2878.728833
min       272.000000
25%      1966.000000
50%      4475.000000
75%      6929.000000
max      9914.000000
Name: Ganancias de marzo, dtype: float64