# PANDAS

Librería especializada en la manipulación y el análisis de datos.

Permite trabajar con datos estructurados (organizados en tablas).

En Pandas hay dos objetos:

- Serie: estructura de una dimensión
- Dataframe: estructura de dos dimensiones (tablas)

La mayoría de los métodos y funciones son compatibles entre series y dataframes.

Asimismo, nos permite trabajar con diferentes tipos de archivos (.csv, .txt, .xlsx, .json) como así también leer archivos que se encuentran en la web.

## Ejercicio 1.0

Instalamos e importamos la librería.

In [28]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [29]:
!python.exe -m pip install --upgrade pip



In [30]:
#especificamos la versión a instalar
%pip install pandas==2.2.2




In [3]:
import pandas as pd #importamos la librería con el alias ps
import numpy as np #importamos la librería numpy con el alias np

## SERIES

Las series nos permiten reprensentar informacion en forma de columnas.

info: https://pandas.pydata.org/docs/reference/series.html

### Ejercicio 1.1

Creación de series.

`pd.Serie()`

La serie quedará formada de la siguiente manera:

_Indice_de_la_fila     Valor_

[datos]

_Tipo de dato_

In [32]:
lista_numerica = [1, 3, 10, 22] #creo una lista numérica

serie_numerica = pd.Series(lista_numerica) #la convierto en una serie


print(lista_numerica)
print("-----------------")
#indice_de_fila  valor
#tipo de dato
print(serie_numerica)


[1, 3, 10, 22]
-----------------
0     1
1     3
2    10
3    22
dtype: int64


In [33]:
lista_colores = ["blanco", "rojo", "azul", "rosa"]
serie_colores = pd.Series(lista_colores)
print(serie_colores)

0    blanco
1      rojo
2      azul
3      rosa
dtype: object


In [34]:
lista_booleana = [True, False, True, True, False]
serie_booleana = pd.Series(lista_booleana)
print(serie_booleana)

0     True
1    False
2     True
3     True
4    False
dtype: bool


In [35]:
array = np.array([1, 5, 10, 33, 100])

serie_array = pd.Series(array) #de array de numpy a serie de pandas
print(serie_array)

0      1
1      5
2     10
3     33
4    100
dtype: int32


### Ejercicio 1.2

Cuando creo una serie puedo castear el tipo de dato en una sola linea de código.

In [36]:
lista_dni = [1111111, 12345678, 34567890, 45678123]

serie_dni = pd.Series(lista_dni, dtype="string")
print(serie_dni)

0     1111111
1    12345678
2    34567890
3    45678123
dtype: string


In [37]:
serie_bool = pd.Series([True, False, True, True, False], dtype="boolean")
print(serie_bool)

0     True
1    False
2     True
3     True
4    False
dtype: boolean


### Ejercicio 1.3

Puedo indicar el índice a una serie.

`index`

In [38]:
lista_alumnos = ["sebastian", "sofia", "miguel", "florencia", "victor"]
lista_nota_final = [10, 9, 3, 5, 6]

serie_nota_alumnos = pd.Series(lista_nota_final, index=lista_alumnos) #los indices representan info (un id)
print(serie_nota_alumnos)

sebastian    10
sofia         9
miguel        3
florencia     5
victor        6
dtype: int64


In [39]:
lista_matricula_pago = [True, True, False, False, True]
serie_matricula_alumnos = pd.Series(lista_matricula_pago, index=lista_alumnos)
print(serie_matricula_alumnos)

sebastian     True
sofia         True
miguel       False
florencia    False
victor        True
dtype: bool


### Ejercicio 1.4

Podemos extraer la información de un diccionario y convertirlo en una Serie.


In [40]:
diccionario_salario = {
    "andres" : 1000,
    "sofia" : 7420,
    "miguel" : 2940,
    "victor" : 7480,
    "melina": 6514
}

serie_salarios = pd.Series(diccionario_salario, name="Salarios empleados")
print(serie_salarios)


andres    1000
sofia     7420
miguel    2940
victor    7480
melina    6514
Name: Salarios empleados, dtype: int64


### Ejercicio 1.5

Series a partir de números random.

In [4]:
rng = np.random.default_rng() #se crea una serie con números aleatorios

In [42]:
print(rng)

Generator(PCG64)


In [8]:
lista_alumnos = ["sebastian", "sofia", "miguel", "florencia", "victor", "eva", "macarena", "pedro", "estevan", "sonia"]

serie_promedios = pd.Series(data=rng.integers(1, 11, len(lista_alumnos)),index=lista_alumnos, name="Promedio alumnos") #rng.integers(valor_min, valor_max, tamaño)

In [9]:
print(serie_promedios)

sebastian     9
sofia        10
miguel        7
florencia     3
victor        2
eva           3
macarena      9
pedro         4
estevan       1
sonia         8
Name: Promedio alumnos, dtype: int64


## METODOS Y FUNCIONES EN SERIES

### Ejercicio 1.6

Si queremos ver el tamaño de una serie

`len(nombre_serie)`

In [10]:
len(serie_promedios) #cantidad de elementos totales, se basa en las apariciones de índices

10

Si queremos ver la cantidad de elementos de una serie (no nulos)

`nombre_serie.count()`

In [11]:
serie_promedios.count() #contar la cantidad de elementos

10

Si queremos ver la forma de la serie.

`nombre_serie.shape` (filas, columnas)

In [13]:
serie_promedios.shape 

(10,)

Si queremos ver el tipo de elementos que guarda la serie.

`nombre_serie.dtype`

In [16]:
serie_promedios.dtype

dtype('int64')

### Ejercicio 1.7

Si quiero recortar los primeros n elementos de mi lista:

`nombre_serie.head(n)`

Si quiero recortar los últimos n elementos de mi lista:

`nombre_serie.tail(n)`

In [18]:
serie_mil = pd.Series(rng.integers(1,11,1000)) #serie con 1000 elementos

print(serie_mil)

0       1
1       9
2       9
3       8
4       8
       ..
995    10
996     8
997     7
998     1
999     2
Length: 1000, dtype: int64


In [19]:
serie_mil.head() #5 es el valor por default

0    1
1    9
2    9
3    8
4    8
dtype: int64

In [20]:
serie_mil.tail(20)

980    10
981     8
982     6
983     6
984     3
985     4
986     2
987     6
988    10
989     9
990     7
991     2
992     2
993    10
994     8
995    10
996     8
997     7
998     1
999     2
dtype: int64