<img src = "img/images.png" style="height:85px;">

<div style="text-align:center">
    Enero 20, 2025

 # Pandas 
    
    
<img src ="img/Python-Logo.jpg" style="height:355px;">
    
</div>

*Esteban Sánchez*

## 1. Pandas

- Librería estándar de Python para datos tabulares.
- Ofrece dos estructuras: Series (1-D) y DataFrame (2-D).

In [1]:
import pandas as pd
from pandas import Series, DataFrame

In [2]:
pd.__version__

'2.3.3'

## 2. Series
- Vector + índice personalizable.
- Se comporta como array de NumPy y como diccionario: se accede por posición o por etiqueta, se puede iterar, filtrar con mascaras, aplicar funciones de NumPy y castear a lista, array o dict.
- Operaciones aritméticas alinean los índices; falta de coincidencia → NaN.

In [3]:
paises = pd.Series(['España' , 'Andorra' , 'Gibraltar' , 'Portugal' , 'Francia'])
print(paises)

0       España
1      Andorra
2    Gibraltar
3     Portugal
4      Francia
dtype: object


In [4]:
paises = pd.Series(['España' , 'Andorra' , 'Gibraltar' , 'Portugal' , 'Francia'],
                  index = range(10,60,10))
print(paises)

10       España
20      Andorra
30    Gibraltar
40     Portugal
50      Francia
dtype: object


In [26]:
ciudades = pd.Series(['Barcelona' , 'Madrid' , 'Valencia' , 'Sevilla'] , 
                    index =['a', 'b' , 'c' , 'd'])  #Especificando el indice
print(ciudades)

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object


In [27]:
ciudades.name = 'Ciudades con 2 equipos en primera división' #Nombre de Serie

ciudades.index.name = 'ID' #Nombre de la columna de indices 

print(ciudades)

ID
a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
Name: Ciudades con 2 equipos en primera división, dtype: object


In [28]:
print (ciudades[2])
print (ciudades['c'])
print (ciudades['c'] == ciudades[2])

Valencia
Valencia
True


  print (ciudades[2])
  print (ciudades['c'] == ciudades[2])


## 3. Comportamiento similar a ndarray

In [29]:
print(ciudades[ ['a','c'] ])
print(ciudades[ [0,3] ])

ID
a    Barcelona
c     Valencia
Name: Ciudades con 2 equipos en primera división, dtype: object
ID
a    Barcelona
d      Sevilla
Name: Ciudades con 2 equipos en primera división, dtype: object


  print(ciudades[ [0,3] ])


In [30]:
print(ciudades [:'c']) # incluye ambos extremos con el indice semantico
print(ciudades [:2])

ID
a    Barcelona
b       Madrid
c     Valencia
Name: Ciudades con 2 equipos en primera división, dtype: object
ID
a    Barcelona
b       Madrid
Name: Ciudades con 2 equipos en primera división, dtype: object


In [31]:
lista = list(ciudades[:'c'])

print(lista)
print(type(lista))

['Barcelona', 'Madrid', 'Valencia']
<class 'list'>


In [32]:
type(ciudades[:'c'])

pandas.core.series.Series

In [33]:
import numpy as np

ciudades_2 = np.array(ciudades[:'c'])
print(ciudades_2)
print(type(ciudades_2))

['Barcelona' 'Madrid' 'Valencia']
<class 'numpy.ndarray'>


In [34]:
lista = dict(ciudades[:'c'])
print(lista)

{'a': 'Barcelona', 'b': 'Madrid', 'c': 'Valencia'}


In [35]:
#uso de mask

fibonacci = pd.Series ([0,1,1,2,3,5,8,13,21])

print(fibonacci)

mask = fibonacci > 10
print(mask)
print(fibonacci[mask])

dst = pd.Series([13,21])

print(dst)
dst.equals(fibonacci)

fb = fibonacci[mask]

fb.reset_index(drop=True, inplace=True)

print(fb)

dst.equals(fb)

0     0
1     1
2     1
3     2
4     3
5     5
6     8
7    13
8    21
dtype: int64
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool
7    13
8    21
dtype: int64
0    13
1    21
dtype: int64
0    13
1    21
dtype: int64


True

In [36]:
import numpy as np 

print(np.sum(fibonacci))

54


In [37]:
#filtrar con np.where

distancias =pd.Series ([12.1,np.nan, 12.8,76.9,6.1,7.2])

distancias_validas = np.where(pd.notnull(distancias) , distancias,2)

print(distancias_validas)
print(type(distancias_validas))

[12.1  2.  12.8 76.9  6.1  7.2]
<class 'numpy.ndarray'>


#### 3.0.1 Iteración

In [38]:
#iteracion sobre elemento

for value in fibonacci :
    print('Valor: ' + str(value))
for index in fibonacci.index:
    print('Indice: ' + str(index)) 

Valor: 0
Valor: 1
Valor: 1
Valor: 2
Valor: 3
Valor: 5
Valor: 8
Valor: 13
Valor: 21
Indice: 0
Indice: 1
Indice: 2
Indice: 3
Indice: 4
Indice: 5
Indice: 6
Indice: 7
Indice: 8


In [42]:
for index , value in fibonacci.items():
    print('Índice:' + str(index) + ' Valor:' + str(value))

Índice:0 Valor:0
Índice:1 Valor:1
Índice:2 Valor:1
Índice:3 Valor:2
Índice:4 Valor:3
Índice:5 Valor:5
Índice:6 Valor:8
Índice:7 Valor:13
Índice:8 Valor:21


In [43]:
for index , value in zip(fibonacci.index , fibonacci):
    print('Índice:' + str(index) + ' Valor:' + str(value))

Índice:0 Valor:0
Índice:1 Valor:1
Índice:2 Valor:1
Índice:3 Valor:2
Índice:4 Valor:3
Índice:5 Valor:5
Índice:6 Valor:8
Índice:7 Valor:13
Índice:8 Valor:21


### 3.1 Series como diccionarios

- Interpreta al índice como clave
- Acepta operaciones para diccionarios

In [44]:
# crear una serie a partir de un diccionario

serie = pd.Series({'Carlos' : 100 , 'Marcos' : 98})

print(serie.index)
print(serie.values)

print(serie)
print(type(serie))

Index(['Carlos', 'Marcos'], dtype='object')
[100  98]
Carlos    100
Marcos     98
dtype: int64
<class 'pandas.core.series.Series'>


In [45]:
serie['Pedro'] = 12
serie ['Pedro'] = 15
del serie['Marcos']
print(serie)

Carlos    100
Pedro      15
dtype: int64


### 3.2 Operaciones entre series

In [47]:
# suma de 2 series

#suma de valores con el mismo indice (NaN no aparece en ambas)
serie1 = pd.Series([10,20,30,40] , index =range(4) )
serie2 = pd.Series([1,2,3] , index =range(3) )

suma = serie1+ serie2
print(suma)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


In [48]:
print(serie1-serie2)

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64


In [52]:
result = serie1 + serie2

result[pd.isnull(result)] = 0 #mask con `isnull`
print(result)

0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64


#### 3.2.1 Diferencias entre Pandas Series y diccionarios
- Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
-  Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
-  Series, es más eficiente para ciertas operaciones que los dicionarios.
-  En las Series los valores de entrada pueden ser listas o Numpy arrays.
-  En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
-  Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión

## 4. DataFrame
- Datos Tabulares (Fila x Columna)
- Columnas: Series con índices compartidos

In [54]:
#añadir columnas

diccionario = {'Nombre' : ['Maria' , 'Laura' , 'Manuel'] ,
              "Edad" : [34,29,12] }
frame = pd.DataFrame (diccionario, index = ['a', 'b' , 'c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Maria,34
b,Laura,29
c,Manuel,12


In [56]:
#ademas de 'index' el parametro 'columns' especifica el numero y orden de las columnas
frame = pd.DataFrame(diccionario , columns =['Nacionalidad' , 'Nombre' , 'Edad' , 'Profesion' , 'Genero'])
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Genero
0,,Maria,34,,
1,,Laura,29,,
2,,Manuel,12,,


In [59]:
#acceso a las columnas

nombres = frame['Nombre']
display(nombres)
print(type(nombres))

edad = frame ['Edad']
display(edad)
print(type(edad))

0     Maria
1     Laura
2    Manuel
Name: Nombre, dtype: object

<class 'pandas.core.series.Series'>


0    34
1    29
2    12
Name: Edad, dtype: int64

<class 'pandas.core.series.Series'>


In [60]:
#siempre y cuando el nombre de la columna lo permita (espacios, ...=

nombres = frame.Profesion
display(nombres)
type(nombres)

0    NaN
1    NaN
2    NaN
Name: Profesion, dtype: object

pandas.core.series.Series

In [61]:
print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

Maria
Maria
nan


#### 4.0.1 Formas de crear un DataFrame

- Serie de pandas
- Lista de diccionarios
- Diccionario de Serie Pandas
- Con un array de Numpy bidimensional
- Con un array de NumPy

### 4.1 Modificar un DataFrame

In [64]:
# añadir columnas
diccionario = {"Nombre" : ["Maria" , "Laura" , "Daniel"] ,
              "Edad" : [34,29,12]}
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad' , 'Nombre' , 'Edad' , 'Profesion' , 'Direccion'])
frame ['Direccion'] = 'Desconocida'
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Maria,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Daniel,12,,Desconocida


In [65]:
lista_direcciones = ['Rue 13 del Percebe, 13', 'Evergreen Terrace, 3', 'Av de los Rombos, 12']

In [66]:
frame['Direccion'] = lista_direcciones

display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Maria,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Daniel,12,,"Av de los Rombos, 12"


In [67]:
#añadir una fila
user_2  = ['Alemania' , 'Klaus' , 20, 'none' , 'Desconocida']

frame.loc[3] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Maria,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Daniel,12,,"Av de los Rombos, 12"
3,Alemania,Klaus,20,none,Desconocida


In [68]:
frame = pd.DataFrame(diccionario , columns =['Nacionalidad' , 'Nombre' , 'Edad',  'Profesion'])

frame = frame.drop(2)
display(frame)

frame.drop('Nombre' , axis=1, inplace=True)
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Maria,34,
1,,Laura,29,


Unnamed: 0,Nacionalidad,Edad,Profesion
0,,34,
1,,29,


In [69]:
#elimiar columna

del frame['Profesion']
display(frame)

Unnamed: 0,Nacionalidad,Edad
0,,34
1,,29


In [70]:
display(frame.T)

Unnamed: 0,0,1
Nacionalidad,,
Edad,34.0,29.0


### 4.2 Iteración

In [71]:
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad' , 'Nombre' , 'Edad' , 'Profesion'])
display(frame)

for a in frame :
    print(a)
    print(type(a))

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Maria,34,
1,,Laura,29,
2,,Daniel,12,


Nacionalidad
<class 'str'>
Nombre
<class 'str'>
Edad
<class 'str'>
Profesion
<class 'str'>


In [73]:
# iteracion sobre filas
for value in frame.values:
    print(value)
    print(type(value))

[nan 'Maria' 34 nan]
<class 'numpy.ndarray'>
[nan 'Laura' 29 nan]
<class 'numpy.ndarray'>
[nan 'Daniel' 12 nan]
<class 'numpy.ndarray'>


In [74]:
# iterar sobre filas y leugo sobre cada valor
for values in frame.values:
    for value in values:
        print(value)

nan
Maria
34
nan
nan
Laura
29
nan
nan
Daniel
12
nan


Repositorio en GitHub: https://github.com/EstebanSan140106/machine-2.git