In [2]:
# Pandas: Inspirado en los dataframes 
import pandas as pd
import numpy as np

In [3]:
# Creación de una serie
serie1 = pd.Series(["Male","Female","Male","Male","Female","Female"])
print(serie1)

0      Male
1    Female
2      Male
3      Male
4    Female
5    Female
dtype: object


In [22]:
# Creación de una serie a partir de un array de NumPy
arrayNp = np.array(["Male","Female","Male","Male","Female","Female"])
serie2 = pd.Series(arrayNp)
print(serie2, end="\n\n")
print(serie2.index)

0      Male
1    Female
2      Male
3      Male
4    Female
5    Female
dtype: object

RangeIndex(start=0, stop=6, step=1)


In [64]:
# Creación de una Serie con los índices que queramos
serie = pd.Series([0,10,20,30,40], index=['a','b','c','d', 'e'])
print(serie)

a     0
b    10
c    20
d    30
e    40
dtype: int64


In [65]:
# Podemos hacer slicing de esa serie
print(serie[1:3])

b    10
c    20
dtype: int64


In [None]:
# Si sumamos, multiplicamos o dividimos 2 series distintas de pandas se crea una nueva serie resultante (solo con integers)
# Se pueden sumar dos series de pandas con integers, la serie de panda resultante será la concatenación de ambas
# Si sumamos dos series de pandas de bool, el True se interpretará como 1 y el False como 0 y se hará la operación matematica

In [70]:
serieP= pd.Series([1,1,2,1])

# Podemos calcular la suma todos los valores de una serie:
print(serieP.sum())

# Podemos calcular el promedio
print(serieP.mean())

# Podemos calcular la mediana
print(serieP.median())

# Podemos calcular el máximo
print(serieP.max())

# Podemos calcular el mínimo
print(serieP.min())

# Podemos calcular la desviación estandar
print(serieP.std(), end="\n\n")

# Podemos ordenar los valores
print(serieP.sort_values())

5
1.25
1.0
2
1
0.5

0    1
1    1
3    1
2    2
dtype: int64


In [77]:
# Podemos aplicarle funciones a las series
serieP = pd.Series([10,20,30])
funcionSuma5 = lambda x: x+5

serieP = serieP.apply(funcionSuma5)
print(serieP, end="\n\n")

print("También funcionaría así:", end="\n\n")

serieP = serieP.apply(lambda x: x+5)
print(serieP)


0    15
1    25
2    35
dtype: int64

También funcionaría así:

0    20
1    30
2    40
dtype: int64


In [18]:
# Creación de una serie a partir de un diccionario. Peculiaridad los indices no serán por defecto los numericos sino que seran la "key" del diccionario
diccionario = { "Female": 3, "Male": 5}
serie3 = pd.Series(diccionario)
print(f"serie a partir del diccionario \n{serie3}", end="\n\n")
print(f"índices de la serie: \n{serie3.index}", end="\n\n")
print(f"valores de la serie: \n{serie3.values}")


serie a partir del diccionario 
Female    3
Male      5
dtype: int64

índices de la serie: 
Index(['Female', 'Male'], dtype='object')

valores de la serie: 
[3 5]


In [41]:
# Cuando recibes una tabla con información para pasarla a panda primero debes de convertirla en un diccionario
info = {
    "nombres": ["Braund", "Allen", "Bonnel"],
    "edad": [22,35,58],
    "genero": ["Male", "Male", "Female"]
}

pandaInfo = pd.Series(info)
print(pandaInfo)

print("----------")

# Si queremos visualizarlo en modo de tabla deberemos de llamar al DataFrame
# Cada una de las columnas del DataFrame será un "Series"
pandaInfo = pd.DataFrame(info)
print(pandaInfo)
pandaInfo.name = "info_personas"
print()
pandaInfo

nombres    [Braund, Allen, Bonnel]
edad                  [22, 35, 58]
genero        [Male, Male, Female]
dtype: object
----------
  nombres  edad  genero
0  Braund    22    Male
1   Allen    35    Male
2  Bonnel    58  Female



Unnamed: 0,nombres,edad,genero
0,Braund,22,Male
1,Allen,35,Male
2,Bonnel,58,Female


In [40]:
# Podemos acceder a las series del DataFrame a través de su "key/columnName"
print(pandaInfo["nombres"])

0    Braund
1     Allen
2    Bonnel
Name: nombres, dtype: object


In [34]:
# Podemos acceder la primer nombre del DataFrame de la siguiente manera:
print(pandaInfo["nombres"][0])

Braund


In [38]:
# En un Dataframes podemos acceder a columns que es similar a "index" en las "Series"
print(pandaInfo.columns)
print()
print(pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]]).columns)

Index(['nombres', 'edad', 'genero'], dtype='object')

RangeIndex(start=0, stop=3, step=1)


In [56]:
# Podemos ordenar la información del DataFrame por índice o por valores
print(f"Por valores:\n{pandaInfo.sort_values(by='nombres', ascending=False)}", end="\n\n")

print(f"Por índice:\n{pandaInfo.sort_index(ascending=False)}")



Por valores:
  nombres  edad  genero
0  Braund    22    Male
2  Bonnel    58  Female
1   Allen    35    Male

Por índice:
  nombres  edad  genero
2  Bonnel    58  Female
1   Allen    35    Male
0  Braund    22    Male


In [62]:
# Podemos hacer que de una serie de DataFrame nos saque los valores únicos
print(pandaInfo["nombres"].unique(), end="\n\n")
# Podemos hacer que nos saque el número de valores únicos
print(pandaInfo["nombres"].nunique(), end="\n\n")
# Podemos hacer que nos cuente la cantidad de valores de una serie
print(pandaInfo["nombres"].value_counts(), end="\n\n")

['Braund' 'Allen' 'Bonnel']

3

nombres
Braund    1
Allen     1
Bonnel    1
Name: count, dtype: int64



In [None]:
# Lectura de ficheros: pd.read_csv('data_iris.csv')

In [80]:
datos = {
    "nombres": ["Jake", "Jennifer", "Paul", "Andrew"],
    "edad": [24,21,25,29],
    "genero": ["M","F","M","M"],
}

datosDataFrame = pd.DataFrame(datos)
datosDataFrame

Unnamed: 0,nombres,edad,genero
0,Jake,24,M
1,Jennifer,21,F
2,Paul,25,M
3,Andrew,29,M


In [81]:
# Devuelve las primeras filas del dataframe
datosDataFrame.head()

Unnamed: 0,nombres,edad,genero
0,Jake,24,M
1,Jennifer,21,F
2,Paul,25,M
3,Andrew,29,M


In [82]:
datosDataFrame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   nombres  4 non-null      object
 1   edad     4 non-null      int64 
 2   genero   4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes


In [83]:
# Últimas filas del dataframe
datosDataFrame.tail()

Unnamed: 0,nombres,edad,genero
0,Jake,24,M
1,Jennifer,21,F
2,Paul,25,M
3,Andrew,29,M


In [85]:
# Vamos a intentar hacer un renombre de las columnas
datosDataFrame.columns=["nombresMeh", "La edad es un num", "generoOk"]
datosDataFrame


Unnamed: 0,nombresMeh,La edad es un num,generoOk
0,Jake,24,M
1,Jennifer,21,F
2,Paul,25,M
3,Andrew,29,M


In [86]:
# Podemos coger un subconjunto del dataframe
print(datosDataFrame[["generoOk", "nombresMeh"]])

  generoOk nombresMeh
0        M       Jake
1        F   Jennifer
2        M       Paul
3        M     Andrew


In [88]:
# Podemos renombrar los indices de la siguiente manera:
datosDataFrame.rename(index={0:10})


Unnamed: 0,nombresMeh,La edad es un num,generoOk
10,Jake,24,M
1,Jennifer,21,F
2,Paul,25,M
3,Andrew,29,M


In [90]:
# Cuando se usa inplace=True, la operación modifica el objeto original directamente en lugar de devolver una nueva copia con los cambios.
# Si la operación de antes hubiese sido: datosDataFrame.rename(index={0:10}, inplace=True) se hubiese modificado
# Si no hubiesemos querido utilizar inplace hubiesemos podido reasignar la variable: datosDataFrame = datosDataFrame.rename(index={0:10}) 
datosDataFrame

Unnamed: 0,nombresMeh,La edad es un num,generoOk
0,Jake,24,M
1,Jennifer,21,F
2,Paul,25,M
3,Andrew,29,M


In [93]:
# igual que con index, podemos hacer columns
datosDataFrame.rename(columns={"nombresMeh":"CasiMiroNoSeJaJa"})

Unnamed: 0,CasiMiroNoSeJaJa,La edad es un num,generoOk
0,Jake,24,M
1,Jennifer,21,F
2,Paul,25,M
3,Andrew,29,M
