<img src="logo.png">

# Pandas

Pandas provee dos estructuras de datos: dataframes y series. De hecho Pandas está programado a través de Numpy.

In [None]:
!pip install pandas

In [1]:
import pandas as pd
import numpy as np

## Series

Los objetos instanciado de la clase pandas.Series son de una sola dimensión y pueden ser al ingresar como argumento de data objetos de tipo:

* tuple
* list
* dict
* numpy.ndarray

A las series se les puede asignar un nombre mediante el parametro name.

In [2]:
serie_1 = pd.Series(np.random.rand(8))
serie_1

0    0.749986
1    0.198681
2    0.903852
3    0.110219
4    0.466751
5    0.584781
6    0.803514
7    0.076466
dtype: float64

In [3]:
serie_1 = pd.Series(np.random.rand(8), name = "mi primer serie")
serie_1

0    0.309707
1    0.495301
2    0.138885
3    0.917268
4    0.095179
5    0.004555
6    0.028620
7    0.081304
Name: mi primer serie, dtype: float64

In [4]:
serie_1[4]

0.09517874725266195

In [5]:
# Podemos especificar los valores de los índices

serie_2 = pd.Series(np.random.rand(8),index = range(1,9),name = "Mi segunda serie")
serie_2

1    0.740172
2    0.527188
3    0.993547
4    0.441159
5    0.578086
6    0.483495
7    0.265164
8    0.764398
Name: Mi segunda serie, dtype: float64

In [6]:
# Podemos especificar los valores de los índices mas generalmente

serie_3 = pd.Series(np.random.rand(5),index = [4,6,1,2,8])
serie_3

4    0.482818
6    0.982597
1    0.980303
2    0.781019
8    0.073521
dtype: float64

In [None]:
serie_3[0]

In [8]:
serie_3[4]

0.48281841699556893

In [12]:
serie_4 = pd.Series(np.random.rand(5),index = ["a","a","i","o","u"])
serie_4

a    0.360679
a    0.504459
i    0.547856
o    0.973188
u    0.511415
dtype: float64

In [10]:
serie_4[0]

0.20496391339580133

In [13]:
serie_4["a"]

a    0.360679
a    0.504459
dtype: float64

Incluso los diccionarios se pueden convertir en series

In [15]:
diccionario = {"Nobre":["Héctor","Manuel"],"Apellido":"Garduño"}
pd.Series(diccionario)

Nobre       [Héctor, Manuel]
Apellido             Garduño
dtype: object

Es importante notar que las series son estructuras de datos en una sola dimensión. Si queremos estructuras mas complejas, debemos usar dataframes.

## Dataframes

Los dataframes son similares a un aerreglo en 2 dimensiones de Numpy. Sin embargo, a diferencia de los arreglos de Numpy, no todas las columnas de estos objetos deben de ser necesariamente del mismo tipo.

La clase **pandas.DataFrame** permite crear dataframes a partir de datos que pueden corresponder a:

* Objetos de tipo dict.
* Series objetos tipo tuple.
* Objetos numpy.ndarray (arreglos que contienen sólo números).
* Otros objetos instanciado de pandas.DataFrame.

Dichos datos pueden ser ingresados como argumentos del parámetro data al instanciarlos.

Los dataframes indexan por defecto las columnas y los encabrezados con valores numéricos. Sin embargo, estos pueden ser modificados por el usuario.


In [16]:
pd.DataFrame(data=[(0, 1, 2), (1, 2, 3), (2, 3, 4), (3, 4, 5)])

Unnamed: 0,0,1,2
0,0,1,2
1,1,2,3
2,2,3,4
3,3,4,5


In [18]:
estudiantes = {'Nombre':["Hugo", "Paco", "Luis" ,"Pedro", "Juan", "Pablo"], 
                'Apellido':["López", "Silva", "Oca" , "Ramírez", "Gutiérrez", np.nan], 
                'Matrícula':["123455", "736923", "971298" ,"123098", "987656", "878652"], 
                'Edad':[20, 35, 30 ,25, np.nan, 23]}

In [19]:
pd.DataFrame(estudiantes)

Unnamed: 0,Nombre,Apellido,Matrícula,Edad
0,Hugo,López,123455,20.0
1,Paco,Silva,736923,35.0
2,Luis,Oca,971298,30.0
3,Pedro,Ramírez,123098,25.0
4,Juan,Gutiérrez,987656,
5,Pablo,,878652,23.0


In [20]:
matriz = np.arange(9).reshape(3,3)
matriz

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [21]:
pd.DataFrame(matriz)

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


El parámetro index, permite incluir un índice a cada renglón.

In [22]:
registro = ("1a persona","2a persona","3a persona","4a persona","5a persona","6a persona")

In [23]:
pd.DataFrame(data = estudiantes, index = registro)

Unnamed: 0,Nombre,Apellido,Matrícula,Edad
1a persona,Hugo,López,123455,20.0
2a persona,Paco,Silva,736923,35.0
3a persona,Luis,Oca,971298,30.0
4a persona,Pedro,Ramírez,123098,25.0
5a persona,Juan,Gutiérrez,987656,
6a persona,Pablo,,878652,23.0


El parámetro columns permite nombrar a las columnas.

In [24]:
matriz = np.arange(9).reshape((3,3))

In [25]:
pd.DataFrame(matriz, index=['uno','dos','tres'], columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
uno,0,1,2
dos,3,4,5
tres,6,7,8


In [27]:
pd.DataFrame(
[["Hugo","López",123455,20],
 ["Paco","Silva",736923],
 ["Luis","Oca",971298],
 ["Pedro","Ramírez",123098]    
], columns = ["Nombre","Apellido","Matrícula","Edad"],    
    index = ["Registro 1","Registro 2","Registro 3","Registro 4"]
    
)

Unnamed: 0,Nombre,Apellido,Matrícula,Edad
Registro 1,Hugo,López,123455,20.0
Registro 2,Paco,Silva,736923,35.0
Registro 3,Luis,Oca,971298,
Registro 4,Pedro,Ramírez,123098,


## Acceso a los elementos de un dataframe

Podemos accesar a los elementos de un dataframe mediante las siguientes maneras. Consideremos nuevamente el dataframe anterior:

In [28]:
estudiantes = pd.DataFrame(
[["Hugo","López","123455",20],
 ["Paco","Silva","736923",35],
 ["Luis","Oca","971298"],
 ["Pedro","Ramírez","123098"]    
], index = ["Registro 1","Registro 2","Registro 3","Registro 4"],
    columns = ["Nombre","Apellido","Matrícula","Edad"]
)

estudiantes


Unnamed: 0,Nombre,Apellido,Matrícula,Edad
Registro 1,Hugo,López,123455,20.0
Registro 2,Paco,Silva,736923,35.0
Registro 3,Luis,Oca,971298,
Registro 4,Pedro,Ramírez,123098,


In [30]:
# Acceso a una columna: usando el nombre de los campos

estudiantes["Matrícula"]

Registro 1    123455
Registro 2    736923
Registro 3    971298
Registro 4    123098
Name: Matrícula, dtype: object

In [31]:
# Acceso a varias columnas: usando el nombre de los campos

estudiantes[["Nombre","Edad"]]

Unnamed: 0,Nombre,Edad
Registro 1,Hugo,20.0
Registro 2,Paco,35.0
Registro 3,Luis,
Registro 4,Pedro,


In [32]:
# Acceso a una fila mediante el nombre del ínice del registro

estudiantes.loc[["Registro 2","Registro 4"]]

Unnamed: 0,Nombre,Apellido,Matrícula,Edad
Registro 2,Paco,Silva,736923,35.0
Registro 4,Pedro,Ramírez,123098,


In [33]:
# Acceso a una fila mediante el número del índice del registro

estudiantes.iloc[1]

Nombre         Paco
Apellido      Silva
Matrícula    736923
Edad             35
Name: Registro 2, dtype: object

In [39]:
# Acceso a ciertas columnas y ciertas filas.

estudiantes.loc[["Registro 1","Registro 4"]][["Nombre","Edad"]]

Unnamed: 0,Nombre,Edad
Registro 1,Hugo,20.0
Registro 4,Pedro,


## Operaciones básicas de dataframes

También es posible añadir nuevas columnas a un dataframe utilizando columnas que ya existen.

In [48]:
estudiantes["Nombre completo"] = estudiantes["Nombre"] + " " + estudiantes["Apellido"]
estudiantes

Unnamed: 0,Nombre,Apellido,Matrícula,Edad,Nombre completo
Registro 1,Hugo,López,123455,20.0,Hugo López
Registro 2,Paco,Silva,736923,35.0,Paco Silva
Registro 3,Luis,Oca,971298,,Luis Oca
Registro 4,Pedro,Ramírez,123098,,Pedro Ramírez


In [51]:
# Eliminado de columnas

estudiantes.drop("Nombre completo",axis = 1,inplace = True)
estudiantes

Unnamed: 0,Nombre,Apellido,Matrícula,Edad
Registro 1,Hugo,López,123455,20.0
Registro 2,Paco,Silva,736923,35.0
Registro 3,Luis,Oca,971298,
Registro 4,Pedro,Ramírez,123098,


In [52]:
# Indexar numéricamente los registros

estudiantes.reset_index(inplace = True)
estudiantes

Unnamed: 0,index,Nombre,Apellido,Matrícula,Edad
0,Registro 1,Hugo,López,123455,20.0
1,Registro 2,Paco,Silva,736923,35.0
2,Registro 3,Luis,Oca,971298,
3,Registro 4,Pedro,Ramírez,123098,


In [53]:
# Acceso a ciertas columnas y ciertas filas.

estudiantes.loc[[0,3],["Matrícula","Edad"]]

Unnamed: 0,Matrícula,Edad
0,123455,20.0
3,123098,


In [56]:
# Incluso podemos hacer seleción por filtrado

estudiantes[estudiantes["Edad"] > 20][["index","Edad","Matrícula"]]



Unnamed: 0,index,Edad,Matrícula
1,Registro 2,35.0,736923


In [58]:
# Cambiando los nombres de las columnas

estudiantes.columns = ["Campo 1","Campo 2","Campo 3","Campo 4","Campo 5"]
estudiantes

Unnamed: 0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
0,Registro 1,Hugo,López,123455,20.0
1,Registro 2,Paco,Silva,736923,35.0
2,Registro 3,Luis,Oca,971298,
3,Registro 4,Pedro,Ramírez,123098,


In [59]:
# Cambiando los nombres de las filas

estudiantes.index = estudiantes["Campo 4"]
estudiantes

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
123455,Registro 1,Hugo,López,123455,20.0
736923,Registro 2,Paco,Silva,736923,35.0
971298,Registro 3,Luis,Oca,971298,
123098,Registro 4,Pedro,Ramírez,123098,


In [61]:
# Agregado de una fila

nuevo_elemento = "Registro 5, Helena, González, 888888, 29"
nuevo_elemento.split(",")

estudiantes.loc[888888] = nuevo_elemento.split(",")
estudiantes

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
123455,Registro 1,Hugo,López,123455,20.0
736923,Registro 2,Paco,Silva,736923,35.0
971298,Registro 3,Luis,Oca,971298,
123098,Registro 4,Pedro,Ramírez,123098,
888888,Registro 5,Helena,González,888888,29.0


In [62]:
estudiantes.iloc[-1] 

Campo 1    Registro 5
Campo 2        Helena
Campo 3      González
Campo 4        888888
Campo 5            29
Name: 888888, dtype: object

In [68]:
# Visualizar encabezado y cola

estudiantes.head() #estudiantes.tail(3)

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
123455,Registro 1,Hugo,López,123455,20.0
736923,Registro 2,Paco,Silva,736923,35.0
971298,Registro 3,Luis,Oca,971298,
123098,Registro 4,Pedro,Ramírez,123098,
888888,Registro 5,Helena,González,888888,29.0


In [75]:
estudiantes["Campo 5"] = pd.to_numeric(estudiantes["Campo 5"], downcast = "float")
estudiantes

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
123455,Registro 1,Hugo,López,123455,20.0
736923,Registro 2,Paco,Silva,736923,35.0
971298,Registro 3,Luis,Oca,971298,
123098,Registro 4,Pedro,Ramírez,123098,
888888,Registro 5,Helena,González,888888,29.0


In [76]:
estudiantes["Campo 5"].mean()

28.0

In [77]:
estudiantes["Campo 5"].value_counts()

29.0    1
35.0    1
20.0    1
Name: Campo 5, dtype: int64

In [78]:
estudiantes.loc[777222] = ["Registro 6","José","López","777222",30]
estudiantes

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
123455,Registro 1,Hugo,López,123455,20.0
736923,Registro 2,Paco,Silva,736923,35.0
971298,Registro 3,Luis,Oca,971298,
123098,Registro 4,Pedro,Ramírez,123098,
888888,Registro 5,Helena,González,888888,29.0
777222,Registro 6,José,López,777222,30.0


In [79]:
estudiantes["Campo 3"].value_counts()

López        2
Ramírez      1
 González    1
Silva        1
Oca          1
Name: Campo 3, dtype: int64

In [82]:
estudiantes.sort_values(by = "Campo 5",inplace = True, ascending=False)
estudiantes

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
736923,Registro 2,Paco,Silva,736923,35.0
777222,Registro 6,José,López,777222,30.0
888888,Registro 5,Helena,González,888888,29.0
123455,Registro 1,Hugo,López,123455,20.0
971298,Registro 3,Luis,Oca,971298,
123098,Registro 4,Pedro,Ramírez,123098,


In [83]:
edad_media = estudiantes["Campo 5"].mean()
int(edad_media)

28

In [84]:
estudiantes["Campo 5"].fillna(int(edad_media),inplace = True)
estudiantes

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
736923,Registro 2,Paco,Silva,736923,35.0
777222,Registro 6,José,López,777222,30.0
888888,Registro 5,Helena,González,888888,29.0
123455,Registro 1,Hugo,López,123455,20.0
971298,Registro 3,Luis,Oca,971298,28.0
123098,Registro 4,Pedro,Ramírez,123098,28.0


In [85]:
estudiantes.sort_index(ascending = True,inplace = True)
estudiantes

TypeError: '<' not supported between instances of 'int' and 'str'

In [86]:
estudiantes.sort_values(by = ["Campo 3","Campo 5"],ascending = [True,False],inplace = True)
estudiantes

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
888888,Registro 5,Helena,González,888888,29.0
777222,Registro 6,José,López,777222,30.0
123455,Registro 1,Hugo,López,123455,20.0
971298,Registro 3,Luis,Oca,971298,28.0
123098,Registro 4,Pedro,Ramírez,123098,28.0
736923,Registro 2,Paco,Silva,736923,35.0


In [87]:
estudiantes[estudiantes["Campo 3"] == "López"]

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
777222,Registro 6,José,López,777222,30.0
123455,Registro 1,Hugo,López,123455,20.0


In [88]:
estudiantes["Campo 2"] = estudiantes["Campo 2"].str.upper()
estudiantes

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
888888,Registro 5,HELENA,González,888888,29.0
777222,Registro 6,JOSÉ,López,777222,30.0
123455,Registro 1,HUGO,López,123455,20.0
971298,Registro 3,LUIS,Oca,971298,28.0
123098,Registro 4,PEDRO,Ramírez,123098,28.0
736923,Registro 2,PACO,Silva,736923,35.0


In [89]:
estudiantes["Campo 4"].str.len()

Campo 4
888888    7
777222    6
123455    6
971298    6
123098    6
736923    6
Name: Campo 4, dtype: int64

In [90]:
estudiantes.loc["536271"] = ["Registro 7","Luisa","González","536271",23]
estudiantes["Estado"] = ["Activo","Baja","Baja","Graduado","Activo","Activo","Baja"]

estudiantes

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5,Estado
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
888888,Registro 5,HELENA,González,888888,29.0,Activo
777222,Registro 6,JOSÉ,López,777222,30.0,Baja
123455,Registro 1,HUGO,López,123455,20.0,Baja
971298,Registro 3,LUIS,Oca,971298,28.0,Graduado
123098,Registro 4,PEDRO,Ramírez,123098,28.0,Activo
736923,Registro 2,PACO,Silva,736923,35.0,Activo
536271,Registro 7,Luisa,González,536271,23.0,Baja


In [91]:
pd.get_dummies(estudiantes["Estado"])

Unnamed: 0_level_0,Activo,Baja,Graduado
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
888888,1,0,0
777222,0,1,0
123455,0,1,0
971298,0,0,1
123098,1,0,0
736923,1,0,0
536271,0,1,0


In [92]:
Frame = pd.concat([estudiantes,pd.get_dummies(estudiantes["Estado"])],axis = 1)
Frame

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5,Estado,Activo,Baja,Graduado
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
888888,Registro 5,HELENA,González,888888,29.0,Activo,1,0,0
777222,Registro 6,JOSÉ,López,777222,30.0,Baja,0,1,0
123455,Registro 1,HUGO,López,123455,20.0,Baja,0,1,0
971298,Registro 3,LUIS,Oca,971298,28.0,Graduado,0,0,1
123098,Registro 4,PEDRO,Ramírez,123098,28.0,Activo,1,0,0
736923,Registro 2,PACO,Silva,736923,35.0,Activo,1,0,0
536271,Registro 7,Luisa,González,536271,23.0,Baja,0,1,0


In [93]:
Frame["Fac"] = [4,3,1,4,5,1,8]
Frame["Sexo"] = ["0","1","1","1","1","1","0"]
Frame

Unnamed: 0_level_0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5,Estado,Activo,Baja,Graduado,Fac,Sexo
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
888888,Registro 5,HELENA,González,888888,29.0,Activo,1,0,0,4,0
777222,Registro 6,JOSÉ,López,777222,30.0,Baja,0,1,0,3,1
123455,Registro 1,HUGO,López,123455,20.0,Baja,0,1,0,1,1
971298,Registro 3,LUIS,Oca,971298,28.0,Graduado,0,0,1,4,1
123098,Registro 4,PEDRO,Ramírez,123098,28.0,Activo,1,0,0,5,1
736923,Registro 2,PACO,Silva,736923,35.0,Activo,1,0,0,1,1
536271,Registro 7,Luisa,González,536271,23.0,Baja,0,1,0,8,0


In [94]:
Frame.groupby('Estado')["Fac"].sum() # En R es tapply(Frame$Fac,Frame$Estado,sum)


Estado
Activo      10
Baja        12
Graduado     4
Name: Fac, dtype: int64

In [95]:
Frame.groupby(['Estado',"Sexo"])["Fac"].sum() # En R es tapply(Frame$Fac,list(Frame$Estado,Frame$Sexo),sum)

Estado    Sexo
Activo    0       4
          1       6
Baja      0       8
          1       4
Graduado  1       4
Name: Fac, dtype: int64

In [96]:
Frame.groupby(["Estado","Sexo"])["Fac"].sum()["Activo","0"]

4

In [99]:
Frame.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, 888888 to 536271
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Campo 1   7 non-null      object 
 1   Campo 2   7 non-null      object 
 2   Campo 3   7 non-null      object 
 3   Campo 4   7 non-null      object 
 4   Campo 5   7 non-null      float64
 5   Estado    7 non-null      object 
 6   Activo    7 non-null      uint8  
 7   Baja      7 non-null      uint8  
 8   Graduado  7 non-null      uint8  
 9   Fac       7 non-null      int64  
 10  Sexo      7 non-null      object 
dtypes: float64(1), int64(1), object(6), uint8(3)
memory usage: 525.0+ bytes
