<img src="logo.png">

# Pandas

Pandas provee dos estructuras de datos: dataframes y series. De hecho Pandas está programado a través de Numpy.

In [1]:
import pandas as pd
import numpy as np

## Series

Los objetos instanciado de la clase pandas.Series son de una sola dimensión y pueden ser al ingresar como argumento de data objetos de tipo:

* tuple
* list
* dict
* numpy.ndarray

A las series se les puede asignar un nombre mediante el parametro name.

In [18]:
np.random.seed(2022)
np.random.rand(8)

array([0.00935861, 0.49905781, 0.11338369, 0.04997402, 0.68540759,
       0.48698807, 0.89765723, 0.64745207])

In [17]:
np.random.seed(2022)
serie_1 = pd.Series(np.random.rand(8))
serie_1

0    0.009359
1    0.499058
2    0.113384
3    0.049974
4    0.685408
5    0.486988
6    0.897657
7    0.647452
dtype: float64

In [23]:
np.random.seed(2022)
serie_1 = pd.Series(np.random.rand(8), name = "mi_primer_serie")
serie_1

0    0.009359
1    0.499058
2    0.113384
3    0.049974
4    0.685408
5    0.486988
6    0.897657
7    0.647452
Name: mi_primer_serie, dtype: float64

In [25]:
serie_1[4]

0.6854075942430917

In [30]:
# Podemos especificar los valores de los índices
np.random.seed(2022)
serie_2 = pd.Series(np.random.rand(8),index = range(1,9),name = "Mi_segunda_serie")
serie_2

1    0.009359
2    0.499058
3    0.113384
4    0.049974
5    0.685408
6    0.486988
7    0.897657
8    0.647452
Name: Mi_segunda_serie, dtype: float64

In [31]:
# Podemos especificar los valores de los índices mas generalmente
np.random.seed(2022)
serie_3 = pd.Series(np.random.rand(5),index = [4,6,1,2,8])
serie_3

4    0.009359
6    0.499058
1    0.113384
2    0.049974
8    0.685408
dtype: float64

In [None]:
serie_3[0]

In [34]:
serie_3[4]

0.009358613807764704

In [36]:
serie_4 = pd.Series(np.random.rand(5),index = ["a","a","i","o","u"])
serie_4

a    0.486988
a    0.897657
i    0.647452
o    0.896963
u    0.721135
dtype: float64

In [39]:
serie_4[0]

0.4869880682157304

In [40]:
serie_4["a"]

a    0.486988
a    0.897657
dtype: float64

Incluso los diccionarios se pueden convertir en series

In [43]:
diccionario = {"Nombre":["Héctor","Manuel"],"Apellido":"Garduño"}
pd.Series(diccionario)

Nombre      [Héctor, Manuel]
Apellido             Garduño
dtype: object

Es importante notar que las series son estructuras de datos en una sola dimensión. Si queremos estructuras mas complejas, debemos usar dataframes.

## Dataframes

Los dataframes son similares a un aerreglo en 2 dimensiones de Numpy. Sin embargo, a diferencia de los arreglos de Numpy, no todas las columnas de estos objetos deben de ser necesariamente del mismo tipo.

La clase **pandas.DataFrame** permite crear dataframes a partir de datos que pueden corresponder a:

* Objetos de tipo dict.
* Series objetos tipo tuple.
* Objetos numpy.ndarray (arreglos que contienen sólo números).
* Otros objetos instanciado de pandas.DataFrame.

Dichos datos pueden ser ingresados como argumentos del parámetro data al instanciarlos.

Los dataframes indexan por defecto las columnas y los encabrezados con valores numéricos. Sin embargo, estos pueden ser modificados por el usuario.


In [47]:
pd.DataFrame(data=[(0, 8, 21), (1, 2, 3), (2, 3, 4), (3, 4, 5)])

Unnamed: 0,0,1,2
0,0,8,21
1,1,2,3
2,2,3,4
3,3,4,5


In [2]:
estudiantes = {'Nombre':["Hugo", "Paco", "Luis" ,"Pedro", "Juan", "Pablo"], 
                'Apellido':["López", "Silva", "Oca" , "Ramírez", "Gutiérrez", np.nan ], 
                'Matrícula':["123455", "736923", "971298" ,"123098", "987656", "878652"], 
                'Edad':[20, 35, 30 ,25, np.nan,23]}

In [3]:
pd.DataFrame(estudiantes)

Unnamed: 0,Nombre,Apellido,Matrícula,Edad
0,Hugo,López,123455,20.0
1,Paco,Silva,736923,35.0
2,Luis,Oca,971298,30.0
3,Pedro,Ramírez,123098,25.0
4,Juan,Gutiérrez,987656,
5,Pablo,,878652,23.0


In [4]:
matriz = np.arange(9).reshape(3,3)
matriz

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [63]:
pd.DataFrame(matriz)

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


El parámetro index, permite incluir un índice a cada renglón.

In [6]:
registro = ["1a persona","2a persona","3a persona","4a persona","5a persona","6a persona"]

In [7]:
pd.DataFrame(data = estudiantes, index = registro)

Unnamed: 0,Nombre,Apellido,Matrícula,Edad
1a persona,Hugo,López,123455,20.0
2a persona,Paco,Silva,736923,35.0
3a persona,Luis,Oca,971298,30.0
4a persona,Pedro,Ramírez,123098,25.0
5a persona,Juan,Gutiérrez,987656,
6a persona,Pablo,,878652,23.0


El parámetro columns permite nombrar a las columnas.

In [66]:
matriz = np.arange(9).reshape((3,3))

In [67]:
matriz

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [68]:
pd.DataFrame(matriz, index=['uno','dos','tres'], columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
uno,0,1,2
dos,3,4,5
tres,6,7,8


In [8]:
pd.DataFrame(
[["Hugo","López",123455,20],
 ["Paco","Silva",736923],
 ["Luis","Oca",971298],
 ["Pedro","Ramírez",123098]    
], columns = ["Nombre","Apellido","Matrícula","Edad"],    
    index = ["Registro 1","Registro 2","Registro 3","Registro 4"]
    
)

Unnamed: 0,Nombre,Apellido,Matrícula,Edad
Registro 1,Hugo,López,123455,20.0
Registro 2,Paco,Silva,736923,
Registro 3,Luis,Oca,971298,
Registro 4,Pedro,Ramírez,123098,


## Acceso a los elementos de un dataframe

Podemos accesar a los elementos de un dataframe mediante las siguientes maneras. Consideremos nuevamente el dataframe anterior:

In [15]:
estudiantes = pd.DataFrame(
[["Hugo","López","123455",20],
 ["Paco","Silva","736923",35],
 ["Luis","Oca","971298"],
 ["Pedro","Ramírez","123098"]    
], index = ["Registro 1","Registro 2","Registro 3","Registro 4"],
    columns = ["Nombre","Apellido","Matrícula","Edad"]
)

estudiantes


Unnamed: 0,Nombre,Apellido,Matrícula,Edad
Registro 1,Hugo,López,123455,20.0
Registro 2,Paco,Silva,736923,35.0
Registro 3,Luis,Oca,971298,
Registro 4,Pedro,Ramírez,123098,


In [16]:
# Acceso a una columna: usando el nombre de los campos

estudiantes["Matrícula"]

Registro 1    123455
Registro 2    736923
Registro 3    971298
Registro 4    123098
Name: Matrícula, dtype: object

In [17]:
# Acceso a varias columnas: usando el nombre de los campos

estudiantes[["Nombre","Edad"]]

Unnamed: 0,Nombre,Edad
Registro 1,Hugo,20.0
Registro 2,Paco,35.0
Registro 3,Luis,
Registro 4,Pedro,


In [76]:
# Acceso a una fila mediante el nombre del ínice del registro

estudiantes.loc[["Registro 2","Registro 4"]]

Unnamed: 0,Nombre,Apellido,Matrícula,Edad
Registro 2,Paco,Silva,736923,35.0
Registro 4,Pedro,Ramírez,123098,


In [18]:
# Acceso a una fila mediante el número del índice del registro

estudiantes.iloc[1]

Nombre         Paco
Apellido      Silva
Matrícula    736923
Edad           35.0
Name: Registro 2, dtype: object

In [19]:
# Acceso a ciertas columnas y ciertas filas.

estudiantes.loc[["Registro 1","Registro 4"]][["Nombre","Edad"]]

Unnamed: 0,Nombre,Edad
Registro 1,Hugo,20.0
Registro 4,Pedro,


In [20]:
estudiantes[["Nombre","Edad"]].loc[["Registro 1","Registro 4"]]

Unnamed: 0,Nombre,Edad
Registro 1,Hugo,20.0
Registro 4,Pedro,


## Operaciones básicas de dataframes

También es posible añadir nuevas columnas a un dataframe utilizando columnas que ya existen.

In [42]:
estudiantes.columns

Index(['level_0', 'index', 'Nombre', 'Apellido', 'Matrícula', 'Edad'], dtype='object')

In [43]:
estudiantes["Nombre completo"] = estudiantes["Nombre"] + " " + estudiantes["Apellido"]
estudiantes

Unnamed: 0,level_0,index,Nombre,Apellido,Matrícula,Edad,Nombre completo
0,0,Registro 1,Hugo,López,123455,20.0,Hugo López
1,1,Registro 2,Paco,Silva,736923,35.0,Paco Silva
2,2,Registro 3,Luis,Oca,971298,,Luis Oca
3,3,Registro 4,Pedro,Ramírez,123098,,Pedro Ramírez


In [44]:
# Eliminado de columnas

estudiantes.drop("Nombre completo", axis = 1, inplace = True)
estudiantes

Unnamed: 0,level_0,index,Nombre,Apellido,Matrícula,Edad
0,0,Registro 1,Hugo,López,123455,20.0
1,1,Registro 2,Paco,Silva,736923,35.0
2,2,Registro 3,Luis,Oca,971298,
3,3,Registro 4,Pedro,Ramírez,123098,


In [None]:
# Indexar numéricamente los registros

estudiantes.reset_index(inplace = True)
estudiantes

In [46]:
# Acceso a ciertas columnas y ciertas filas.

estudiantes.loc[[0,3],["Matrícula","Edad"]]

Unnamed: 0,Matrícula,Edad
0,123455,20.0
3,123098,


In [47]:
# Incluso podemos hacer selección por filtrado

#estudiantes[estudiantes["Edad"] > 20][["index","Edad","Matrícula"]]

estudiantes[estudiantes["Edad"] > 20][["index","Edad"]]


Unnamed: 0,index,Edad
1,Registro 2,35.0


In [49]:
# Cambiando los nombres de las columnas

estudiantes.columns = ["Campo 1","Campo 2","Campo 3","Campo 4","Campo 5", "Campo 6"]
estudiantes

Unnamed: 0,Campo 1,Campo 2,Campo 3,Campo 4,Campo 5,Campo 6
0,0,Registro 1,Hugo,López,123455,20.0
1,1,Registro 2,Paco,Silva,736923,35.0
2,2,Registro 3,Luis,Oca,971298,
3,3,Registro 4,Pedro,Ramírez,123098,


In [57]:
# cambiando nombre de columnas
estudiantes.rename(columns={"Campo 2":"campo_2"}, inplace=True)
estudiantes

Unnamed: 0_level_0,Campo 1,campo_2,Campo 3,Campo 4,Campo 5,Campo 6
Campo 4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
López,0,Registro 1,Hugo,López,123455,20.0
Silva,1,Registro 2,Paco,Silva,736923,35.0
Oca,2,Registro 3,Luis,Oca,971298,
Ramírez,3,Registro 4,Pedro,Ramírez,123098,


In [60]:
# Cambiando los nombres de las filas
# Coloco los datos de la columna elegida como nombre de la fila
estudiantes.index = estudiantes["campo_2"]
estudiantes

Unnamed: 0_level_0,Campo 1,campo_2,Campo 3,Campo 4,Campo 5,Campo 6
campo_2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Registro 1,0,Registro 1,Hugo,López,123455,20.0
Registro 2,1,Registro 2,Paco,Silva,736923,35.0
Registro 3,2,Registro 3,Luis,Oca,971298,
Registro 4,3,Registro 4,Pedro,Ramírez,123098,


In [None]:
# Agregado de una fila

nuevo_elemento = "Registro 5, Helena, González, 888888, 29"
nuevo_elemento.split(", ")

#estudiantes.loc[888888] = nuevo_elemento.split(",")
#estudiantes

In [None]:
estudiantes.iloc[-1] 

In [None]:
# Visualizar encabezado y cola

#estudiantes.head(8) 
estudiantes.tail(3)

In [None]:
estudiantes["Campo 5"] = pd.to_numeric(estudiantes["Campo 5"], downcast = "float")
estudiantes

In [None]:
estudiantes["Campo 5"].mean()

In [None]:
estudiantes["Campo 5"].value_counts()

In [None]:
estudiantes.loc[777222] = ["Registro 6","José","López","777222",30]
estudiantes

In [None]:
estudiantes["Campo 3"].value_counts()

In [None]:
estudiantes.sort_values(by = "Campo 5",inplace = True, ascending=False)
estudiantes

In [None]:
edad_media = estudiantes["Campo 5"].mean()
int(edad_media)

In [None]:
estudiantes["Campo 5"].fillna(int(edad_media),inplace = True)
estudiantes

In [None]:
estudiantes.sort_values(by = ["Campo 3","Campo 5"],ascending = [True,False],inplace = True)
estudiantes

In [None]:
estudiantes[estudiantes["Campo 3"] == "López"]

In [None]:
estudiantes["Campo 2"] = estudiantes["Campo 2"].str.upper()
estudiantes

In [None]:
estudiantes["Campo 4"].str.len()

In [None]:
estudiantes.loc["536271"] = ["Registro 7","Luisa","González","536271",23]
estudiantes["Estado"] = ["Activo","Baja","Baja","Graduado","Activo","Activo","Baja"]

estudiantes

In [None]:
pd.get_dummies(estudiantes["Estado"])

In [None]:
Frame = pd.concat([estudiantes,pd.get_dummies(estudiantes["Estado"])],axis = 1)
Frame

In [None]:
Frame["Fac"] = [4,3,1,4,5,1,8]
Frame["Sexo"] = ["0","1","1","1","1","1","0"]
Frame

In [None]:
Frame.groupby('Estado')["Fac"].sum() # En R es tapply(Frame$Fac,Frame$Estado,sum)


In [None]:
Frame.groupby(['Estado',"Sexo"])["Fac"].sum() # En R es tapply(Frame$Fac,list(Frame$Estado,Frame$Sexo),sum)

In [None]:
Frame.groupby(["Estado","Sexo"])["Fac"].sum()["Activo","0"]

In [None]:
Frame.info()

In [None]:
Frame["SEXO"] = np.where(Frame["Sexo"]=="0","mujer","hombre")

In [None]:
Frame