<img src="logo.png">

# Pandas

Pandas provee dos estructuras de datos: dataframes y series. De hecho Pandas está programado a través de Numpy.

In [None]:
!pip install pandas

In [None]:
import pandas as pd
import numpy as np

## Series

Los objetos instanciado de la clase pandas.Series son de una sola dimensión y pueden ser al ingresar como argumento de data objetos de tipo:

* tuple
* list
* dict
* numpy.ndarray

A las series se les puede asignar un nombre mediante el parametro name.

In [None]:
serie_1 = pd.Series(np.random.rand(8))
serie_1

In [None]:
serie_1 = pd.Series(np.random.rand(8), name = "mi primer serie")
serie_1

In [None]:
serie_1[4]

In [None]:
# Podemos especificar los valores de los índices

serie_2 = pd.Series(np.random.rand(8),index = range(1,9),name = "Mi segunda serie")
serie_2

In [None]:
# Podemos especificar los valores de los índices mas generalmente

serie_3 = pd.Series(np.random.rand(5),index = [4,6,1,2,8])
serie_3

In [None]:
serie_3[0]

In [None]:
serie_3[4]

In [None]:
serie_4 = pd.Series(np.random.rand(5),index = ["a","a","i","o","u"])
serie_4

In [None]:
serie_4[0]

In [None]:
serie_4["a"]

Incluso los diccionarios se pueden convertir en series

In [None]:
diccionario = {"Nombre":["Héctor","Manuel"],"Apellido":"Garduño"}
pd.Series(diccionario)

Es importante notar que las series son estructuras de datos en una sola dimensión. Si queremos estructuras mas complejas, debemos usar dataframes.

## Dataframes

Los dataframes son similares a un aerreglo en 2 dimensiones de Numpy. Sin embargo, a diferencia de los arreglos de Numpy, no todas las columnas de estos objetos deben de ser necesariamente del mismo tipo.

La clase **pandas.DataFrame** permite crear dataframes a partir de datos que pueden corresponder a:

* Objetos de tipo dict.
* Series objetos tipo tuple.
* Objetos numpy.ndarray (arreglos que contienen sólo números).
* Otros objetos instanciado de pandas.DataFrame.

Dichos datos pueden ser ingresados como argumentos del parámetro data al instanciarlos.

Los dataframes indexan por defecto las columnas y los encabrezados con valores numéricos. Sin embargo, estos pueden ser modificados por el usuario.


In [None]:
pd.DataFrame(data=[(0, 1, 2), (1, 2, 3), (2, 3, 4), (3, 4, 5)])

In [None]:
estudiantes = {'Nombre':["Hugo", "Paco", "Luis" ,"Pedro", "Juan", "Pablo"], 
                'Apellido':["López", "Silva", "Oca" , "Ramírez", "Gutiérrez", np.nan], 
                'Matrícula':["123455", "736923", "971298" ,"123098", "987656", "878652"], 
                'Edad':[20, 35, 30 ,25, np.nan, 23]}

In [None]:
pd.DataFrame(estudiantes)

In [None]:
matriz = np.arange(9).reshape(3,3)
matriz

In [None]:
pd.DataFrame(matriz)

El parámetro index, permite incluir un índice a cada renglón.

In [None]:
registro = ("1a persona","2a persona","3a persona","4a persona","5a persona","6a persona")

In [None]:
pd.DataFrame(data = estudiantes, index = registro)

El parámetro columns permite nombrar a las columnas.

In [None]:
matriz = np.arange(9).reshape((3,3))

In [None]:
pd.DataFrame(matriz, index=['uno','dos','tres'], columns=['a', 'b', 'c'])

In [None]:
pd.DataFrame(
[["Hugo","López",123455,20],
 ["Paco","Silva",736923],
 ["Luis","Oca",971298],
 ["Pedro","Ramírez",123098]    
], columns = ["Nombre","Apellido","Matrícula","Edad"],    
    #index = ["Registro 1","Registro 2","Registro 3","Registro 4"]
    
)

## Acceso a los elementos de un dataframe

Podemos accesar a los elementos de un dataframe mediante las siguientes maneras. Consideremos nuevamente el dataframe anterior:

In [None]:
estudiantes = pd.DataFrame(
[["Hugo","López","123455",20],
 ["Paco","Silva","736923",35],
 ["Luis","Oca","971298"],
 ["Pedro","Ramírez","123098"]    
], index = ["Registro 1","Registro 2","Registro 3","Registro 4"],
    columns = ["Nombre","Apellido","Matrícula","Edad"]
)

estudiantes


In [None]:
# Acceso a una columna: usando el nombre de los campos

estudiantes["Matrícula"]

In [None]:
# Acceso a varias columnas: usando el nombre de los campos

estudiantes[["Nombre","Edad"]]

In [None]:
# Acceso a una fila mediante el nombre del ínice del registro

estudiantes.loc[["Registro 2","Registro 4"]]

In [None]:
# Acceso a una fila mediante el número del índice del registro

estudiantes.iloc[1]

In [None]:
# Acceso a ciertas columnas y ciertas filas.

estudiantes.loc[["Registro 1","Registro 4"]][["Nombre","Edad"]]

## Operaciones básicas de dataframes

También es posible añadir nuevas columnas a un dataframe utilizando columnas que ya existen.

In [None]:
estudiantes["Nombre completo"] = estudiantes["Nombre"] + " " + estudiantes["Apellido"]
estudiantes

In [None]:
# Eliminado de columnas

estudiantes.drop("Nombre completo",axis = 1,inplace = True)
estudiantes

In [None]:
# Indexar numéricamente los registros

estudiantes.reset_index(inplace = True)
estudiantes

In [None]:
# Acceso a ciertas columnas y ciertas filas.

estudiantes.loc[[0,3],["Matrícula","Edad"]]

In [None]:
# Incluso podemos hacer seleción por filtrado

estudiantes[estudiantes["Edad"] > 20][["index","Edad","Matrícula"]]



In [None]:
# Cambiando los nombres de las columnas

estudiantes.columns = ["Campo 1","Campo 2","Campo 3","Campo 4","Campo 5"]
estudiantes

In [None]:
# Cambiando los nombres de las filas

estudiantes.index = estudiantes["Campo 4"]
estudiantes

In [None]:
# Agregado de una fila

nuevo_elemento = "Registro 5, Helena, González, 888888, 29"
nuevo_elemento.split(",")

estudiantes.loc[888888] = nuevo_elemento.split(",")
estudiantes

In [None]:
estudiantes.iloc[-1] 

In [None]:
# Visualizar encabezado y cola

estudiantes.head() #estudiantes.tail(3)

In [None]:
estudiantes["Campo 5"] = pd.to_numeric(estudiantes["Campo 5"], downcast = "float")
estudiantes

In [None]:
estudiantes["Campo 5"].mean()

In [None]:
estudiantes["Campo 5"].value_counts()

In [None]:
estudiantes.loc[777222] = ["Registro 6","José","López","777222",30]
estudiantes

In [None]:
estudiantes["Campo 3"].value_counts()

In [None]:
estudiantes.sort_values(by = "Campo 5",inplace = True, ascending=False)
estudiantes

In [None]:
edad_media = estudiantes["Campo 5"].mean()
int(edad_media)

In [None]:
estudiantes["Campo 5"].fillna(int(edad_media),inplace = True)
estudiantes

In [None]:
estudiantes.sort_index(ascending = True,inplace = True)
estudiantes

In [None]:
estudiantes.sort_values(by = ["Campo 3","Campo 5"],ascending = [True,False],inplace = True)
estudiantes

In [None]:
estudiantes[estudiantes["Campo 3"] == "López"]

In [None]:
estudiantes["Campo 2"] = estudiantes["Campo 2"].str.upper()
estudiantes

In [None]:
estudiantes["Campo 4"].str.len()

In [None]:
estudiantes.loc["536271"] = ["Registro 7","Luisa","González","536271",23]
estudiantes["Estado"] = ["Activo","Baja","Baja","Graduado","Activo","Activo","Baja"]

estudiantes

In [None]:
pd.get_dummies(estudiantes["Estado"])

In [None]:
Frame = pd.concat([estudiantes,pd.get_dummies(estudiantes["Estado"])],axis = 1)
Frame

In [None]:
Frame["Fac"] = [4,3,1,4,5,1,8]
Frame["Sexo"] = ["0","1","1","1","1","1","0"]
Frame

In [None]:
Frame.groupby('Estado')["Fac"].sum() # En R es tapply(Frame$Fac,Frame$Estado,sum)


In [None]:
Frame.groupby(['Estado',"Sexo"])["Fac"].sum() # En R es tapply(Frame$Fac,list(Frame$Estado,Frame$Sexo),sum)

In [None]:
Frame.groupby(["Estado","Sexo"])["Fac"].sum()["Activo","0"]

In [None]:
Frame.info()