# Unidad 7 - Introducción a la algoritmia con Python
#### Elementos básicos de Python
 
# Demo Pandas

En este notebook vas a encontrar ejemplos relacionados con el uso de la librería Pandas en Python. Recuerda que siempre puedes ir a la referencia si tienes alguna duda [Ir a la referencia](https://docs.python.org/3.9/library/index.html)

##### Contenido de este archivo:

1. Importar la librería y ver la versión [[enlace]](#A01)
2. Formas para crear un dataframe [[enlace]](#A02)
    - usando arreglos (listas)
    - usando diccionarios
    - usando archivo CSV
3. Métodos y atributos de un dataframe [[enlace]](#A03)
    - cabeza (head())
    - cola (tail())
    - información (info)
    - describir estadística (describe)
    - forma (shape)
    - columnas (columns)
    - índice (index)
4. Funciones de Python (built-in) para los dataframes [[enlace]](#A04)
    - obtener mínimo (min())
    - obtener máximo (max())
    - obtener longitud (len())
5. Acceso y selección de columnas del dataframe [[enlace]](#A05)
    - seleccionar 1 columna usando la notación de corchetes [] (se obtiene una serie)
    - seleccionar 1 columna usando la notación de punto . (se obtiene una serie) - no recomendado
    - seleccionar varias columnas usando la notación de [[]] (se obtiene dataframe)
6. Agregar información al dataframe [[enlace]](#A06)
    - agregar usando valor fijo
    - agregar usando valores expecíficos
7. Operaciones en las columnas del dataframe [[enlace]](#A07)
    - suma, conteo, promedio, desv. estandar, mínimo, máximo.    
8. Operaciones en las filas del dataframe [[enlace]](#A08)
    - suma, conteo, promedio, desv. estandar, mínimo, máximo.  
9. Conteos por categorías (en columnas) de un dataframe [[enlace]](#A09)
    - conteo simple (value_counts())
    - conteo normalizado (value_counts(normalize=True))
10. Ordenar por columnas de un dataframe [[enlace]](#A10)
    - orden ascendente (sort_values())
    - orden descendente (sort_values(ascending=False))
    - orden en múltiples columnas (["A", "B"], ascending=True/False)
    - orden en nuevo o en sitio (inplace = True)
    - orden modificado usando key y lambdas

<a id="#A01"></a>

### 1. importar la librería

In [1]:
# Para importar librerías en Python usamos la sentencia import
# podemos agregarle un alias usando as y un nombre
# Pandas viene instalado por defecto en Anaconda

import pandas as pd
pd.__version__

'1.1.3'

<a id="(#A02)"></a>

### 2. Formas para crear un dataframe
    - usando arreglos (listas)
    - usando diccionarios
    - usando archivo CSV

Puedes usar la que prefiras recuerda que depende del escenario que estés modelando.

##### 2.1. usando arreglos (listas)

In [2]:
# Para usar arreglos debemos entender que se generará una lista de listas, 
# esto quiere decir que cada posición de la primera lista será ocupada por
# otra lista que contiene los elementos que tiene cada "observación" o fila.
datos_crudos = [["Jose","Perez",31],["Andrea","Lopez",25],["Martin","Cabrera",55],["Guadalupe","Zapata",15]]
datos_crudos

[['Jose', 'Perez', 31],
 ['Andrea', 'Lopez', 25],
 ['Martin', 'Cabrera', 55],
 ['Guadalupe', 'Zapata', 15]]

In [3]:
# A partir de los datos crudos, procedemos a usar el método DataFrame(datos)
# para la creación del DataFrame
df = pd.DataFrame(datos_crudos)
print(type(df))
print(df)
df

<class 'pandas.core.frame.DataFrame'>
           0        1   2
0       Jose    Perez  31
1     Andrea    Lopez  25
2     Martin  Cabrera  55
3  Guadalupe   Zapata  15


Unnamed: 0,0,1,2
0,Jose,Perez,31
1,Andrea,Lopez,25
2,Martin,Cabrera,55
3,Guadalupe,Zapata,15


In [4]:
# podemos modificar los nombres de los indices y columnas así:
df = pd.DataFrame(datos_crudos, index = ["fila1","fila2","fila3","fila4"], columns=["nombre","apellido","edad"])
df

Unnamed: 0,nombre,apellido,edad
fila1,Jose,Perez,31
fila2,Andrea,Lopez,25
fila3,Martin,Cabrera,55
fila4,Guadalupe,Zapata,15


##### 2.2. usando diccionarios

Para el proceso de creación con diccionarios, usamos tambien arreglos de datos.

In [5]:
# Inicializamos una lista por cada posible llave (indicará la columna).
paises = ["Colombia", "Ecuador", "España"]
monedas = ["Peso Colombiano", "Dolar Estadounidense", "Euro"]

# Creamos el diccionario desde las listas
diccionario_crudo = {"pais":paises, "moneda":monedas}
diccionario_crudo

{'pais': ['Colombia', 'Ecuador', 'España'],
 'moneda': ['Peso Colombiano', 'Dolar Estadounidense', 'Euro']}

In [6]:
# usamos el diccionario para alimentar el método DataFrame
df = pd.DataFrame(diccionario_crudo)
df

Unnamed: 0,pais,moneda
0,Colombia,Peso Colombiano
1,Ecuador,Dolar Estadounidense
2,España,Euro


##### 2.3. usando un archivo CSV

La realidad es que esta es la forma más común, depende de la estructura del archivo tambien puede ser la más rápida.

In [7]:
# Pandas posee métodos especializados en la carga de archivos, por defecto veremos read_*extensión*
df = pd.read_csv("paises_sin_visa_col.csv")
#df

<a id="(#A03)"></a>

### 3. Métodos y atributos de un dataframe
    - cabeza (head())
    - cola (tail())
    - información (info)
    - describir estadística (describe)
    - forma (shape)
    - columnas (columns)
    - índice (index)

En esta sección revisaremos algunos de métodos ya tributos más comunes en los DataFrame de Pandas

In [8]:
# Para obtener los primeros (10) ítems (filas) del DataFrame
df.head()
# tambien puede modificar y pedir un número determinado
df.head(2)

Unnamed: 0,REGIÓN,OTROS TERRITORIOS,PAÍS,EXIGE VISA CORTA DURACIÓN,EXIGE VISA PARA PASAPORTE OFICIAL,EXIGE VISA PARA PASAPORTE DIPLOMATICO,CONDICIONES ESPECIALES
0,AMERICA CARIBE,SI,CURAZAO (PAÍSES BAJOS),NO,NO,NO,(N/A)
1,EUROPA SCHENGEN,NO,GRECIA,NO,NO,NO,(N/A)


In [9]:
# Para obtener los últimos (10) ítems (filas) del DataFrame
df.tail()
# tambien puede modificar y pedir un número determinado
df.tail(2)

Unnamed: 0,REGIÓN,OTROS TERRITORIOS,PAÍS,EXIGE VISA CORTA DURACIÓN,EXIGE VISA PARA PASAPORTE OFICIAL,EXIGE VISA PARA PASAPORTE DIPLOMATICO,CONDICIONES ESPECIALES
43,EUROPA SCHENGEN,NO,CROACIA,NO,NO,NO,(N/A)
44,EUROPA SCHENGEN,NO,ITALIA,NO,NO,NO,(N/A)


In [10]:
# para ver la estructura del Dataframe de manera sencilla,
# podemos usar shape (atributo, no tiene paréntesis)
df.shape

(45, 7)

In [11]:
# para identificar las columnas disponibles, podemos usar:
df.columns

Index(['REGIÓN', 'OTROS TERRITORIOS', 'PAÍS', 'EXIGE VISA CORTA DURACIÓN',
       'EXIGE VISA PARA PASAPORTE OFICIAL',
       'EXIGE VISA PARA PASAPORTE DIPLOMATICO', 'CONDICIONES ESPECIALES'],
      dtype='object')

In [12]:
# para identificar los índices, podemos usar:
df.index

RangeIndex(start=0, stop=45, step=1)

In [13]:
# para ver el resumen de la información podemos usar:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45 entries, 0 to 44
Data columns (total 7 columns):
 #   Column                                 Non-Null Count  Dtype 
---  ------                                 --------------  ----- 
 0   REGIÓN                                 45 non-null     object
 1   OTROS TERRITORIOS                      45 non-null     object
 2   PAÍS                                   45 non-null     object
 3   EXIGE VISA CORTA DURACIÓN              45 non-null     object
 4   EXIGE VISA PARA PASAPORTE OFICIAL      45 non-null     object
 5   EXIGE VISA PARA PASAPORTE DIPLOMATICO  45 non-null     object
 6   CONDICIONES ESPECIALES                 45 non-null     object
dtypes: object(7)
memory usage: 2.6+ KB


In [14]:
# para obtener medidas estadísticas básicas, podemos usar
df.describe()

Unnamed: 0,REGIÓN,OTROS TERRITORIOS,PAÍS,EXIGE VISA CORTA DURACIÓN,EXIGE VISA PARA PASAPORTE OFICIAL,EXIGE VISA PARA PASAPORTE DIPLOMATICO,CONDICIONES ESPECIALES
count,45,45,45,45,45,45,45
unique,9,2,45,1,4,4,5
top,EUROPA SCHENGEN,NO,ECUADOR,NO,NO,NO,(N/A)
freq,18,39,1,45,40,40,40


<a id="(#A04)"></a>

### 4. Funciones de Python (built-in) para los dataframes
    - obtener mínimo (min())
    - obtener máximo (max())
    - obtener longitud (len())

Veremos funciones que están ncluidas en Python para obtener información de secuencias, y pueden ser usadas en compañía de Pandas.

In [15]:
# para obtener el número mínimo (min())
min(df)

'CONDICIONES ESPECIALES'

In [16]:
datos_crudos = [["Jose","Perez",31],["Andrea","Lopez",25],["Martin","Cabrera",55],["Guadalupe","Zapata",15]]
df_min = pd.DataFrame(datos_crudos)
min(df_min[2])

15

In [17]:
# para obtener el número máximo (max())
max(df) 

'REGIÓN'

In [18]:
datos_crudos = [["Jose","Perez",31],["Andrea","Lopez",25],["Martin","Cabrera",55],["Guadalupe","Zapata",15]]
df_max = pd.DataFrame(datos_crudos)
max(df_max[2])

55

In [19]:
# para obtener la longitud (len())
len(df)

45

<a id="(#A05)"></a>

### 5. Acceso y selección de columnas del dataframe
    - seleccionar 1 columna usando la notación de corchetes [] (se obtiene una serie)
    - seleccionar 1 columna usando la notación de punto . (se obtiene una serie) - no recomendado
    - seleccionar varias columnas usando la notación de [[]] (se obtiene dataframe)

In [20]:
resultado = df['PAÍS']
print(type(resultado))
print(resultado.head(3))

<class 'pandas.core.series.Series'>
0    CURAZAO (PAÍSES BAJOS)
1                    GRECIA
2                  BARBADOS
Name: PAÍS, dtype: object


In [21]:
resultado = df.PAÍS
print(type(resultado))
print(resultado.head(3))

<class 'pandas.core.series.Series'>
0    CURAZAO (PAÍSES BAJOS)
1                    GRECIA
2                  BARBADOS
Name: PAÍS, dtype: object


In [22]:
resultado = df[['PAÍS', 'REGIÓN']]
print(type(resultado))
print(resultado.head(3))

<class 'pandas.core.frame.DataFrame'>
                     PAÍS           REGIÓN
0  CURAZAO (PAÍSES BAJOS)   AMERICA CARIBE
1                  GRECIA  EUROPA SCHENGEN
2                BARBADOS   AMERICA CARIBE


<a id="(#A06)"></a>

### 6. Agregar información al dataframe
    - agregar usando valor fijo
    - agregar usando valores expecíficos

In [23]:
datos_crudos = [["Jose","Perez",31],["Andrea","Lopez",25],["Martin","Cabrera",55],["Guadalupe","Zapata",15]]
df_agregar_todos = pd.DataFrame(datos_crudos)
df_agregar_todos["estado"] = "NUEVO"
df_agregar_todos

Unnamed: 0,0,1,2,estado
0,Jose,Perez,31,NUEVO
1,Andrea,Lopez,25,NUEVO
2,Martin,Cabrera,55,NUEVO
3,Guadalupe,Zapata,15,NUEVO


In [24]:
estados = ["NUEVO", "NUEVO", "USADO", "PENDIENTE"]
datos_crudos = [["Jose","Perez",31],["Andrea","Lopez",25],["Martin","Cabrera",55],["Guadalupe","Zapata",15]]
df_agregar_detalles = pd.DataFrame(datos_crudos)
df_agregar_detalles["estado"] = estados
df_agregar_detalles

Unnamed: 0,0,1,2,estado
0,Jose,Perez,31,NUEVO
1,Andrea,Lopez,25,NUEVO
2,Martin,Cabrera,55,USADO
3,Guadalupe,Zapata,15,PENDIENTE


<a id="(#A07)"></a>

### 7. Operaciones en las columnas del dataframe
    - suma, conteo, promedio, desv. estandar, mínimo, máximo.  

In [25]:
datos_crudos = [["Jose",175,31],["Andrea",160,25],["Martin",170,55],["Guadalupe",154,15]]
df_ope = pd.DataFrame(datos_crudos, columns=["nombre","estatura","edad"])
df_ope

Unnamed: 0,nombre,estatura,edad
0,Jose,175,31
1,Andrea,160,25
2,Martin,170,55
3,Guadalupe,154,15


In [26]:
df_ope["estatura"].count()

4

In [27]:
df_ope["estatura"].sum()

659

In [28]:
df_ope["estatura"].mean()

164.75

In [29]:
df_ope["estatura"].std()

9.5

In [30]:
df_ope["estatura"].describe()

count      4.00
mean     164.75
std        9.50
min      154.00
25%      158.50
50%      165.00
75%      171.25
max      175.00
Name: estatura, dtype: float64

<a id="(#A08)"></a>

### 8. Operaciones en las filas del dataframe
    - suma, conteo, promedio, desv. estandar, mínimo, máximo. 

In [31]:
datos_crudos = [["Jose",5,3.8,4,2],["Andrea",4.5,5,4,1.5],["Martin",4.5,3.8,5,4.6],["Guadalupe",5,5,4,4.4]]
df_notas = pd.DataFrame(datos_crudos, columns=["nombre","nota_01","nota_02","nota_03","nota_04"])
df_notas

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04
0,Jose,5.0,3.8,4,2.0
1,Andrea,4.5,5.0,4,1.5
2,Martin,4.5,3.8,5,4.6
3,Guadalupe,5.0,5.0,4,4.4


In [32]:
df_notas["promedio"] = (df_notas["nota_01"] + df_notas["nota_02"] + df_notas["nota_03"] + df_notas["nota_04"])/4
df_notas

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
0,Jose,5.0,3.8,4,2.0,3.7
1,Andrea,4.5,5.0,4,1.5,3.75
2,Martin,4.5,3.8,5,4.6,4.475
3,Guadalupe,5.0,5.0,4,4.4,4.6


<a id="(#A09)"></a>

### 9. Conteos por categorías (en columnas) de un dataframe
    - conteo simple (value_counts())
    - conteo normalizado (value_counts(normalize=True))

In [33]:
estados = ["NUEVO", "NUEVO", "USADO", "PENDIENTE"]
datos_crudos = [["Jose","Perez",31],["Andrea","Lopez",25],["Martin","Cabrera",55],["Guadalupe","Zapata",15]]
df_conteos = pd.DataFrame(datos_crudos)
df_conteos["estado"] = estados
df_conteos

Unnamed: 0,0,1,2,estado
0,Jose,Perez,31,NUEVO
1,Andrea,Lopez,25,NUEVO
2,Martin,Cabrera,55,USADO
3,Guadalupe,Zapata,15,PENDIENTE


In [34]:
df_conteos["estado"].value_counts()

NUEVO        2
USADO        1
PENDIENTE    1
Name: estado, dtype: int64

In [35]:
df_conteos["estado"].value_counts(normalize=True)

NUEVO        0.50
USADO        0.25
PENDIENTE    0.25
Name: estado, dtype: float64

<a id="(#A10)"></a>

### 10. Ordenar por columnas de un dataframe
    - orden ascendente (sort_values())
    - orden descendente (sort_values(ascending=False))
    - orden en múltiples columnas (["A", "B"], ascending=True/False)
    - orden en nuevo o en sitio (inplace = True)

In [36]:
datos_crudos = [["Jose",5,5,5,5],["Andrea",4.5,5,4,1.5],["Martin",4.5,3.8,5,4.6],["Guadalupe",5,5,4,4.4]]
df_notas = pd.DataFrame(datos_crudos, columns=["nombre","nota_01","nota_02","nota_03","nota_04"])
df_notas["promedio"] = (df_notas["nota_01"] + df_notas["nota_02"] + df_notas["nota_03"] + df_notas["nota_04"])/4
df_notas

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
0,Jose,5.0,5.0,5,5.0,5.0
1,Andrea,4.5,5.0,4,1.5,3.75
2,Martin,4.5,3.8,5,4.6,4.475
3,Guadalupe,5.0,5.0,4,4.4,4.6


In [37]:
df_notas

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
0,Jose,5.0,5.0,5,5.0,5.0
1,Andrea,4.5,5.0,4,1.5,3.75
2,Martin,4.5,3.8,5,4.6,4.475
3,Guadalupe,5.0,5.0,4,4.4,4.6


In [38]:
df_notas["promedio"].sort_values()
df_notas

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
0,Jose,5.0,5.0,5,5.0,5.0
1,Andrea,4.5,5.0,4,1.5,3.75
2,Martin,4.5,3.8,5,4.6,4.475
3,Guadalupe,5.0,5.0,4,4.4,4.6


In [39]:
df_sorted = df_notas.sort_values(by="promedio")
df_sorted

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
1,Andrea,4.5,5.0,4,1.5,3.75
2,Martin,4.5,3.8,5,4.6,4.475
3,Guadalupe,5.0,5.0,4,4.4,4.6
0,Jose,5.0,5.0,5,5.0,5.0


In [40]:
df_sorted = df_notas.sort_values(by="promedio", ascending=False)
df_sorted

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
0,Jose,5.0,5.0,5,5.0,5.0
3,Guadalupe,5.0,5.0,4,4.4,4.6
2,Martin,4.5,3.8,5,4.6,4.475
1,Andrea,4.5,5.0,4,1.5,3.75


In [41]:
df_sorted = df_notas.sort_values(by=["nota_01","nota_02"], ascending=True)
df_sorted

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
2,Martin,4.5,3.8,5,4.6,4.475
1,Andrea,4.5,5.0,4,1.5,3.75
0,Jose,5.0,5.0,5,5.0,5.0
3,Guadalupe,5.0,5.0,4,4.4,4.6


In [42]:
df_sorted = df_notas.sort_values(by=["nota_01","nota_02"], ascending=False)
df_sorted

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
0,Jose,5.0,5.0,5,5.0,5.0
3,Guadalupe,5.0,5.0,4,4.4,4.6
1,Andrea,4.5,5.0,4,1.5,3.75
2,Martin,4.5,3.8,5,4.6,4.475


In [43]:
df_notas.sort_values(by=["promedio"], ascending=False, inplace=True)
df_notas

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
0,Jose,5.0,5.0,5,5.0,5.0
3,Guadalupe,5.0,5.0,4,4.4,4.6
2,Martin,4.5,3.8,5,4.6,4.475
1,Andrea,4.5,5.0,4,1.5,3.75


In [44]:
df_notas.sort_values(by=["promedio"], ascending=True, inplace=True)
df_notas

Unnamed: 0,nombre,nota_01,nota_02,nota_03,nota_04,promedio
1,Andrea,4.5,5.0,4,1.5,3.75
2,Martin,4.5,3.8,5,4.6,4.475
3,Guadalupe,5.0,5.0,4,4.4,4.6
0,Jose,5.0,5.0,5,5.0,5.0


In [45]:
# :)