In [119]:
"""
# Este es el codigo que use para crear la hoja de referencia de métodos de pandas para principantes de python 
# Esto es un archivo GRATIS hecho por Dany Jacquez para Mision Codigo
# Puedes encontrar mas informacion y el PDF de esta hoja suscribiendote a la lista de
# emails en www.misioncodigo.com
# es GRATIS ;)
#
# Para este ejemplo es necesario tener el archivo csv llamado tabla_pandas.csv del cual leeremos
# una tabla de información para demostrar los métodos de esta lista.
# el archivo contiene lo siguiente:
Nombre,Apellido,Ciudad,Trabajo,Edad
Pedro,Picapiedra,Piedradura,Constructor,41
Leonardo,,Nueva York,Ninja,15
John,Lennon,Liverpool,Musico,40
Mark,Zuck,Nueva York,CEO,37
Elon,Musk,Pretoria,CEO,50

La primera fila son las etiquetas o labels de la información.
"""

# 1. Import
# Importa el modulo para poder usar los métodos directamente en tu código.
# usaremos el alias pd para hacer mas corto el uso del módulo

import pandas as pd

In [120]:
# 2. read_csv(fn)
# Lee el archivo csv llamado fn y lo almacena en un dataframe.
df = pd.read_csv("tabla_pandas.csv")
df

# hay una función similar que leer un archivo de excel
# read_excel(fn)

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad
0,Pedro,Picapiedra,Piedradura,Constructor,41
1,Leonardo,,Nueva York,Ninja,15
2,John,Lennon,Liverpool,Musico,40
3,Mark,Zuck,Nueva York,CEO,37
4,Elon,Musk,Pretoria,CEO,50


In [121]:
# 3. DataFrame(dict)
# Define un nuevo data frame a partir de un diccionario. Esta es otra forma de iniciar un data frame. Las llaves (keys)
# del diccionario serán los nombres de columnas y los valores debes ser una lista.
dic = {"Nombre": ["Aragorn", "Bruce"],
      "Apellido": ["NaN", "Wayne" ],
       "Edad": [87, 26]
      }
df_de_dict = pd.DataFrame(dic)
df_de_dict


Unnamed: 0,Nombre,Apellido,Edad
0,Aragorn,,87
1,Bruce,Wayne,26


In [122]:
# 4. head(3)
# Imprime las primeras 3 filas del dataframe. Esta es una función util para ver los datos que contiene el daata frame
df.head(3)

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad
0,Pedro,Picapiedra,Piedradura,Constructor,41
1,Leonardo,,Nueva York,Ninja,15
2,John,Lennon,Liverpool,Musico,40


In [123]:
# 5. tail(2)
# Imprime las últimas 2 filas del dataframe.
df.tail(2)

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad
3,Mark,Zuck,Nueva York,CEO,37
4,Elon,Musk,Pretoria,CEO,50


In [124]:
# 6. df[columna]
# Regresa una serie con la columna especificada. Se debe usar el nombre de la columna
df["Ciudad"]

0    Piedradura
1    Nueva York
2     Liverpool
3    Nueva York
4      Pretoria
Name: Ciudad, dtype: object

In [125]:
# También puedes pedir mas de una columna. 
# Nota que los nombres de las columnas deben estar entre corchetes y el objeto que obtenemos es un nuevo dataframe
df[["Nombre", "Apellido"]]

Unnamed: 0,Nombre,Apellido
0,Pedro,Picapiedra
1,Leonardo,
2,John,Lennon
3,Mark,Zuck
4,Elon,Musk


In [126]:
# 7. df.iloc[x,y]
# iloc sirve para obtener un dato en una posición especifica
df.iloc[0,1]

# En este ejemplo obtendremos el apellido de la fila 0

'Picapiedra'

In [127]:
# Puedes usar slicing con iloc
# por ejemplo para obtener la fila 2, 3 y 4
df.iloc[2:5]

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad
2,John,Lennon,Liverpool,Musico,40
3,Mark,Zuck,Nueva York,CEO,37
4,Elon,Musk,Pretoria,CEO,50


In [128]:
# 8. value_counts()
# regresa una serie con los valores de una columna y cuantas veces aparece cada valor en esa misma columna
ciudades = df["Ciudad"].value_counts()
ciudades
# En este ejemplo podemos ver que Nueva York aparece 2 veces y las demás ciudades solo una vez.

Nueva York    2
Piedradura    1
Liverpool     1
Pretoria      1
Name: Ciudad, dtype: int64

In [129]:
# 9. df[“nueva”]
# Agrega una columna con un valor constante
df["col_x"] = 999
df
# Esta linea modifica el dataframe original. Como veremos más adelante otros metodos regresan un nuevo 
# dataframe sin modificar el original

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
0,Pedro,Picapiedra,Piedradura,Constructor,41,999
1,Leonardo,,Nueva York,Ninja,15,999
2,John,Lennon,Liverpool,Musico,40,999
3,Mark,Zuck,Nueva York,CEO,37,999
4,Elon,Musk,Pretoria,CEO,50,999


In [130]:
# 9. drop(col, axis=1)
# Regresa un nuevo dataframe sin la columna especificada. axis = 1 significa columnas, axis=0 significa filas.
df.drop("Trabajo", axis=1)

Unnamed: 0,Nombre,Apellido,Ciudad,Edad,col_x
0,Pedro,Picapiedra,Piedradura,41,999
1,Leonardo,,Nueva York,15,999
2,John,Lennon,Liverpool,40,999
3,Mark,Zuck,Nueva York,37,999
4,Elon,Musk,Pretoria,50,999


In [131]:
df
# nota como el dataframe original aún tiene la columna "Trabajo"

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
0,Pedro,Picapiedra,Piedradura,Constructor,41,999
1,Leonardo,,Nueva York,Ninja,15,999
2,John,Lennon,Liverpool,Musico,40,999
3,Mark,Zuck,Nueva York,CEO,37,999
4,Elon,Musk,Pretoria,CEO,50,999


In [132]:
# También sirve para eliminar una fila. Simplemente especifica el indice de la fila que quieres "tirar"
df.drop(0)
# Esto es lo mismo que el comando df.drop(0, axis=0)

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
1,Leonardo,,Nueva York,Ninja,15,999
2,John,Lennon,Liverpool,Musico,40,999
3,Mark,Zuck,Nueva York,CEO,37,999
4,Elon,Musk,Pretoria,CEO,50,999


In [145]:
# 10. dropna() 
# Regresa un dataframe sin las filas que tienen un valor Nan
df.dropna()

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
0,Pedro,Picapiedra,Piedradura,Constructor,41,999
2,John,Lennon,Liverpool,Musico,40,999
3,Mark,Zuck,Nueva York,CEO,37,999
4,Elon,Musk,Pretoria,CEO,50,999


In [133]:
# dropna(axis=1)
# Regresa un dataframe sin las columnas con valores NaN
df.dropna(axis=1)

Unnamed: 0,Nombre,Ciudad,Trabajo,Edad,col_x
0,Pedro,Piedradura,Constructor,41,999
1,Leonardo,Nueva York,Ninja,15,999
2,John,Liverpool,Musico,40,999
3,Mark,Nueva York,CEO,37,999
4,Elon,Pretoria,CEO,50,999


In [134]:
# 11. fillna(x)
# Regresa un dataframe donde reemplaza todos los valores Nan con el valor x
df.fillna("Algo")

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
0,Pedro,Picapiedra,Piedradura,Constructor,41,999
1,Leonardo,Algo,Nueva York,Ninja,15,999
2,John,Lennon,Liverpool,Musico,40,999
3,Mark,Zuck,Nueva York,CEO,37,999
4,Elon,Musk,Pretoria,CEO,50,999


In [135]:
# 12. Filtrar Valores
# Puedes filtrar las filas de acuerdo a un condicional del valor de una o mas columnas
# Por ejemplo podemos mostrar las filas donde la edad es mayor de 21 años
df[df["Edad"] > 21]

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
0,Pedro,Picapiedra,Piedradura,Constructor,41,999
2,John,Lennon,Liverpool,Musico,40,999
3,Mark,Zuck,Nueva York,CEO,37,999
4,Elon,Musk,Pretoria,CEO,50,999


In [136]:
# otro ejemplo 
# Ahora mayores de 21 que son CEO
df[(df["Edad"] > 21) & (df["Trabajo"] == "CEO")] 

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
3,Mark,Zuck,Nueva York,CEO,37,999
4,Elon,Musk,Pretoria,CEO,50,999


In [137]:
# 13. sort_values
# Sirve para organizar ascendentemente el dataframe utilizando una o más columnas
# Si organizamos por edad se vería así
df.sort_values("Edad")

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
1,Leonardo,,Nueva York,Ninja,15,999
3,Mark,Zuck,Nueva York,CEO,37,999
2,John,Lennon,Liverpool,Musico,40,999
0,Pedro,Picapiedra,Piedradura,Constructor,41,999
4,Elon,Musk,Pretoria,CEO,50,999


In [138]:
# Para ordenar descendentemente usa ascending=False
df.sort_values("Ciudad", ascending=False)

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
4,Elon,Musk,Pretoria,CEO,50,999
0,Pedro,Picapiedra,Piedradura,Constructor,41,999
1,Leonardo,,Nueva York,Ninja,15,999
3,Mark,Zuck,Nueva York,CEO,37,999
2,John,Lennon,Liverpool,Musico,40,999


In [139]:
# Podemos ordenar primero por Ciudad de manera descendente y luego por edad tambien descendente
df.sort_values(["Ciudad", "Edad"], ascending=[False, False])

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
4,Elon,Musk,Pretoria,CEO,50,999
0,Pedro,Picapiedra,Piedradura,Constructor,41,999
3,Mark,Zuck,Nueva York,CEO,37,999
1,Leonardo,,Nueva York,Ninja,15,999
2,John,Lennon,Liverpool,Musico,40,999


In [140]:
# 14. mean()
# regresa la media de una columna
df["Edad"].mean()

36.6

In [141]:
# 15. max y min
# Regresa el valor maximo y minimo de la column
df["Edad"].min()

15

In [142]:
# 16. to_csv()
df.to_csv()

',Nombre,Apellido,Ciudad,Trabajo,Edad,col_x\n0,Pedro,Picapiedra,Piedradura,Constructor,41,999\n1,Leonardo,,Nueva York,Ninja,15,999\n2,John,Lennon,Liverpool,Musico,40,999\n3,Mark,Zuck,Nueva York,CEO,37,999\n4,Elon,Musk,Pretoria,CEO,50,999\n'

In [143]:
# Bonus. df.append(df2)
# Agrega las filas de df2 al df. 
# Agrega Nan o nulls a los valores que no existen 
df.append(df_de_dict)

Unnamed: 0,Nombre,Apellido,Ciudad,Trabajo,Edad,col_x
0,Pedro,Picapiedra,Piedradura,Constructor,41,999.0
1,Leonardo,,Nueva York,Ninja,15,999.0
2,John,Lennon,Liverpool,Musico,40,999.0
3,Mark,Zuck,Nueva York,CEO,37,999.0
4,Elon,Musk,Pretoria,CEO,50,999.0
0,Aragorn,,,,87,
1,Bruce,Wayne,,,26,
