<img src='https://drive.google.com/uc?id=1nptVTliqyIIOzwF08JXJkWEvlYUC4_g5'  width="1500" height="300">

<div class="markdown-google-sans">
  <h1>Pandas básico</h1>
</div>

# 1. Introducción a Pandas

## ¿Qué es pandas?
Es una librería de análisis de datos que se compone de una serie de estructuras de datos con funcionalidades para limpiar, analizar y preprocesar los datos para tareas siguientes al análisis.

![wget](https://drive.google.com/uc?export=view&id=1mbFgZLmt0qD80FleVEj4cpxh5oO3ocvQ)

## Importando pandas
Pandas se puede importar de la siguiente manera. Se utiliza el nombre pd por facilidad de manejo.

In [1]:
import pandas as pd
import numpy as np

## Series
Una serie es un arreglo unidimensional con un índice correspondiente a cada posición del arreglo. Por ejemplo, el listado de jugadores de un equipo, donde el arreglo tiene los apellidos de los jugadores y el índice el número del jugador.

In [2]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'],
    index=[1, 2, 9, 11, 10])
print(seleccionColombia)   

1        Ospina
2        Zapata
9        Falcao
11     Cuadrado
10    Rodriguez
dtype: object


Como se puede observar con los jugadores Cuadrado y Rodriguez, los índices no tienen que estar necesariamente ordenados. La serie se puede imprimir escribiendo su identificador.

In [3]:
seleccionColombia

Unnamed: 0,0
1,Ospina
2,Zapata
9,Falcao
11,Cuadrado
10,Rodriguez


Una serie se puede generar sin conocer los índices y Pandas los generará automáticamente con valores desde cero hasta el tamaño de la lista menos uno. En el caso de la misma serie:

In [4]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'])
seleccionColombia

Unnamed: 0,0
0,Ospina
1,Zapata
2,Falcao
3,Cuadrado
4,Rodriguez


### Series desde Diccionarios

Las series tambien pueden ser definidas desde diccionarios:

In [5]:
dict_selcol = {1:'Ospina', 2: 'Zapata', 9: 'Falcao', 11: 'Cuadrado', 10: 'Rodriguez'}
print(dict_selcol)

{1: 'Ospina', 2: 'Zapata', 9: 'Falcao', 11: 'Cuadrado', 10: 'Rodriguez'}


In [6]:
ser_selcol = pd.Series(dict_selcol)
ser_selcol.head()

Unnamed: 0,0
1,Ospina
2,Zapata
9,Falcao
11,Cuadrado
10,Rodriguez


### Usando los índices

Los índices son la clave para entender cómo usar las Series. Pandas usa los nombres de los índices o sus números para permitir la búsqueda rápida de información (funcionan como una tabla hash o un diccionario).

Para el ejemplo, vamos a crear 2 Series: ser1 y ser2

In [7]:
ser1 = pd.Series([10,20,30,40,0],index = ['Peru','Colombia', 'Germany','Spain', 'Japan'])

In [8]:
ser1

Unnamed: 0,0
Peru,10
Colombia,20
Germany,30
Spain,40
Japan,0


In [9]:
ser2 = pd.Series([1,2,5,4,5],index = ['Germany','Colombia','Colombia','Italy', 'Japan'])

In [10]:
ser2

Unnamed: 0,0
Germany,1
Colombia,2
Colombia,5
Italy,4
Japan,5


In [11]:
ser2['Colombia']

Unnamed: 0,0
Colombia,2
Colombia,5


In [12]:
ser1[3]

  ser1[3]


40

También, se pueden hacer operaciones entre Series:

In [13]:
ser1

Unnamed: 0,0
Peru,10
Colombia,20
Germany,30
Spain,40
Japan,0


In [14]:
ser2

Unnamed: 0,0
Germany,1
Colombia,2
Colombia,5
Italy,4
Japan,5


In [15]:
ser1 + ser2

Unnamed: 0,0
Colombia,22.0
Colombia,25.0
Germany,31.0
Italy,
Japan,5.0
Peru,
Spain,


In [16]:
ser1 / ser2

Unnamed: 0,0
Colombia,10.0
Colombia,4.0
Germany,30.0
Italy,
Japan,0.0
Peru,
Spain,


## DataFrame
Un DataFrame es una estructura de datos que almacena la información como una tabla ordenada por filas y columnas. Cada fila representa un objeto y cada columna la información correspondiente a una característica de los objetos.

Un DataFrame también posee índices por cada fila, que pueden ser dados o generados automáticamente. Cada columna del DataFrame es una serie, donde el valor del índice corresponde con los valores de índice que tiene el DataFrame.

Por medio de un diccionario vamos a crear un dataframe, donde las llaves son los nombres de las columnas y los valores son la lista de valores que tienen las características.

Por ejemplo, para hacer un DataFrame con el equipo de fútbol anterior, pero agregando estatura y peso, podemos hacerlo de la siguiente manera:

In [17]:
dict_caracteristicas = {'apellido':['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'],
                       'altura':[183.0,187.0,177.0,179.0,180.0],
                       'peso':[80.0,82.0,72.0,72.0,75.0]}

seleccionColombia = pd.DataFrame(dict_caracteristicas,index=[1, 2, 9, 11, 10])

Al imprimir el DataFrame, podemos observar que su estructura es similar a la de un documento en Excel, donde el índice (que no tiene nombre de columna) es el número del jugador.

In [18]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0


### Acceso a los registros del DataFrame por el índice

En pandas podemos acceder a la fila por el índice de ésta. En el ejemplo anterior este índice era el número de la camiseta del jugador. Pero podría ser una fecha, una letra, etc.

Si conocemos el índice simplemente lo usamos para ir directamente a la fila deseada.

In [19]:
seleccionColombia.loc[9]

Unnamed: 0,9
apellido,Falcao
altura,177.0
peso,72.0


Para agregar un nuevo jugador, se puede utilizar el índice, que en este caso es el número en el equipo y un arreglo representando todas sus características (apellido, altura y peso).

NOTA: Las características tienen que estar en el mismo orden.

In [20]:
num_jugador = 3
caract_jugador = ['Murillo',184.0,80.0]
seleccionColombia.loc[num_jugador] = caract_jugador

Imprimiendo el DataFrame podemos ver el nuevo jugador.

In [21]:
seleccionColombia

Unnamed: 0,apellido,altura,peso
1,Ospina,183.0,80.0
2,Zapata,187.0,82.0
9,Falcao,177.0,72.0
11,Cuadrado,179.0,72.0
10,Rodriguez,180.0,75.0
3,Murillo,184.0,80.0


###Creando una columna nueva

In [22]:
seleccionColombia['IMC'] = seleccionColombia['peso'] / (seleccionColombia['altura'] ** 2) * 100

In [23]:
seleccionColombia

Unnamed: 0,apellido,altura,peso,IMC
1,Ospina,183.0,80.0,0.238884
2,Zapata,187.0,82.0,0.234493
9,Falcao,177.0,72.0,0.229819
11,Cuadrado,179.0,72.0,0.224712
10,Rodriguez,180.0,75.0,0.231481
3,Murillo,184.0,80.0,0.236295


In [24]:
seleccionColombia['Numero_partidos_jugados'] = [13, 7, 45, 20, 25, 10]

In [25]:
seleccionColombia

Unnamed: 0,apellido,altura,peso,IMC,Numero_partidos_jugados
1,Ospina,183.0,80.0,0.238884,13
2,Zapata,187.0,82.0,0.234493,7
9,Falcao,177.0,72.0,0.229819,45
11,Cuadrado,179.0,72.0,0.224712,20
10,Rodriguez,180.0,75.0,0.231481,25
3,Murillo,184.0,80.0,0.236295,10


### Borrar Columna o Fila

In [26]:
seleccionColombia

Unnamed: 0,apellido,altura,peso,IMC,Numero_partidos_jugados
1,Ospina,183.0,80.0,0.238884,13
2,Zapata,187.0,82.0,0.234493,7
9,Falcao,177.0,72.0,0.229819,45
11,Cuadrado,179.0,72.0,0.224712,20
10,Rodriguez,180.0,75.0,0.231481,25
3,Murillo,184.0,80.0,0.236295,10


In [27]:
seleccionColombia.drop('peso',axis=1) # Para que sea permanente inplace=True

Unnamed: 0,apellido,altura,IMC,Numero_partidos_jugados
1,Ospina,183.0,0.238884,13
2,Zapata,187.0,0.234493,7
9,Falcao,177.0,0.229819,45
11,Cuadrado,179.0,0.224712,20
10,Rodriguez,180.0,0.231481,25
3,Murillo,184.0,0.236295,10


Si queremos eliminar una columna permanentemente también se puede usar:

In [28]:
del seleccionColombia['peso']

In [29]:
seleccionColombia

Unnamed: 0,apellido,altura,IMC,Numero_partidos_jugados
1,Ospina,183.0,0.238884,13
2,Zapata,187.0,0.234493,7
9,Falcao,177.0,0.229819,45
11,Cuadrado,179.0,0.224712,20
10,Rodriguez,180.0,0.231481,25
3,Murillo,184.0,0.236295,10


Si queremos saber cuales son las columnas actuales del data frame, usamos la propiedad 'columns' del objeto.

In [30]:
seleccionColombia.columns

Index(['apellido', 'altura', 'IMC', 'Numero_partidos_jugados'], dtype='object')

Si queremos conocer el indice del dataframe, con lo propiedad 'index' la conocemos.

In [31]:
seleccionColombia.index

Index([1, 2, 9, 11, 10, 3], dtype='int64')

Para ordenar el dataframe se usa la función sort.

In [32]:
seleccionColombia.sort_values(by='altura') #inplace=False por defecto

Unnamed: 0,apellido,altura,IMC,Numero_partidos_jugados
9,Falcao,177.0,0.229819,45
11,Cuadrado,179.0,0.224712,20
10,Rodriguez,180.0,0.231481,25
1,Ospina,183.0,0.238884,13
3,Murillo,184.0,0.236295,10
2,Zapata,187.0,0.234493,7


## Datos faltantes: rellenar valores NaN con algo más

En algunas ocaciones vamos a tener valor inválidos en nuestros dataframes. Estos valores son un problema al momento de hacer cálculos numéricos o tomar estadísticas.

Para esto es necesario dejar fuera del dataframe estos campos.

En las siguientes líneas usted verá como se eliminan estos valores.

In [33]:
import numpy as np

In [34]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


**Hallar valores NULL o verificarlos**

In [35]:
df.isnull()

Unnamed: 0,col1,col2,col3
0,False,True,False
1,False,False,False
2,False,False,False
3,True,False,False


In [36]:
df.fillna('VALOR') # inplace=False por defecto

Unnamed: 0,col1,col2,col3
0,1.0,VALOR,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,VALOR,444.0,xyz


In [37]:
df

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [38]:
# En este caso, se usará la media de los valores de la Columna 2 para llenar sus valores faltantes:
df['col2'].fillna(value=df['col2'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['col2'].fillna(value=df['col2'].mean(), inplace=True)


In [39]:
df

Unnamed: 0,col1,col2,col3
0,1.0,555.0,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [40]:
# Eliminar filas con valores NaN
df.dropna(axis=0)

Unnamed: 0,col1,col2,col3
0,1.0,555.0,abc
1,2.0,555.0,def
2,3.0,666.0,ghi


# 2. Acceso a datos

## Carga de Datos

Pandas permite leer archivos en diferentes formatos, como txt, csv y excel. En este ejemplo se leerá un dataset correspondiente a la información nutricional de un listado de 80 cereales. El dataset puede ser descargado en el siguiente enlace (botón Downloads):

https://raw.githubusercontent.com/AYPenchev/80-Cereals/refs/heads/master/cereal.csv

Como el formato es .csv, se lee usando la función de pandas read_csv usando como parámetro la dirección del archivo. Si el archivo está en la misma carpeta del notebook, se puede usar solo su nombre.

In [41]:
url="https://raw.githubusercontent.com/AYPenchev/80-Cereals/refs/heads/master/cereal.csv"
df_cereals = pd.read_csv(url)

Si quiere conocer más formatos de entrada/salida como json, excel, hdf5, SQL, etc. Puede ir a la siguiente URL:

https://pandas.pydata.org/pandas-docs/stable/io.html

### Funciones para revisión de los datos
Lo primero que haremos es revisar las propiedades que tienen las columnas del DataFrame. Como el nombre de las columnas y sus tipos:

In [42]:
print("Columnas: ",df_cereals.columns.tolist())

Columnas:  ['name', 'mfr', 'type', 'calories', 'protein', 'fat', 'sodium', 'fiber', 'carbo', 'sugars', 'potass', 'vitamins', 'shelf', 'weight', 'cups', 'rating']


La función Info nos da un resumen del DataFrame y sus datos.

In [43]:
df_cereals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 16 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      77 non-null     object 
 1   mfr       77 non-null     object 
 2   type      77 non-null     object 
 3   calories  77 non-null     int64  
 4   protein   77 non-null     int64  
 5   fat       77 non-null     int64  
 6   sodium    77 non-null     int64  
 7   fiber     77 non-null     float64
 8   carbo     77 non-null     float64
 9   sugars    77 non-null     int64  
 10  potass    77 non-null     int64  
 11  vitamins  77 non-null     int64  
 12  shelf     77 non-null     int64  
 13  weight    77 non-null     float64
 14  cups      77 non-null     float64
 15  rating    77 non-null     float64
dtypes: float64(5), int64(8), object(3)
memory usage: 9.8+ KB


La función dtypes sólo nos indica los tipo de datos de las columnas.

In [44]:
df_cereals.dtypes

Unnamed: 0,0
name,object
mfr,object
type,object
calories,int64
protein,int64
fat,int64
sodium,int64
fiber,float64
carbo,float64
sugars,int64


Se puede observar que Pandas es capaz de inferir el tipo de columna a partir de los datos.

Para darle un vistazo inicial al DataFrame se puede utilizar la función head del DataFrame, que tiene como parámetro el número de filas que queremos observar, comenzando en orden por la primera.

In [45]:
df_cereals.head(10)

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
1,100% Natural Bran,Q,C,120,3,5,15,2.0,8.0,8,135,0,3,1.0,1.0,33.983679
2,All-Bran,K,C,70,4,1,260,9.0,7.0,5,320,25,3,1.0,0.33,59.425505
3,All-Bran with Extra Fiber,K,C,50,4,0,140,14.0,8.0,0,330,25,3,1.0,0.5,93.704912
4,Almond Delight,R,C,110,2,2,200,1.0,14.0,8,-1,25,3,1.0,0.75,34.384843
5,Apple Cinnamon Cheerios,G,C,110,2,2,180,1.5,10.5,10,70,25,1,1.0,0.75,29.509541
6,Apple Jacks,K,C,110,2,0,125,1.0,11.0,14,30,25,2,1.0,1.0,33.174094
7,Basic 4,G,C,130,3,2,210,2.0,18.0,8,100,25,3,1.33,0.75,37.038562
8,Bran Chex,R,C,90,2,1,200,4.0,15.0,6,125,25,1,1.0,0.67,49.120253
9,Bran Flakes,P,C,90,3,0,210,5.0,13.0,5,190,25,3,1.0,0.67,53.313813


In [46]:
df_cereals.tail()

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
72,Triples,G,C,110,2,1,250,0.0,21.0,3,60,25,3,1.0,0.75,39.106174
73,Trix,G,C,110,1,1,140,0.0,13.0,12,25,25,2,1.0,1.0,27.753301
74,Wheat Chex,R,C,100,3,1,230,3.0,17.0,3,115,25,1,1.0,0.67,49.787445
75,Wheaties,G,C,100,3,1,200,3.0,17.0,3,110,25,1,1.0,1.0,51.592193
76,Wheaties Honey Gold,G,C,110,2,1,200,1.0,16.0,8,60,25,1,1.0,0.75,36.187559


La función describe nos entrega las estadísticas descriptivas que nos permite conocer la tendencia de los datos, dispersión, dictribución, valores nulos y otros más.

In [47]:
df_cereals.describe(include='all')

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
count,77,77,77,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0,77.0
unique,77,7,2,,,,,,,,,,,,,
top,100% Bran,K,C,,,,,,,,,,,,,
freq,1,23,74,,,,,,,,,,,,,
mean,,,,106.883117,2.545455,1.012987,159.675325,2.151948,14.597403,6.922078,96.077922,28.246753,2.207792,1.02961,0.821039,42.665705
std,,,,19.484119,1.09479,1.006473,83.832295,2.383364,4.278956,4.444885,71.286813,22.342523,0.832524,0.150477,0.232716,14.047289
min,,,,50.0,1.0,0.0,0.0,0.0,-1.0,-1.0,-1.0,0.0,1.0,0.5,0.25,18.042851
25%,,,,100.0,2.0,0.0,130.0,1.0,12.0,3.0,40.0,25.0,1.0,1.0,0.67,33.174094
50%,,,,110.0,3.0,1.0,180.0,2.0,14.0,7.0,90.0,25.0,2.0,1.0,0.75,40.400208
75%,,,,110.0,3.0,2.0,210.0,3.0,17.0,11.0,120.0,25.0,3.0,1.0,1.0,50.828392


Para una descripción rápida se puede utilizar la función describe.

In [48]:
df_cereals['name'].unique()

array(['100% Bran', '100% Natural Bran', 'All-Bran',
       'All-Bran with Extra Fiber', 'Almond Delight',
       'Apple Cinnamon Cheerios', 'Apple Jacks', 'Basic 4', 'Bran Chex',
       'Bran Flakes', "Cap'n'Crunch", 'Cheerios', 'Cinnamon Toast Crunch',
       'Clusters', 'Cocoa Puffs', 'Corn Chex', 'Corn Flakes', 'Corn Pops',
       'Count Chocula', "Cracklin' Oat Bran", 'Cream of Wheat (Quick)',
       'Crispix', 'Crispy Wheat & Raisins', 'Double Chex', 'Froot Loops',
       'Frosted Flakes', 'Frosted Mini-Wheats',
       'Fruit & Fibre Dates; Walnuts; and Oats', 'Fruitful Bran',
       'Fruity Pebbles', 'Golden Crisp', 'Golden Grahams',
       'Grape Nuts Flakes', 'Grape-Nuts', 'Great Grains Pecan',
       'Honey Graham Ohs', 'Honey Nut Cheerios', 'Honey-comb',
       'Just Right Crunchy  Nuggets', 'Just Right Fruit & Nut', 'Kix',
       'Life', 'Lucky Charms', 'Maypo',
       'Muesli Raisins; Dates; & Almonds',
       'Muesli Raisins; Peaches; & Pecans', 'Mueslix Crispy Blend',
  

In [49]:
df_cereals['name'].nunique()

77

In [50]:
df_cereals['name'].value_counts()

Unnamed: 0_level_0,count
name,Unnamed: 1_level_1
100% Bran,1
Nutri-Grain Almond-Raisin,1
Quaker Oat Squares,1
Puffed Wheat,1
Puffed Rice,1
...,...
Frosted Flakes,1
Froot Loops,1
Double Chex,1
Crispy Wheat & Raisins,1


<div class="markdown-google-sans">
  <h1>Ejercicio 1</h1>
</div>

In [68]:
# Cargar la base de datos de todos los municipios de Colombia proporcionada por el DANE
# Usar este link: https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://geoportal.dane.gov.co/descargas/divipola/DIVIPOLA_Municipios.xlsx&ved=2ahUKEwiAutK15b-LAxWHSDABHeXABdgQFnoECBgQAQ&usg=AOvVaw0ORXeyNTqYJpvXL9t1eezV

<div class="markdown-google-sans">
  <h1>Ejercicio 2</h1>
</div>

In [69]:
# Cargar la base de datos de casos de Viruela del mono reportados en Colombia
# Usar este link: https://www.datos.gov.co/es/Salud-y-Protecci-n-Social/Casos-positivos-de-Viruela-s-mica-en-Colombia/tmet-yeek/about_data

<img src='https://drive.google.com/uc?id=1JTvS_vjZTzQfHiMOt9ZbfqmjNN1FvOOm'>

EJERCICIO EN CLASE :

In [1]:
import pandas as pd


datos = {
    'nombre': ['Ana', 'Carlos', 'María'],
    'edad': [25, 30, 28],
    'ciudad': ['Madrid', 'Barcelona', 'Valencia']
}


df = pd.DataFrame(datos)


print(df)


   nombre  edad     ciudad
0     Ana    25     Madrid
1  Carlos    30  Barcelona
2   María    28   Valencia


EJERCICIO VENTAS CLASE :

In [None]:
ventas = pd.Series({     'Enero': 120,     'Febrero': 95,     'Marzo': 130,     'Abril': 110,     'Mayo': 150 })

ventas
print(f"marzo: {ventas.iloc[2]}")  
print(f"mayo: {ventas.iloc[4]}")

ventas.iloc[1] = 105

print(f"febrero crregido : {ventas.iloc[1]}")


marzo: 130
mayo: 150
febrero crregido : 105


  ventas[1] = 105
