# PANDAS.

La herramienta más importante de Pandas es su estructura de datos, conocida como DataFrame. Un DataFrame es una estructura de datos bidimensional, puede considerarse como una hoja de cálculo que ofrece gran flexibilidad para trabajar con ella parecida a una tabla de excel. Puede transformar fácilmente cualquier conjunto de datos a su gusto, modificándolo y añadiendo o eliminando columnas o filas. También proporciona funciones para agregar, fusionar y unir conjuntos de datos. En muchos casos, los datos en estos formatos no estarán completos ni totalmente bien estructurados. Pandas ofrece herramientas para manipular estos datos.


In [None]:
import pandas as pd

In [None]:
#Creamos un diccionario con los pacientes que ha atendido un veterinario.

clientes = { 'especie': [
    'perro', 'gato', 'caiman', 'serpiente', 'hamster', 'conejo'
],
             'nombre': [
                 'rufus', 'stinky', 'rex', 'titan', 'cobi', 'rabi'
             ],
             'nacimiento': [
                 2020, 2021, 2019, 2017, 2023, 2022
             ],
             'raza': [
                 'pitbull', 'burmes', 'de agua dulce', 'anaconda', 'angora',
                 'cabeza de leo'
             ]}

In [None]:
#Transformamos este diccionario a un DataFrame

pacientes = pd.DataFrame(clientes)
pacientes

Unnamed: 0,especie,nombre,nacimiento,raza
0,perro,rufus,2020,pitbull
1,gato,stinky,2021,burmes
2,caiman,rex,2019,de agua dulce
3,serpiente,titan,2017,anaconda
4,hamster,cobi,2023,angora
5,conejo,rabi,2022,cabeza de leon


# LEYENDO UN ARCHIVO

In [None]:
#Para cargar archivos de nuestro equipo a Google Colab.

from google.colab import files
uploaded = files.upload()

Saving edu.csv to edu (1).csv


In [None]:
#Usamos la instruccion  pd.read_csv para leer el archivo que subimos y
#lo almacenamos en una variable que nombramos edu.

edu = pd.read_csv('edu.csv', na_values = ':',
                  usecols = ['TIME', 'GEO', 'Value'])
edu

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.00
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
...,...,...,...
379,2007,Finland,5.90
380,2008,Finland,6.10
381,2009,Finland,6.81
382,2010,Finland,6.85


También existen funciones para leer archivos de otro tipo de formato, como archivos  de Excel, HDF5, archivos tabulados, incluso el contenido del portapapeles (read_excel(), read_hdf(), read_table(), read_clipboard()). Independientemente de la función que usemos, el resultado de la lectura de un archivo se almacena como una estructura DataFrame.

In [None]:
#Usamos head() para mostrar las primeras cinco filas.

edu.head()

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95


In [None]:
#Usamos tail() para mostrar las ultimas cinco filas.

edu.tail()

Unnamed: 0,TIME,GEO,Value
379,2007,Finland,5.9
380,2008,Finland,6.1
381,2009,Finland,6.81
382,2010,Finland,6.85
383,2011,Finland,6.76


In [None]:
#Podemos especificar un numero n para mostrar las primeras n filas
#con el metodo head()

edu.head(12)

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
5,2005,European Union (28 countries),4.92
6,2006,European Union (28 countries),4.91
7,2007,European Union (28 countries),4.92
8,2008,European Union (28 countries),5.04
9,2009,European Union (28 countries),5.38


In [None]:
#Podemos especificar un numero n para mostrar las ultimas n filas
#con el metodo tail()

edu.tail(8)

Unnamed: 0,TIME,GEO,Value
376,2004,Finland,6.42
377,2005,Finland,6.3
378,2006,Finland,6.18
379,2007,Finland,5.9
380,2008,Finland,6.1
381,2009,Finland,6.81
382,2010,Finland,6.85
383,2011,Finland,6.76


#Seleccionando datos

In [None]:
edu['TIME'] #Seleccionamos la columna TIME.

Unnamed: 0,TIME
0,2000
1,2001
2,2002
3,2003
4,2004
...,...
379,2007
380,2008
381,2009
382,2010


In [None]:
#Otra forma de seleccionar columnas:

edu.Value #En este caso seleccionamos la columna Value.

#Es otra forma util de seleccionar columnas.

Unnamed: 0,Value
0,
1,
2,5.00
3,5.03
4,4.95
...,...
379,5.90
380,6.10
381,6.81
382,6.85


In [None]:
#Usamos .loc[] para mostrar los valores de una fila especificada:

edu.loc[17]

Unnamed: 0,17
TIME,2005
GEO,European Union (27 countries)
Value,4.92


In [None]:
edu.loc[0].index #Podemos ver los nombres de las columnas.

Index(['TIME', 'GEO', 'Value'], dtype='object')

Si queremos seleccionar un subconjunto de filas de un DataFrame, podemos hacerlo indicando un rango de filas separadas por dos puntos (:) dentro de los corchetes. Esto se conoce comúnmente como un segmento de filas

In [None]:
edu[3:16]

Unnamed: 0,TIME,GEO,Value
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
5,2005,European Union (28 countries),4.92
6,2006,European Union (28 countries),4.91
7,2007,European Union (28 countries),4.92
8,2008,European Union (28 countries),5.04
9,2009,European Union (28 countries),5.38
10,2010,European Union (28 countries),5.41
11,2011,European Union (28 countries),5.25
12,2000,European Union (27 countries),4.91


In [None]:
edu['Value'].iloc[2:7] #Seleccionamos una columna y un segmento de filas de esta columna.

Unnamed: 0,Value
2,5.0
3,5.03
4,4.95
5,4.92
6,4.91


In [None]:
#Otra forma de hacer lo mesmo, pero a mi paracer mas intuitivo y facil es con .loc[]
#ademas de que podemos seleccionar mas de una columna:

edu.loc[14:37, ['TIME', 'Value']]

#Entre corchetes primero seleccionamos las filas que deseamos y despues las columnas:
# .loc[filas, columnas]

Unnamed: 0,TIME,Value
14,2002,5.0
15,2003,5.04
16,2004,4.95
17,2005,4.92
18,2006,4.91
19,2007,4.93
20,2008,5.04
21,2009,5.38
22,2010,5.41
23,2011,5.25


# **FILTRADO DE DATOS**

## ***Mascara Booleana para filtrar datos en un DataFrame***

Una de las herramientas mas sencillas y mas utiles al momento de trabajar con datos es el 'enmascaramiento booleno'. Cuando filtramos un DataFrame haciendo uso de una ***mascara booleana*** necesitamos una coleccion de valores ***booleanos***, es decir, valores que toman un valor de verdadero o falso, que contenga tantos valores booleanos como filas de DataFrame que se deseen filtrar.

**Ejemplo:**


In [None]:
potenciasdedos = pd.Series([1,    2,      4,    8,    16,   32,    64])   #Creamos una lista con ciertos valores y la convertimos en una serie.
mb =                      [True, False, False, True, True, False, False]  #Creamos una lista con valores booleanos.

potenciasdedos[mb]  #Aplicamos el filtrado booleeano.

Unnamed: 0,0
0,1
3,8
4,16


In [None]:
potenciasdedos >= 50 #Creamos una mascara booleana que satisfaga una cierta condicion
                     #la cual es que los valores de potenciasdedos sean
                     #mayores o iguales a 50.

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
5,False
6,True


In [None]:
mb = potenciasdedos >= 50 #Nombramos a estos valores booleanos como mb

In [None]:
potenciasdedos[mb] #Aplicamos el filtrado booleano a potenciasdedos

Unnamed: 0,0
6,64


In [None]:
potenciasdedos[potenciasdedos >= 50]

#Hacemos exactamente lo mesmo que en la celda anterior, pero en este caso
#aplicamos la mascara booleana directamente sin nombrarla como mb primero.

Unnamed: 0,0
6,64


In [None]:
#En la tabla edu vamos a crear un filtro para aquellas filas cuyo valor
#en la columna Value sea mayor a 6.5 y aplicamos esta mascara booleana
#para mostrar los valores deseados.

edu[edu['Value'] > 6.5]

Unnamed: 0,TIME,GEO,Value
93,2009,Belgium,6.57
94,2010,Belgium,6.58
95,2011,Belgium,6.55
120,2000,Denmark,8.28
121,2001,Denmark,8.44
122,2002,Denmark,8.44
123,2003,Denmark,8.33
124,2004,Denmark,8.43
125,2005,Denmark,8.3
126,2006,Denmark,7.97


Pandas usa un valor especial: NaN (Not a Number) para representar valores faltantes. NaN es un valor especial de '*punto flotante*' que devuelven ciertas operaciones cuando uno de sus resultados termina en un valor indefinido. Dos valores NaN nunca son iguales. Para filtrar los valores faltantes en un DataFrame podemos usar la función isnull().

In [None]:
edu[edu['Value'].isnull()] #Filtramos los valores faltantes.

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
36,2000,Euro area (18 countries),
37,2001,Euro area (18 countries),
48,2000,Euro area (17 countries),
49,2001,Euro area (17 countries),
60,2000,Euro area (15 countries),
72,2000,Euro area (13 countries),
84,2000,Belgium,
174,2006,Greece,


In [None]:
edu.max(axis = 0) #Obtenemos el valor maximo de cada columna.

Unnamed: 0,0
TIME,2011
GEO,Spain
Value,8.81


In [None]:
edu['Value']/100 } #A cada valor de la columna Value lo dividimos por 100.

Unnamed: 0,Value
0,
1,
2,0.0500
3,0.0503
4,0.0495
...,...
379,0.0590
380,0.0610
381,0.0681
382,0.0685


In [None]:
#Podemos aplicar cualquier función a un DataFrame o Serie simplemente
#estableciendo el nombre de la funcion como argumento del método apply.

import numpy as np

edu['Value'].apply(np.sqrt)

Unnamed: 0,Value
0,
1,
2,2.236068
3,2.242766
4,2.224860
...,...
379,2.428992
380,2.469818
381,2.609598
382,2.617250


Si necesitamos una función específica para aplicarla, podemos escribir una función en una linea 'haciendo los calculos sobre la marcha', a una funcion de este tipo comunmente se le conoce como funcion lambda, la cual es una función sin nombre. Solo es necesario especificar los parámetros que recibe, entre la palabra clave lambda y los dos puntos (:).

In [None]:
edu['Value'].apply(lambda d : d**2)

Unnamed: 0,Value
0,
1,
2,25.0000
3,25.3009
4,24.5025
...,...
379,34.8100
380,37.2100
381,46.3761
382,46.9225


In [None]:
#  Podemos crear nuevos valores en nuestro DatFrame
#Por ejemplo, creemos una nueva columna.

edu['nueva'] = edu['Value'] / edu['Value'].max()
edu

Unnamed: 0,TIME,GEO,Value,nueva
0,2000,European Union (28 countries),,
1,2001,European Union (28 countries),,
2,2002,European Union (28 countries),5.00,0.567537
3,2003,European Union (28 countries),5.03,0.570942
4,2004,European Union (28 countries),4.95,0.561862
...,...,...,...,...
379,2007,Finland,5.90,0.669694
380,2008,Finland,6.10,0.692395
381,2009,Finland,6.81,0.772985
382,2010,Finland,6.85,0.777526


In [None]:
#Utilizamos la funcion drop() para eliminar columnas.
#Si no desea conservar los valores antiguos, puede establecer la palabra
#clave "inplace" en "True". Por defecto, esta palabra clave se establece en
#"False", lo que significa que se devuelve una copia de los datos.

edu.drop('nueva', axis = 1, inplace = True)

In [None]:
#Eliminando valores faltantes:

edusinfaltantes = edu.dropna(subset=['Value'])
edusinfaltantes

Unnamed: 0,TIME,GEO,Value
2,2002,European Union (28 countries),5.00
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
5,2005,European Union (28 countries),4.92
6,2006,European Union (28 countries),4.91
...,...,...,...
379,2007,Finland,5.90
380,2008,Finland,6.10
381,2009,Finland,6.81
382,2010,Finland,6.85


In [None]:
#Llenando los  valores faltantes:

edulleno = edu.fillna(value = {'Value': 0})
edulleno

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),0.00
1,2001,European Union (28 countries),0.00
2,2002,European Union (28 countries),5.00
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
...,...,...,...
379,2007,Finland,5.90
380,2008,Finland,6.10
381,2009,Finland,6.81
382,2010,Finland,6.85


#EJMPLO DEL UO DE MASCARAS BOOLEANAS

In [None]:
from google.colab import files
uploaded = files.upload()

Saving adulto.csv to adulto.csv


In [None]:
adulto = pd.read_csv('adulto.csv')
adulto

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalGain,capitalLoss,hoursPerWeek,nativeCountry,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [None]:
#Calcular la edas media o el promedio y la mediana de las personas con educacion preescolar.

mb = adulto['education'] == 'Preschool'

In [None]:
np.mean(adulto[mb].age)

np.float64(42.76470588235294)

In [None]:
print(f'La edad media de las personas con educacion preescolar es: {np.mean(adulto[mb].age)}')

La edad media de las personas con educacion preescolar es: 42.76470588235294


In [None]:
print(f'La mediana de la edad de las personas con educacion preescolar es: {np.median(adulto[mb].age)}')

La mediana de la edad de las personas con educacion preescolar es: 41.0


In [None]:
print(f'La edad promedio de las personas con educacion preescolar es: {np.mean(adulto[mb].age):.2f}')
print(f'La mediana de la edad de las personas con educacion preescolar es: {np.median(adulto[mb].age):.2f}')

La edad promedio de las personas con educacion preescolar es: 42.76
La mediana de la edad de las personas con educacion preescolar es: 41.00


#Ejercicio:
Comparar la ganancia de capital 'CapitalGain' de individuos con menos de 10 años de educación con individuos con más de 10 años de educación 'education-num'.

In [None]:
mb1 = adulto['education-num'] < 10 #Creamos una mascara booleana para las personas con menos de 10 años de educacion.
mb2 = adulto['education-num'] > 10 #Creamos una mascara booleana para las personas con mas de 10 años de educacion.

In [None]:
print(f'El promedio del capital ganado por una persona con menos de 10 años de educacion es: {np.mean(adulto[mb1].capitalGain):.3f}')
print(f'El promedio del capital ganado por una persona con mas de 10 años de educacion es: {np.mean(adulto[mb2].capitalGain):.3f}')

El promedio del capital ganado por una persona con menos de 10 años de educacion es: 492.255
El promedio del capital ganado por una persona con mas de 10 años de educacion es: 2230.940


In [None]:
np.mean(adulto[mb2].capitalGain)

np.float64(2230.9397109166985)