<a href="https://colab.research.google.com/github/l19060741/Curso-Phyton/blob/main/Anahi_Gonzalez_1_Introducci%C3%B3n_a_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Pandas

Los objetos Pandas pueden verse como una versión mejorada de los arreglos Numpy. En estos objetos, los renglones y las columnas se identifican con etiquetas en vez de con solo números enteros.

In [None]:
# Instalar Pandas
#En shell
!pip install pandas


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# Por convención se nombra 'pd'
import pandas as pd
#Importamos numpy
import numpy as np

## Objeto Serie Pandas

Este tipo de objetos Pandas son arreglos uni dimensionales. Pueden construirse a partir de una lista o arreglo.

In [None]:
#Construyendo un objeto Serie a partir de una lista
data = pd.Series([0.0, 0.25, 0.75, 1.0])
data

0    0.00
1    0.25
2    0.75
3    1.00
dtype: float64

Lo que apreciamos en la salida de la celda anterior, es que el objeto Series encierra tanto la secuencia de valores como una secuencia de índices.

Podemos acceder a ambos a través de los atributos 'values' e 'index'.  

En el caso de 'values' son simplemente un arreglo Numpy

### Explorando los atributos values e index

In [None]:
# Vemos que values es un arreglo
data.values

array([0.  , 0.25, 0.75, 1.  ])

In [None]:
# Corroboramos que son de tipo numpy array
type(data.values)

numpy.ndarray

In [None]:
# Podemos acceder al atributo shape
data.values.shape

(4,)

In [None]:
# Por otro lado, index es un arreglo pero de otro tipo
data.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
# El tipo es pd.Index
type(data.index)

pandas.core.indexes.range.RangeIndex

### Accediendo a los datos de Series

Podemos acceder a los datos de forma similar a la notación con corchetes [] de Numpy

In [None]:
data[1]

In [None]:
data[2:4]

2    0.75
3    1.00
dtype: float64

Aunque el objeto Series comparte similitudes con los arreglos Numpy, es más general y flexible.

Mientras que los arreglos de Numpy tienen índices enteros definidos de forma implícita, los objetos Series tienen índices definidos de forma explícita y éstos no necesariamente deben ser enteros, sino que pueden ser de valore de cualquier tipo.

In [None]:
# Podemos usar cadenas como índices
# Lo contenido en la lista index son los índices
data = pd.Series(np.linspace(0,1,5),index=['a','b','c','d','e'])  #creamos un Series a partir de un arreglo Numpy
data

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [None]:
# Podemos acceder a los elementos con índices numericos
data[1]

0.25

In [None]:
# Y la ventaja con Series es que podemos acceder con los índices indicados, aunque sean cadenas
data['c']

0.5

In [None]:
# Incluso podemos defenir índices con valores numéricos no secuenciales
data = pd.Series(np.linspace(0,1,5),index=[3,2,1,5,4])  
data

3    0.00
2    0.25
1    0.50
5    0.75
4    1.00
dtype: float64

### Construyendo Series a partir de diccionarios de Python

In [None]:
#Creamos un diccionario
poblacion_dict = {'Saltillo': 800000,'Arteaga':120000,'Ramos':180000,'Monterrey':2000000}
poblacion_dict

{'Saltillo': 800000, 'Arteaga': 120000, 'Ramos': 180000, 'Monterrey': 2000000}

In [None]:
#Creamos un objeto Series a partir de un diccionario
poblacion = pd.Series(poblacion_dict)
poblacion

Saltillo      800000
Arteaga       120000
Ramos         180000
Monterrey    2000000
dtype: int64

In [None]:
poblacion['Saltillo']

800000

A diferencia de los diccionarios, los objetos Series permiten operaciones de tipo arreglos, como hacer slicing

In [None]:
poblacion['Saltillo':'Ramos']

Saltillo    800000
Arteaga     120000
Ramos       180000
dtype: int64

## Objeto DataFrame Pandas
Este objeto también se puede ver como una generalización de arreglos Numpy o una especialización de los diccionarios Python.

Mientras que las Series son el analogo a arreglos uni dimensionales, los DataFrames son el análogo a arreglos bi dimensionales.

Se puede pensar un DataFrame como una secuencia de objetos Serie alineados, donde con alineado se refiere a que comparten el mismo índice.

### Construcción de un DataFrame a partir de Series

In [None]:
#Creamos una Serie
poblacion_dict = {'Obregon': 800000,'Navojoa':120000,'Guaymas':180000,'Hermosillo':2000000} #A partir de un diccionario
poblacion = pd.Series(poblacion_dict)

In [None]:
#Creamos otra serie
area_dict = {'Obregon': 50000,'Navojoa':15000,'Guaymas':30000,'Hermosillo':100000} #A partir de un diccionario
area = pd.Series(area_dict)

In [None]:
ciudades = pd.DataFrame({'poblacion':poblacion, 'area':area})  #A partir de un diccionario de series
ciudades

Unnamed: 0,poblacion,area
Obregon,800000,50000
Navojoa,120000,15000
Guaymas,180000,30000
Hermosillo,2000000,100000


### Acceder al contenido e índices de un DataFrame

In [None]:
# Obtenemos los índices
ciudades.index

Index(['Obregon', 'Navojoa', 'Guaymas', 'Hermosillo'], dtype='object')

In [None]:
# Obtenemos los nombres de las columnas
ciudades.columns

Index(['poblacion', 'area'], dtype='object')

In [None]:
# Si accedemos a la información de una columna, lo que tenemos es una Serie
ciudades['area']  

Obregon        50000
Navojoa        15000
Guaymas        30000
Hermosillo    100000
Name: area, dtype: int64

In [None]:
# Ver el tipo del DataFrame
type(ciudades)

pandas.core.frame.DataFrame

In [None]:
# Ver el tipo de una columna del DataFrame
type(ciudades['area'])

pandas.core.series.Series

In [None]:
# Una opción para acceder a un elemento específico
ciudades[ciudades.columns[0]][2]

180000

### Más sobre la construcción de DataFrames

A partir de una lista de diccionarios

In [None]:
{'a':1,'b':2}  # Un diccionario

{'a': 1, 'b': 2}

In [None]:
data = [{'a':i,'b':2*i} for i in range(6)]  #List of comprehension de diccionarios 
data

[{'a': 0, 'b': 0},
 {'a': 1, 'b': 2},
 {'a': 2, 'b': 4},
 {'a': 3, 'b': 6},
 {'a': 4, 'b': 8},
 {'a': 5, 'b': 10}]

In [None]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8
5,5,10


A partir de un arreglo Numpy de dos dimensiones

In [None]:
#Una arreglo Numpy 2D
arreglo_2D = np.random.rand(3,4)
arreglo_2D

array([[0.97861834, 0.79915856, 0.46147936, 0.78052918],
       [0.11827443, 0.63992102, 0.14335329, 0.94466892],
       [0.52184832, 0.41466194, 0.26455561, 0.77423369]])

In [None]:
#El DataFrame a partir del arreglo
pd.DataFrame(arreglo_2D, columns =['uno','dos','tres','cuatro'], index=['a','b','c'])


Unnamed: 0,uno,dos,tres,cuatro
a,0.978618,0.799159,0.461479,0.780529
b,0.118274,0.639921,0.143353,0.944669
c,0.521848,0.414662,0.264556,0.774234


In [None]:
# Un pequeño tip

# Podemos escribir texto en una cadena y usar split para separarlo
'A B C D E'.split()   #Facilita la declaración de la lista

['A', 'B', 'C', 'D', 'E']

In [None]:
np.random.seed(0)
df = pd.DataFrame(np.random.rand(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,0.548814,0.715189,0.602763,0.544883
B,0.423655,0.645894,0.437587,0.891773
C,0.963663,0.383442,0.791725,0.528895
D,0.568045,0.925597,0.071036,0.087129
E,0.020218,0.83262,0.778157,0.870012


### Crear nuevas columnas

In [None]:
df['N'] = df['W'] + df['Y']
df

Unnamed: 0,W,X,Y,Z,N
A,0.548814,0.715189,0.602763,0.544883,1.151577
B,0.423655,0.645894,0.437587,0.891773,0.861242
C,0.963663,0.383442,0.791725,0.528895,1.755388
D,0.568045,0.925597,0.071036,0.087129,0.639081
E,0.020218,0.83262,0.778157,0.870012,0.798375


In [None]:
df.columns

Index(['W', 'X', 'Y', 'Z', 'N'], dtype='object')

### Eliminar columnas

In [None]:
df.drop('N',axis=1)
df  #No sucede in place

Unnamed: 0,W,X,Y,Z,N
A,0.548814,0.715189,0.602763,0.544883,1.151577
B,0.423655,0.645894,0.437587,0.891773,0.861242
C,0.963663,0.383442,0.791725,0.528895,1.755388
D,0.568045,0.925597,0.071036,0.087129,0.639081
E,0.020218,0.83262,0.778157,0.870012,0.798375


In [None]:
df.drop('N',axis=1,inplace=True)
df

Unnamed: 0,W,X,Y,Z
A,0.548814,0.715189,0.602763,0.544883
B,0.423655,0.645894,0.437587,0.891773
C,0.963663,0.383442,0.791725,0.528895
D,0.568045,0.925597,0.071036,0.087129
E,0.020218,0.83262,0.778157,0.870012


### Eliminar renglones

In [None]:
df.drop('E',axis=0,inplace=True)
df

Unnamed: 0,W,X,Y,Z
A,0.548814,0.715189,0.602763,0.544883
B,0.423655,0.645894,0.437587,0.891773
C,0.963663,0.383442,0.791725,0.528895
D,0.568045,0.925597,0.071036,0.087129


### Más sobre indexación de DataFrames

In [None]:
#Definimos nuevamente el DataFrame
np.random.seed(0)
df = pd.DataFrame(np.random.rand(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,0.548814,0.715189,0.602763,0.544883
B,0.423655,0.645894,0.437587,0.891773
C,0.963663,0.383442,0.791725,0.528895
D,0.568045,0.925597,0.071036,0.087129
E,0.020218,0.83262,0.778157,0.870012


In [None]:
# Podemos indexar usando una lista de nombres de columnas
df[['W','Z']]

Unnamed: 0,W,Z
A,0.548814,0.544883
B,0.423655,0.891773
C,0.963663,0.528895
D,0.568045,0.087129
E,0.020218,0.870012


In [None]:
#Podemos seleccionar renglones específicos
df.loc['A']

W    0.548814
X    0.715189
Y    0.602763
Z    0.544883
Name: A, dtype: float64

In [None]:
#Que es una Serie
type(df.loc['A'])

pandas.core.series.Series

In [None]:
#Definimos nuevamente el DataFrame
np.random.seed(0)
df = pd.DataFrame(np.random.rand(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,0.548814,0.715189,0.602763,0.544883
B,0.423655,0.645894,0.437587,0.891773
C,0.963663,0.383442,0.791725,0.528895
D,0.568045,0.925597,0.071036,0.087129
E,0.020218,0.83262,0.778157,0.870012


In [None]:
#Podemos seleccionar renglones de acuerdo a su índice numérico
#Por ejemplo, paa seleccionar la C que está en 2
df.iloc[2]

W    0.963663
X    0.383442
Y    0.791725
Z    0.528895
Name: C, dtype: float64

### Seleccionar subconjuntos de renglones y columnas

In [None]:
#Renglón B y columna Y
df.loc['B','Y']

0.4375872112626925

In [None]:
#Renglones A y B y columnas W y Y
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,0.548814,0.602763
B,0.423655,0.437587
