### INTRODUCCIÓN A PANDAS


pandas es una librería de datos para el análisis de datos. Ofrece variedad de operaciones de exploración, limpieza y transformación de datos.

pandas está construido sobre __numpy__ y __scipy__  suministrando una fácil manipulación de estructuras de datos.

Las principales estructuras de datos en Pandas son __Series__ y __DataFrames__. Veamos algunas de las funciones de Pandas:

Generación de estadística descriptiva de los datos.
Limpieza de datos usando funciones preconstruidas (built-in).
Operaciones como subconjuntos de datos. filtrado, inserción, borrado y agragación de datos.
Combinar (Merging) múltiples conjuntos de datos.
Manejos de series de tiempo.


Documentación oficial en: http://pandas.pydata.org/pandas-docs/stable/


In [None]:
#Se importa Pandas
import pandas as pd

In [None]:
!pip install obspy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting obspy
  Downloading obspy-1.4.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (14.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.5/14.5 MB[0m [31m50.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: obspy
Successfully installed obspy-1.4.0


###*SERIES*
Arreglos de datos de dimensión 1

In [None]:
#Se crea una serie
serie = pd.Series(data=[100, 200, 300, 400, 500], index=['Juan', 'Roberto', 'Nancy', 'Daniel', 'Erica'])

In [None]:
serie

Juan       100
Roberto    200
Nancy      300
Daniel     400
Erica      500
dtype: int64

In [None]:
type(serie)

pandas.core.series.Series

In [None]:
serie.index

Index(['Juan', 'Roberto', 'Nancy', 'Daniel', 'Erica'], dtype='object')

In [None]:
serie.ndim

1

In [None]:
serie['Nancy'] 

300

In [None]:
#Note que se pasa una lista de índices
serie[['Erica', 'Juan']]

Erica    500
Juan     100
dtype: int64

In [None]:
'Juan' in serie 

True

In [None]:
serie ** 2

Juan        10000
Roberto     40000
Nancy       90000
Daniel     160000
Erica      250000
dtype: int64

###DATAFRAME
Es un arreglo de dos dimensiones etiquetado
Su creación es a partir de de diccionarios donde la llave son los nombres de las columnas y las entradas son series de pandas con sus respectivos índices.

In [None]:
#Se crea un diccionario de datos
dicc ={'col1' : pd.Series([100., 200., 300.], index=['manzana', 'banano', 'naranja']),
     'col2' : pd.Series([111., 222., 333., 4444.], index=['manzana', 'banano', 'cereza', 'lima'])}

In [None]:
#Se pasa el diccionario a un dataframe y se almacena en el objeto df
df = pd.DataFrame(dicc)
df

Unnamed: 0,col1,col2
banano,200.0,222.0
cereza,,333.0
lima,,4444.0
manzana,100.0,111.0
naranja,300.0,


In [None]:
df.ndim

2

In [None]:
#¿Qué ejecuta este comando?
pd.DataFrame(dicc, index=['lima', 'banano', 'manzana'])

Unnamed: 0,col1,col2
lima,,4444.0
banano,200.0,222.0
manzana,100.0,111.0


In [None]:
#¿o éste?
pd.DataFrame(dicc, index=['lima', 'banano', 'manzana'], columns=['cualquier_cosa', 'lo_que_sea','col1'])

Unnamed: 0,cualquier_cosa,lo_que_sea,col1
lima,,,
banano,,,200.0
manzana,,,100.0


Un DataFrame también se puede crear a partir de una lista de diccionarios, donde cada llave representa una columna y el valor lo que almacena. Los índices por defecto son números enteros que empiezan desde cero.

In [None]:
datos = [{'alex': 1, 'joe': 2}, {'alex':2,'ema': 5, 'dora': 10, 'alice': 20}]

In [None]:
df2 = pd.DataFrame(datos)
df2

Unnamed: 0,alex,joe,ema,dora,alice
0,1,2.0,,,
1,2,,5.0,10.0,20.0


In [None]:
df3 = pd.DataFrame(datos, index=['rojo','amarillo'])
df3

Unnamed: 0,alex,joe,ema,dora,alice
rojo,1,2.0,,,
amarillo,2,,5.0,10.0,20.0


In [None]:
pd.DataFrame(datos, columns=['joe', 'dora','alice'])

Unnamed: 0,joe,dora,alice
0,2.0,,
1,,10.0,20.0


In [None]:
df['col1']

banano     200.0
cereza       NaN
lima         NaN
manzana    100.0
naranja    300.0
Name: col1, dtype: float64

In [None]:
#Para crear una nueva columna en el dataframe existente
df['col3'] = df['col1'] * df['col2']
df

Unnamed: 0,col1,col2,col3
banano,200.0,222.0,44400.0
cereza,,333.0,
lima,,4444.0,
manzana,100.0,111.0,11100.0
naranja,300.0,,


In [None]:
df['filtro'] = (df['col1'] > 250) & (df['col2'] > 100)
df

Unnamed: 0,col1,col2,col3,filtro
banano,200.0,222.0,44400.0,False
cereza,,333.0,,False
lima,,4444.0,,False
manzana,100.0,111.0,11100.0,False
naranja,300.0,,,False


In [None]:
df.insert(3, 'copia_de_col3', df['col3'])
df

Unnamed: 0,col1,copia_de_col1,col2,copia_de_col3,col3,filtro
banano,200.0,200.0,222.0,44400.0,44400.0,False
cereza,,,333.0,,,False
lima,,,4444.0,,,False
manzana,100.0,100.0,111.0,11100.0,11100.0,False
naranja,300.0,300.0,,,,False


In [None]:
#¿Qué hace este comando?
df['mitad_col_2'] = df['col2'][:2]/2
df

Unnamed: 0,col1,copia_de_col1,col2,copia_de_col3,col3,filtro,mitad_col_2
banano,200.0,200.0,222.0,44400.0,44400.0,False,111.0
cereza,,,333.0,,,False,166.5
lima,,,4444.0,,,False,
manzana,100.0,100.0,111.0,11100.0,11100.0,False,
naranja,300.0,300.0,,,,False,


In [None]:
df.head(2)

Unnamed: 0,col1,copia_de_col1,col2,copia_de_col3,col3,filtro,mitad_col_2
banano,200.0,200.0,222.0,44400.0,44400.0,False,111.0
cereza,,,333.0,,,False,166.5


In [None]:
df.tail(3)

Unnamed: 0,col1,copia_de_col1,col2,copia_de_col3,col3,filtro,mitad_col_2
lima,,,4444.0,,,False,
manzana,100.0,100.0,111.0,11100.0,11100.0,False,
naranja,300.0,300.0,,,,False,


In [None]:
df.describe()

Unnamed: 0,col1,copia_de_col1,col2,copia_de_col3,col3,mitad_col_2
count,3.0,3.0,4.0,2.0,2.0,2.0
mean,200.0,200.0,1277.5,27750.0,27750.0,138.75
std,100.0,100.0,2112.944628,23546.655814,23546.655814,39.244426
min,100.0,100.0,111.0,11100.0,11100.0,111.0
25%,150.0,150.0,194.25,19425.0,19425.0,124.875
50%,200.0,200.0,277.5,27750.0,27750.0,138.75
75%,250.0,250.0,1360.75,36075.0,36075.0,152.625
max,300.0,300.0,4444.0,44400.0,44400.0,166.5
