<a href="https://colab.research.google.com/github/Antoszx/Prueba/blob/main/pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p style="font-family: Arial; font-size:3.75em;color:purple; font-style:bold"><br>
Pandas</p><br>

Importamos la librería

In [None]:
import pandas as pd

Pandas posee dos estructuras de datos básicas.
* Series
* Dataframes

## Series

In [None]:
#creamos una Serie a donde pasamos un primer arreglo con el índice
# veamos que si no ponemos índice automáticamente nos crea una llave única e incremental
ser = pd.Series(index = ['pablo', 'juan', 'pedro', 'daniel', 'enrique'], data = [100, 'Ninguno', 300, 'Texto', 5.3])
ser

pablo          100
juan       Ninguno
pedro          300
daniel       Texto
enrique        5.3
dtype: object

In [None]:
# obtenemos el índice
ser.index

Index(['pablo', 'juan', 'pedro', 'daniel', 'enrique'], dtype='object')

In [None]:
# accedo a al valor de una posición 
ser['juan']

'Ninguno'

In [None]:
# lo puedo hacer con loc
ser.loc['juan']

'Ninguno'

In [None]:
# a loc puedo pasarle un array y acceder a multiples índices al mismo tiempo
ser.loc[['juan','pablo']]

juan     Ninguno
pablo        100
dtype: object

In [None]:
# otra manera de acceder a múltiples índices es la siguiente
ser[[0,1,2]]

pablo        100
juan     Ninguno
pedro        300
dtype: object

In [None]:
# con .loc no podremos pasar índices numéricos debemos hacerlo con .iloc
ser.iloc[[0,1,2]]

pablo        100
juan     Ninguno
pedro        300
dtype: object

In [None]:
# podemos consultar si existe un índice en la serie
"pablo" in ser

True

In [None]:
# como vemos a continuación también podemos realizar operaciones, 
#(siempre que el tipo de dato lo permita)
ser * 3


pablo                        300
juan       NingunoNingunoNinguno
pedro                        900
daniel           TextoTextoTexto
enrique                     15.9
dtype: object

In [None]:
# por qué esto da error?
ser ** 2

In [None]:
# lo solucionamos aplicando la operación solo a valores enteros o flotantes
ser[['pablo','pedro','enrique']] ** 2

pablo      10000
pedro      90000
enrique    28.09
dtype: object

<br><br><br><br> 
# Dataframe
<br><br>
Podemos crear un dataframe, a partir de un diccionario de python

In [None]:
d = {'invierno' : pd.Series([100., 200., 300.], index=['manzana', 'pera', 'naranja']),
     'primavera' : pd.Series([111., 222., 333., 4444.], index=['manzana', 'pera', 'cereza', 'uva'])}

In [None]:
df = pd.DataFrame(d)
df


Unnamed: 0,invierno,primavera
cereza,,333.0
manzana,100.0,111.0
naranja,300.0,
pera,200.0,222.0
uva,,4444.0


In [None]:
df.index

Index(['cereza', 'manzana', 'naranja', 'pera', 'uva'], dtype='object')

In [None]:
df.columns

Index(['invierno', 'primavera'], dtype='object')

In [None]:
# podemos crear un dataframe especificando los índices que quiero usar.
df2 = pd.DataFrame(d, index = ['manzana','pera','cereza'])
print(df2)

         invierno  primavera
manzana     100.0      111.0
pera        200.0      222.0
cereza        NaN      333.0


In [None]:
# podemos crear un dataframe especificando las columnas que quiero usar, incluso agregar una nueva
df2 = pd.DataFrame(d, index = ['manzana','pera','cereza'], columns=['invierno','primavera','verano'])
print(df2)

         invierno  primavera verano
manzana     100.0      111.0    NaN
pera        200.0      222.0    NaN
cereza        NaN      333.0    NaN


<br><br>
<p style="font-family: Arial; font-size:1.25em;color:#2462C0; font-style:bold">
Podemos crear un Dataframe a partir de una Lista de Diccionarios de Python</p>

In [None]:
data = [{'pablo': 1, 'juan': 2}, {'pedro': 5, 'julia': 10, 'maria': 20}]

In [None]:
#veamos cómo automáticamente se asignan índices
pd.DataFrame(data)

Unnamed: 0,juan,julia,maria,pablo,pedro
0,2.0,,,1.0,
1,,10.0,20.0,,5.0


In [None]:
# podemos reemplazar los índices por escpecíficos
pd.DataFrame(data, index=['verde', 'rojo'])

Unnamed: 0,juan,julia,maria,pablo,pedro
verde,2.0,,,1.0,
rojo,,10.0,20.0,,5.0


In [None]:
# podemos crear el dataframe solo con determinadas columnas
pd.DataFrame(data, columns=['juan', 'pedro'], index=['verde', 'rojo'])

Unnamed: 0,juan,pedro
verde,2.0,
rojo,,5.0


<br><br>
<p style="font-family: Arial; font-size:1.25em;color:#2462C0; font-style:bold">
Operaciones básicas con DataFrames </p>

In [None]:
df

Unnamed: 0,invierno,primavera
cereza,,333.0
manzana,100.0,111.0
naranja,300.0,
pera,200.0,222.0
uva,,4444.0


In [None]:
df['invierno']

cereza       NaN
manzana    100.0
naranja    300.0
pera       200.0
uva          NaN
Name: invierno, dtype: float64

In [None]:
# generamos una nueva columna a partir de la operación de otras dos
df['verano'] = df['invierno'] * df['primavera']
df

Unnamed: 0,invierno,primavera,verano
cereza,,333.0,
manzana,100.0,111.0,11100.0
naranja,300.0,,
pera,200.0,222.0,44400.0
uva,,4444.0,


In [None]:
# generamos una nueva columna a partir de una comparación
df['infra'] = df['primavera']<4000
df

Unnamed: 0,invierno,primavera,verano,infra
cereza,,333.0,,True
manzana,100.0,111.0,11100.0,True
naranja,300.0,,,False
pera,200.0,222.0,44400.0,True
uva,,4444.0,,False


In [None]:
aislado = df.pop('infra')
aislado

cereza      True
manzana     True
naranja    False
pera        True
uva        False
Name: infra, dtype: bool

In [None]:
df

Unnamed: 0,invierno,primavera,verano
cereza,,333.0,
manzana,100.0,111.0,11100.0
naranja,300.0,,
pera,200.0,222.0,44400.0
uva,,4444.0,


In [None]:
del df['verano']
df

Unnamed: 0,invierno,primavera
cereza,,333.0
manzana,100.0,111.0
naranja,300.0,
pera,200.0,222.0
uva,,4444.0


In [None]:
# insert nos permite insertar una nueva columna, para eso pasamos
# posición de la nueva columna
# nombre de la nueva columna
# origen de la nueva columna (puede ser una serie o bien una columna de la misma u otra tabla)

df.insert(0, 'primavera_copia', df['primavera'])
df

Unnamed: 0,primavera_copia,invierno,primavera
cereza,333.0,,333.0
manzana,111.0,100.0,111.0
naranja,,300.0,
pera,222.0,200.0,222.0
uva,4444.0,,4444.0
