---------------------------------
# **PANDAS**
---------------------

Biblioteca de código abierto para el lenguaje de programación Python, especializada en el manejo y análisis de datos.

Características principales de Pandas:

* Estructuras de datos potentes: Define nuevas estructuras de datos como DataFrames y Series, basadas en los arrays de NumPy.

* Manipulación flexible de datos: Permite leer y escribir datos de diversos formatos comunes, como CSV, Excel, bases de datos SQL y archivos JSON.

* Operaciones de análisis avanzadas: Ofrece una amplia gama de funciones para filtrar, ordenar, agrupar, agregar, combinar y transformar datos de manera eficiente.

* Análisis de series temporales: Brinda herramientas específicas para trabajar con datos de series temporales.

* Visualización de datos

In [27]:
# pip install numpy 

In [28]:
# pip install pandas  

In [29]:
#Importo librerías 
import numpy as np 
import pandas as pd 

In [30]:
psg_players = pd.Series(['Navas', 'Mbape', 'Neymar', 'Messi'], index=[1,7,10,30])
psg_players

1      Navas
7      Mbape
10    Neymar
30     Messi
dtype: object

In [31]:
#Pandas, al crear una Series si no se la dan índices los asigna de forma automática:
ingredientes = pd.Series(['Jamón', 'Aceitunas', 'Pan', 'Queso'])
ingredientes

0        Jamón
1    Aceitunas
2          Pan
3        Queso
dtype: object

In [32]:
# Vamos a usar esta vez diccionarios
dict = {1:'Navas', 7:'Mbappe', 10:'Neymar', 30: 'Messi'}
pd.Series(dict)

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

Que pasa si quiero definir un array con mas valores?

In [33]:
dict_1 = {'Jugador': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
          'Posición': ['Portero', 'Defensa', 'Mediocampo', 'Delantero'],
          'Nacionalidad': ['Argentina', 'Brasileña', 'Argentina', 'Brasileña']}

In [34]:
pd.DataFrame(dict_1, index = [1,7,10,30]) #Asigno index 

Unnamed: 0,Jugador,Posición,Nacionalidad
1,Navas,Portero,Argentina
7,Mbappe,Defensa,Brasileña
10,Neymar,Mediocampo,Argentina
30,Messi,Delantero,Brasileña


In [35]:
pd.DataFrame(dict_1) # no defino índice

Unnamed: 0,Jugador,Posición,Nacionalidad
0,Navas,Portero,Argentina
1,Mbappe,Defensa,Brasileña
2,Neymar,Mediocampo,Argentina
3,Messi,Delantero,Brasileña


In [36]:
df_Players = pd.DataFrame(dict_1)
df_Players

Unnamed: 0,Jugador,Posición,Nacionalidad
0,Navas,Portero,Argentina
1,Mbappe,Defensa,Brasileña
2,Neymar,Mediocampo,Argentina
3,Messi,Delantero,Brasileña


In [37]:
df_Players.columns

Index(['Jugador', 'Posición', 'Nacionalidad'], dtype='object')

In [38]:
df_Players.index

RangeIndex(start=0, stop=4, step=1)

In [39]:
df_Players

Unnamed: 0,Jugador,Posición,Nacionalidad
0,Navas,Portero,Argentina
1,Mbappe,Defensa,Brasileña
2,Neymar,Mediocampo,Argentina
3,Messi,Delantero,Brasileña


Si tienes datos contenidos en un diccionario de Python, puedes crear una Series a partir de ellos pasándole el diccionario:


In [40]:
sdata = {'Ohio':35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Una `Series` puede convertirse de nuevo en un diccionario con su método `to_dict`:

In [41]:
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

Cuando sólo se pasa un diccionario, el índice de la Series resultante respetará el orden de las claves según el método
keys del diccionario, que depende del orden de inserción de las claves.

Puede anular esto pasando un índice con las claves del diccionario en el orden en que desea que aparezcan en la Series resultante:

In [42]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
states = ['California', 'Ohio', 'Oregon', 'Texas'] #array
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [43]:
""" sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000, 'new york': 23000}
states = ['California', 'Ohio', 'Oregon', 'Texas', 'New York'.lower()] #array
obj4 = pd.Series(sdata, index=states)
obj4 """

" sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000, 'new york': 23000}\nstates = ['California', 'Ohio', 'Oregon', 'Texas', 'New York'.lower()] #array\nobj4 = pd.Series(sdata, index=states)\nobj4 "

Las funciones `isna` y `notna `de pandas deben utilizarse para detectar datos omitidos: 

In [44]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [45]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

## `Series` también los tiene como métodos de instancia:

In [46]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Una característica de Series útil para muchas aplicaciones es que alinea automáticamente por etiqueta de índice en operaciones aritméticas:


In [47]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [48]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [49]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Tanto el propio objeto Series como su índice tienen un atributo name , que se integra con otras áreas de funcionalidad de pandas:


In [50]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

El índice de una Series puede modificarse "in situ" mediante asignación.

Defino un objeto: 

In [51]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [53]:
#Asignamos "in situ" los indices:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

## DataFrame

Un DataFrame representa una tabla rectangular de datos y contiene una colección ordenada y nombrada de columnas, cada una de las cuales puede ser un tipo de valor diferente (numérico, cadena, booleano, etc.). El DataFrame tiene tanto un índice de fila como de
columna; puede considerarse como un diccionario de Series que comparten el mismo índice.

Hay muchas maneras de construir un DataFrame, aunque una de las más comunes es a partir de un diccionario de listas de igual longitud o arrays de NumPy:

In [56]:
data    = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
            "year": [2000, 2001, 2002, 2001, 2002, 2003],
            "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

frame #Asigna automáticamente los índices 


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [57]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [59]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Si especifica una secuencia de columnas, las columnas del DataFrame se ordenarán en ese orden

In [60]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si se pasa una columna que no está contenida en el diccionario, aparecerá con valores ausentes en el resultado:

In [61]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [62]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Una columna de un DataFrame puede recuperarse como una Serie mediante notación tipo diccionario o utilizando la notación de atributo . (dot notation):

In [63]:
frame2['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [65]:
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

frame2[column] funciona para cualquier nombre de columna, pero frame2.column sólo funciona cuando el nombre de la columna es un nombre de variable Python válido y no entra en conflicto con ninguno de los nombres de método de DataFrame. Por ejemplo, si el
nombre de una columna contiene espacios en blanco o símbolos que no sean guiones bajos, no se puede acceder a ella con el método de atributo dot.

Observe que las Series devueltas tienen el mismo índice que el DataFrame, y su atributo name se ha configurado adecuadamente.

Las filas también pueden recuperarse por posición o nombre con los atributos especiales  `iloc` y `loc`.

In [66]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


`.loc`

* .loc se utiliza para la indexación basada en etiquetas.
* Selecciona filas y columnas usando las etiquetas de los ejes.
* Si el índice del DataFrame es numérico y continuo, frame.loc[2] seleccionará la fila cuyo índice es 2.
* .loc puede aceptar etiquetas de fila y nombres de columna, así como listas de etiquetas, slices (rebanadas) y booleanos.

In [67]:
frame2.loc[1] #loc selecciona la FILA 

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

`.iloc`
* .iloc se utiliza para la indexación basada en la posición entera.
* Selecciona filas y columnas por posición (número entero).
* frame2.iloc[2] seleccionará la tercera fila del DataFrame (recordando que la indexación comienza en 0).
* .iloc puede aceptar números enteros, listas de números enteros y slices.

In [68]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

Las columnas pueden modificarse por asignación. Por ejemplo, a la columna debt vacía se le puede asignar un valor escalar o un array de valores:

In [69]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


Cuando asigne listas o arrays a una columna, la longitud del valor debe coincidir con la longitud del DataFrame. Si asigna una Series , sus etiquetas se realinearán exactamente con el índice del DataFrame, insertando los valores que falten en cualquier valor del índice que no esté presente:

In [74]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2,4,5])
print(val)

print('---------------------')
frame2['debt'] = val #Inserta los valores dependiendo de la posición del índice
print(frame2)

2   -1.2
4   -1.5
5   -1.7
dtype: float64
---------------------
   year   state  pop  debt
0  2000    Ohio  1.5   NaN
1  2001    Ohio  1.7   NaN
2  2002    Ohio  3.6  -1.2
3  2001  Nevada  2.4   NaN
4  2002  Nevada  2.9  -1.5
5  2003  Nevada  3.2  -1.7


Al asignar una columna que no existe se creará una columna nueva. La palabra clave del borrará columnas como con un diccionario. Como ejemplo, primero añado una nueva columna de valores booleanos donde la columna state es igual a "Ohio" :

In [81]:
frame2['eastern'] = frame2['state'] == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,-1.2,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,-1.5,False
5,2003,Nevada,3.2,-1.7,False


El método `del` se puede utilizar para eliminar esta columna:

In [82]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [90]:
populations = {
    "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, 
    "Nevada": {2001: 2.4, 2002: 2.9}
    }

In [91]:
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [92]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


Las claves de los diccionarios internos se combinan para formar el índice del resultado. Esto no es cierto si se especifica un índice explícito:


In [93]:
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


Los diccionarios de `Series` reciben un tratamiento muy similar: 

In [94]:
pdata = {'Ohio': frame3['Ohio'][:-1], 'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


Los diccionarios de Series reciben un tratamiento muy similar:

In [95]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


A diferencia de Series , DataFrame no tiene atributo name. El método to_numpy de DataFrame devuelve los datos contenidos en el DataFrame como un `ndarray` bidimensional:

In [96]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

Si las columnas del DataFrame son de diferentes tipos de datos, el tipo de datos del array
devuelto se elegirá para acomodar todas las columnas:

In [97]:
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, -1.2],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, -1.5],
       [2003, 'Nevada', 3.2, -1.7]], dtype=object)

## Objeto índice

Los objetos Index de pandas son responsables de mantener las etiquetas de los ejes (incluyendo los nombres de las columnas de un DataFrame) y otros metadatos (como enombre o nombres de los ejes). Cualquier array u otra secuencia de etiquetas que se utilice
al construir una Series o DataFrame se convierte internamente en un Índice:


In [98]:
#PAgina 15 