### TEMA 7 
### PANDAS

__¿Qué es Pandas?__

Pandas es una biblioteca de código abierto para el lenguaje de programación Python, especializada en el manejo y análisis de datos. Es una herramienta fundamental para cualquier persona que trabaje con conjuntos de datos en Python.

![img1](../img/1.png)

![img2](../img/2.png)

![img3](../img/3.png)

![img4](../img/4.png)

![img5](../img/5.png)

##### Características principales de Pandas:

- __Estructuras de datos potentes__: Define nuevas estructuras de datos como DataFrames y Series, basadas en los arrays de NumPy, pero con funcionalidades más avanzadas para el manejo de datos tabulares y series temporales.

- __Manipulación flexible de datos__: Permite leer y escribir datos de diversos formatos comunes, como CSV, Excel, bases de datos SQL y archivos JSON. Operaciones de análisis avanzadas: Ofrece una amplia gama de funciones para filtrar, ordenar, agrupar, agregar, combinar y transformar datos de manera eficiente.

- __Análisis de series temporales__: Brinda herramientas específicas para trabajar con datos de series temporales, como el manejo de fechas, índices de tiempo y 'resampling'.

- __Visualización de datos__: Integra funciones básicas para la creación de gráficos y visualizaciones de datos.

##### Se utiliza para:

- __Cargar y limpiar datos__: Importar datos de diversas fuentes, eliminar valores faltantes y corregir errores.

- __Manipular y transformar datos__: Reordenar, filtrar, agrupar y agregar datos según diferentes criterios.Analizar datos: Realizar cálculos estadísticos, identificar patrones y tendencias en los datos.

- __Visualizar datos__: Crear gráficos y visualizaciones para comunicar los resultados del análisis.

In [45]:
#!pip install numpy
#!pip install pandas

In [46]:

import numpy as np
import pandas as pd


In [47]:
psg_players = pd.Series(['Navas', 'Mbappe', 'Neymar', 'Messi'], index=[1,7,10,30])

In [48]:
psg_players

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

-------------------------------------------------------------------------

__Mi Código__

In [49]:
real_players = pd.Series(['Mbappe', 'Bellingam', 'Vinicius', 'Militao'], index=[9,5,7,3])

In [50]:
real_players

9       Mbappe
5    Bellingam
7     Vinicius
3      Militao
dtype: object

__Pandas, al crear una Series si no se la dan índices los asigna de forma automática:__

In [51]:
ingredientes = pd.Series(['Jamón', 'Aceitunas', 'Pan', 'Queso'])

In [52]:
ingredientes

0        Jamón
1    Aceitunas
2          Pan
3        Queso
dtype: object

---------------------------------------------

__Mi Código__

In [53]:
componentes = pd.Series(['micro', 'tarjeta', 'ram', 'rom'])

In [54]:
componentes

0      micro
1    tarjeta
2        ram
3        rom
dtype: object

Vamos a usar esta vez diccionarios

In [55]:
dict = {1: 'Navas', 7: 'Mbappe', 10:'Neymar', 30: 'Messi'}
pd.Series(dict)

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

----------------------------------------------------

__Mi Código__

In [56]:
mydict = {9: 'Mbappe', 7: 'Vinicius', 5:'Bellingam', 3: 'Militao'}
pd.Series(mydict)

9       Mbappe
7     Vinicius
5    Bellingam
3      Militao
dtype: object

¿Que pasa si quiero definir un array con mas valores?

In [57]:
dict_1 = {'Jugador': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
'Altura':[183.0, 170.0, 185.0, 165.0],
'Goles': [2, 150,180,200]}

In [58]:
pd.DataFrame(dict_1, index=[1,7,10,30])

Unnamed: 0,Jugador,Altura,Goles
1,Navas,183.0,2
7,Mbappe,170.0,150
10,Neymar,185.0,180
30,Messi,165.0,200


----------------------

__Mi Código__

In [59]:
mydict_1 = {'Jugador': ['Mbappe', 'Bellingam', 'Vinicius', 'Militao'],
'Altura':[173.4, 187.2, 166.9, 190.8],
'Goles': [32, 24,17,5]}

In [60]:
pd.DataFrame(mydict_1, index=[9,5,7,3])

Unnamed: 0,Jugador,Altura,Goles
9,Mbappe,173.4,32
5,Bellingam,187.2,24
7,Vinicius,166.9,17
3,Militao,190.8,5


Sin definir índices

In [61]:
pd.DataFrame(dict_1)

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,150
2,Neymar,185.0,180
3,Messi,165.0,200


In [62]:
df_Players = pd.DataFrame(dict_1)

In [63]:
df_Players

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,150
2,Neymar,185.0,180
3,Messi,165.0,200


In [64]:
df_Players.columns

Index(['Jugador', 'Altura', 'Goles'], dtype='object')

In [65]:
df_Players.index

RangeIndex(start=0, stop=4, step=1)

In [66]:
df_Players

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,150
2,Neymar,185.0,180
3,Messi,165.0,200


********************************************************************

__Mi Código__

In [67]:
pd.DataFrame(mydict_1)

Unnamed: 0,Jugador,Altura,Goles
0,Mbappe,173.4,32
1,Bellingam,187.2,24
2,Vinicius,166.9,17
3,Militao,190.8,5


In [68]:
mydf_Players = pd.DataFrame(mydict_1)

In [69]:
mydf_Players

Unnamed: 0,Jugador,Altura,Goles
0,Mbappe,173.4,32
1,Bellingam,187.2,24
2,Vinicius,166.9,17
3,Militao,190.8,5


In [70]:
mydf_Players.columns

Index(['Jugador', 'Altura', 'Goles'], dtype='object')

In [71]:
mydf_Players.index

RangeIndex(start=0, stop=4, step=1)

In [72]:
mydf_Players

Unnamed: 0,Jugador,Altura,Goles
0,Mbappe,173.4,32
1,Bellingam,187.2,24
2,Vinicius,166.9,17
3,Militao,190.8,5


Si tienes datos contenidos en un diccionario de Python,
puedes crear una Series a partir de ellos pasándole el
diccionario:

In [73]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

------

__Mi código__

In [74]:
mysdata = {"Madrid": 7587350, "Catalunya": 6486123, "Galizia": 4843974, "Andalucia": 9271065}
myobj3 = pd.Series(mysdata)
myobj3

Madrid       7587350
Catalunya    6486123
Galizia      4843974
Andalucia    9271065
dtype: int64

Una Series puede convertirse de nuevo en un diccionario
con su método to_dict:

In [75]:
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

---------

__Mi Código__

In [76]:
myobj3.to_dict()

{'Madrid': 7587350,
 'Catalunya': 6486123,
 'Galizia': 4843974,
 'Andalucia': 9271065}

Cuando sólo se pasa un diccionario, el índice de la Series
resultante respetará el orden de las claves según el método
keys del diccionario, que depende del orden de inserción de
las claves.

Puede anular esto pasando un índice con las claves del
diccionario en el orden en que desea que aparezcan en la
Series resultante:

In [77]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

----------

__Mi Código__

In [78]:
mysdata = {"Madrid": 7587350, "Catalunya": 6486123, "Galizia": 4843974, "Andalucia": 9271065}
mystates = ["Valencia", "Madrid", "Galizia", "Andalucia"]
myobj4 = pd.Series(mysdata, index=mystates)
myobj4

Valencia           NaN
Madrid       7587350.0
Galizia      4843974.0
Andalucia    9271065.0
dtype: float64

Aquí, tres valores encontrados en sdata se colocaron en los
lugares apropiados, pero como no se encontró ningún valor
para "California", aparece como NaN (Not a Number), que se
considera en pandas para marcar valores perdidos o NA.
Como "Utah" no se incluyó en estados, se excluye del objeto
resultante.

Utilizaremos los términos "missing", "NA" (Not Available) o
"null" indistintamente para referirnos a los datos que faltan.
Las funciones isna y notna de pandas deben utilizarse para
detectar datos omitidos:

In [79]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [80]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

------------

__Mi Código__

In [81]:
pd.isna(myobj4)

Valencia      True
Madrid       False
Galizia      False
Andalucia    False
dtype: bool

In [82]:
pd.notna(myobj4)

Valencia     False
Madrid        True
Galizia       True
Andalucia     True
dtype: bool

Series también los tiene como métodos de instancia:

In [83]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

-----------

__Mi Código__

In [84]:
myobj4.isna()

Valencia      True
Madrid       False
Galizia      False
Andalucia    False
dtype: bool

Mas detalles sobre limpieza y depuración se verá mas
adelante.
Una característica de Series útil para muchas aplicaciones es
que alinea automáticamente por etiqueta de índice en
operaciones aritméticas:

In [85]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [86]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [87]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

----------

__Mi Código__

In [88]:
myobj3

Madrid       7587350
Catalunya    6486123
Galizia      4843974
Andalucia    9271065
dtype: int64

In [89]:
myobj4

Valencia           NaN
Madrid       7587350.0
Galizia      4843974.0
Andalucia    9271065.0
dtype: float64

In [90]:
myobj3 + myobj4

Andalucia    18542130.0
Catalunya           NaN
Galizia       9687948.0
Madrid       15174700.0
Valencia            NaN
dtype: float64

Tanto el propio objeto Series como su índice tienen un
atributo name , que se integra con otras áreas de
funcionalidad de pandas:

In [91]:
obj4.name = "population"

In [92]:
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

-----------

__Mi Código__

In [93]:
myobj4.name = "population"

In [94]:
myobj4.index.name = "community"
myobj4

community
Valencia           NaN
Madrid       7587350.0
Galizia      4843974.0
Andalucia    9271065.0
Name: population, dtype: float64

El índice de una Series puede modificarse "in situ" mediante
asignación:

Definamos el siguiente obj:

In [95]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

------

__Mi código__

In [96]:
myobj = pd.Series([2, -11, -99, 1, 1, 8])
myobj

0     2
1   -11
2   -99
3     1
4     1
5     8
dtype: int64

Asignamos "in situ" los indices:

In [97]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

---------

__Mi Código__

In [98]:
myobj.index = ["Juan", "Eva", "Nacho", "Nacho2", "Juanjo", "Irene"]
myobj

Juan       2
Eva      -11
Nacho    -99
Nacho2     1
Juanjo     1
Irene      8
dtype: int64

__DataFrame__

Un DataFrame representa una tabla rectangular de datos y contiene una colección ordenada
y nombrada de columnas, cada una de las cuales puede ser un tipo de valor diferente
(numérico, cadena, booleano, etc.). El DataFrame tiene tanto un índice de fila como de
columna; puede considerarse como un diccionario de Series que comparten el mismo índice.
Hay muchas maneras de construir un DataFrame, aunque una de las más comunes es a partir
de un diccionario de listas de igual longitud o arrays de NumPy:

In [99]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
"year": [2000, 2001, 2002, 2001, 2002, 2003],
"pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

----------

__Mi Código__

In [101]:
mydata = {"community": ["Madrid", "Madrid", "Madrid", "Andalucia", "Andalucia", "Andalucia"],
"year": [2003, 2005, 2007, 2005, 2007, 2009],
"pop": [1.8, 2.3, 2.9, 2.5, 3.5, 6.2]}
myframe = pd.DataFrame(mydata)

El DataFrame resultante tendrá su índice asignado automáticamente, como con Series, y las columnas se colocan según el orden de las claves en los datos (que depende de su orden de inserción en el diccionario):

In [102]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


----------

__Mi código__

In [103]:
myframe

Unnamed: 0,community,year,pop
0,Madrid,2003,1.8
1,Madrid,2005,2.3
2,Madrid,2007,2.9
3,Andalucia,2005,2.5
4,Andalucia,2007,3.5
5,Andalucia,2009,6.2


Para DataFrames grandes, el método head selecciona sólo las cinco primeras filas:

In [104]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


--------

__Mi Código__

In [105]:
myframe.head()

Unnamed: 0,community,year,pop
0,Madrid,2003,1.8
1,Madrid,2005,2.3
2,Madrid,2007,2.9
3,Andalucia,2005,2.5
4,Andalucia,2007,3.5


Del mismo modo, tail devuelve las cinco últimas filas:

In [106]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


---------------

__Mi Código__

In [107]:
myframe.tail()

Unnamed: 0,community,year,pop
1,Madrid,2005,2.3
2,Madrid,2007,2.9
3,Andalucia,2005,2.5
4,Andalucia,2007,3.5
5,Andalucia,2009,6.2


Si especifica una secuencia de columnas, las columnas del DataFrame se ordenarán en ese
orden:

In [108]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


------------    

__Mi Código__

In [109]:
pd.DataFrame(mydata, columns=["pop", "state", "year"])

Unnamed: 0,pop,state,year
0,1.8,,2003
1,2.3,,2005
2,2.9,,2007
3,2.5,,2005
4,3.5,,2007
5,6.2,,2009


Si pasa una columna que no está contenida en el diccionario, aparecerá con valores ausentes en el resultado:

In [110]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [111]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

---------------------

__Mi Código__

In [112]:
myframe2 = pd.DataFrame(mydata, columns=["year", "state", "pop", "debt"])
myframe2

Unnamed: 0,year,state,pop,debt
0,2003,,1.8,
1,2005,,2.3,
2,2007,,2.9,
3,2005,,2.5,
4,2007,,3.5,
5,2009,,6.2,


In [113]:
myframe2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Una columna de un DataFrame puede recuperarse como una Serie mediante notación tipo
diccionario o utilizando la notación de atributo . (dot notation):

In [115]:
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [114]:
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

----------

__Mi Código__

In [116]:
myframe2["pop"]

0    1.8
1    2.3
2    2.9
3    2.5
4    3.5
5    6.2
Name: pop, dtype: float64

In [119]:
myframe2.year

0    2003
1    2005
2    2007
3    2005
4    2007
5    2009
Name: year, dtype: int64

`frame2[column]` funciona para cualquier nombre de columna, pero `frame2.column` sólo
funciona cuando el nombre de la columna es un nombre de variable Python válido y no
entra en conflicto con ninguno de los nombres de método de DataFrame. Por ejemplo, si el
nombre de una columna contiene espacios en blanco o símbolos que no sean guiones bajos,
no se puede acceder a ella con el método de atributo dot.

Observe que las `Series` devueltas tienen el mismo índice que el DataFrame, y su atributo `name` se ha configurado adecuadamente.

Las filas también pueden recuperarse por posición o nombre con los atributos especiales
`iloc` y `loc` .

In [120]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [121]:
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [122]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

--------

__Mi Código__

In [123]:
myframe2.loc[5]

year     2009
state     NaN
pop       6.2
debt      NaN
Name: 5, dtype: object

In [125]:
myframe2.loc[0]

year     2003
state     NaN
pop       1.8
debt      NaN
Name: 0, dtype: object