# PANDAS
Pandas es una extensión de Numpy que se emplea principalmente para la manipulación y análisis de datos en Python. Incluye nuevas operaciones y estructuras de datos.

In [6]:
#Importanción de Pandas
import numpy as np
import pandas as pd

In [3]:
pd.__version__

'2.2.2'

## SERIES en Pandas
Las series son una estructura de datos de una dimensión, como las listas o los arrays
en numpy. Lo que diferencia a las series es que el índice de cada elemento puede ser
una etiqueta que asignemos nosotros, parecido a lo que se hace en los diccionarios.

In [5]:
serie=pd.Series([1,2,3,4,5], index=['a', 'b', 'c', 'd', 'e'])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

Existen otras formas de crear series.
Por ejemplo, podemos usar un array de numpy o un diccionario:

In [7]:
serie1=pd.Series(np.array([1,2,3,4,5]), index=['a', 'b', 'c', 'd', 'e'])
print('Serie1:')
print(serie1)

diccionario = {'a' : 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
serie2=pd.Series(diccionario)
print('Serie2:')
print(serie2)


Serie1:
a    1
b    2
c    3
d    4
e    5
dtype: int64
Serie2:
a    1
b    2
c    3
d    4
e    5
dtype: int64


Acceso a los elementos de la serie:

In [10]:
# Acceso por índice
print(serie1['a'])

#Accesop por posición
print(serie1[3])

#Acceso por rango
print(serie1[2:])

1
4
c    3
d    4
e    5
dtype: int64


  print(serie1[3])


En las series existen 2 atributos que podemos necesitar con mucha frecuencia. El
primero de ellos es el atributo index y nos devuelve los índices que hemos asignado
a cada uno de los elementos de las series. Por otro lado, tenemos el atributo values,
que devuelve un array con los valores de todos los elementos:

In [12]:
#Obtener índices de una serie:
print(serie1.index)

#Obtener valores de una serie:
print(serie1.values)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[1 2 3 4 5]


### Operaciones vectorizadas con SERIES en PANDAS

In [14]:
#Sumar los valroes de 2 series (tienen que tener los mismos índices)
resultado = serie1 + serie2
print(resultado, '\n')

#Multiplicar todos los valores por 10
resultado = serie1 * 10
print(resultado, '\n')

#Obtener la raíz cuadrada de los valores de una serie
resultado = np.sqrt(serie1)
print(resultado, '\n')

a     2
b     4
c     6
d     8
e    10
dtype: int64 

a    10
b    20
c    30
d    40
e    50
dtype: int64 

a    1.000000
b    1.414214
c    1.732051
d    2.000000
e    2.236068
dtype: float64 



## DATAFRAME en PANDAS
Son una
estructura de dos dimensiones de datos etiquetados, es decir, representan una tabla
donde cada posición de dicha tabla tiene una etiqueta en la fila y otra etiqueta en la
columna

Existen muchas formar de construir un dataframe

In [17]:
#Construcción de un DataFrame a partir de un diccionario   
diccionario={'columna1': pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd']), 'columna2':pd.Series([5,6,7,8], index=['a', 'b', 'd', 'e'])}
dataframe=pd.DataFrame(diccionario)
dataframe

Unnamed: 0,columna1,columna2
a,1.0,5.0
b,2.0,6.0
c,3.0,
d,4.0,7.0
e,,8.0


Si creamos un DataFrame a partir de una serie que no tiene valor en alguno de sus índices se le asignará NaN (que no tienen valor)

In [19]:
lista = [{'a': 1, 'b': 2, 'c':3}, {'a': 5, 'b': 8, 'd': 1}]
dataframe = pd.DataFrame(lista)
dataframe

Unnamed: 0,a,b,c,d
0,1,2,3.0,
1,5,8,,1.0


### Operaciones con DataFrames

#### Consulta de columna

In [21]:
diccionario={'columna1': pd.Series([10,2,9,8], index=['a', 'b', 'c', 'd']), 'columna2':pd.Series([5,6,7,8], index=['a', 'b', 'd', 'e'])}
dataframe=pd.DataFrame(diccionario)

#Consulta columna1:
dataframe['columna1']

a    10.0
b     2.0
c     9.0
d     8.0
e     NaN
Name: columna1, dtype: float64

#### Agregar una nueva columna

In [22]:
serie=pd.Series([5,19,76,22,9], index=['a', 'b', 'c', 'd', 'e'])
dataframe['columna3']=serie
dataframe

Unnamed: 0,columna1,columna2,columna3
a,10.0,5.0,5
b,2.0,6.0,19
c,9.0,,76
d,8.0,7.0,22
e,,8.0,9


#### Eliminación de una columna

In [23]:
del dataframe['columna3']
dataframe

Unnamed: 0,columna1,columna2
a,10.0,5.0
b,2.0,6.0
c,9.0,
d,8.0,7.0
e,,8.0


#### Acceso a los datos del DataFrame

##### Seleccionar fila por etiqueta:
Usando la propiedad loc del dataframe podemos acceder a los valores de una fila a través de su etiqueta

In [24]:
dataframe.loc['a']

columna1    10.0
columna2     5.0
Name: a, dtype: float64

##### Seleccionar fila por posición: 
La propiedad iloc nos permite acceder a las filas por
la posición que ocupan

In [25]:
dataframe.iloc[2:4]

Unnamed: 0,columna1,columna2
c,9.0,
d,8.0,7.0


##### Seleccionar filas por array booleano: 
Este método nos mostrará aquellas filas
cuya posición tenga el valor True en un vector booleano

In [26]:
#Creación del DataFrame
diccionario={'columna1': pd.Series([10,2,9,8], index=['a', 'b', 'c', 'd']), 'columna2':pd.Series([5,6,7,8], index=['a', 'b', 'd', 'e'])}
dataframe=pd.DataFrame(diccionario)

#Buscamos qué posiciones de la columna1 tienen una valor mayor o igual al mismo elemento de la columna2
filtro=np.greater_equal(dataframe['columna1'], dataframe['columna2'])

#Mostramos los valores_
dataframe[filtro]

Unnamed: 0,columna1,columna2
a,10.0,5.0
d,8.0,7.0


##### Multiplicación

In [28]:
dataframe_doble = dataframe * 2
dataframe_doble

Unnamed: 0,columna1,columna2
a,20.0,10.0
b,4.0,12.0
c,18.0,
d,16.0,14.0
e,,16.0


##### Suma de dataframes

In [30]:
dataframe_suma=dataframe_doble + dataframe
dataframe_suma

Unnamed: 0,columna1,columna2
a,30.0,15.0
b,6.0,18.0
c,27.0,
d,24.0,21.0
e,,24.0


##### Raíz cuadrada

In [31]:
np.sqrt(dataframe_suma)

Unnamed: 0,columna1,columna2
a,5.477226,3.872983
b,2.44949,4.242641
c,5.196152,
d,4.898979,4.582576
e,,4.898979


##### Traspuesta

In [32]:
dataframe.T

Unnamed: 0,a,b,c,d,e
columna1,10.0,2.0,9.0,8.0,
columna2,5.0,6.0,,7.0,8.0


### Funciones de gestión de datos

In [33]:
diccionario = {'user3': pd.Series(['Juan', 'Barcelona', 32, 'Soltero', 'Hombre'], index=['nombre', 'localidad', 'edad', 'estado civil', 'sexo']),
               'user4': pd.Series(['Alicia', 'Santander', 47, 'Casado', 'Mujer'], index=['nombre', 'localidad', 'edad', 'estado civil', 'sexo']),
               'user2': pd.Series(['Marcos', 'Madrid', 31, 'Soltero', 'Hombre'], index=['nombre', 'localidad', 'edad', 'estado civil', 'sexo']),
               'user1': pd.Series(['Isabel', 'Zaragoza',70, 'Soltero', 'Mujer'], index=['nombre', 'localidad', 'edad', 'estado civil', 'sexo'])}

dataframe=pd.DataFrame(diccionario).T
dataframe

Unnamed: 0,nombre,localidad,edad,estado civil,sexo
user3,Juan,Barcelona,32,Soltero,Hombre
user4,Alicia,Santander,47,Casado,Mujer
user2,Marcos,Madrid,31,Soltero,Hombre
user1,Isabel,Zaragoza,70,Soltero,Mujer


#### Ordenar por valor:
Podemos ordenar las filas de los dataframes siguiendo el orden
de un valor. Para ello usaremos la función sort_values() y en el parámetro by

In [34]:
dataframe.sort_values(by='edad')

Unnamed: 0,nombre,localidad,edad,estado civil,sexo
user2,Marcos,Madrid,31,Soltero,Hombre
user3,Juan,Barcelona,32,Soltero,Hombre
user4,Alicia,Santander,47,Casado,Mujer
user1,Isabel,Zaragoza,70,Soltero,Mujer


In [36]:
dataframe.sort_values(by='nombre', ascending=True)

Unnamed: 0,nombre,localidad,edad,estado civil,sexo
user4,Alicia,Santander,47,Casado,Mujer
user1,Isabel,Zaragoza,70,Soltero,Mujer
user3,Juan,Barcelona,32,Soltero,Hombre
user2,Marcos,Madrid,31,Soltero,Hombre


#### Ordenar por índice
Lo hacemos utilizando la función sort_index() y podemos definir cómo se ordena con el parámetro ascending

In [37]:
dataframe.sort_index()

Unnamed: 0,nombre,localidad,edad,estado civil,sexo
user1,Isabel,Zaragoza,70,Soltero,Mujer
user2,Marcos,Madrid,31,Soltero,Hombre
user3,Juan,Barcelona,32,Soltero,Hombre
user4,Alicia,Santander,47,Casado,Mujer


In [38]:
dataframe.sort_index(ascending=False)

Unnamed: 0,nombre,localidad,edad,estado civil,sexo
user4,Alicia,Santander,47,Casado,Mujer
user3,Juan,Barcelona,32,Soltero,Hombre
user2,Marcos,Madrid,31,Soltero,Hombre
user1,Isabel,Zaragoza,70,Soltero,Mujer


#### Agrupar valores
Usamos la función groupby() y, en el
parámetro by, asignamos las etiquetas de la columna o columnas (en forma de
lista) en la que queremos agrupar los elementos.

In [40]:
# Agrupar por estado civil contando el número de elementos de cada grupo
dataframe.groupby(by='estado civil').count()

Unnamed: 0_level_0,nombre,localidad,edad,sexo
estado civil,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Casado,1,1,1,1
Soltero,3,3,3,3


#### Aplicar funciones map:
Con la función apply podemos aplicar una función anónima a todos los elementos de una fila o columna,
devolviendo como resultado una serie con los nuevos valores.

##### Funciones anónimas:
En Python, una función anónima es una función definida sin un nombre explícito. Esto se logra mediante la palabra clave lambda, por lo que también se conocen como funciones lambda. Estas funciones suelen ser usadas para tareas simples y de corta duración, especialmente cuando no necesitas reutilizarlas en otros lugares del código.

In [43]:
# Obtener qué personas son solteras y con menos de 35 años
dataframe.apply(lambda item: item['edad'] < 35 and item['estado civil']== 'Soltero', axis=1)

user3     True
user4    False
user2     True
user1    False
dtype: bool

### Funciones estadísticas
Nos permiten observar la distribución de los datos y algunos valores
descriptivos

#### Describe():
Devuelve varios atributos de cada columa como: Cuántos valores existen o cuántos valores únicos existen.
En función del tipo de datos del dataframe devuelve unos atributos u otros.


In [44]:
dataframe.describe()

Unnamed: 0,nombre,localidad,edad,estado civil,sexo
count,4,4,4,4,4
unique,4,4,4,2,2
top,Juan,Barcelona,32,Soltero,Hombre
freq,1,1,1,3,2


In [45]:
dataframe_doble.describe()

Unnamed: 0,columna1,columna2
count,4.0,4.0
mean,14.5,13.0
std,7.187953,2.581989
min,4.0,10.0
25%,13.0,11.5
50%,17.0,13.0
75%,18.5,14.5
max,20.0,16.0


In [50]:
dataframe_doble.median()

columna1    17.0
columna2    13.0
dtype: float64

## LECTURA Y ESCRITURA DE FICHEROS CSV
Lo normal es que no tengamos que crear nosotros los dataframes si no que normalmente nos encontraremos un fichero con extensión csv que incluye
todos los datos con los que vamos a trabajar.
Pandas incluye una función que nos permite leer datos de un fichero .csv

### read_csv()

In [51]:
peliculas = pd.read_csv('movies.csv')
peliculas[:5]

Unnamed: 0,Film,Genre,Lead Studio,Audience score %,Profitability,Rotten Tomatoes %,Worldwide Gross,Year
0,Zack and Miri Make a Porno,Romance,The Weinstein Company,70,1.747542,64,$41.94,2008
1,Youth in Revolt,Comedy,The Weinstein Company,52,1.09,68,$19.62,2010
2,You Will Meet a Tall Dark Stranger,Comedy,Independent,35,1.211818,43,$26.66,2010
3,When in Rome,Comedy,Disney,44,0.0,15,$43.04,2010
4,What Happens in Vegas,Comedy,Fox,72,6.267647,28,$219.37,2008


### to_csv()

In [52]:
peliculas.to_csv('movies_2.csv')