# Analisis de Datos con Python - Clase 6

[Material Complementario](https://1drv.ms/f/s!Anh5cvrOJtUTlPZtFvM6HLVpIRIbuw?e=yVNImT)

![image](pandas.png)

# Modulo 4.- Pandas 2

In [1]:
import pandas as pd
import numpy as np

In [None]:
data = pd.read_csv('titanic.csv')
data

## 2.1. Indexing
El hecho de utilizar etiquetas hace que Pandas ofrezca  una variedad de formas para manipular los datos.
La indexación directa sobre una serie devuelve uno de  sus elementos y sobre un dataframe devuelve una de  sus columnas (cada una de ellas es una serie).       
Hay que  usar como índice el elemento que se tenga como  etiqueta, similar a lo que sucede con diccionarios. Se  puede usar un rango en caso de las series.

In [None]:
serie = pd.Series([5, 7, 2, 9, 4, 1, 8], index = ['a', 'b', 'c', 'd', 'e', 'f', 'g'])
serie

In [None]:
serie['d']

In [None]:
serie1 = pd.Series([5, 7, 2, 9, 4, 1, 8])
serie1

In [None]:
serie1[3]=100
serie1

In [None]:
serie['b': 'e']

In [None]:
# con corchete simple obtenemos una Serie de Pandas
data['Age']
type(data['Age'])

In [None]:
# con corchete doble obtenemos un Dataframe de Pandas
data[['Age']]
type(data[['Age']])

In [None]:
data2 = data[['Survived',  'Name', 'Age']]
data2

In [None]:
type(data2)

## 2.2. Label Indexing
Pandas provee un método general muy versátil para  seleccionar elementos en base a las etiquetas. Esto se  hace a través del atributo  "**.loc**.       
Para seleccionar un  elemento se ponen las etiquetas que le correspondan.  Recordemos que las etiquetas pueden ser cualquier  objeto de python, incluso números. Cuando se usan  números con  loc, estos representan las etiquetas y no  las posiciones.
También se pueden hacer slices con etiquetas. En este  caso el slice es inclusivo tanto con la primer etiqueta  como con la segunda. También se pueden poner listas  para seleccionar etiquetas especíﬁcas.

In [None]:
data.loc[3, 'Name']

In [None]:
data.iloc[3,3]

In [None]:
data.loc[25:30, 'PassengerId': 'Pclass']

In [None]:
data.loc[[25,30], ['Survived', 'Age']]

## 2.3. Filtros
También es posible seleccionar elementos según condiciones  de sus valores. La expresión condicional produce un arreglo de  booleanos y se devuelven los valores para los que el valor de  ese arreglo es verdadero. **data[“Age”] >=30** devuelve una  serie de booleanos y **data[data[“Age”] >= 30]** devuelve  todas las ﬁlas del dataframe para las cuales el valor de la edad  es mayor o igual a 30.
También se pueden usar condiciones dentro de **loc** y de **iloc**,  para una o las dos dimensiones. Por ejemplo,  data.loc[data["Age"] >= 30, ["Name", "Sex"]] selecciona  las ﬁlas de las columnas Name y Sex cuyas edades son mayores  o iguales a 30.


In [None]:
data['Age'] >=30

In [None]:
data[data['Age'] >= 30]

In [None]:
sobrevientes_titanic = data[data['Survived'] == 1]
sobrevientes_titanic

In [None]:
sobrevientes_titanic.to_excel('Sobrevivientes.xlsx', sheet_name='titanic')

# Modulo 4.- Pandas 3

## 3.1. Indices
Las etiquetas son una parte fundamental de las  estructuras de Pandas, muchas de las funcionalidades  dependen de ellas. Por lo tanto, es importante poder  manipular y modiﬁcarlas según sea necesario. Las  etiquetas están alojadas en una estructura llamada  Index. En un dataframe tenemos tenemos un Index  para las ﬁlas y otro para las columnas en los atributos  **index** y **columns**.
Es posible modiﬁcar un index completamente  simplemente reasignándolo, por ejemplo, por una lista  que debe tener la misma cantidad de elementos.

In [None]:
df = pd.DataFrame([[3, 6, 2], [6, 8, 5], [7, 0, 5], [4, 3, 8]])
df

In [None]:
df.index = ['fila 1', 'fila 2', 'fila 3', 'fila 4']
df

In [None]:
df.columns = ['col 1', 'col 2', 'col 3']
df

Los objetos de tipo Index no soportan la asignación de ítems, no  se puede cambiar uno de sus elementos por asignación directa.  Esta modiﬁcación la podemos realizar de dos maneras:
Una es modiﬁcando directamente el array de numpy que aloja  los datos del Index a través del atributo values.
La otra forma es usando el método rename, que sirve para ﬁlas  y columnas. Se le puede pasar un diccionario con los nombres  de las etiquetas que queremos cambiar. También se puede  pasar una función a aplicar a todos los elementos del Index. Por  defecto, esta operación devuelve otro dataframe con los índices  modiﬁcados. Si queremos modiﬁcar los índices del dataframe  actual podemos usar el parámetro inplace = True.


In [None]:
df.index[0] = 'FILA 1'

In [None]:
df.index.values[0] = 'FILA 1'
df

In [None]:
df.rename(index = {'fila 2' : 'FILA 2'}, inplace = True)
df

In [None]:
df.rename(index = str.upper, 
          columns = lambda x: x.replace('col', 'Columna'),
          inplace = True)
df

## 3.2. reset_index

Para convertir el Index en una columna se usa  el método reset_index. Éste transforma el  Index en un columna y resetea el índice a un  rango de números.


In [None]:
df.reset_index(inplace = True)
df


Si solamente queremos resetear el Index y  descartar los valores sin convertirlos en una  columna, usamos el parámetro drop = True.

In [None]:
df1 = pd.DataFrame([[3, 6, 2], [6, 8, 5], [7, 0, 5], [4, 3, 8]])
df1.index = ['fila 1', 'fila 2', 'fila 3', 'fila 4']
df1

In [None]:
df1.reset_index(drop = True)

## 3.3. reindex
El método reindex permite cambiar el orden  en que se encuentran las etiquetas pero  manteniendo la alineación de los datos con la  etiqueta original. Sólo se conservan las ﬁlas  cuyas etiquetas se indiquen explícitamente.
Si se agregan etiquetas nuevas, los valores  correspondientes se llenan con missing values  a menos que explícitamente se indique el valor  deseado en el parámetro fill_value.

In [None]:
df1

In [None]:
df1.reindex(['fila 4', 'fila 2', 'fila 1', 'fila 3'])

# Modulo 4.- Pandas 4

## 4.1. Operaciones aritméticas
Cuando realizamos operaciones entre series o dataframes,  todas las operaciones son alineadas según las etiquetas  (recordemos que en numpy la alineación es por la posición).

Consideremos dos series con la misma cantidad de  elementos pero que sólo comparten algunos índices. Si  realizamos la suma de las series los elementos, se van a  sumar sólo si comparten el mismo índice.

En el caso de que haya índices que estén presentes en una  serie pero no en la otra, los elementos se van a completar  con NaN de modo que la nueva serie tenga todos los índices  de ambas series.



In [2]:
s1 = pd.Series([5, 7, 2, 8, 0, 1])
s2 = pd.Series([17, 4, 1, 0, 0, 1], index = [3, 4, 5, 6, 7, 8])

In [3]:
print(s1)
print(s2)

0    5
1    7
2    2
3    8
4    0
5    1
dtype: int64
3    17
4     4
5     1
6     0
7     0
8     1
dtype: int64


In [4]:
s1 + s2

0     NaN
1     NaN
2     NaN
3    25.0
4     4.0
5     2.0
6     NaN
7     NaN
8     NaN
dtype: float64

## 4.2. Alineación
Con dataframes la alineación sucede tanto en  ﬁlas como en columnas.


In [9]:
array1 = np.random.randint(0, 50, (6,4))
array2 = np.random.randint(0, 50, (6,4))

In [None]:
df1 = pd.DataFrame(array1, columns = ['A', 'B', 'C', 'D'] )
df1

In [10]:
df2 = pd.DataFrame(array2, index = [3, 4, 5, 6, 7, 8], columns = ['C', 'D', 'E', 'F'] )
df2

Unnamed: 0,C,D,E,F
3,20,11,27,14
4,5,20,47,38
5,24,35,47,43
6,19,47,4,41
7,20,21,46,23
8,46,25,18,21


In [None]:
df1 + df2

## 4.3. Operaciones
Podemos operar entre dos columnas de un  dataframe. En este caso se comparte el índice, por  lo que todos los datos se encuentran alineados.

Sólo si alguno de los valores es NaN el resultado  correspondiente también lo será.
Estas operaciones generan una nueva serie, que  se puede usar para crear una nueva columna en el  dataframe o para reemplazar una existente. Esto  se logra con una asignación directa.



In [None]:
df1['A'] + df1['B']

In [None]:
# creacion de una nueva columna
df1['E'] = df1['A'] + df1['B']

df1

In [None]:
# reasignacion de columna existente
df1['E'] = df1['C'] + df1['D']
df1

## 4.4. Metodos asociados
Todos los operadores tienen métodos asociados que permiten  realizar la misma operación. Sin embargo, los métodos ofrecen  la posibilidad de controlar ciertos parámetros, dando más  ﬂexibilidad a la hora de hacer las operaciones.

Por ejemplo, el parámetro fill_value completa los NaN  existentes en los objetos antes de la operación. También utiliza  este valor para cualquier alineación que sea necesaria (en caso  de que no exista la etiqueta en una de las estructuras).

![imagen](metodos.png)

In [5]:
s1.add(s2)

0     NaN
1     NaN
2     NaN
3    25.0
4     4.0
5     2.0
6     NaN
7     NaN
8     NaN
dtype: float64

In [8]:
s1.add(s2, fill_value = 0)

0     5.0
1     7.0
2     2.0
3    25.0
4     4.0
5     2.0
6     0.0
7     0.0
8     1.0
dtype: float64

## 4.5. Comparaciones
También existen los operadores de comparación y  sus métodos correspondientes. El comportamiento es  similar al de los operadores y métodos aritméticos.
Estas operaciones producen estructuras de booleanos  que luego se pueden utilizar para hacer ﬁltros.
Para producir ﬁltros más complejos tenemos que ser  capaces de combinar comparaciones. Los operadores  and, or y not no funcionan con series o dataframes.  Para hacer operaciones lógicas elemento a elemento  hay que usar los operadores  &, | y ~.
Es importante usar paréntesis para agrupar  correctamente las operaciones ya que no tienen el  mismo orden de precedencia que los operadores  habituales.


In [11]:
df2

Unnamed: 0,C,D,E,F
3,20,11,27,14
4,5,20,47,38
5,24,35,47,43
6,19,47,4,41
7,20,21,46,23
8,46,25,18,21


In [12]:
df2['C']>19

3     True
4    False
5     True
6    False
7     True
8     True
Name: C, dtype: bool

In [13]:
df2[df2['C']>19]

Unnamed: 0,C,D,E,F
3,20,11,27,14
5,24,35,47,43
7,20,21,46,23
8,46,25,18,21


In [15]:
df2[df2['E']<15]

Unnamed: 0,C,D,E,F
6,19,47,4,41


In [17]:
df2[(df2['C']>19) | (df2['E']<15)]

Unnamed: 0,C,D,E,F
3,20,11,27,14
5,24,35,47,43
6,19,47,4,41
7,20,21,46,23
8,46,25,18,21
