## Clase Manejo y limpieza de datos II

### Trabajando con Datos, Indexación, Selección

> ¿Cómo podemos seleccionar, añadir, eliminar, mover,..., columnas, filas,...?


> - Para seleccionar una columna solo hay que usar el nombre de la columna y pasarlo como si fuera un diccionario (o un atributo).


> Para añadir una columna simplemente hay que usar un nombre de columna no existente y pasarle los valores para esa columna.


> Para eliminar una columna podemos usar *del* o el método *pop* del *DataFrame*.


> Para mover una columna podemos usar una combinación de las metodologías anteriores.


Por ejemplo, vamos a seleccionar los valores de una columna:

In [3]:
import pandas as pd
import numpy as np

In [18]:
df = pd.DataFrame(np.random.randn(5,3),
                  index = ['primero','segundo','tercero','cuarto','quinto'],
                  columns = ['velocidad', 'temperatura','presion'])
print(df['velocidad'])
#df.velocidad
df

primero    0.272880
segundo   -0.345225
tercero    0.493230
cuarto    -0.497330
quinto    -0.545871
Name: velocidad, dtype: float64


Unnamed: 0,velocidad,temperatura,presion
primero,0.27288,-0.474662,0.481212
segundo,-0.345225,-0.163191,-1.342035
tercero,0.49323,-0.971181,-1.230043
cuarto,-0.49733,-0.122689,1.418395
quinto,-0.545871,-0.122073,1.652332


In [22]:
df.shape[0]

5

> Hemos creado un DataFrame y para acceder a la columna velocidad lo podemos hacer de dos formas. 


> - O bien usando el nombre de la columna como si fuera una clave de un diccionario 

> - o bien usando el nombre de la columna como si fuera un atributo. 


> En el caso de que los nombres de las columnas sean números, la segunda opción no podríais usarla...


Vamos a añadir una columna nueva al DataFrame. Es algo tan sencillo como usar un nombre de columna no existente y pasarle los datos:

In [39]:
df['velocidad_maxima'] = np.random.randn(df.shape[0])
print(df)

         velocidad  temperatura   presion  velocidad_maxima
primero   0.272880    -0.474662  0.481212         -1.098615
segundo  -0.345225    -0.163191 -1.342035         -1.852720
tercero   0.493230    -0.971181 -1.230043          0.636144
cuarto   -0.497330    -0.122689  1.418395         -0.134874
quinto   -0.545871    -0.122073  1.652332          0.674232


> Pero qué pasa si quiero añadir la columna en un lugar específico. Para ello podemos usar el método *insert* (y de paso vemos como podemos borrar una columna):

<strong>Forma 1:</strong> 
- Borramos la columna 'velocidad_maxima' que está al final del df usando *del*
- Colocamos la columna eliminada en la posición que especifiquemos

In [31]:
columna = df['velocidad_maxima']
del df['velocidad_maxima']
df.insert(0, 'velocidad_maxima', columna)
print(df)

         velocidad_maxima  velocidad  temperatura   presion
primero          0.614796   0.272880    -0.474662  0.481212
segundo          0.025536  -0.345225    -0.163191 -1.342035
tercero         -0.635332   0.493230    -0.971181 -1.230043
cuarto           1.007185  -0.497330    -0.122689  1.418395
quinto          -0.312888  -0.545871    -0.122073  1.652332


<strong>Forma 2:</strong> Usando el método pop: borramos usando el método pop y añadimos la columna borrada en la última posición de nuevo.

In [None]:
print(df)
columna = df.pop('velocidad_maxima')
print(df)
#print(columna)
df.insert(3, 'velocidad_maxima', columna)
print(df)

In [40]:
print(df)
columna = df.pop('velocidad_maxima')
columna
print(df)

         velocidad  temperatura   presion  velocidad_maxima
primero   0.272880    -0.474662  0.481212         -1.098615
segundo  -0.345225    -0.163191 -1.342035         -1.852720
tercero   0.493230    -0.971181 -1.230043          0.636144
cuarto   -0.497330    -0.122689  1.418395         -0.134874
quinto   -0.545871    -0.122073  1.652332          0.674232
         velocidad  temperatura   presion
primero   0.272880    -0.474662  0.481212
segundo  -0.345225    -0.163191 -1.342035
tercero   0.493230    -0.971181 -1.230043
cuarto   -0.497330    -0.122689  1.418395
quinto   -0.545871    -0.122073  1.652332


> Para seleccionar datos concretos de un DataFrame podemos usar el índice, una rebanada, valores booleanos, la columna,...

- Seleccionamos la columna de velocidades:

In [41]:
print(df['velocidad'])

primero    0.272880
segundo   -0.345225
tercero    0.493230
cuarto    -0.497330
quinto    -0.545871
Name: velocidad, dtype: float64


- Seleccionamos todas las columnas cuyo índice es igual a tercero:

In [42]:
print(df.xs('tercero'))

velocidad      0.493230
temperatura   -0.971181
presion       -1.230043
Name: tercero, dtype: float64


- Seleccionamos todas las columnas cuyo índice está entre tercero y quinto (en este caso los índices son inclusivos)

In [45]:
print(df.loc['tercero':'quinto'])

         velocidad  temperatura   presion
tercero   0.493230    -0.971181 -1.230043
cuarto   -0.497330    -0.122689  1.418395
quinto   -0.545871    -0.122073  1.652332


- Seleccionamos todos los valores de velocidad donde la temperatura > 0

In [54]:
#print(df.loc[['velocidad'],['temperatura']])  #Cuál es el error?
df.loc[(df["temperatura"]>-0.4) ,["velocidad"]]

Unnamed: 0,velocidad
segundo,-0.345225
cuarto,-0.49733
quinto,-0.545871


In [64]:
print(df.loc[:,["velocidad"]])

         velocidad
primero   0.272880
segundo  -0.345225
tercero   0.493230
cuarto   -0.497330
quinto   -0.545871


- Seleccionamos todos los valores de una columna por índice usando una rebanada (slice) de enteros.
  - En este caso el límite superior de la rebanada no se incluye (Python tradicional)

In [57]:
print(df.iloc[1:4])

         velocidad  temperatura   presion
segundo  -0.345225    -0.163191 -1.342035
tercero   0.493230    -0.971181 -1.230043
cuarto   -0.497330    -0.122689  1.418395


- Seleccionamos filas y columnas

In [59]:
print(df.iloc[1:3, [0, 2]])

         velocidad   presion
segundo  -0.345225 -1.342035
tercero   0.493230 -1.230043


### Concatenar, Fusionar y Unir (Concatenating, Merging, Joining)
Hay 3 formas principales de combinar DataFrames: concatenar, fusionar y unir.

In [65]:
# DataFrames de ejemplo para concatenacion
import pandas as pd

In [66]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [72]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [77]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


### Concatenacion (Concatenation)
La concatenación básicamente combina DataFrames. Tenga en cuenta que las dimensiones deben coincidir a lo largo del eje con el que se está concatenando.

la concatenacion se hace con dataframes de diferentes indices

Puede usar .concat() y pasar una lista de DataFrames para concatenar juntos:

In [73]:
# Concatenar cada dateframe verticalmente, ya que coinciden los nombres de las columnas
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [78]:
#concatenar dataframe horizontalmente, como no coinciden los index observar lo que ocurre
pd.concat([df1,df2,df3],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


### Fusión-Merge

> Una funcionalidad muy potente que ofrece Pandas es la de poder juntar, *merge* (en bases de datos sería hacer un JOIN) datos siempre y cuando este sea posible. 

> La función merge() le permite fusionar DataFrames juntos utilizando una lógica similar a la combinación de Tablas SQL

Maneras de hacer merge:

>Natural join: para mantener solo las filas que coinciden con los marcos de datos, especifique el argumento how = ‘inner’.

>Full outer join: para mantener todas las filas de ambos dataframe, especifique how = ‘OUTER’.

>Left outer join: para incluir todas las filas de su dataframe x y solo aquellas de y que coincidan, especifique how=‘left’.

>Right outer join: para incluir todas las filas de su dataframe y y solo aquellas de x que coincidan, especifique how=‘right’.

In [79]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
left

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [85]:
right = pd.DataFrame({'key1': ['K0', 'K1', 'K1'],
                               'key2': ['K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2'],
                                  'D': ['D0', 'D1', 'D2']})
right

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2


In [81]:
# fusionando comparando las mismas claves que tengan comunes
pd.merge(left, right, on=['key1', 'key2'])#how=inner los elementos comunes

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [82]:
# fusionando totalmente las dos tablas con las claves
pd.merge(left, right, how='outer', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [86]:
# fusionando usando las claves de la tabla right
pd.merge(left, right, how='right', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [87]:
# fusionando usando las claves de la tabla left
pd.merge(left, right, how='left', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


En el ejemplo que estamos haciendo con el data set podemos ver esta funcionalidad de forma muy intuitiva, ya que los datos de este data set se han obtenido a partir de una bases de datos relacional. 


Veamos a continuación como hacer un JOIN o un mergeo de los ficheros 'users.txt' y 'ratings.txt' a partir del 'user_id':

In [None]:
# Load users info
import pandas as pd
userHeader = ['user_id', 'gender', 'age', 'ocupation', 'zip']
users = pd.read_table('users.txt', engine='python', sep='::', header=None, names=userHeader)
users.head(10)


In [None]:
# Load ratings
ratingHeader = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ratings.txt', engine='python', sep='::', header=None, names=ratingHeader)
ratings.head()

In [None]:
# Merge tables users + ratings by user_id field
merger_ratings_users = pd.merge(users, ratings)
print('%s' % merger_ratings_users[:10])
merger_ratings_users.head()

> De la misma forma que hemos hecho el merge de los usuarios y los votos, podemos hacer lo mismo añadiendo también los datos relativos a las películas:

In [None]:
userHeader = ['user_id', 'gender', 'age', 'ocupation', 'zip']
users = pd.read_table('users.txt', engine='python', sep='::', header=None, names=userHeader)
users

In [None]:
m = ['movie_id', 'title', 'genders']
movies = pd.read_table('movies.txt', engine='python', sep='::', header=None,names=['movie_id', 'title', 'genders'])
movies

In [None]:
ratingHeader = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ratings.txt', engine='python', sep='::', header=None, names=ratingHeader)
ratings

In [None]:
# Merge data
#mergeRatings = pd.merge(pd.merge(users, ratings), movies)
mergeRatings = pd.merge(merger_ratings_users, movies)
mergeRatings

> Si quisiésemos ver por ejemplo un elemento de este nuevo JOIN creado (por ejemplo la posición 1000), lo podríamos hacer de la siguiente forma:

In [None]:
info1000 = mergeRatings.loc[1000]
print('Info of 1000 position of the table: \n%s' % info1000[:1000])

### Unir (Joining)
Unir (join) es un método conveniente para combinar las columnas de dos DataFrames potencialmente indexados de forma diferente en un solo DataFrame. Join hace uniones de índices sobre índices o de índices sobre columnas

In [88]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [89]:
right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])
right

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [90]:
# unir el dataframe 'right' a el dataframe 'left'
left.join(right)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [91]:
# unir el dataframe 'left' a el dataframe 'right'
right.join(left)

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K2,C2,D2,A2,B2
K3,C3,D3,,


In [92]:
# unir el dataframe 'left' a el dataframe 'rigth'
#how = outer
left.join(right, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


## Reorganizando DataFrames

### Groupby (Agrupacion por filas)
El método groupby le permite agrupar filas de datos y llamar a funciones agregadas

In [107]:
import pandas as pd
# Crear dataframe desde un diccionario
data = {'Company':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Person':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Sales':[200,120,340,124,243,350],
       'age': [20, 50, 34, 24, 24, 35]}
data

{'Company': ['GOOG', 'GOOG', 'MSFT', 'MSFT', 'FB', 'FB'],
 'Person': ['Sam', 'Charlie', 'Amy', 'Vanessa', 'Carl', 'Sarah'],
 'Sales': [200, 120, 340, 124, 243, 350],
 'age': [20, 50, 34, 24, 24, 35]}

In [None]:
{'Company': ['GOOG', 'GOOG', 'MSFT', 'MSFT', 'FB', 'FB'],
 'Person': ['Sam', 'Charlie', 'Amy', 'Vanessa', 'Carl', 'Sarah'],
 'Sales': [200, 120, 340, 124, 243, 350],
 'Sales': [200, 120, 340, 124, 243, 350]}

In [111]:
#conversion del diccionario a dataframe
df = pd.DataFrame(data)
df

Unnamed: 0,Company,Person,Sales,age
0,GOOG,Sam,200,20
1,GOOG,Charlie,120,50
2,MSFT,Amy,340,34
3,MSFT,Vanessa,124,24
4,FB,Carl,243,24
5,FB,Sarah,350,35


Se puede usar el método .groupby() para agrupar filas en función de un nombre de columna. Por ejemplo, vamos a agruparnos a partir de la Compañía. Esto creará un objeto DataFrameGroupBy:

In [109]:
#agrupar por Company
df.groupby('Company')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd420053b80>

Se puede grabar este objeto en una nueva variable:

In [112]:
by_comp = df.groupby("Company")
by_comp

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd420056760>

utilizar los métodos agregados del objeto:

In [103]:
# Promedio de ventas por company
by_comp.mean()

Unnamed: 0_level_0,Sales,age
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,296.5,29.5
GOOG,160.0,20.0
MSFT,232.0,29.0


In [104]:
# agrupar por compañia y calcular el promedio por cada una
df.groupby('Company').mean()

Unnamed: 0_level_0,Sales,age
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,296.5,29.5
GOOG,160.0,20.0
MSFT,232.0,29.0


Más ejemplos de métodos agregados:

In [105]:
# agrupar por compañia y calcular la desviacion estandard
by_comp.std()

Unnamed: 0_level_0,Sales,age
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,75.660426,7.778175
GOOG,56.568542,0.0
MSFT,152.735065,7.071068


In [113]:
# agrupar por compañia y calcular el minimo
by_comp.min()

Unnamed: 0_level_0,Person,Sales,age
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
FB,Carl,243,24
GOOG,Charlie,120,20
MSFT,Amy,124,24


In [114]:
# agrupar por compañia y calcular el maximo
by_comp.max()

Unnamed: 0_level_0,Person,Sales,age
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
FB,Sarah,350,35
GOOG,Sam,200,50
MSFT,Vanessa,340,34


In [115]:
# agrupar por compañia y sumar los elementos que hay excluyendo los NaN
by_comp.count()

Unnamed: 0_level_0,Person,Sales,age
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
FB,2,2,2
GOOG,2,2,2
MSFT,2,2,2


In [116]:
# Una de las funciones mas usadas para descripcion estadistica de un dataframe
# Genera estadísticas descriptivas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos, excluyendo los valores `` NaN``.
# by_comp.describe(include = 'all') # incluir todo
by_comp.describe()


Unnamed: 0_level_0,Sales,Sales,Sales,Sales,Sales,Sales,Sales,Sales,age,age,age,age,age,age,age,age
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Company,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0,2.0,29.5,7.778175,24.0,26.75,29.5,32.25,35.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0,2.0,35.0,21.213203,20.0,27.5,35.0,42.5,50.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0,2.0,29.0,7.071068,24.0,26.5,29.0,31.5,34.0


In [117]:
# Una de las funciones mas usadas para descripcion estadistica de un dataframe
# Genera estadísticas descriptivas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos, excluyendo los valores `` NaN``.
# Transponer la descripcion
by_comp.describe().transpose()

Unnamed: 0,Company,FB,GOOG,MSFT
Sales,count,2.0,2.0,2.0
Sales,mean,296.5,160.0,232.0
Sales,std,75.660426,56.568542,152.735065
Sales,min,243.0,120.0,124.0
Sales,25%,269.75,140.0,178.0
Sales,50%,296.5,160.0,232.0
Sales,75%,323.25,180.0,286.0
Sales,max,350.0,200.0,340.0
age,count,2.0,2.0,2.0
age,mean,29.5,35.0,29.0


In [118]:
# Descripcion estadistica de los datos de la copmañia GOOG
by_comp.describe().transpose()['GOOG']

Sales  count      2.000000
       mean     160.000000
       std       56.568542
       min      120.000000
       25%      140.000000
       50%      160.000000
       75%      180.000000
       max      200.000000
age    count      2.000000
       mean      35.000000
       std       21.213203
       min       20.000000
       25%       27.500000
       50%       35.000000
       75%       42.500000
       max       50.000000
Name: GOOG, dtype: float64

### Pivot Tables
La funcionlidad “Pivot_table” es muy utilizada y popular en las conocidas “hojas de cálculo” tipo, OpenOffice, LibreOffice, Excel, Lotus, etc. Esta funcionalidad nos permite agrupar, ordenar, calcular datos y manejar datos de una forma muy similar a la que se hace con las hojas de cálculo. mas informacion

La principal función del “Pivot_table” son las agrupaciones de datos a las que se les suelen aplicar funciones matemáticas como sumatorios, promedios, etc

In [121]:
import seaborn as sns # importar la libreria seaborn
# cargar dataset del titanic
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


Haciendo el Pivot table a mano para obtener el promedio de personas que sobrevivieron por genero

In [120]:
# 1. Agrupar por genero
# 2. Obtener los sobrevivientes
# 3. Calcular el promedio
titanic.groupby('sex')[['survived']].mean()
#df.loc[:,"suvived"]
#df[["suvived"]]

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


promedio de cuantos sobrevivieron por genero divididos por clase

In [124]:
# 1. Agrupar por genero y clase
# 2. Obtener los sobrevivientes
# 3. Calcular el promedio
# 4. Poner el resultado como una tabla (.unstack)
titanic.groupby(['sex', 'class'])['survived'].mean().unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Usando Pivot tables

In [126]:
titanic.pivot_table('survived', index='sex', columns='class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [129]:
titanic.pivot_table('survived', index='sex', columns='class', margins=True, aggfunc='sum', margins_name='Total')


class,First,Second,Third,Total
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,91,70,72,233
male,45,17,47,109
Total,136,87,119,342


Otro ejemplo mas simple:

In [130]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['one','one','two','two','one','one'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [131]:
# pivot tables
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,


## Tablas de Contingencia (two way tables)

In [132]:
# Crear Datos
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'], 
        'company': ['infantry', 'infantry', 'cavalry', 'cavalry', 'infantry', 'infantry', 'cavalry', 'cavalry','infantry', 'infantry', 'cavalry', 'cavalry'], 
        'experience': ['veteran', 'rookie', 'veteran', 'rookie', 'veteran', 'rookie', 'veteran', 'rookie','veteran', 'rookie', 'veteran', 'rookie'],
        'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'], 
        'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['regiment', 'company', 'experience', 'name', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,regiment,company,experience,name,preTestScore,postTestScore
0,Nighthawks,infantry,veteran,Miller,4,25
1,Nighthawks,infantry,rookie,Jacobson,24,94
2,Nighthawks,cavalry,veteran,Ali,31,57
3,Nighthawks,cavalry,rookie,Milner,2,62
4,Dragoons,infantry,veteran,Cooze,3,70
5,Dragoons,infantry,rookie,Jacon,4,25
6,Dragoons,cavalry,veteran,Ryaner,24,94
7,Dragoons,cavalry,rookie,Sone,31,57
8,Scouts,infantry,veteran,Sloan,2,62
9,Scouts,infantry,rookie,Piger,3,70


In [133]:
# Tabla de contingencia por compañía y regimiento
pd.crosstab(df['regiment'], df['company'], margins=True)

company,cavalry,infantry,All
regiment,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Dragoons,2,2,4
Nighthawks,2,2,4
Scouts,2,2,4
All,6,6,12


In [134]:
# Tabla de contingencia de compañia y experiencia por regimiento
pd.crosstab([df['company'], df['experience']], df['regiment'],  margins=True)

Unnamed: 0_level_0,regiment,Dragoons,Nighthawks,Scouts,All
company,experience,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
cavalry,rookie,1,1,1,3
cavalry,veteran,1,1,1,3
infantry,rookie,1,1,1,3
infantry,veteran,1,1,1,3
All,,4,4,4,12


## Datos Categoricos
La busqueda en datos categoricos es mucho mas rapida
Ocupan Menos memoria que si los datos estan como string
Se pueden tener datos categoricos Ordinales

In [None]:
import pandas as pd
# Creacion de una serie de datos categoricos
cate = pd.Series(["manzana", "banano", "corozo", "manzana","pera"], dtype="category")
cate

In [None]:
cate.dtypes


In [None]:
cate.describe()

In [None]:
# Creando primero los datos y luego convirtiendolos en categoricos
df_cate = pd.DataFrame({"Fruta":["manzana", "banano", "corozo", "manzana","pera"]})
df_cate

In [None]:
# Observar los tipos de datos en el data frame
df_cate.dtypes

In [None]:
# Observar los tipos de datos en el dataframe
df_cate.dtypes

In [None]:
df_cate.describe()

### Categoricos Ordinales

In [None]:
from pandas.api.types import CategoricalDtype

In [None]:
# creacion de dataframe con datos
df_cate = pd.DataFrame({'A': list('abca'), 'B': list('bccd')})
df_cate

In [None]:
df_cate.dtypes

In [None]:
# Definicion de los tipos de datos y que estan en orden
df_cate["A"] = df_cate["A"].astype(CategoricalDtype(['a','b','c','d'], ordered=True))
df_cate

In [None]:
df_cate["A"]

In [None]:
# Los datos no tienen que ser strngs para qeu sean categoricos
s = pd.Series([1, 2, 3, 1], dtype="category")
s

In [None]:
s = s.cat.set_categories([2, 3, 1], ordered=True)
s

# El siguiente tema es opcional...

# Otro tipos de archivos (Información no estructurada)

A veces es necesario realizar un programa que pueda procesar información que se encuentra en un formato "particular", en tales casos necesitamos realizar un programa especializado.

El análisis de un texto es un ejemplo de un archivo para el cual necesitamos realizar una lectura en modo "manual". 

Imaginemos que se necesita leer un archivo .txt con una noticia del diario **The New York Times** y analizar su contenido. 

<img src="http://www.harfordcountyhealth.com/wp-content/uploads/2015/01/Newspaper.jpg" width=400>

El archivo es **noticia.txt**, lo importaremos al entorno de Google con el siguiente comando:

En este caso abriremos el archivo con el comando **open( )** de python y guardamos el contenido "en bruto" en una lista de strings, separando por renglones.
Observen que no estamos utilizando librerías.

In [None]:
file = open("noticia.txt") # Guardamos el contenido del archivo en una variable

contenido = file.readlines() # Obtenemos una lista de renglones
print(contenido)

for line in contenido: 
    print(line) # Mostramos renglón a renglón

Luego de poder almacenar el contenido, lo separaremos por palabras utilizando el método **.split()**

In [None]:
palabras = []

for line in contenido:
    
    palabras_linea = line.split(' ') # Separamos por espacios
    
    for palabra in palabras_linea:   # por cada "string" separado por espacios
        palabras.append(palabra)

print(palabras)

¡Podemos observar que algunos carácteres no deseados se filtran entre las palabras (como '\ufeff' o '\n')! Es habitual que cuando analizemos un archivo a mano de manera "personalizada" ocurran esta clase de problemas, los cuales debemos resolver con algunos parches a nuestro programa. En este caso los carácteres no deseados que podemos observar a simple vista son **\ufeff**, **—**, **\n**, **’s**. Los caracteres que tienen la barra invertida *\* son llamados '*secuencias de escape*' o '*escape characters*' y se utilizan para definir ciertos caracteres especiales dentro de strings, por ejemplo '\n' es el caracter de nueva línea, esto vendría a ser lo que se almacena en memoria cuando apreto la tecla *Enter*. Los filtraremos utilizando el comando [replace](https://www.geeksforgeeks.org/python-string-replace/) de python:

In [None]:
palabras = []

for line in contenido:
    
    # eliminamos los distintos carácteres no deseados uno por uno
    line = line.replace('\ufeff','')
    line = line.replace('—','')
    line = line.replace('\n','')
    line = line.replace('’s','')
    line = line.replace(',','')
    line = line.replace('.','')
   
    palabras_linea = line.split(' ') # separamos por espacios 
    
    for palabra in palabras_linea: # por cada "string" separado por espacios
      if palabra != '':
        palabras.append(palabra)

print(palabras)

Podríamos hacer el código un poco más simple con una lista de caracteres indeseados. Una idea muy útil es pasar todo el texto a mayúsculas para poder analizar el texto de manera más simple. Por ejemplo, si quiero buscar una palabra no tendré que analizar la posibilidad de que la primera letra sea mayúscula y el resto no.

In [None]:
palabras = []
no_deseado = ['\ufeff', '—', '\n', '’s', ',', '.']

for line in contenido:
    
    # eliminamos los distintos carácteres no deseados uno por uno
    for caracter in no_deseado:
      line = line.replace(caracter,'')
   
    palabras_linea = line.split(' ') # separamos por espacios 
    
    for palabra in palabras_linea: # por cada "string" separado por espacios
      if palabra != '':
        palabras.append(palabra.upper()) # convertimos todo a mayuscula

print(palabras)

### **Mini desafío 4.A**
Encontrar la cantidad de ocurrencias de la palabras "**Trump**" y "**the**" en el texto de la noticia.