# Tratamiento de Datos

Pandas permite realizar tareas importantes, como alinear datos para su comparación, fusionar conjuntos de datos, gestión de datos perdidos, etc.

## Filtro y selección

En Python, podemos acceder a la propiedad de un objeto accediendo a ella como un atributo. Un objeto libro, por ejemplo, puede tener un atributo título, a la que podemos acceder llamando a libro.título. Las columnas de un DataFrame de pandas funcionan de forma muy parecida.

In [42]:
import pandas as pd

df = pd.read_csv(r"..\2_pandas\data\googleplaystore.csv")
print(df.App)

0           Photo Editor & Candy Camera & Grid & ScrapBook
1                                      Coloring book moana
2        U Launcher Lite – FREE Live Cool Themes, Hide ...
3                                    Sketch - Draw & Paint
4                    Pixel Draw - Number Art Coloring Book
                               ...                        
10836                                     Sya9a Maroc - FR
10837                     Fr. Mike Schmitz Audio Teachings
10838                               Parkinson Exercices FR
10839                        The SCP Foundation DB fr nn5n
10840        iHoroscope - 2018 Daily Horoscope & Astrology
Name: App, Length: 10841, dtype: object


Si tenemos un diccionario Python, podemos acceder a sus valores utilizando el operador de indexación ([]). Podemos hacer lo mismo con las columnas de un DataFrame:

In [25]:
import pandas as pd

### la manera quer yo recomiendo de seleccionar una columna
df = pd.read_csv(r"..\2_pandas\data\googleplaystore.csv")
print(df['App'])

## asi mismo se pueden selecionar multiples columnas en cualquier orden y multiples veces
print(df[['Size','App','Size']])

0           Photo Editor & Candy Camera & Grid & ScrapBook
1                                      Coloring book moana
2        U Launcher Lite – FREE Live Cool Themes, Hide ...
3                                    Sketch - Draw & Paint
4                    Pixel Draw - Number Art Coloring Book
                               ...                        
10836                                     Sya9a Maroc - FR
10837                     Fr. Mike Schmitz Audio Teachings
10838                               Parkinson Exercices FR
10839                        The SCP Foundation DB fr nn5n
10840        iHoroscope - 2018 Daily Horoscope & Astrology
Name: App, Length: 10841, dtype: object
                     Size                                                App  \
0                     19M     Photo Editor & Candy Camera & Grid & ScrapBook   
1                     14M                                Coloring book moana   
2                    8.7M  U Launcher Lite – FREE Live Cool Themes, Hid

Hay tres operadores fundamentales para seleccionar filas y columnas: loc, iloc y []. La diferencia fundamental entre loc e iloc es que el primero requiere etiquetas y el segundo, índices numéricos (la i inicial viene de integer).

In [6]:
# por defecto, seleccionamos filas
print(df.iloc[200])
# pero también se pueden seleccionar filas y columnas
# además, usando rangos
print(df.iloc[3:5, 1:])
# índices no consecutivos
# recuerda: en python, se empieza a contar en 0
print(df.iloc[[1, 2, 4], [0, 3]])
# los índices negativos indican que se empieza a contar desde el final
print(df.iloc[-3:-1])

App                 SuperLivePro
Category                BUSINESS
Rating                       4.3
Reviews                    46353
Size                         21M
Installs              1,000,000+
Type                        Free
Price                          0
Content Rating          Everyone
Genres                  Business
Last Updated      April 13, 2016
Current Ver                  2.8
Android Ver           1.5 and up
Name: 200, dtype: object
         Category  Rating Reviews  Size     Installs  Type Price  \
3  ART_AND_DESIGN     4.5  215644   25M  50,000,000+  Free     0   
4  ART_AND_DESIGN     4.3     967  2.8M     100,000+  Free     0   

  Content Rating                   Genres   Last Updated         Current Ver  \
3           Teen             Art & Design   June 8, 2018  Varies with device   
4       Everyone  Art & Design;Creativity  June 20, 2018                 1.1   

  Android Ver  
3  4.2 and up  
4  4.4 and up  
                                                 App

### Selección por condiciones

Para extraer las filas que cumplen una condición, le pasamos al DataFrame una Series de booleanos, o directamente algo que la devuelva.

In [None]:
print(df[df['App'] == 'Facebook'].head())

# Podemos combinar varias condiciones con & (y lógico) y | (o lógico)
print(df[(df['Category'] == 'BUSINESS') & (df['Rating'] >= 4.5)].head())


           App Category  Rating   Reviews                Size        Installs  \
2544  Facebook   SOCIAL     4.1  78158306  Varies with device  1,000,000,000+   
3943  Facebook   SOCIAL     4.1  78128208  Varies with device  1,000,000,000+   

      Type Price Content Rating  Genres    Last Updated         Current Ver  \
2544  Free     0           Teen  Social  August 3, 2018  Varies with device   
3943  Free     0           Teen  Social  August 3, 2018  Varies with device   

             Android Ver  
2544  Varies with device  
3943  Varies with device  
                                                   App  Category  Rating  \
196                         Job Search by ZipRecruiter  BUSINESS     4.8   
197  Curriculum vitae App CV Builder Free Resume Maker  BUSINESS     4.5   
203                       My Space - Employment Center  BUSINESS     4.5   
206                                       Call Blocker  BUSINESS     4.6   
208                         Square Point of Sale - POS  B

### Ordenar un DataFrame

Podemos ordenar un DataFrame por una o varias columnas, de forma ascendente o descendente, con sort_values

In [23]:
df.sort_values('App', ascending=True).head()
df.sort_values(['App', 'Category', 'Price'], ascending=[False, False, True]).head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
882,🔥 Football Wallpapers 4K | Full HD Backgrounds 😍,ENTERTAINMENT,4.7,11661,4.0M,"1,000,000+",Free,0,Everyone,Entertainment,"July 14, 2018",1.1.3.2,4.0.3 and up
7559,📏 Smart Ruler ↔️ cm/inch measuring for homework!,TOOLS,4.0,19,3.2M,"10,000+",Free,0,Everyone,Tools,"October 21, 2017",1.0,4.2 and up
2575,"💘 WhatsLov: Smileys of love, stickers and GIF",SOCIAL,4.6,22098,18M,"1,000,000+",Free,0,Everyone,Social,"July 24, 2018",4.2.4,4.0.3 and up
4362,💎 I'm rich,LIFESTYLE,3.8,718,26M,"10,000+",Paid,$399.99,Everyone,Lifestyle,"March 11, 2018",1.0.0,4.4 and up
6334,"뽕티비 - 개인방송, 인터넷방송, BJ방송",VIDEO_PLAYERS,,414,59M,"100,000+",Free,0,Mature 17+,Video Players & Editors,"July 18, 2018",4.0.7,4.0.3 and up


## Transformación

Nuevas columnas calculadas, cambio de tipo de dato, eliminar una columna

### Crear una columna calculada
Podemos operar sobre las columnas para crear otras nuevas

In [29]:
df2 = df.copy()

df2['Rating'] = (df2['Rating'] / 5) * 100
print(df2)

                                                     App             Category  \
0         Photo Editor & Candy Camera & Grid & ScrapBook       ART_AND_DESIGN   
1                                    Coloring book moana       ART_AND_DESIGN   
2      U Launcher Lite – FREE Live Cool Themes, Hide ...       ART_AND_DESIGN   
3                                  Sketch - Draw & Paint       ART_AND_DESIGN   
4                  Pixel Draw - Number Art Coloring Book       ART_AND_DESIGN   
...                                                  ...                  ...   
10836                                   Sya9a Maroc - FR               FAMILY   
10837                   Fr. Mike Schmitz Audio Teachings               FAMILY   
10838                             Parkinson Exercices FR              MEDICAL   
10839                      The SCP Foundation DB fr nn5n  BOOKS_AND_REFERENCE   
10840      iHoroscope - 2018 Daily Horoscope & Astrology            LIFESTYLE   

       Rating Reviews      

### Renombrar una columna

In [30]:
df2 = df2.rename(columns={'Rating':'score'})
print(df2['score'])

0         82.0
1         78.0
2         94.0
3         90.0
4         86.0
         ...  
10836     90.0
10837    100.0
10838      NaN
10839     90.0
10840     90.0
Name: score, Length: 10841, dtype: float64


La importancia de la nomenclatura
Tener buenos nombres de columnas en un DataFrame es importante. Hará mucho más legible nuestro código si nuestras columnas tienen nombres descriptivos, sin caracteres extraños y separados por _.

Unos cuantos ejemplos de malos nombres:

col1, col2, ..., colN: no sabemos qué es cada cosa.
precio euros, metros cuadrados: los espacios dificultan escribir código. Por ejemplo, ya no podremos acceder a las columnas con la notación dataframe.columna.
año, variación, precio_€: los caracteres no-asciii (que no son letras no acentuadas ni números) pueden dar problemas al compartir código (p.e. entre Linux y Windows), al exportar / importar, etc. Es mejor evitarlos.
PrecioEuros, MetrosCuadrados: aunque es más sutil, el estándar en Python es escribir en snake_case. Es decir, utilizando minúsculas y usando _ para separar palabras.

### Eliminar una columna

Podemos utilizar drop.

In [32]:
df2 = df.copy()

df2 = df2.drop(columns=['Installs'])
### tambien se puede con la siguiente manera:
df2.drop(columns=['Content Rating'],inplace=True)

print(df2)

                                                     App             Category  \
0         Photo Editor & Candy Camera & Grid & ScrapBook       ART_AND_DESIGN   
1                                    Coloring book moana       ART_AND_DESIGN   
2      U Launcher Lite – FREE Live Cool Themes, Hide ...       ART_AND_DESIGN   
3                                  Sketch - Draw & Paint       ART_AND_DESIGN   
4                  Pixel Draw - Number Art Coloring Book       ART_AND_DESIGN   
...                                                  ...                  ...   
10836                                   Sya9a Maroc - FR               FAMILY   
10837                   Fr. Mike Schmitz Audio Teachings               FAMILY   
10838                             Parkinson Exercices FR              MEDICAL   
10839                      The SCP Foundation DB fr nn5n  BOOKS_AND_REFERENCE   
10840      iHoroscope - 2018 Daily Horoscope & Astrology            LIFESTYLE   

       Rating Reviews      

### Cambiar el tipo de dato

podemos usar astype para convertir la columna a numérica (o cualquier otro tipo de dato).

In [38]:
df2 = df.copy()
print(df2.dtypes)
df2['Rating'] = df2['Rating'].astype(str)
print(df2.dtypes)


App                object
Category           object
Rating            float64
Reviews            object
Size               object
Installs           object
Type               object
Price              object
Content Rating     object
Genres             object
Last Updated       object
Current Ver        object
Android Ver        object
dtype: object
App               object
Category          object
Rating            object
Reviews           object
Size              object
Installs          object
Type              object
Price             object
Content Rating    object
Genres            object
Last Updated      object
Current Ver       object
Android Ver       object
dtype: object


## Tratamiento de datos

Si intentamos convertir algunas columnas a otros tipos de datos como por ejemplo la de rating a int o la de Las Update a fecha nos veremos con problemas para realizar esta operacion. Esto es debido a que algunas veces los datosa pueden contener residuos o caracteres basura, o simplemente puede ser algun error humano, o requerir de algun tratamiento extra. Para hacer eso podemos operar con las columnas de la siguiente manera:

In [39]:
df2 = df.copy()
df2['Rating'] = df2['Rating'].astype(int)

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

### llenar columnas vacias

Si nos fijamos en el mensaje de error nos comenta que no puede convertir a int los espacios vacios, por lo que para eso lo podemos llenar con 0

In [58]:
df2 = df.copy()
df2.fillna({'Rating': 0}, inplace=True)
df2['Rating'] = df2['Rating'].astype(int)
print(df2['Rating'])

0        4
1        3
2        4
3        4
4        4
        ..
10836    4
10837    5
10838    0
10839    4
10840    4
Name: Rating, Length: 10841, dtype: int32


### tratamiento de fechas

Para tratar las fechas las convertiremos a datatime y poder realizar operaciones y busquedas mediante fechas

In [50]:
print(df2['Last Updated'])
df2['fechas'] = pd.to_datetime(df2['Last Updated'],format='%B %d, %Y')
print(df2['fechas'])

0         January 7, 2018
1        January 15, 2018
2          August 1, 2018
3            June 8, 2018
4           June 20, 2018
               ...       
10836       July 25, 2017
10837        July 6, 2018
10838    January 20, 2017
10839    January 19, 2015
10840       July 25, 2018
Name: Last Updated, Length: 10841, dtype: object


ValueError: time data "1.0.19" doesn't match format "%B %d, %Y", at position 1348. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

Hay veces donde vienen de multiples formas, por ejemplo tenemos fechas asi:
* January 7, 2018
Y tambien asi:
* 1.0.19

Por lo que intentaremos convertir las primeras mediante un formato y las que no encuentro mediante otro formato, el parametro 'coerce' nos devuelve un na cuando no puede transformar esos formatos, por lo que podremos volver a intetarlo, con otro formato:

In [73]:
df2 = df.copy()

df2['fechas'] = pd.to_datetime(df2['Last Updated'], format="%B %d, %Y", errors="coerce")

mask_na = df2['fechas'].isna()

df2.loc[mask_na, 'fechas'] = pd.to_datetime(df2.loc[mask_na, 'Last Updated'], format="%d%m%Y", errors="coerce")

print(df2[['Last Updated', 'fechas']])

           Last Updated     fechas
0       January 7, 2018 2018-01-07
1      January 15, 2018 2018-01-15
2        August 1, 2018 2018-08-01
3          June 8, 2018 2018-06-08
4         June 20, 2018 2018-06-20
...                 ...        ...
10836     July 25, 2017 2017-07-25
10837      July 6, 2018 2018-07-06
10838  January 20, 2017 2017-01-20
10839  January 19, 2015 2015-01-19
10840     July 25, 2018 2018-07-25

[10841 rows x 2 columns]


Finalmente te comparto una tabla para poder darle formato a las fechas:

Directiva|Descripcion|Ejemplo
-|-|-
%a|Weekday, short version|Wed	
%A|Weekday, full version|Wednesday	
%w|Weekday as a number 0-6, 0 is Sunday|3	
%d|Day of month 01-31|31	
%b|Month name, short version|Dec	
%B|Month name, full version|December	
%m|Month as a number 01-12|12	
%y|Year, short version, without century|18	
%Y|Year, full version|2018	
%H|Hour 00-23|17	
%I|Hour 00-12|05	
%p|AM/PM|PM	
%M|Minute 00-59|41	
%S|Second 00-59|08	
%f|Microsecond 000000-999999|548513	
%z|UTC offset|+0100	
%Z|Timezone|CST	
%j|Day number of year 001-366|365	
%U|Week number of year, Sunday as the first day of week, 00-53|52	
%W|Week number of year, Monday as the first day of week, 00-53|52	
%c|Local version of date and time|Mon Dec 31 17:41:00 2018	
%C|Century|20	
%x|Local version of date|12/31/18	
%X|Local version of time|17:41:00	
%%|A % character|%	
%G|ISO 8601 year|2018	
%u|ISO 8601 weekday (1-7)|1	
%V|ISO 8601 weeknumber (01-53)|01

## Formatos de agrupacion y operaciones

### Agrupacion

De una forma equivalente a como hacemos en SQL, podemos agregar las tablas y sacar resúmenes de los grupos. La operación en pandas se hace en dos fases:

* El groupby: donde especificamos la o las columnas por las que agregar
* La aplicación de la función de agregación sobre una o varias columnas

In [84]:
df.groupby(['Category'])['Rating'].max()

#Para aplicar diferentes resúmenes sobre diferentes columnas
df.groupby(['Category','Genres']).agg(
    mean_ratings=('Rating','mean'),
    sum_ratings=('Rating','sum'),
    min_ratings=('Rating','min'),
    max_ratings=('Rating','max')
).reset_index()

Unnamed: 0,Category,Genres,mean_ratings,sum_ratings,min_ratings,max_ratings
0,1.9,"February 11, 2018",19.000000,19.0,19.0,19.0
1,ART_AND_DESIGN,Art & Design,4.358929,244.1,3.2,5.0
2,ART_AND_DESIGN,Art & Design;Action & Adventure,,0.0,,
3,ART_AND_DESIGN,Art & Design;Creativity,4.440000,22.2,3.8,4.7
4,ART_AND_DESIGN,Art & Design;Pretend Play,3.900000,3.9,3.9,3.9
...,...,...,...,...,...,...
145,TRAVEL_AND_LOCAL,Travel & Local;Action & Adventure,4.100000,4.1,4.1,4.1
146,VIDEO_PLAYERS,Video Players & Editors,4.063924,642.1,1.8,4.9
147,VIDEO_PLAYERS,Video Players & Editors;Creativity,4.100000,4.1,4.1,4.1
148,VIDEO_PLAYERS,Video Players & Editors;Music & Video,4.000000,4.0,4.0,4.0
