# Explicación Pandas  Python 2022

## Archivos de películas

In [None]:
import pandas as pd
import os

In [None]:
path_files = "files"
path_arch = os.path.join(os.getcwd(), path_files)
movies = 'mymoviedb.csv'
peliculas = pd.read_csv((os.path.join(path_arch, movies)), encoding='utf-8' , lineterminator='\n')

In [None]:
peliculas

Cuando leían el archivo con el módulo csv habías una película que la tomaba en varias líneas, con pandas eso no sucede por lo tanto no es necesario borrar líneas con Overview vacías

In [None]:
peliculas.loc[1104:1120]

In [None]:
peliculas.columns

In [None]:
type(peliculas)

Podemos aplicar una función a una columna en particular

In [None]:
peliculas[peliculas.Original_Language.apply(lambda x: x.startswith('e') )]

In [None]:
peliculas.Title.unique()

In [None]:
peliculas[peliculas.Original_Language.apply(lambda x: len(x)<=2 )]

In [None]:
!ls

Veamos algunas operaciones con el archivo de canciones de Spotify

In [None]:
spotify = 'Spotify 2010 - 2019 Top 100.csv'
canciones = pd.read_csv(os.path.join(path_arch, spotify))

In [None]:
canciones.tail(10)


In [None]:
canciones.columns

Para verificar que no confentan datos nulos, podemos consultar con la isntrucción de Pandas *isna*

In [None]:
canciones.isna().sum()

In [None]:
Eliminamos todas las filas que contenga estos valores nulos

In [None]:
canciones = canciones.dropna()

In [None]:
canciones.isna().sum()

Poner en “title case” los géneros musicales excepto las siglas EDM, DFW, UK, R&B y
LGBTQ+ que deben ir en mayúsculas. Por ejemplo “dfw rap” debe ser transformado a
“DFW Rap”

In [None]:
siglas = ["edm","dfw","uk","r&b","lgbtq+"]

In [None]:
canciones['top genre'].unique()

Verificar que algunas de las siglas está dentro de la coluna 'top genre'

In [None]:
canciones[canciones['top genre'].apply(lambda x: x.split(" ", 1)[0] in(siglas))]

En realidad lo que hace es verificar que estñen las siglas de forma exacta, no coincide en los casos en que el string es compuesto, veamos una opción para ejecutar varias operaciones en la misma instrucción

In [None]:
canciones_upper = canciones.copy()

In [None]:
canciones_upper

In [None]:
canciones_upper['top genre'] = canciones['top genre'].apply(lambda x: x.upper() if x in siglas else x)

In [None]:
canciones_upper['top genre'].unique() 

In [None]:
def cambiar_formato_genero(genero):
    
    siglas_min = ["edm","dfw","uk","r&b","lgbtq+"]
    genero_separados = genero.split(" ",1)
    
    if(genero_separados[0] in siglas):
        genero_separados[0] = genero_separados[0].upper()
    genero_cambiado = " ".join(genero_separados)
    
    return genero_cambiado

In [None]:
canciones_upper['top genre'] = canciones['top genre'].apply(lambda x: cambiar_formato_genero(x))

In [None]:
canciones[canciones['top genre'].str.contains('dfw')]

In [None]:
canciones_upper['top genre'].unique()

Operaciones y gráficos con el archivo de películas de Netflix

In [None]:
import os

In [None]:
path_files = "files"
path_arch = os.path.join(os.getcwd(), path_files)

archivo_net = "netflix_titles.csv"

In [None]:
d_netflix = pd.read_csv(os.path.join(path_arch, archivo_net))

In [None]:
d_netflix.columns

In [None]:
d_netflix.dtypes

In [None]:
d_netflix.isnull().sum()

## Algunos gráficos simples de realizar con matplotlib

Mostrar la cantidad de shows según el año de los útimos 10 a través de un gráfico de barras
* Ordenar los datos por año
* Contar la cantidad de cada año

In [None]:
d_netflix['release_year'].sort_values()

In [None]:
d_netflix['release_year'].sort_values().value_counts()

Nos quedamos con los últimos 10 años

In [None]:
d_netflix['release_year'].sort_values().value_counts()[:10]

In [None]:
d_netflix['release_year'].sort_values().value_counts()[:10].plot(kind='bar')

Fijensen que como ordena por **cantidad** de cada año, no muestra los últimos 10 años, sino los últimos 10 años que más shows tuvieron

In [None]:
d_netflix.groupby(['release_year'])

[groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) agrupa en función de la columna que le indicamos, podemos quedarnos solo con los datos 

In [None]:
d_netflix.groupby(['release_year'])['release_year']

Al agrupar debemos indicar qué queremos hacer con los demás datos en función de esa columna, en nuestro caso queremos saber cuántos hay en cada agrupamiento

In [None]:
d_netflix.groupby(['release_year'])['release_year'].count()

In [None]:
d_netflix.groupby(['release_year'])['release_year'].count().tail(10).plot(kind='bar')

Comparar la cantidad de tipos de shows en los últimos x años.

In [None]:
d_netflix['type']

In [None]:
d_netflix.type.unique()

In [None]:
d_netflix.groupby(['release_year', 'type'])['release_year'].count().tail(20).unstack(0).plot.barh()

# Archivo de eventos
Veamos las estadísticas

In [None]:
import os

In [None]:
df_juego = pd.read_csv(os.path.join(path_files,'datos de prueba - datos.csv'))

In [None]:
df_juego

In [None]:
df_juego.columns

Nos podemos quedar con un partida en particular:

In [None]:
df_juego[df_juego['Partida']==1]

O con filas en que el estado sea uno en particular

In [None]:
df_juego[df_juego['Estado ']=='ok']

Seleccionar filas donde el evento sea fin y quedarse con la columna *usuarie -genero*

In [None]:
df_juego[df_juego['Nombre de evento']=='fin']['usuarie -genero'].value_counts()

In [None]:
df_juego.rename(columns={'Estado ':'Estado'}, inplace=True)

In [None]:
df_juego.columns

¿Cómo manejamos el tiempo?

In [None]:
from datetime import datetime
import time

In [None]:
df_juego.Tiempo

In [None]:
time.time()

In [None]:

datetime.timestamp(datetime.now())

In [None]:
evento_time = int(time.time())
evento_time

Obtener el día de la semana en que se jugó

In [None]:
datetime.fromtimestamp(evento_time).weekday()

In [None]:
evento = int(datetime.timestamp(datetime.now()))

In [None]:
Convertir el número entero en fecha y luego darle formato con string a través de patrones

In [None]:
fecha = datetime.fromtimestamp(evento_time)

In [None]:
fecha.strftime("%m/%d/%Y, %H:%M:%S")

In [None]:
fecha.strftime("%d/%m/%Y, %H:%M:%S")

In [None]:
fecha.strftime("%A %d/%m/%y, %H:%M:%S")

In [None]:
fecha.weekday()

In [None]:
fecha.hour

Buscar los días de la semana en que se jugó aplicando la función de conversión de entero a fecha a cada fila de la columna *Tiempo*

In [None]:
df_juego.Tiempo.apply(lambda x:datetime.fromtimestamp(x).weekday() ).unique()

In [None]:
df_juego.columns

In [None]:
Obtener los ID únicos de las partidas

In [None]:
list(df_juego.Partida.unique())

In [None]:
Calcular el tiempo entre el inicio y fin de una partida en particular

In [None]:
ini_1 = df_juego[df_juego['Partida']==1].iloc[0].Tiempo

In [None]:
ini_2 =  df_juego[df_juego['Partida']==1].iloc[-1].Tiempo

In [None]:
ini_1

In [None]:
segundos =(datetime.fromtimestamp(ini_2) - datetime.fromtimestamp(ini_1))

In [None]:
segundos.total_seconds()