<a href="https://colab.research.google.com/github/RJL08/Sistemas-de-aprendizaje-autm-tico/blob/main/PandasFuncionalidad16Octubre_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Funcionalidad de pandas
 Esta librería nos ofrece el objeto `DataFrame` que podemos usar para estructurar datos de manera tabular y llevar a cabo operaciones para el análisis de estos datos. En este post vamos a explicar funcionalidad esencial de esta librería que nos hará la vida más fácil.

In [None]:
import pandas as pd

## I/O

Hasta ahora hemos visto que podemos inicializar un `DataFrame` a partir de otras estructuras de datos, como por ejemplo un `dict`.

In [None]:
df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
df

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


Cargamos el dataSet con los datos del fichero  `csv`

In [None]:
movies=pd.read_csv('/content/sample_data/movies.csv')
movies.head()

Unnamed: 0,movie_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [None]:
users=pd.read_csv('/content/sample_data/users.csv')
users.head()

Unnamed: 0,user_id,gender,age,occupation,zip
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117
3,4,M,45,7,2460
4,5,M,25,20,55455


In [None]:
ratings=pd.read_csv('/content/sample_data/ratings.csv')
ratings.head()

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


## Mezclar *DataFrames*

Para unir varios `DataFrames` en un solo utilizaremos la función merge

In [None]:
datos = pd.merge(pd.merge(ratings,users),movies)
datos.head()

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,661,3,978302109,F,1,10,48067,James and the Giant Peach (1996),Animation|Children's|Musical
1,1,914,3,978301968,F,1,10,48067,My Fair Lady (1964),Musical|Romance
2,1,594,4,978302268,F,1,10,48067,Snow White and the Seven Dwarfs (1937),Animation|Children's|Musical
3,1,919,4,978301368,F,1,10,48067,"Wizard of Oz, The (1939)",Adventure|Children's|Drama|Musical
4,1,595,5,978824268,F,1,10,48067,Beauty and the Beast (1991),Animation|Children's|Musical


Primero mezclamos el objeto `ratings` y `users`. Para ellos `Pandas` utiliza la columna en común `user_id` para saber que filas corresponden al mismo usuario en cada objeto. Después, hacemos lo mismo con el objeto `movies`. En este caso, `Pandas` utiliza la columna `movie_id` para relacionar las filas de los dos `DataFrame`s.

>⚡ `Pandas` ofrece otras funciones para mezclar `DataFrame`s tales como `join` o `concat`, cada una de ellas mezclando los datos de una manera determinada. Puedes aprender más [aquí](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html).

## Información básica

Una vez mezclados todos los datos en un solo objeto podemos empezar a responder varias preguntas simples como por ejemplo: ¿cuántos elementos hay en el `DataFrame`?, ¿cuántas columnas tenemos?, ¿de qué tipo son los datos de cada columna?... `Pandas` nos oferece varias funciones para conseguir esta información.

In [None]:
# número de filas y columnas
datos.shape


(322, 10)

In [None]:
# nombres de las columnas
datos.columns

Index(['user_id', 'movie_id', 'rating', 'timestamp', 'gender', 'age',
       'occupation', 'zip', 'title', 'genres'],
      dtype='object')

In [None]:
# información general
datos.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 322 entries, 0 to 321
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     322 non-null    int64 
 1   movie_id    322 non-null    int64 
 2   rating      322 non-null    int64 
 3   timestamp   322 non-null    int64 
 4   gender      322 non-null    object
 5   age         322 non-null    int64 
 6   occupation  322 non-null    int64 
 7   zip         322 non-null    object
 8   title       322 non-null    object
 9   genres      322 non-null    object
dtypes: int64(6), object(4)
memory usage: 25.3+ KB


Probablemente, la función `info` es la que más información proporciona ya que podemos ver el número de valores que tenemos por columna así como su tipo, la memoria que ocupa, etc. Junto a esta función, la segunda más útil para conocer nuestro dataset es `describe` (la cual nos aporta información estadística sobre las columnas numéricas).

In [None]:
datos.describe()

Unnamed: 0,user_id,movie_id,rating,timestamp,age,occupation
count,322.0,322.0,322.0,322.0,322.0,322.0
mean,6.704969,492.984472,3.906832,978343000.0,31.291925,10.763975
std,2.960262,312.388981,0.955725,348733.4,12.94351,7.115439
min,1.0,1.0,1.0,978224400.0,1.0,1.0
25%,5.0,260.0,3.0,978229000.0,25.0,1.0
50%,8.0,480.0,4.0,978236600.0,25.0,12.0
75%,9.75,739.75,5.0,978296300.0,35.0,17.0
max,10.0,1036.0,5.0,980638600.0,56.0,20.0


## Agrupar datos

Si te fijas en el dataset tenemos muchas entradas repetidas, tanto para usuarios como para películas (un usuario puede opinar sobre varias películas, y un película puede tener opiniones de varios usuarios). Para agrupar todos los datos según una columnas en concreto, podemos usar la función `groupby`.

In [None]:
datos.groupby('gender').size()

Unnamed: 0_level_0,0
gender,Unnamed: 1_level_1
F,126
M,196


Una función muy potente en Pandas es la función pivot_table, que nos permite agrupar los datos de un DataFrame según los valores de alguna columna. Por ejemplo, si queremos conocer la puntuación media de cada película en nuestro dataset separada por género, podemos conseguirlo de la siguiente manera.

Sintaxis: `df.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, dropna=True)`
Es una función que nos permite crear una tabla dinámica similar a una hoja de cálculo facilitando la agrupación y el análisis de nuestros datos.

In [None]:
# create a dataframe
data = {'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02'],
        'City': ['New York', 'Los Angeles', 'New York', 'Los Angeles'],
        'Temperature': [32, 75, 30, 77]}
df = pd.DataFrame(data)

In [None]:
data = {'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03', '2023-01-03'],
        'City': ['New York', 'Los Angeles', 'New York', 'Los Angeles', 'New York', 'Los Angeles'],
        'Temperature': [32, 75, 30, 77, 33, 78],
        'Humidity': [80, 10, 85, 5, 81, 7]}

df = pd.DataFrame(data)

A veces, al modificar la forma de los datos con pivot_table(), pueden aparecer valores faltantes en la tabla dinámica. Estos valores que faltan o NaN valores se pueden manejar utilizando los argumentos fill_value y dropna.

El argumento dropna especifica si se deben eliminar las columnas cuyas entradas son todas NaN. El valor predeterminado de dropnaes True.

Por otro lado, el argumento fill_value reemplaza todos los NaN por un valor especificado. Por ejemplo,

In [None]:
data = {'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03', '2023-01-03'],
        'City': ['New York', 'Los Angeles', 'New York', 'Los Angeles', 'New York', 'Los Angeles'],
        'Temperature': [32, np.nan, 30, 77, np.nan, 76]}
df = pd.DataFrame(data)

## Tratar datos ausentes

En ocasiones podemos encontrar que en nuestro `DataFrame` hay valores ausentes, lo que en inglés se conoce como *missing data* o *missing values*. Esto puede ser debido a que, realmente los datos no existen en la fuente de la que se han extraído (por ejemplo, un archivo `csv`) o bien que sean el resultado de alguna operación llevada a cabo en los datos (como ya vimos en el post anterior).

In [None]:
df = pd.DataFrame({
    "weight": {"alice":68, "charles": 112},
    "height": {"bob": 168, "charles": 182}
})

df

Unnamed: 0,weight,height
alice,68.0,
charles,112.0,182.0
bob,,168.0


Podemos conocer cuantos valores ausentes tenemos con la función `isna`.

In [None]:
df.isna()


Unnamed: 0,weight,height
alice,False,True
charles,False,False
bob,True,False


In [None]:
# valores ausentes por columnas

df.isna().sum()

Unnamed: 0,0
weight,1
height,1


In [None]:
# valores ausentes por filas

df.isna().sum(axis=1)

Unnamed: 0,0
alice,1
charles,0
bob,1


En el ejemplo anterior tenemos un `DataFrame` con varios valores ausentes. La primera opción que nos da `Pandas` para tratar estos valores es simplemente reemplazarlos por otro con la función `fillna`.

In [None]:
# reemplazar NaN por 0

df.fillna(0)

Unnamed: 0,weight,height
alice,68.0,0.0
charles,112.0,182.0
bob,0.0,168.0


In [None]:
# reemplazar NaN por el valor medio de la columna



La otra opción que tenemos es directamente descartar todos los valores `NaN`, ésto lo conseguimos con la función `dropna`. Como parámetros opcionales podemos indicar si queremos eliminarlos todos o bien por columnas o filas.

In [None]:
# elimina todas las filas con algún valor `NaN`

df.fillna(df.mean())

Unnamed: 0,weight,height
alice,68.0,175.0
charles,112.0,182.0
bob,90.0,168.0


In [None]:
# elimina todas las filas con todos los valores en `NaN`

df.dropna(how='all')

In [None]:
# elimina todas las columnas con algún valor `NaN`

df.dropna(axis=1)

In [None]:
# elimina todas las columnas con todos los valores en `NaN`

df.dropna(axis=1, how='all')

#Comprobar filas duplicadas


In [None]:
datos = [
["China", 1439, 18.47],
["India", 1380, 17.70],
["Estados Unidos", 331, 4.25],
["China", 1439, 18.47] #
]
columnas = ["pais", "poblacion", "porcentaje"]

paises = pd.DataFrame(datos, columns=columnas)
paises


Unnamed: 0,pais,poblacion,porcentaje
0,China,1439,18.47
1,India,1380,17.7
2,Estados Unidos,331,4.25
3,China,1439,18.47


In [None]:
paises.duplicated()

Unnamed: 0,0
0,False
1,False
2,False
3,True


In [None]:
paises[paises.duplicated()] # para saber que fila esta repetida


Unnamed: 0,pais,poblacion,porcentaje
3,China,1439,18.47


In [None]:
#Borrar las filas duplicadas
paises=paises.drop_duplicates()
paises

Unnamed: 0,pais,poblacion,porcentaje
0,China,1439,18.47
1,India,1380,17.7
2,Estados Unidos,331,4.25
