## Objetivos de aprendizaje

- Use glob para crear listas de archivos
- Escribir  bucles para realizar operaciones en  archivos
- Escribir comprensiones de lista para realizar operaciones en muchos archivos
- combinar DataFrames de pandas

# pandas series

Al igual que NumPy tiene su tipo de datos de objeto ndarray, Pandas tiene dos tipos de datos principales que le permiten realizar todas las cosas interesantes. Empezamos con Serie.

Las series son básicamente matrices unidimensionales, que tienen un nombre y un nombre de índice. Los nombres pueden ser números enteros o cadenas, pero tienen que ser únicos. En pocas palabras, ¿recuerda los objetos de listas incorporados? Las listas consisten en diferentes valores que podrían ser llamados por un índice entero. Las series son casi iguales, pero también permiten el uso de nombres específicos en lugar de ordenar el índice. Veremos el ejemplo de esto un poco más tarde. Otra diferencia clave es que Series no permite tipos de datos mixtos dentro de un objeto.

ndarray unidimensional con etiquetas de eje, que no necesita ser único. El objeto admite la indexación basada en enteros y etiquetas.

In [2]:
import pandas as pd

temperature = [18.0, 21.5, 21.0, 21.0, 18.8, 17.6, 20.9, 20.0]
temperature_series = pd.Series(temperature)
print(temperature_series)

0    18.0
1    21.5
2    21.0
3    21.0
4    18.8
5    17.6
6    20.9
7    20.0
dtype: float64


- Se puedeb realizar operaciones numéricas de forma simple "vectorizada" sin recorrer todos los valores.

- Las Series tienen sus propios métodos únicos que se les pueden aplicar.

In [3]:
temperature_series = temperature_series * 9/5 + 32 # numerical operations
print(temperature_series)
print(temperature_series.mean()) # useful methods


0    64.40
1    70.70
2    69.80
3    69.80
4    65.84
5    63.68
6    69.62
7    68.00
dtype: float64


## Filtrado de los datos

- Para filtrar los datos, debe especificar la condición para filtrar. De la misma forma que hicimos antes, puedes combinar múltiples condiciones con `&` (AND) o `|` (O) operaciones.

- En el primer ejemplo, estamos tomando todas las observaciones que cumplen con los criterios: el sexo es femenino y la edad es mayor de 60 años. Tenga en cuenta que no tiene que crear un objeto separado (condición), se hizo solo para una mejor visualización. representación.

- En el segundo ejemplo, primero tomamos el ID de la columna y luego filtramos la serie según la condición de que el volumen cerebral total normalizado (nWBV) debe estar en un rango entre 0,7 y 0,8.


### Filtre un DataFrame completo por condición específica:

In [None]:
condition = (dementia_df['M/F'] == 'F') & (dementia_df['Age'] > 60)
dementia_df[condition]

### Seleccione una columna y filtre por condición:


In [None]:
dementia_df['ID'][dementia_df['nWBV'].between(0.7, 0.8)]

### Agregar datos



Otra herramienta útil es la agrupación y agregación de los datos. En este ejemplo, queremos ver el volumen intracraneal total mínimo estimado (eTIV) y el volumen cerebral total normalizado promedio (nWBV) para cada sexo y clasificación de demencia clínica (CDR). Esta línea de código puede parecer un poco complicada, pero podemos dividirla en partes:

1. Agrupe por una lista de nombres de columna. Si quisiera dividir solo por una columna, podría especificar solo una cadena con un nombre de columna, por ejemplo, por="CDR".

2. En este momento tenemos un objeto DataFrame "agrupado", que no es tan interesante. Aplicamos el método de agregación y especificamos un diccionario de la siguiente manera: {"<nombre de columna>": "<función de agregación>"}. Si desea aplicar varias funciones en la misma columna, puede especificar una lista, por ejemplo, {"eTIV": ["min", "max"]}.

Clasificación de demencia clínica: 0 = sin demencia, 0,5 = EA muy leve, 1 = EA leve, 2 = EA moderada

In [None]:
dementia_df.groupby(by=["CDR", "M/F"]).agg({"eTIV": "min", "nWBV": "mean"})

### Unir datos con pandas DataFrame

¿Qué pasa si nuestros datos se encuentran en dfierentes tablas?. Puede unir todas las tablas para analizar todo a la vez.

Hay tres formas principales de hacer esto:

- Unir internamente
- Unión izquierda o unión derecha (según la tabla que llame "izquierda" y "derecha")
- Unión completa

Tenga en cuenta que es importante que tenga una columna compartida para unir los datos.

 ![Tipos](C:/Users/STOCK-LAP403/OneDrive - Storecheck S.A. de C.V/Escritorio/Modelos/imagenesJoins.png)

**Fuente :** [w3schools](https://www.w3schools.com/sql/sql_join.asp)


## Inner Join
En el siguiente ejemplo tenemos dos tablas:

- Tabla A: contiene identificaciones y nombres de sujetos
- Tabla B: cédulas de titulares y ocupación de los sujetos
Unimos los datos por el `Id` de la columna. ¿Qué asaría si no tuviéramos la columna `Id` en la tabla B?. ¿Podríamos unir estas dos tablas?

Con la combinación interna, tomamos solo aquellas observaciones que tienen valores de `Id` coincidentes en ambas tablas (estas observaciones están marcadas con marcas verdes). Tenga en cuenta que hubo dos observaciones en la tabla B con `Id` "1", por lo que en una tabla resultante (abajo a la derecha) tenemos dos observaciones para "Bob".

 ![Tipos](Join_example.png)

## Left Join

Al realizar una combinación izquierda, debemos definir una tabla como "izquierda" y la otra como "derecha". En este ejemplo, la tabla A es "izquierda" y la tabla B es "derecha". Tomamos todas las observaciones de la tabla A y unimos las observaciones coincidentes de la tabla B (coincidentes con la columna `Id`).

Algunas observaciones de la tabla A no tenían observaciones coincidentes en la tabla B, por eso vemos valores faltantes en una tabla.

Ua idea de la unión derecha es básicamente la misma, pero en ese caso, tomaríamos todas las observaciones de la tabla de la derecha y agregaríamos las coincidencias de la tabla de la izquierda. Entonces, si hicimos una combinación derecha con la tabla A "derecha" y la tabla B "izquierda", terminaríamos con los mismos resultados.

 ![Tipos](Left_Join.png)

## Full Join

Al unir las tablas por unión completa, tomamos todas las observaciones de ambas tablas. En este ejemplo, tenemos observaciones que no tienen observaciones coincidentes, por eso vemos más valores faltantes.

![Tipos](Full_Join.png)

## Comandos de pandas para hacer Join
Para realizar la unión en pandas podemos usar la función `pd.merge()`. Si la columna de unión tiene el mismo nombre en ambos DataFrame, puede usar el argumento. Si los nombres fueran diferentes (por ejemplo, `Id` para table1 y `subj_Id` para table2), entonces tendríamos que usar los argumentos left_on y right_on (`left_on="Id"`, `right_on="subj_Id"`).

Los valores faltantes se representan como objetos np.NaN.

Tenga en cuenta que Full Join se llama `"outer"` y en Pandas es (`how="outer"`).

In [2]:
import pandas as pd
tabla1 = pd.DataFrame(
    {'Id': [1, 2, 3, 4],
    'Name': ['Bob', 'Jack', 'Jill', 'Ben']})

tabla2 = pd.DataFrame(
    {'Id': [1,1,3,5,7,7],
    'Occupation': ['IT', 'Finance', 'IT', 'Healthcare', 'Agriculture', 'Finance']})

pd.merge(
    left=tabla1, right=tabla2,
    on='Id', # or left_on='Id', right_on='Id',
    how='left')
#ff =tabla1.merge(tabla2,on='Id')

Unnamed: 0,Id,Name,Occupation
0,1,Bob,IT
1,1,Bob,Finance
2,2,Jack,
3,3,Jill,IT
4,4,Ben,


## Uso de bucle `for `para procesar archivos dada una lista de sus nombres

- Podemos usar un bucle `for` para leer un conjunto de archivos de datos y hacer algo para cada uno. En este caso, imprimiremos el valor mínimo en cada archivo:

In [None]:
import pandas as pd

data_files = ['data/gapminder_gdp_africa.csv', 'data/gapminder_gdp_asia.csv']

for filename in data_files:
    data = pd.read_csv(filename, index_col='country')
    print(filename, data.min())

## Uso de `glob.glob` para encontrar conjuntos de archivos cuyos nombres coincidan con un patrón

- En Unix, el término globbing significa hacer coincidir un conjunto de archivos con un patrón.

- Los patrones más comunes son:

    - `*` lo que significa que coincide con cero o más caracteres

    - `?` el significado coincide exactamente con un carácter

- La biblioteca estándar de Python contiene el módulo glob para proporcionar la funcionalidad de coincidencia de patrones

- El módulo glob contiene [`glob`](https://docs.python.org/3/library/glob.html) una función también llamada glob para hacer coincidir patrones de archivos

Por ejemplo, `glob.glob('*.txt')` coincide con todos los archivos del directorio actual cuyos nombres terminan en `.txt`.

- El resultado es una lista de cadenas.

In [None]:
import glob
print('all csv files in data directory:', glob.glob('data/*.csv'))

## Use glob y for para procesar por batch los archivos

Es una buena práctica nombrar sus archivos sistemáticamente. Como ha aprendido, Python es muy preciso en cosas como el uso de mayúsculas, por lo que si los nombres de sus archivos son inconsistentes (por ejemplo, `Gapminder_Europe.csv, gapminder_americas.csv, gapminder_Oceania.csv`), entonces es más difícil escribir código con `glob` que funcione correctamente. .

Para los datos de Gapminder, afortunadamente los nombres de los archivos son bastante sistemáticos y consistentes (al igual que los nombres de las columnas dentro de cada archivo), por lo que podemos usar lo siguiente para leer cada uno e imprimir el PIB mínimo desde 1952:

In [None]:
for filename in glob.glob('data/gapminder_gdp*.csv'):
    data = pd.read_csv(filename)
    print(filename, data['gdpPercap_1952'].min())

    

## Agregar archivos a un solo Dataframe

- A menudo, no solo queremos abrir un archivo y extraer una pequeña cantidad de datos (como el valor mínimo en los ejemplos anteriores). Más bien, podríamos querer abrir un conjunto de archivos de datos relacionados y combinarlos en un gran DataFrame. Por ejemplo, en psicología y neurociencia, la mayoría de los experimentos involucran a múltiples participantes. Para cada participante, cuando ejecutamos el experimento obtenemos un archivo de datos. Para analizar los datos entre los participantes, nos gustaría leer los archivos de datos de todos los participantes y combinarlos en un DataFrame.

- pandas tiene algunos métodos que nos permiten combinar DataFrames, que incluyen:

- [`.concat()`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)
- [`.merge()`](https://pandas.pydata.org/docs/reference/api/pandas.merge.html?highlight=merge#)
- [`.append()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.append.html?highlight=append#pandas.DataFrame.append)
- [`.join()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html#pandas.DataFrame.join)

Nos centraremos aquí en el primero. `concat` significa "concatenar", que esencialmente significa combinar archivos "apilándolos". Es decir, comience con un DataFrame y agregue un nuevo DataFrame en la parte inferior del mismo, creando filas adicionales. Asumimos que todos los archivos de datos que estamos leyendo tienen las mismas columnas. Por ejemplo, en los conjuntos de datos de PIB de Gapminder, cada archivo tiene una columna para `country` más una serie de columnas para el PIB en diferentes años, y los mismos años están en las columnas de todos los conjuntos de datos.


## Lectura de datos de múltiples participantes experimentales

Digamos que tenemos datos de un experimento en el que realizamos tres participantes humanos (a veces llamados "personas") en días diferentes. Para cada participante, tenemos un archivo de datos. Las columnas en todos los archivos son iguales, porque los archivos fueron generados por un programa de computadora que ejecutó el experimento.

Damos a los participantes códigos de identificación anónimos para proteger su privacidad y permitir una convención de nomenclatura simple y sistemática para los archivos. los datos del primer participante se guardan en un archivo llamado s1.csv, los del segundo en s2.csv, etc.

Podemos glob la carpeta de datos en la que se almacenan los archivos, para encontrar todos los archivos CSV cuyos nombres comienzan con una s seguida de un solo carácter, seguido de .csv. Guardaremos el resultado en una lista que podemos recorrer más tarde:

In [None]:
filenames = glob.glob('data/s?.csv')

A continuación, creamos una lista vacía en la que almacenaremos los DataFrames de cada participante. Terminará siendo una lista de DataFrames (recuerde, las listas pueden contener casi cualquier otro tipo de datos de Python), y una vez que hayamos leído todos los datos, los combinaremos en un DataFrame. Este es un truco que es importante usar en pandas. La razón tiene que ver con cómo pandas combina DataFrames y los almacena en la memoria. En términos simples, cada vez que concatenamos DataFrames, pandas realiza muchas comprobaciones internas para asegurarse de que no haya errores. Hacer esta verificación una vez, al combinar muchos DataFrames, es mucho más eficiente (y por lo tanto más rápido) que hacerlo muchas veces. Del mismo modo, cuando se crea un DataFrame, se le asigna una cantidad adecuada de espacio de memoria en la computadora. Cada vez que agregamos datos adicionales, tenemos que crear un bloque de memoria nuevo y más grande. Asignar nuevos bloques de memoria, muchas veces, lleva más tiempo que hacerlo solo una vez.

In [None]:
df_list = []

Finalmente, usamos un bucle for para leer los archivos. Esto recorrerá los elementos en la lista de nombres de archivo; cada vez que pasa por el ciclo, el nombre del archivo tiene el valor del nombre del archivo actual, y usamos el método list append() para agregar los datos de ese archivo a df_list:

In [None]:
for f in filenames:
    df_list.append(pd.read_csv(f))

df_list    

## Leer varios archivos usando la comprensión de listas

Si bien el bucle for anterior funciona bien, hay una forma alternativa de hacerlo, utilizando [**comprensión de listas**](https://neuraldatascience.io/3/for-loops.html#list-comprehension). Recuerde que las listas por comprensión son básicamente una versión compacta de un ciclo `for`, pero tienen algunas ventajas:

- son más pitónicos: solo requieren una línea de código, mientras que el bucle for anterior requiere dos

- son más eficientes: las listas de comprensión en realidad se ejecutan más rápido. Esto puede no ser un problema en los pequeños ejemplos aquí, pero puede marcar una gran diferencia cuando se trabaja con grandes conjuntos de datos reales.

In [None]:
df_list = [pd.read_csv(f) for f in filenames]
df_list

## Combinar DataFrames

- En este punto, hemos leído cada archivo de entrada y lo hemos almacenado como un DataFrame, pero tenemos una lista de tres DataFrames distintos. En la mayoría de los casos, querremos combinarlos de alguna manera. Habiendo construido nuestra lista de DataFrames a través de la lectura de un conjunto de archivos, podemos combinarlos en un solo DataFrame usando el método pandas .concat():


In [None]:
df = pd.concat(df_list)

# Confirm this worked by viewing a random sample of rows
df.sample(8)

## Configuración de la columna de índice
Recuerde que las etiquetas de fila en pands se llaman índices. Podemos convertir cualquier columna en un índice usando el método `.set_index()`. Para estos datos, un índice apropiado es el del `participante`, que se encuentra en la columna Participante. Tenga en cuenta que debemos asignar el resultado de la operación `.set_index()` de nuevo a df para que se almacene el cambio:

In [None]:
df = df.set_index('Participant')
df.sample(8)

## Ejercicios

1. Tiene dos DataFrames cargados. Uno tiene `ID` de pacientes y el estado del cáncer de mama (maligno o benigno). El otro tiene identificaciones de pacientes y algunas características para el núcleo celular.

    - radio_medio: media de las distancias del centro a los puntos del perímetro;
    - textura_media: desviación estándar de los valores en escala de grises;
    - perímetro: tamaño medio del tumor central.
    
        ¿El valor promedio de radius_mean es mayor para el tipo maligno?

       [read_jason](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html)

        ~~~python
        table_1 = pd.read_json("path/table1.json")
        table_2 = pd.read_json("path/table2.json")

        joined_table = pd.merge(left=___, ___=table_2, how=___,
                                left_on=___, ___=___)

        radius_mean_benign = joined_table[___]['radius_mean'].___()
        radius_mean_malignant = ___

        print(radius_mean_malignant > radius_mean_benign)
        ~~~
2. Obtenga todas las características del núcleo celular y etiquételos con el tipo de cáncer. Cuando no se especifique el tipo de cáncer, márquelo como "desconocido". No cambie los valores que faltan en otras columnas.

    El DataFrame unido tendrá dos columnas `"id"` e `"ID"`. Mantenga sólo la primera columna.

    Hint! Para reemplazar el valor que falta, puede usar el método `.fillna()`. Se puede aplicar en Series o DataFrame.
    ~~~python
    import pandas as pd

    table_1 = pd.read_json("exercises/data/table1.json")
    table_2 = pd.read_json("exercises/data/table2.json")

    joined_table = ___  # join two tables together
    joined_table.___(labels=___, ___=1, inplace=___) # drop the redundant column
    ___                 # replace the missing values in a column

    display(joined_table)
    ~~~