
<center>
<h4>Universidad Nacional de Córdoba - Facultad de Matemática, Astronomía, Física y Computación</h4>
<h3>Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones</h3>
 <h2>Mentoría: Clasificación de Tumoresferas </h2>
</center>



<a name="exploratory_data_analysis"></a>
#### **Práctico de Análisis Exploratorio y Curación**
  


Importamos las librerías necesarias:

In [65]:
! pip install SQLAlchemy



In [66]:
import numpy as np
import pandas as pd

from sqlalchemy import create_engine, text

## Agrupaciones:

### SQL

Vamos a explorar los datos por medio de algunas consultas (queries) al archivo original (con el que trabajaron en el TP1):

 * Cargar el archivo *'data/raw/fiji_datos_0al7mo_labels.csv'* a SQLite.
 * Realizar las siguientes consultas:

    1) Verificar la cantidad de datos cargados (les debería dar 1018).
  
    2) Listar las primeras 7 líneas con las columnas *'Area'*, *'Round'* con alias *'redondez'*, *Diameter* con alias *'diametro'*, *n_diam* con alias  *poblacion_celular* y *esferoide*.
     
     Realizar la misma consulta pero filtrando por los días 3 y 5.
  
    3) Consultar los distintos días y aparte las etiquetas presentes. Contar cuántas filas hay por día y luego consultar cuantas son *esferoide = 'si'*.   
    
     Probar con GROUP BY de dos columnas si pueden contabilizar 'si' y 'no' por día.
    
    4 ) En algún día en particular (a partir del 3er día), consultar cuántos datos:
        
    * Son esferoides "si" y "no".        

    * Tienen su diámetro entre 50 $\mu$m y 200$\mu$ m.




#### Usando SQL en Python:

In [67]:
## Para conectarse con sqlite:
engine = create_engine('sqlite:///fiji_datos.sqlite3', echo=True)

# Levantamos el archivo
url = 'https://raw.githubusercontent.com/luciabarg/datos_tumoresferas/main/data/raw/fiji_datos_0al7mo_labels.csv'
fiji_datos = pd.read_csv(url)

fiji_datos.to_sql('fiji_datos', con=engine, if_exists="replace")


2023-07-09 12:16:15,499 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,501 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("fiji_datos")
2023-07-09 12:16:15,502 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-07-09 12:16:15,505 INFO sqlalchemy.engine.Engine ROLLBACK
2023-07-09 12:16:15,506 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,507 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("fiji_datos")
2023-07-09 12:16:15,508 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-07-09 12:16:15,512 INFO sqlalchemy.engine.Engine ROLLBACK
2023-07-09 12:16:15,514 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,516 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' AND name NOT LIKE 'sqlite~_%' ESCAPE '~' ORDER BY name
2023-07-09 12:16:15,519 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-07-09 12:16:15,535 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_temp_master WHERE type='table' AND name N

1018

In [68]:
#Forma que les mostraron en la clase teórica:
query1 = "SELECT count(*) FROM fiji_datos;"

with engine.connect() as con:
    print(query1)
    rs = con.execute(text(query1))
    df_rs = pd.DataFrame(rs.fetchall())
    print(df_rs)

SELECT count(*) FROM fiji_datos;
2023-07-09 12:16:15,779 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,781 INFO sqlalchemy.engine.Engine SELECT count(*) FROM fiji_datos;
2023-07-09 12:16:15,784 INFO sqlalchemy.engine.Engine [generated in 0.00496s] ()
   count(*)
0      1018
2023-07-09 12:16:15,798 INFO sqlalchemy.engine.Engine ROLLBACK


In [69]:
# Otra forma alternativa de usar sqlalchemy en Python

query1 = " SELECT count(*) FROM fiji_datos; "
with engine.connect() as con:
  query_result1 = pd.read_sql_query(text(query1), con)

query_result1

2023-07-09 12:16:15,829 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,830 INFO sqlalchemy.engine.Engine  SELECT count(*) FROM fiji_datos; 
2023-07-09 12:16:15,831 INFO sqlalchemy.engine.Engine [generated in 0.00193s] ()
2023-07-09 12:16:15,836 INFO sqlalchemy.engine.Engine ROLLBACK


Unnamed: 0,count(*)
0,1018


#### También pueden usar la versión [**gráfica online**](https://sqliteonline.com/) de SQLite ([SQLite instructivo](https://drive.google.com/drive/folders/1iW5OaNaNDafU4e4m87xID7HcEbvb1W0V?usp=drive_link) )


Extras que podrían ayudar:

* Documentación [*pandas.DataFrame.to_sql*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html) y [*pandas.read_sql_query*](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html).


* [Recursos SQL](https://drive.google.com/drive/folders/1EDSgMGbrRjNZX7m-GXunkQjNXUxY1NSn?usp=drive_link).
    
* Presentación en [MeTCamp](https://docs.google.com/presentation/d/1URSQt1sJ8Th8Y4J62zBv9x3I1lV0rckT/edit?usp=sharing&ouid=107018266094379471830&rtpof=true&sd=true).

* Súper súper buenas prácticas en [este repositorio](https://github.com/daianadte/wids-cba-2023).


#### Resolvemos las queries usando SQLite.
1) Resuelta en la consigna.

2) Listar las primeras 7 líneas con las columnas 'Area', 'Round' con alias 'redondez', Diameter con alias 'diametro', n_diam con alias poblacion_celular y esferoide.



In [70]:
query2 = "SELECT Area, Round AS redondez, Diameter AS diametro, n_diam AS poblacion_celular, esferoide FROM fiji_datos LIMIT 7;"
with engine.connect() as con:
  query_result2 = pd.read_sql_query(text(query2), con)

query_result2

2023-07-09 12:16:15,861 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,864 INFO sqlalchemy.engine.Engine SELECT Area, Round AS redondez, Diameter AS diametro, n_diam AS poblacion_celular, esferoide FROM fiji_datos LIMIT 7;
2023-07-09 12:16:15,868 INFO sqlalchemy.engine.Engine [generated in 0.00745s] ()
2023-07-09 12:16:15,874 INFO sqlalchemy.engine.Engine ROLLBACK


Unnamed: 0,Area,redondez,diametro,poblacion_celular,Esferoide
0,324.444,0.9387,20.9564,1.491357,si
1,497.5115,0.9546,26.002,2.848733,si
2,282.9078,0.962,19.3897,1.181258,si
3,500.7421,0.973,25.88475,2.81037,si
4,492.8964,0.9817,25.33985,2.636596,si
5,406.1319,0.9533,23.27125,2.042164,si
6,333.6742,0.9496,20.8047,1.459204,si


Realizar la misma consulta pero filtrando por los días 3 y 5.

In [71]:
query3 = "SELECT Area, Round AS redondez, Diameter AS diametro, n_diam AS poblacion_celular, esferoide FROM fiji_datos WHERE dia IN (3, 5) LIMIT 7;"
with engine.connect() as con:
  query_result3 = pd.read_sql_query(text(query3), con)

query_result3

2023-07-09 12:16:15,907 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,909 INFO sqlalchemy.engine.Engine SELECT Area, Round AS redondez, Diameter AS diametro, n_diam AS poblacion_celular, esferoide FROM fiji_datos WHERE dia IN (3, 5) LIMIT 7;
2023-07-09 12:16:15,911 INFO sqlalchemy.engine.Engine [generated in 0.00380s] ()
2023-07-09 12:16:15,919 INFO sqlalchemy.engine.Engine ROLLBACK


Unnamed: 0,Area,redondez,diametro,poblacion_celular,Esferoide
0,4635.9028,0.8392,78.8264,79.368212,si
1,5901.8342,0.9533,87.7442,109.467897,si
2,11259.0826,0.9699,122.9782,301.381032,si
3,22344.1746,0.7434,173.2438,842.567345,si
4,2700.3153,0.6096,63.88875,42.257587,no
5,5002.3445,0.8306,84.0979,96.380011,si
6,14646.5914,0.56,164.88585,726.409779,no


3) Consultar los distintos días y aparte las etiquetas presentes. Contar cuántas filas hay por día y luego consultar cuantas son esferoide = 'si'. Probar con GROUP BY de dos columnas si pueden contabilizar 'si' y 'no' por día.

In [72]:
# Consultamos las etiquetas presentes en la columna dia
query4 = "SELECT DISTINCT dia FROM fiji_datos;"
with engine.connect() as con:
  query_result4 = pd.read_sql_query(text(query4), con)

# Contamos cuántas filas hay por día
query5 = "SELECT dia, COUNT(*) AS total FROM fiji_datos GROUP BY dia;"
with engine.connect() as con:
  query_result5 = pd.read_sql_query(text(query5), con)

# Contamos cuántas filas hay por día para esferoides = 'si'
query6 = "SELECT dia, COUNT(*) AS total FROM fiji_datos WHERE esferoide = 'si' GROUP BY dia;"
with engine.connect() as con:
  query_result6 = pd.read_sql_query(text(query6), con)

# Hacemos un group by de esferoides y dia
query7 = "SELECT dia, esferoide, COUNT(*) AS total FROM fiji_datos GROUP BY dia, esferoide;"
with engine.connect() as con:
  query_result7 = pd.read_sql_query(text(query7), con)

print("\nQuery 4:")
print(query_result4)
print("\nQuery 5:")
print(query_result5)
print("\nQuery 6:")
print(query_result6)
print("\nQuery 7:")
print(query_result7)


2023-07-09 12:16:15,957 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,959 INFO sqlalchemy.engine.Engine SELECT DISTINCT dia FROM fiji_datos;
2023-07-09 12:16:15,961 INFO sqlalchemy.engine.Engine [generated in 0.00423s] ()
2023-07-09 12:16:15,969 INFO sqlalchemy.engine.Engine ROLLBACK
2023-07-09 12:16:15,971 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,974 INFO sqlalchemy.engine.Engine SELECT dia, COUNT(*) AS total FROM fiji_datos GROUP BY dia;
2023-07-09 12:16:15,977 INFO sqlalchemy.engine.Engine [generated in 0.00633s] ()
2023-07-09 12:16:15,982 INFO sqlalchemy.engine.Engine ROLLBACK
2023-07-09 12:16:15,987 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:15,988 INFO sqlalchemy.engine.Engine SELECT dia, COUNT(*) AS total FROM fiji_datos WHERE esferoide = 'si' GROUP BY dia;
2023-07-09 12:16:15,989 INFO sqlalchemy.engine.Engine [generated in 0.00266s] ()
2023-07-09 12:16:15,998 INFO sqlalchemy.engine.Engine ROLLBACK
2023-07-09 12

4) En algún día en particular (a partir del 3er día), consultar cuántos datos:

* Son esferoides "si" y "no".

* Tienen su diámetro entre 50 $\mu$m y 200$\mu$ m.

In [73]:
# Seleccionamos el dia 4 y contamos cuantos son esferoides si y no
query8 = "SELECT dia, esferoide, COUNT(*) AS total FROM fiji_datos WHERE dia = 4 GROUP BY esferoide;"
with engine.connect() as con:
  query_result8 = pd.read_sql_query(text(query8), con)

# Seleccionamos el dia 4 y filtramos en un rango para el diámetro
query9 = "SELECT dia, Diameter, COUNT(*) AS total FROM fiji_datos WHERE dia = 4 AND Diameter BETWEEN 50 AND 200;"
with engine.connect() as con:
  query_result9 = pd.read_sql_query(text(query9), con)

print("\nQuery 8:")
print(query_result8)

print("\nQuery 9:")
print(query_result9)


2023-07-09 12:16:16,064 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:16,065 INFO sqlalchemy.engine.Engine SELECT dia, esferoide, COUNT(*) AS total FROM fiji_datos WHERE dia = 4 GROUP BY esferoide;
2023-07-09 12:16:16,067 INFO sqlalchemy.engine.Engine [generated in 0.00366s] ()
2023-07-09 12:16:16,073 INFO sqlalchemy.engine.Engine ROLLBACK
2023-07-09 12:16:16,076 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-07-09 12:16:16,080 INFO sqlalchemy.engine.Engine SELECT dia, Diameter, COUNT(*) AS total FROM fiji_datos WHERE dia = 4 AND Diameter BETWEEN 50 AND 200;
2023-07-09 12:16:16,081 INFO sqlalchemy.engine.Engine [generated in 0.00550s] ()
2023-07-09 12:16:16,086 INFO sqlalchemy.engine.Engine ROLLBACK

Query 8:
   dia Esferoide  total
0    4        no    206
1    4        si     48

Query 9:
   dia  Diameter  total
0    4   92.6425     80


In [74]:
#cerramos la conexión
con.close()

### Python
Probar diferentes agrupaciones en Python.

In [75]:
#Por ej:
fiji_datos.groupby('dia').agg({'Esferoide': ['count']}).sort_values(by = 'dia')

Unnamed: 0_level_0,Esferoide
Unnamed: 0_level_1,count
dia,Unnamed: 1_level_2
0,94
1,342
2,155
3,43
4,254
5,52
6,4
7,74


Probamos distintos group by con python

In [76]:
# Agrupo por 'Esferoide' y contar las filas
fiji_datos.groupby('Esferoide').size().reset_index(name='total')

Unnamed: 0,Esferoide,total
0,no,496
1,si,522


In [77]:
# Agrupo por 'dia' y 'Esferoide' y cuento las filas
fiji_datos.groupby(['dia', 'Esferoide']).size().reset_index(name='total')

Unnamed: 0,dia,Esferoide,total
0,0,no,20
1,0,si,74
2,1,no,89
3,1,si,253
4,2,no,85
5,2,si,70
6,3,no,25
7,3,si,18
8,4,no,206
9,4,si,48


## Análisis y Curación de Datos

1) Para empezar a trabajar la tabla, primero hay que combinar los datasets, que fueron separados por día.

Estos son los siguientes archivos a unir:

*   "fiji_datos_0al7mo_modificado_dia_0.csv"
*   "fiji_datos_0al7mo_modificado_dia_1.csv"
*   "fiji_datos_0al7mo_modificado_dia_2.csv"
*   "fiji_datos_0al7mo_modificado_dia_3.csv"
*   "fiji_datos_0al7mo_modificado_dia_4.csv"
*   "fiji_datos_0al7mo_modificado_dia_5.csv"
*   "fiji_datos_0al7mo_modificado_dia_6.csv"
*   "fiji_datos_0al7mo_modificado_dia_7a.csv"
*   "fiji_datos_0al7mo_modificado_dia_7b.csv"

Se encuentran en la carpeta: **"data/02_EyC"** de la [carpeta compartida](https://drive.google.com/drive/folders/1RqGNySwACN33Qopmw0nHmj5Yv4M78ZXi?usp=drive_link) y en este repositorio.


Probar hacerlo con Python y/o SQL (por separado, para probar!). Verificar que llegan a la misma cantidad de filas y columnas.

2) Una vez armado el dataset modificado, explorar el dataset y buscar inconsistencias, por ej si hay valores nulos, duplicados, etc, tratando de encontrar todas las inconsistencias en los datos. Decidir el orden en cuál ir arreglándolas.

3) Corregir las inconsistencias que van encontrando y sobre los datos faltantes (¡verificar primero si los hay!), determinar cuál método sería el mas adecuado para imputarlos, teniendo en cuenta lo que aprendieron sobre los datos en el práctico de *Análisis y Visualización*.

4) Una vez que recuperan el dataset original, repasando lo que les dieron en la materia de *Exploración y Curación de datos* y ya pensando en las transformaciones que puedan servirles y que les conviene realizar para la clasificación en el práctico de aprendizaje supervisado:

  * ¿Sobre cuáles columnas realizarían encoding y de qué tipo?. Elegir un método e implementarlo.

  * Tenemos muchas columnas (¡aunque siempre puede haber mas!) por lo que es posible realizar algún método de reducción de dimensionalidad.

  * Escalar y/o normalizar? Esa es la cuestión. Teniendo en cuenta lo aprendido a partir de los datos, cuál método se ajustaría a estos datos?

  Sumar tales transformaciones como columnas para sumar características al conjunto de datos y guardar el achivo modificado.

Si se traban mucho mucho en la limpieza de los datos, este paso pueden hacerlo con el dataset original que usaron en el práctico 1.

5) Pueden identificar sesgos en la toma de los datos o en el etiquetado? Si les parece que es así, cómo sería un experimento o método para mejorarlos?  

6) Realizar una documentación técnica de los procesos realizados.




#### 1. Combinación de dataset
En primer lugar importamos los datasets. 

In [78]:
fiji_datos_0 = pd.read_csv("data/02_EyC/fiji_datos_0al7mo_modificado_dia_0.csv", sep=";") #unnamed
fiji_datos_1 = pd.read_csv("data/02_EyC/fiji_datos_0al7mo_modificado_dia_1.csv")
fiji_datos_2 = pd.read_csv("data/02_EyC/fiji_datos_0al7mo_modificado_dia_2.csv", sep=";")
fiji_datos_3 = pd.read_csv("data/02_EyC/fiji_datos_0al7mo_modificado_dia_3.csv", sep=";") #unnamed
fiji_datos_4 = pd.read_csv("data/02_EyC/fiji_datos_0al7mo_modificado_dia_4.csv", sep=":")
fiji_datos_5 = pd.read_csv("data/02_EyC/fiji_datos_0al7mo_modificado_dia_5.csv", sep=";")
fiji_datos_6 = pd.read_csv("data/02_EyC/fiji_datos_0al7mo_modificado_dia_6.csv")
fiji_datos_7a = pd.read_csv("data/02_EyC/fiji_datos_0al7mo_modificado_dia_7a.csv") #unnamed
fiji_datos_7b = pd.read_csv("data/02_EyC/fiji_datos_0al7mo_modificado_dia_7b.csv", sep=";") #unnamed

Tanto 'fiji_datos_0' como 'fiji_datos_3', 'fiji_datos_7a' y 'fiji_datos_7b' tienen una columna sin nombre que vamos a eliminar.

In [79]:
# Observamos la columna Unnamed para el caso de fiji_datos_0
fiji_datos_0.head()

Unnamed: 0.1,Unnamed: 0,labels,Area,X,Y,XM,YM,Perim.,BX,BY,...,FeretY,FeretAngle,MinFeret,AR,Round,Solidity,Esferoide,dia,Diameter,n_diam
0,49,Esferas_BT474_dia_0_well_2_100X_1_blob_34,315.6752,1027.9715,694.7215,1027.9715,694.7215,65.6036,1017.663,684.7826,...,1009,114.1455,20.1583,1.013,0.9871,0.9513,si,0,20.87415,1.473866
1,6,Esferas_BT474_dia_0_well_1_100X_1_blob_8,333.6742,1123.7169,318.7621,1123.7169,318.7621,67.3603,1112.7717,309.1033,...,470,7.125,19.7011,1.0531,0.9496,0.9557,si,0,20.8047,1.459204
2,27,Esferas_BT474_dia_0_well_2_100X_1_blob_3,505.3572,1649.6734,26.9633,1649.6734,26.9633,85.2847,1636.5489,14.2663,...,21,105.3763,25.5245,1.0173,0.983,0.9387,si,0,26.8536,3.1379
3,78,Esferas_BT474_dia_0_well_2_100X_1_blob_8,874.1065,1596.3056,145.1846,1596.3056,145.1846,130.8776,1583.5598,123.6413,...,247,78.6901,25.8152,1.9705,0.5075,0.8983,no,0,35.42365,7.202967
4,41,Esferas_BT474_dia_0_well_2_100X_1_blob_23,302.7528,130.994,453.8447,130.994,453.8447,64.478,121.6033,443.6141,...,682,61.8214,19.0217,1.0803,0.9256,0.9473,si,0,20.3005,1.355663


In [80]:
fiji_datos_0.columns

Index(['Unnamed: 0', 'labels', 'Area', 'X', 'Y', 'XM', 'YM', 'Perim.', 'BX',
       'BY', 'Width', 'Height', 'Circ.', 'Feret', 'FeretX', 'FeretY',
       'FeretAngle', 'MinFeret', 'AR', 'Round', 'Solidity', 'Esferoide', 'dia',
       'Diameter', 'n_diam'],
      dtype='object')

In [81]:
# Eliminamos la columna Unnamed
fiji_datos_0_clean = fiji_datos_0.drop(columns=['Unnamed: 0']).copy()
fiji_datos_3_clean = fiji_datos_3.drop(columns=['Unnamed: 0']).copy()
fiji_datos_7a_clean = fiji_datos_7a.drop(columns=['Unnamed: 0']).copy()
fiji_datos_7b_clean = fiji_datos_7b.drop(columns=['Unnamed: 0']).copy()

# Observamos que se haya eliminado la columna para el caso de fiji_datos_0_clean
fiji_datos_0_clean.head()

Unnamed: 0,labels,Area,X,Y,XM,YM,Perim.,BX,BY,Width,...,FeretY,FeretAngle,MinFeret,AR,Round,Solidity,Esferoide,dia,Diameter,n_diam
0,Esferas_BT474_dia_0_well_2_100X_1_blob_34,315.6752,1027.9715,694.7215,1027.9715,694.7215,65.6036,1017.663,684.7826,20.3804,...,1009,114.1455,20.1583,1.013,0.9871,0.9513,si,0,20.87415,1.473866
1,Esferas_BT474_dia_0_well_1_100X_1_blob_8,333.6742,1123.7169,318.7621,1123.7169,318.7621,67.3603,1112.7717,309.1033,21.7391,...,470,7.125,19.7011,1.0531,0.9496,0.9557,si,0,20.8047,1.459204
2,Esferas_BT474_dia_0_well_2_100X_1_blob_3,505.3572,1649.6734,26.9633,1649.6734,26.9633,85.2847,1636.5489,14.2663,25.8152,...,21,105.3763,25.5245,1.0173,0.983,0.9387,si,0,26.8536,3.1379
3,Esferas_BT474_dia_0_well_2_100X_1_blob_8,874.1065,1596.3056,145.1846,1596.3056,145.1846,130.8776,1583.5598,123.6413,25.8152,...,247,78.6901,25.8152,1.9705,0.5075,0.8983,no,0,35.42365,7.202967
4,Esferas_BT474_dia_0_well_2_100X_1_blob_23,302.7528,130.994,453.8447,130.994,453.8447,64.478,121.6033,443.6141,19.0217,...,682,61.8214,19.0217,1.0803,0.9256,0.9473,si,0,20.3005,1.355663


Verificamos las dimensiones de los datasets para unirlos

In [130]:
fiji_datos_df = [fiji_datos_0_clean, fiji_datos_1, fiji_datos_2, fiji_datos_3_clean, fiji_datos_4, fiji_datos_5, 
                 fiji_datos_6, fiji_datos_7a_clean,fiji_datos_7b_clean]

for i, df in enumerate(fiji_datos_df):
    if i == 7:
        dia = "7a"
    elif i == 8:
        dia = "7b"
    else:
        dia = str(i)
    print("Día " + dia)
    print("Shape:", df.shape)
    print('')

Día 0
Shape: (110, 24)

Día 1
Shape: (395, 24)

Día 2
Shape: (172, 24)

Día 3
Shape: (50, 24)

Día 4
Shape: (295, 24)

Día 5
Shape: (57, 24)

Día 6
Shape: (4, 24)

Día 7a
Shape: (88, 12)

Día 7b
Shape: (88, 13)



Analicemos lo que sucedió en el día 7 dado que la cantidad de columnas es menor al resto de los días. Parecería que vamos a tener que hacer un join de fiji_datos_7a_clean y fiji_datos_7b_clean.

In [133]:
fiji_datos_7a_clean.columns, fiji_datos_7b_clean.columns

(Index(['labels', 'Area', 'X', 'Y', 'XM', 'YM', 'Perim.', 'BX', 'BY', 'Width',
        'Height', 'Circ.'],
       dtype='object'),
 Index(['labels', 'Feret', 'FeretX', 'FeretY', 'FeretAngle', 'MinFeret', 'AR',
        'Round', 'Solidity', 'Esferoide', 'dia', 'Diameter', 'n_diam'],
       dtype='object'))



### OPCIONAL

7) Explorar la carpeta *py_folder*. El archivo *main.py* es solo un borrador. Agregar alguna función de transformación en el módulo de eda y que puedan ejecutarla corriendo el archivo.

 Para correr el archivo main, en una terminal:

    (.venv) $ python main.py

 [Pdoc](https://pdoc.dev/) es una elección común para la documentación en Python. Para usarlo en este proyecto (está un poco personalizado):

    1) Instalarlo:
       (.venv) $ pip install pdoc
    2) Crear la carpeta con la documentación
       (.venv) $ pdoc main.py utils/ -o ./documentacion/Docs -t ./documentacion/pdoc_templates/
