Hate Speech en Redes Sociales Chilenas Forum

Go back to competition Back to thread list Post in this thread

> Consulta public_test_data.csv

Tenemos duda respecto al testing del algoritmo

Si lo datos no están etiquetados para realizar el testeo del modelo en el archivo, ¿Deben ser etiquetados por nosotros a través de algoritmos?, o debemos simplemente hacer el entrenamiento y testeo con el archivo tweets_train que si se encuentra etiquetado
Nos entra la duda, porque dice que las predicciones deben ser sobre el archivo public_test_data, pero no tienen etiqueta para verificar que el modelo está correcto

Espero nos ayuden con la duda, Saludos!

Posted by: GGP_666 @ Oct. 1, 2022, 12:49 a.m.

Hola!

El archivo que deben subir (submission) es el resultado de sus algoritmos, es decir, sus algoritmos etiquetan los ejemplos de public_test_data.csv

Para verificar la "correctitud" de sus modelos, pueden subir la predicción y la competencia les mostrará el puntaje (calculado según se describe
en la sección Evaluation). El calculo de este puntaje se realiza comparando sus predicciones con las etiquetas reales de public_test_data.csv

Estas etiquetas reales no son publicas ya que el objetivo de la competencia es entrenar sus modelos con los datos que si tienen etiqueta, los cuales corresponden a tweets_train.csv

Pueden calcular un estimado de puntaje utilizando parte de los ejemplos de tweets_train.csv (hay literatura al respecto, pueden buscar "train, validation and test set")

Saludos!

Posted by: alvaro.fuentesm @ Oct. 1, 2022, 2:59 p.m.
Post in this thread